本文将展示如何在 Habana® Gaudi®2 上使用 Optimum Habana。Optimum Habana 是 Gaudi2 和 Transformers 库之间的桥梁。本文设计并实现了一个大模型推理基准测试，证明了通过使用 Optimum Habana 你将能够在 Gaudi2 上获得比目前市面上任何可用的 GPU 都快的推理速度。

Habana® Gaudi®2:https://habana.ai/training/gaudi2/

(相关资料图)

Optimum Habana:https://hf.co/docs/optimum/habana/index

随着模型越来越大，将它们部署到生产环境中以用于推理也变得越来越具有挑战性。硬件和软件都需要很多创新来应对这些挑战，让我们来深入了解 Optimum Habana 是如何有效地克服这些挑战的！

BLOOMZ

BLOOM 是一个 1760 亿参数的自回归模型，经训练后可用于文本生成。它可以处理 46 种不同的语言以及 13 种编程语言。作为 BigScience 计划的一部分，BLOOM 作为一个开放科学项目，来自全球的大量的研究人员和工程师参与了模型的设计和训练。最近，我们又发布了架构与 BLOOM 完全相同的模型: BLOOMZ，它是 BLOOM 在多个任务上的微调版本，具有更好的泛化和零样本 [^1] 能力。

BLOOM:https://arxiv.org/abs/2211.05100

BigScience:https://bigscience.huggingface.co/

BLOOMZ:https://arxiv.org/abs/2211.01786

如此大的模型在训练和推理两个场景下都对内存和速度提出了新的挑战。即使是使用 16 位精度，一个模型也需要 352 GB 的内存！目前你可能很难找到一个具有如此大内存的设备，但像 Habana Gaudi2 这样先进的硬件已能让低延迟 BLOOM 和 BLOOMZ 模型推理变得可能。

训练场景:https://hf.co/blog/zh/bloom-megatron-deepspeed

推理场景:https://hf.co/blog/zh/bloom-inference-optimization

Habana Gaudi2

Gaudi2 是 Habana Labs 设计的第二代 AI 硬件加速器。单个服务器包含 8 张加速卡 (称为 Habana 处理单元 (Habana Processing Units)，或 HPU)，每张卡有 96GB 的内存，这为容纳超大模型提供了可能。但是，如果仅仅是内存大，而计算速度很慢，也没办法将其用于模型托管服务。幸运的是，Gaudi2 在这方面证明了自己，大放异彩: 它与 GPU 的不同之处在于，它的架构使加速器能够并行执行通用矩阵乘法 (General Matrix Multiplication，GeMM) 和其他操作，从而加快了深度学习工作流。这些特性使 Gaudi2 成为 LLM 训练和推理的理想方案。https://habana.ai/training/gaudi2/

Habana 的 SDK SynapseAI™ 支持 PyTorch 和 DeepSpeed 以加速 LLM 训练和推理。SynapseAI 图编译器会优化整个计算图的执行过程 (如通过算子融合、数据布局管理、并行化、流水线、内存管理、图优化等手段)。

SynapseAI 图编译器介绍:https://docs.habana.ai/en/latest/Gaudi_Overview/SynapseAI_Software_Suite.html

此外，最近 SynapseAI 还引入了 HPU graphs 和 DeepSpeed-inference 的支持，这两者非常适合延迟敏感型的应用，下面的基准测试结果即很好地说明了这一点。

HPU graphs:https://docs.habana.ai/en/latest/PyTorch/Inference_on_PyTorch/Inference_Using_HPU_Graphs.html

DeepSpeed-inference:https://docs.habana.ai/en/latest/PyTorch/DeepSpeed/Inference_Using_DeepSpeed.html

以上所有功能都集成进了 Optimum Habana 库，因此在 Gaudi 上部署模型非常简单。你可以阅读相应文档快速起步。

Optimum Habana 库地址:https://github.com/huggingface/optimum-habana

快速入门链接:https://hf.co/docs/optimum/habana/quickstart

如果你想试试 Gaudi2，请登录英特尔开发者云 (Intel Developer Cloud) 并按照指南申请。

英特尔开发者云 (Intel Developer Cloud):https://www.intel.com/content/www/us/en/secure/developer/devcloud/cloud-launchpad.html

申请指南:https://hf.co/blog/zh/habana-gaudi-2-benchmark

测试基准

在本节中，我们将提供 BLOOMZ 在 Gaudi2、第一代 Gaudi 和 Nvidia A100 80GB 上的早期基准测试。虽然这些设备内存都不小，但由于模型太大，单个设备还是放不下整个 BLOOMZ 模型。为了解决这个问题，我们要使用 DeepSpeed，这是一个深度学习优化库，它实现了很多内存优化和速度优化以加速模型推理。特别地，我们在这里依赖 DeepSpeed-inference，它引入了几个特性，如模型 (或管道) 并行以充分利用可用设备。对 Gaudi2，我们使用 Habana 的 DeepSpeed 分支，其添加了对 HPU 的支持。

DeepSpeed:https://www.deepspeed.ai/

DeepSpeed-inference 论文链接:https://arxiv.org/abs/2207.00032

模型 (或管道) 并行介绍:https://hf.co/blog/zh/bloom-megatron-deepspeed

Habana 的 DeepSpeed 分支:https://github.com/HabanaAI/deepspeed

延迟

我们测量了两种不同大小的 BLOOMZ 模型的延迟 (batch size 为 1)，两者参数量都有数十亿:

1760 亿参数https://hf.co/bigscience/bloomz

70 亿参数https://hf.co/bigscience/bloomz-7b1

我们使用 DeepSpeed-inference 以 16 位精度在 8 张卡上运行推理，同时我们开启了 key-value 缓存优化。请注意，尽管 CUDA graphs 当前与 DeepSpeed 中的模型并行不兼容 (DeepSpeed v0.8.2，请参见脚本第 158 行的内容，但 Habana 的 DeepSpeed 分支是支持 HPU graphs 的。所有基准测试都使用贪心搜索生成 100 个词元。输入提示为:

key-value 缓存:https://hf.co/docs/transformers/v4.27.1/en/model_doc/bloom

CUDA graphs:https://developer.nvidia.com/blog/cuda-graphs/

参考脚本:https://github.com/microsoft/DeepSpeed/blob/v0.8.2/deepspeed/inference/engine.py

贪心搜索:https://hf.co/blog/zh/how-to-generate

DeepSpeed is a machine learning framework” 该提示会被 BLOOM 分词器分成 7 个词元。

推理延迟测试结果如下表所示 (单位为秒)。

模型卡数Gaudi2 延迟 (秒)A100-80GB 延迟 (秒)第一代 Gaudi 延迟 (秒)BLOOMZ83.7174.402/BLOOMZ-7B80.7372.4173.029BLOOMZ-7B11.0662.1192.865

Habana 团队最近在 SynapseAI 1.8 中引入了对 DeepSpeed-inference 的支持，从而快速支持了 1000 多亿参数模型的推理。对于 1760 亿参数的模型，Gaudi2 比 A100 80GB 快 1.2 倍。较小模型上的结果更有意思: 对于 BLOOMZ-7B，Gaudi2 比 A100 快 3 倍。有趣的是，BLOOMZ-7B 这种尺寸的模型也能受益于模型并行。

我们还在第一代 Gaudi 上运行了这些模型。虽然它比 Gaudi2 慢，但从价格角度看很有意思，因为 AWS 上的 DL1 实例每小时大约 13 美元。BLOOMZ-7B 在第一代 Gaudi 上的延迟为 2.865 秒。因此，对 70 亿参数的模型而言，第一代 Gaudi 比 A100 的性价比更高，每小时能省 30 多美元！

我们预计 Habana 团队将在即将发布的新 SynapseAI 版本中继续优化这些模型的性能。在我们上一个基准测试中，我们看到 Gaudi2 的 Stable Diffusion 推理速度比 A100 快 2.2 倍，这个优势在随后 Habana 提供的最新优化中进一步提高到了 2.37 倍。在 SynapseAI 1.9 的预览版中，我们看到 BLOOMZ-176B 的推理延迟进一步降低到了 3.5 秒。当新版本的 SynapseAI 发布并集成到 Optimum Habana 中时，我们会更新最新的性能数字。https://hf.co/blog/zh/habana-gaudi-2-benchmark

在完整数据集上进行推理

我们的脚本允许支持模型整个数据集上逐句进行文本补全。如果你想在自己的数据集上尝试用 Gaudi2 进行 BLOOMZ 推理，这个脚本就很好用。

这里我们以 tldr_news 数据集为例。该数据每一条都包含文章的标题和内容 (你可以在 Hugging Face Hub 上可视化一下数据)。这里，我们仅保留 content 列 (即内容) 并对每个样本只截前 16 个词元，然后让模型来生成后 50 个词元。前 5 条数据如下所示:https://hf.co/datasets/JulesBelveze/tldr_news/viewer/all/test

下一节，我们将展示如何用该脚本来执行基准测试，我们还将展示如何将其应用于 Hugging Face Hub 中任何你喜欢的数据集！

如何复现这些结果？

示例脚本提供了用于在 Gaudi2 和第一代 Gaudi 上对 BLOOMZ 进行基准测试的脚本。在运行它之前，请确保按照 Habana 给出的指南安装了最新版本的 SynapseAI 和 Gaudi 驱动程序。

示例脚本:https://github.com/huggingface/optimum-habana/tree/main/examples/text-generation

Habana 给出的指南:https://docs.habana.ai/en/latest/Installation_Guide/index.html

然后，运行以下命令:

最后，你可以按如下方式运行脚本:

对于多节点推理，你可以遵循 Optimum Habana 文档中的参考指南。https://hf.co/docs/optimum/habana/usage_guides/multi_node_training

你还可以从 Hugging Face Hub 加载任何数据集作为文本生成任务的提示，只需使用参数 --dataset_name my_dataset_name。

此基准测试基于 Transformers v4.27.1、SynapseAI v1.8.0，而 Optimum Habana 是从源码安装的。

对于 GPU，此代码库里包含了可用于复现这篇文章结果的脚本。要使用 CUDA graphs，需要使用静态数据尺寸，而 Transformers 中不支持这一用法。你可以使用 Habana 团队的参考代码来使能 CUDA graphs 或 HPU graphs。

代码库地址:https://github.com/huggingface/transformers-bloom-inference/tree/main/bloom-inference-scripts

脚本地址:https://hf.co/blog/zh/bloom-inference-pytorch-scripts

参考代码:https://github.com/HabanaAI/Model-References/tree/1.8.0/PyTorch/nlp/bloom

总结

通过本文，我们看到， Habana Gaudi2 执行 BLOOMZ 推理的速度比 Nvidia A100 80GB 更快。并且无需编写复杂的脚本，因为 Optimum Habana 提供了易于使用的工具用于在 HPU 上运行数十亿参数模型的推理。Habana 的 SynapseAI SDK 的后续版本有望提高性能，因此随着 SynapseAI 上 LLM 推理优化的不断推进，我们将定期更新此基准。我们也期待 FP8 推理在 Gaudi2 上带来的性能优势。https://hf.co/docs/optimum/habana/index

我们还介绍了在第一代 Gaudi 上的结果。对于更小的模型，它的性能与 A100 比肩，甚至更好，而价格仅为 A100 的近三分之一。对于像 BLOOMZ 这样的大模型，它是替代 GPU 推理的一个不错的选择。

如果你有兴趣使用最新的 AI 硬件加速器和软件库来加速你的机器学习训练和推理工作流，请查看我们的专家加速计划。要了解有关 Habana 解决方案的更多信息，可以从后面的链接了解我们双方的相关合作并联系他们。要详细了解 Hugging Face 为使 AI 硬件加速器易于使用所做的工作，请查看我们的硬件合作伙伴计划。

专家加速计划:https://hf.co/support

关于双方相关合作的介绍和联系方式:https://hf.co/hardware/habana

硬件合作伙伴计划:https://hf.co/hardware

BLOOMZ

Habana Gaudi2

测试基准

延迟

在完整数据集上进行推理

如何复现这些结果？

总结

相关话题

大语言模型快速推理: 在 Habana Gaudi2 上推理 BLOOMZ

全球时讯：赶尽杀绝 1080p_赶尽杀绝未删减版

宏海科技提交北交所辅导材料：主要产品为空调钣金 去年上半年营收增长35% 今日热议

《长月烬明》谛冕和初凰最后的结局如何 谛冕和初凰结局是悲剧吗

弘阳地产：前3月合约销售金额为人民币73.13亿元

湖南湘潭：备战汛期 锻造水域救援尖兵

铅锌产品金属量同比增长59.81% 有色集团宝山矿业实现首战“开门红”

【快播报】斯基拉：若保级成功，利兹联有意在赛季结束后买断麦肯尼

山西一季度煤炭产量达3.35亿吨 创单季度新高|天天播资讯

天天日报丨花旗：维持中国人寿(02628)“买入”评级 目标价下调至17.5港元

【报资讯】汇纳科技3月30日盘中跌幅达5%

CPO概念股继续冲高 新易盛涨超10% 环球热议

最新：白糖价格创五年新高 2023制糖市场现状及前景分析

焦点快播：曝池子婚内出轨王思聪前女友，妻子是前《吐槽大会》总导演

微盟集团(02013.HK)获摩根大通增持1871.38万股

【世界新要闻】梦幻西游：主播估价出洋相，武器总伤计算失误，遭赔偿1.5万！

颜值不输指纹鞋！Crocs 新鞋一眼种草！ 全球通讯

花露水的危害儿童_花露水的危害|全球通讯

【天天播资讯】跌！跌！今日铝价！LME铝价！（2023.04.05）

最新：一艘货船在土耳其安塔利亚附近海域沉没 仍有9人失踪

当前关注：美联储或再次加息以抑制通货膨胀

西部信息智造港项目落户空港新城|天天速看料

官方：中国电科加班若属实涉嫌违法事件简单介绍

朋友不在了送什么 天天最新

离你最近的3个人，决定了你未来5年的人生！

全球今亮点！乞巧节是几月几日农历

陕西一西周墓地发现大量东方文化因素 考古判断来自陶寺文化

万亿逆回购到期引关注 机构称4月资金面有望维持平稳_环球通讯

外媒：特朗普已离开法庭 没有发表评论

动态：合唱团规章制度

极品飞车21热度图文攻略(极品飞车21热度开局怎么玩)_每日简讯

不用申请餐费“偷偷”打卡里，学生资助需要这种公平与细心

涨停成交量小(青岛达能环保设备股份有限公司)

北京昌平消防联合区应急局开展清明节消防安全宣传活动-全球报道

总裁的倔强宝贝 小说_黑总裁的倔强女佣

外交部：敦促澳大利亚方面切实遵守市场经济规则和公平竞争原则

西部矿业回应高比例分红：有利于全体股东共享经营成果-天天看点

河南一地入选！2023年传统村落集中连片保护利用示范县（市、区）名单公示

冰箱保鲜室温度几度合适？冰箱不制冷了怎么回事？

每日简讯：2023苏州银行金融市场总部资产管理部招聘报名时间及入口

中国建筑兴业(00830.HK)：4月20日举行董事局会议，以审议及批准发布2023年第1季度未经审核财务资料及经营情况|世界通讯

电脑锁屏壁纸怎么设置自己想要的_电脑锁屏壁纸怎么设置 当前快报

网店侵权肖战并恶意P图被判赔 看点

田依桐个人资料_田依桐_天天视讯

环球热推荐：私域运营必须掌握的15个模型

阿斯：巴萨要求官方承认本队1937年获得了西甲联赛冠军

女明星景甜三段私密视频被曝

对方全责定损需要注意-当前通讯

大象帮丨洛阳一母婴会所关门，会员卡一次未用遇退费难 最新消息

宏川智慧: 关于召开2023年第三次临时股东大会的通知-环球快看

美到藏不住了！来这里邂逅2公里樱花隧道的浪漫

唯捷创芯：终止与United Microelectronics Corporation产能保障协议

南天信息(000948.SZ)4659.83万股限售股份将于4月10日上市流通_天天热推荐

田横岛在哪里_田横岛所属位置

花生磨酱加工工艺流程-天天通讯

全球今头条！北京增值税发票查询真伪查询官网_天津增值税发票真伪查询系统

观察：博主探店变“探钱”，消费者避雷变“踩雷”

每日讯息!OMG淘汰TES，Shanji三连MVP！最佳新秀上单险被Zoom替换？

每日观察!挖金客4月3日快速回调

双孖井螺蛳粉_双孖jl-全球视讯

坂本龙一：人生消极而被动，面对苦难时却不得不做点什么｜逝者 全球热点评

今日报丨张家港市后塍街道：开展“乡村‘靓’颜值，先锋‘敢’担当”主题党日活动

当前快播：共商共议解难题

普定县气象台继续发布大风黄色预警信号【Ⅲ/较重】

最新研究发现：心脏越圆患疾病风险可能越高

《漫威复联》迎来最终大型更新：商城所有内容免费开放 天天快资讯

“70后”葛海蛟任中国银行党委书记

世界热文：澳超前瞻：季后赛卡位战一触即发！2连败悉尼或被对手弯道超车

如何高效管理Linkedin领英账号

完成1252万吨！河南省水路运输实现开门红

西藏红花什么时候喝最好_西藏红花

4月01日07时云南红河今天疫情最新消息 4月01日07时云南红河最新疫情情况

宏海科技提交北交所辅导材料：主要产品为空调钣金去年上半年营收增长35% 今日热议

《长月烬明》谛冕和初凰最后的结局如何谛冕和初凰结局是悲剧吗

湖南湘潭：备战汛期锻造水域救援尖兵

山西一季度煤炭产量达3.35亿吨创单季度新高|天天播资讯

天天日报丨花旗：维持中国人寿(02628)“买入”评级目标价下调至17.5港元

CPO概念股继续冲高新易盛涨超10% 环球热议

颜值不输指纹鞋！Crocs 新鞋一眼种草！全球通讯

最新：一艘货船在土耳其安塔利亚附近海域沉没仍有9人失踪

朋友不在了送什么天天最新

陕西一西周墓地发现大量东方文化因素考古判断来自陶寺文化

万亿逆回购到期引关注机构称4月资金面有望维持平稳_环球通讯

外媒：特朗普已离开法庭没有发表评论

总裁的倔强宝贝小说_黑总裁的倔强女佣

电脑锁屏壁纸怎么设置自己想要的_电脑锁屏壁纸怎么设置当前快报

网店侵权肖战并恶意P图被判赔看点

大象帮丨洛阳一母婴会所关门，会员卡一次未用遇退费难最新消息

坂本龙一：人生消极而被动，面对苦难时却不得不做点什么｜逝者全球热点评

《漫威复联》迎来最终大型更新：商城所有内容免费开放天天快资讯

热门中概股普涨阿里巴巴涨超14%

金融活水精准滴灌渤海银行全力支持科技创新企业发展世界消息

奇异社区怎么发帖子奇异社区发帖子教程焦点速读

深圳发布2023年前两月经济数据工业生产保持增长环球今日报

摔角动态《合约阶梯大赛》图集合约阶梯赛打响谁能成文合约公文包先生？|世界播资讯

良策聚民意实干惠邻里（全过程人民民主·在现场）

邮储银行完成450亿元定向增发中国移动全额包揽

今日报丨《最后生还者第一部》PC迎首次更新补丁：提高游戏性能和稳定性

瑞银：维持Colgate-Palmolive(CL.US)买入评级微动态

2023年，襄阳力争淘汰国三及以下排放标准营运柴油货车5000辆全球热讯

张国荣20年企划《REMEMBRANCE Leslie》发行环球赴英国寻回母带当前快讯

新疆喀拉峻草原顶冰花破冰盛开传递着春天的讯息

东方金诚助力2023年第一期汉江国有资本投资集团有限公司公司债券成功发行每日快报

环球热资讯！特斯拉拦住已出站公交想让家人上车未果恶意别停公交

生意宝3月29日盘中涨停天天最资讯

环球观察：多利科技什么时候上市交易答案是这个时间

咨询巨头麦肯锡启动大规模裁员本周将裁减近1400个岗位

即时：红魔6灯效怎么开红魔6灯效视频

兴业矿业：兴业集团累计质押股数约为5.29亿股实时