比Hugging Face快24倍，伯克利神级LLM推理系统开源，碾压SOTA，让GPU砍半-全球新消息

2023-06-23 08:55:18 来源 : 引领外汇网

小羊驼和排位赛的「幕后英雄」

编者按：本文来自微信公众号新智元（ID：AI_era），作者：桃子好困，创业邦经授权发布。

(资料图)

过去2个月，来自UC伯克利的研究人员给大语言模型们安排了一个擂台——Chatbot Arena。

GPT-4等大语言模型玩家打起了「排位赛」，通过随机battle，根据Elo得分来排名。

这一过程中，每当一个用户访问并使用网站，就需要同时让两个不同的模型跑起来。

他们是如何做到的？

这不，就在今天，UC伯克利重磅开源了世界最快LLM推理和服务系统vLLM。

简之，vLLM是一个开源的LLM推理和服务引擎。它利用了全新的注意力算法「PagedAttention」，有效地管理注意力键和值。

配备全新算法的vLLM，重新定义了LLM服务的最新技术水平：

值得一提的是，「小羊驼」Vicuna在demo中用到的就是FastChat和vLLM的一个集成。

正如研究者所称，vLLM最大的优势在于——提供易用、快速、便宜的LLM服务。

这意味着，未来，即使对于像LMSYS这样计算资源有限的小型研究团队也能轻松部署自己的LLM服务。

项目地址：https://github.com/vllm-project/vllm

现在，所有人可以在GitHub仓库中使用一个命令尝试vLLM了。论文随后也会发布。

性能全面碾压SOTA

今天，这个由UC伯克利创立的开放研究组织LMSYS介绍道：

「一起来见证vLLM：Chatbot Arena背后的秘密武器。FastChat-vLLM的集成使LMSYS使用的GPU数量减少了一半，同时每天平均提供3万次请求。」

vLLM的性能具体如何？

UC伯克利团队将vLLM的吞吐量与最受欢迎的LLM库HuggingFace Transformers（HF），以及HuggingFace文本生成推理（TGI），先前的最新技术水平进行了比较。

团队在两个设置中进行评估：在NVIDIA A10G GPU上运行LLaMA-7B模型，在NVIDIA A100 GPU（40GB）上运行LLaMA-13B模型。

然后，研究人员从ShareGPT数据集中抽样请求的输入/输出长度。

在实验中，vLLM的吞吐量比HF高达24倍，并且比TGI高达3.5倍。

在每个请求只需要一个输出完成时的服务吞吐量。vLLM比HF的吞吐量高出14倍-24倍，比TGI的吞吐量高出2.2倍-2.5倍

在每个请求需要3个并行输出完成时的服务吞吐量。vLLM比HF的吞吐量高出8.5倍-15倍，比TGI的吞吐量高出3.3倍-3.5倍

秘密武器：PagedAttention

在vLLM中，团队发现LLM服务的性能受到内存的限制。

在自回归解码过程中，LLM的所有输入token都会生成注意力键（key）和值（value）张量，并且这些张量被保留在GPU内存中以生成下一个token。

这些缓存的键和值张量通常被称为KV缓存。KV缓存具有以下特点：

1. 内存占用大：在LLaMA-13B中，单个序列的KV缓存占用高达1.7GB的内存。

2. 动态化：其大小取决于序列长度，而序列长度高度易变，且不可预测。

因此，有效管理KV缓存是一个重大挑战。对此，研究团队发现现有系统由于碎片化和过度保留而浪费了60%至80%的内存。

用团队的导师Joey Gonzalez的一句话来讲：GPU内存碎片化=慢。

为了解决这个问题，团队引入了PagedAttention，一种受到操作系统中虚拟内存和分页经典概念启发的注意力算法。

与传统的注意力算法不同，PagedAttention允许在非连续的内存空间中存储连续的键和值。

具体来说，PagedAttention将每个序列的KV缓存分为若干块，每个块包含固定数量token的键和值。在注意力计算过程中，PagedAttention内核能够高效地识别和提取这些块。

PagedAttention：KV缓存被分割成块，这些块在内存中不需要连续

由于这些块在内存中不需要连续，因此也就可以像操作系统的虚拟内存一样，以更灵活的方式管理键和值——将块看作页，token看作字节，序列看作进程。

序列的连续逻辑块通过块表映射到非连续的物理块。随着生成新的token，物理块会按需进行分配。

使用PagedAttention的请求生成过程示例

PagedAttention将内存浪费控制在了序列的最后一个块中。

在实践中，这带来了接近最优的内存使用——仅有不到4%的浪费。

而这种内存效率的提升，能让系统将更多的序列进行批处理，提高GPU利用率，从而显著提高吞吐量。

此外，PagedAttention还具有另一个关键优势：高效的内存共享。

比如在并行采样中，就能从相同的提示生成多个输出序列。在这种情况下，提示的计算和内存可以在输出序列之间共享。

并行采样的示例

PagedAttention通过块表自然地实现了内存共享。

类似于进程共享物理页的方式，PagedAttention中的不同序列可以通过将它们的逻辑块映射到相同的物理块来共享块。

为了确保安全，PagedAttention会跟踪物理块的引用计数，并实现了写时复制机制。

采样多个输出的请求示例生成过程

PagedAttention的内存共享极大减少了复杂采样算法（如并行采样和束搜索）的内存开销，将它们的内存使用量减少了高达55%。这可以将吞吐量提高多达2.2倍。

总结而言，PagedAttention是vLLM的核心技术，它是LLM推断和服务的引擎，支持各种模型，具有高性能和易于使用的界面。

GitHub上，团队也介绍了vLLM能够无缝支持的HuggingFace模型，包括以下架构：

- GPT-2（gpt2、gpt2-xl等）

- GPTNeoX（EleutherAI/gpt-neox-20b、databricks/dolly-v2-12b、stabilityai/stablelm-tuned-alpha-7b等）

- LLaMA（lmsys/vicuna-13b-v1.3、young-geng/koala、openlm-research/open_llama_13b等）

- OPT（facebook/opt-66b、facebook/opt-iml-max-30b等）

小羊驼和排位赛的「幕后英雄」

4月初，UC伯克利学者联手UCSD、CMU等，最先推出了一个开源全新模型——130亿参数的Vicuna，俗称「小羊驼」。

从那时起，Vicuna已在Chatbot Arena为数百万用户提供服务。

最初，LMSYS的FastChat采用基于HF Transformers的服务后端来提供聊天demo。

但随着demo变得越来越受欢迎，峰值流量猛增了好几倍，而HF后端也因此成了一个重大的瓶颈。

为了解决这一挑战，LMSYS与vLLM团队紧密合作，全力开发出了全新的FastChat-vLLM集成——通过将vLLM作为新的后端，来满足不断增长的需求（最多增加5倍的流量）。

根据LMSYS内部微基准测试的结果，vLLM服务后端可以实现比初始HF后端高出30倍的吞吐量。

4月-5月期间，Chatbot Arena的后端已经部落了FastChat-vLLM的集成。实际上，有超过一半的Chatbot Arena请求都使用FastChat-vLLM集成服务的

自4月中旬以来，最受欢迎的语言模型，如Vicuna、Koala和LLaMA，都已成功使用FastChat-vLLM集成提供服务。

FastChat作为多模型聊天服务前端，vLLM作为推理后端，LMSYS能够利用有限数量的GPU（学校赞助的），以高吞吐量和低延迟为数百万用户提供Vicuna服务。

现在，LMSYS正在将vLLM的使用扩展到更多的模型，包括Databricks Dolly、LAION的OpenAsssiant和Stability AI的StableLM等。

vLLM使用教程

使用以下命令安装vLLM（另可查看安装指南了解更多信息）：

vLLM可用于离线推理和在线服务。要使用vLLM进行离线推理，你可以导入vLLM并在Python脚本中使用LLM类：

要使用vLLM进行在线服务，你可以通过以下方式启动与OpenAI API兼容的服务器：

你可以使用与OpenAI API相同的格式查询服务器：

有关使用vLLM的更多方法，请查看快速入门指南：

https://vllm.readthedocs.io/en/latest/getting_started/quickstart.html

团队介绍

Zhuohan Li

Zhuohan Li是加州大学伯克利分校计算机科学专业的博士生，研究兴趣是机器学习和分布式系统的交叉领域。

在此之前，他在北京大学获得了计算机科学学士学位，指导老师是王立威和贺笛。

Woosuk Kwon

Woosuk Kwon是加州大学伯克利分校的博士生，研究兴趣是为大语言模型等新兴应用建立实用、灵活和高性能的软件系统。

团队其他成员包括庄思远、盛颖、郑怜悯、Cody Yu。团队导师包括Joey Gonzalez，Ion Stoica和张昊。

其中，团队的大部分成员同时也是LMSYS成员。

参考资料

https://vllm.ai

关键词：

最近更新

环球报道:高温橙色预警！北京天津河北等地部分地区最高温达40℃ 2023-06-23 08:37:05

“源”起甘孜，无限好风光！ 2023-06-23 08:39:03

【环球快播报】白色阿诗玛多少钱一包_蓝色阿诗玛多少钱一包 2023-06-23 08:51:58

跟队记者：米兰对特奥的要价为9000万欧，目前没有球队在谈判-重点聚焦 2023-06-23 08:27:11

净收入计算公式（净收入）|环球新要闻 2023-06-23 08:42:23

世界热点！奔跑吧兄弟第六季完整版奔跑兄弟第六季全集 2023-06-23 08:26:05

东大学子：我们愿与沈阳“双向奔赴”|天天消息 2023-06-23 08:28:24

领克03油耗（领克03油耗为什么这么高）-动态 2023-06-23 08:43:06

电动车网点突然暂停上牌是什么原因（电动车停止上牌了怎么办）|每日消息 2023-06-23 08:24:59

今日视点：山东高密：传统民俗迎端午 2023-06-23 08:25:07

精彩推送

环球微动态丨端午假期首日，湖南接待游客近123万人次 2023-06-23 08:59:32

北京市公园端午节接待游客98万人次今日热文 2023-06-23 08:57:28

淮阳新站镇：产业兴旺乡村焕发新活力 2023-06-23 08:57:12

2023中级经济师考试《金融》易错题(27) 当前最新 2023-06-23 08:57:04

一颗荔枝三把火？想不上火这样吃 2023-06-23 08:55:35

天龙股份：公司参股公司武汉飞恩微电子目前处于成长阶段，-信息 2023-06-23 08:55:26

比Hugging Face快24倍，伯克利神级LLM推理系统开源，碾压SOTA，让GPU砍半-全球新消息 2023-06-23 08:55:18

百事通！奥维通信终止筹划重大资产重组 2023-06-23 08:55:14

雷军向海外网友发起“有奖P图挑战”，胜者可得小米13 Ultra 2023-06-23 08:54:55

昆仑万维今日跌停两机构合计卖出2.78亿元-要闻速递 2023-06-23 08:54:55

06月21日逸盛大化PTA为5730元世界简讯 2023-06-23 08:54:40

端午必备8道解馋硬菜快资讯 2023-06-23 08:54:32

62名幼儿园学生坐一辆校车（7座小车塞进33名幼童当校车） 2023-06-23 08:53:29

每日消息!郑氏点银：昨日黄金如期震荡下跌，今日1939下仍先看跌 2023-06-23 08:53:03

全球新消息丨什么温度可以秋裤(上海什么时候可以脱秋裤) 2023-06-23 08:52:42

100亿！宁德时代大手笔投资海外盐湖-焦点日报 2023-06-23 08:52:26

环球快资讯：端午节大盘点评 2023-06-23 08:52:24

减肥的时候不能吃肉吗? 2023-06-23 08:52:06

【环球快播报】白色阿诗玛多少钱一包_蓝色阿诗玛多少钱一包 2023-06-23 08:51:58

当前速读：京东方Ａ：4K Micro OLED近眼显示样机性能业内领先 2023-06-23 08:51:55

每日观察!异地跨行取款手续费怎么算,异地跨行取款手续费怎么算2021 2023-06-23 08:51:26

庆祝建校80周年，衡阳南岳完小举办“涉台教育第一课” 2023-06-23 08:51:06

中国最大海上油田累产原油突破5亿吨世界焦点 2023-06-23 08:51:03

第十九章缺席的变故（中）【纳西妲×空】 2023-06-23 08:50:58

异动快报：宝光股份 6003798月31日14点15分封跌停板-热点评 2023-06-23 08:50:52

吉利美日两厢版视频_吉利美日两厢-今热点 2023-06-23 08:50:45

用户曝某平台单方面关闭购机订单平台称是对“黄牛党”砍单处罚 2023-06-23 08:50:37

全球观速讯丨再无儿毛梦？托纳利儿时梦想得到米兰球衣＆为留队降薪 2023-06-23 08:50:35

CBA重要交易达成！曝李慕豪重返深圳男篮！携手沈梓捷冲击总冠军 2023-06-23 08:50:33

2023年房屋征收评估，4个程序缺一不可，且不能颠倒 2023-06-23 08:50:26

宏碁2TB固态硬盘价格创新低 2023-06-23 08:50:25

嘉禾县总工会开展职工心理健康讲座当前视点 2023-06-23 08:50:14

环球观热点：属羊的和属兔的相配吗，为什么属羊会喜欢属兔的 2023-06-23 08:50:07

揭阳揭西县公安局自2021年9月1日起从严整治摩电交通秩序当前滚动 2023-06-23 08:50:00

日语2级考试时间多少_日语2级考试时间|独家 2023-06-23 08:50:00

6月21日基金净值：景顺长城沪深300指数增强A最新净值2.116，跌1.31%|天天快报 2023-06-23 08:49:56

利亚德加码AI战略，与光年无限图灵机器人全面开展AI研发业务合作天天视点 2023-06-23 08:49:51

张家界国家森林公园粽香迎客_世界微动态 2023-06-23 08:49:15

胡峰养殖市场前景(胡蜂养殖公司) 2023-06-23 08:49:11

全球关注：芯动联科：致力于成为高性能MEMS惯性传感器行业引领者 2023-06-23 08:49:10

毒害孩子的视力，对盗版书籍说“不”-焦点热闻 2023-06-23 08:49:10

与去年持平或增加！多所驻青高校公布2023年本科招生计划 2023-06-23 08:49:07

鲜为人知的中外风俗_关于鲜为人知的中外风俗简述 2023-06-23 08:49:06

黄山天都香烟多少钱一包_天都香烟多少钱一包 2023-06-23 08:48:59

天天视讯！6位台男星涉性骚扰！一文看清风波发酵一周细节|当前讯息 2023-06-23 08:48:43

20.3亿元！增速全省第四今日热搜 2023-06-23 08:48:43

熟牛肉西红柿的做法家常?|天天速看料 2023-06-23 08:48:40

创意源源不断，送礼意义更深——圣诞报纸故事探究送礼物背后的价值观和文化意蕴 2023-06-23 08:48:03

秦皇岛教育考试院（秦皇岛教育考试院地址世界今头条 2023-06-23 08:47:45

Haynes：太阳已经和凯尔特人谈过交易艾顿 2023-06-23 08:47:43

A股再现减持骚操作！前妻减持22亿！一半收益借给前夫公司，AI牛股遭到市场暴击，网友调侃：尊师贾跃亭？ 2023-06-23 08:47:40

环球新消息丨扎克伯格和马斯克线上约架基本情况讲解 2023-06-23 08:47:33

滚动：党的二十大精神“百人百讲”活动进基层宣讲走进汉沽盐场 2023-06-23 08:47:24

实时焦点：旭辉建管中标阜阳颍泉政府代建项目规划高层和洋房类改善型住宅 2023-06-23 08:47:20

天天快报!鲜卑攻肥如右北平之战_关于鲜卑攻肥如右北平之战简述 2023-06-23 08:47:01

昂立教育：公司依托海外学校及教育基地资源，推进出国前后端服务，包括科创、暑期夏令营、留学咨询等 2023-06-23 08:46:59

税惠添力餐饮小店烟火气更浓 2023-06-23 08:46:52

商务部：6月12日至18日全国生产资料价格略有回升 2023-06-23 08:46:52

淮安好的养老院淮安三星级养老院名单_实时焦点 2023-06-23 08:46:50

北门小学开展“小手拉大手，粽香迎端午”主题活动 2023-06-23 08:46:46

非深户在深圳购房条件是什么非深户在深圳购房条件 2023-06-23 08:46:32

浅谈以文化建设引领新时代乡村振兴 2023-06-23 08:46:30

安“薪”过端午！张家界94名农民工集中领“薪”56余万元|环球热点评 2023-06-23 08:45:45

RTX 3060 仅 1999 元，RX 6600 价格接近腰斩，显卡又是一波降价世界最资讯 2023-06-23 08:45:43

中伟股份：拟在韩国浦项投建11万吨正极材料高镍前驱体项目-实时焦点 2023-06-23 08:45:34

【天天速看料】赛龙舟、包粽子......各地如何过端午？热闹场面来啦 2023-06-23 08:45:11

我国最长深水油气管道铺设完工 2023-06-23 08:44:43

茄子几月上市？当前滚动 2023-06-23 08:44:41

电脑打勾的符号怎么输入打勾的符号怎么输入 2023-06-23 08:44:37

全球微资讯！焦点速看：存款利率降了，对我们有哪些影响？|观点-速读 2023-06-23 08:44:36

上海户口有什么好处知乎_上海户口有什么好处_天天讯息 2023-06-23 08:44:28

囊括四个赛项第一名黄河水利职业技术学院测绘工程学院在第七届河南省高等学校大学生测绘技能大赛中斩获佳绩|环球今日报 2023-06-23 08:44:23

每日报道：62名幼儿园学生坐一辆校车_7座小车塞进33名幼童当校车 2023-06-23 08:44:23

索菲亚某部门副总梁瑜曾在欧派工作为何要跳槽呢？_天天滚动 2023-06-23 08:44:23

世界快看点丨厦门近期发生两起火灾被困人员都及时关门避免烟气危害 2023-06-23 08:43:57

世界视点！晨读 | 林紫：活出爱的勇气 2023-06-23 08:43:47

恒生指数收跌1.98% 恒生科技指数跌2.79% 世界快看 2023-06-23 08:43:39

全球热头条丨成都蔚然花海景区端午节活动一览2023 2023-06-23 08:43:37

鲜土茯苓粉葛煲鲮鱼_关于鲜土茯苓粉葛煲鲮鱼简述 2023-06-23 08:43:31

出行客流快速攀升各部门积极保障端午有序出行|全球新动态 2023-06-23 08:43:30

横向箭头怎么输入（横向箭头）世界最新 2023-06-23 08:43:29

每日快播：宜威高速公路全线难度最大的钢箱梁施工完成 2023-06-23 08:43:20

全球快资讯丨头皮屑多是什么原因青少年_头皮屑多是什么原因 2023-06-23 08:43:17

胯下滚球接力比赛规则_滚球的规则_全球观天下 2023-06-23 08:43:17

中国互联网协会：打击利用恶意投诉非法牟利行为 2023-06-23 08:43:11

监狱里的真实生活_女监狱里的真实生活 2023-06-23 08:43:10

领克03油耗（领克03油耗为什么这么高）-动态 2023-06-23 08:43:06

特斯拉FSD「埃隆模式」曝光：双手离开方向盘，900+公里0提醒_环球聚焦 2023-06-23 08:43:06

益和社工：传统端午，益暖童心|世界微头条 2023-06-23 08:42:53

焦点速读：“猫神”与观众即兴互动擦出“火花” 2023-06-23 08:42:53

环球消息！端午节拍了拍你：聊聊？|荔枝特辑 2023-06-23 08:42:49

青未了｜又是一年夏至时 2023-06-23 08:42:46

奔驰E400 Coupe及力帆迈威怎么样 2023-06-23 08:42:39

要闻速递：3队6人大交易告吹！快船你会后悔的！一定的！湖人哭死了 2023-06-23 08:42:33