8月12日,华为发布了AI推理创新技术UCM(推理记忆数据管理器 ,Unified Cache Manager)。
简单来说,这是专门面向大模型推理过程的“缓存管理技术”,目的是为了优化推理速度 、效率和成本 。
具体来看,UCM是一款以KV Cache为中心的推理加速套件 ,其融合了多类型缓存加速算法工具,分级管理推理过程中产生的KV Cache记忆数据,扩大推理上下文窗口 ,以实现高吞吐、低时延的推理体验,降低每Token推理成本。
现场,华为公司副总裁、数据存储产品线总裁周跃峰表示 ,UCM推理记忆数据管理器旨在推动AI推理体验升级,提升推理性价比,加速AI商业正循环。同时 ,华为联手中国银联率先在金融典型场景开展UCM技术试点应用,并联合发布智慧金融AI推理加速方案应用成果。
UCM是什么
对于上述颇多术语的介绍,我们来拆解一下 。
首先 ,什么是KV Cache?
据了解,KV Cache是一种用于优化Transformer等模型推理速度的技术,它的核心思想就是把历史 token的Key和Value(矩阵)缓存下来,下次生成时直接用 ,避免重新算,从而提升推理速度、降低计算成本。代价是会占用更多内存,所以它是一种“用内存换计算 ”的工程优化手段。
换言之 ,KV Cache是一种存储机制,打个比方,就像是“模型推理过程中的记忆本” ,用来临时保存计算中间结果,让后续步骤少做重复工作 。
那么为什么要推出UCM?因为推理过程中仍存在不少痛点。
随着AI产业已从“追求模型能力的极限” 转向“追求推理体验的最优化”,推理体验直接关联用户满意度 、商业可行性等。推理体验直接关系到用户与AI交互时的感受 ,包括回答问题的时延、答案的准确度以及复杂上下文的推理能力等方面 。
资料显示,国外主流模型的单用户输出速度已进入 200 Tokens/s区间(时延 5 ms),而我国普遍小于60 Tokens/s(时延50 – 100 ms) ,因此,如何解决推理效率与用户体验的难题迫在眉睫。目前,包括华为在内,各大科技企业都会在调度KV Cache基础上 ,研发优化推理过程的技术。
华为最新的UCM就引入融合了更多的算法工具,可以对接不同引擎与算力的推理引擎插件(Connector)、支持多级KV Cache管理及加速算法的功能库(Accelerator) 、高性能KV Cache存取适配器(Adapter)三大组件,通过推理框架、算力、存储三层协同 ,实现AI推理“更优体验 、更低成本 ” 。
比如,华为介绍道,依托UCM层级化自适应的全局前缀缓存技术 ,系统能直接调用KV缓存数据,避免重复计算,使首Token时延最大降低90%。
据悉 ,在华为与中国银联的联合创新技术试点中,中国银联“客户之声”业务场景下,借助UCM技术及工程化手段 ,大模型推理速度提升125倍,仅需10秒即可精准识别客户高频问题,促进服务质量提升。
为何率先在金融行业应用?金融业天然有数字化属性,也是数字化最早的领域之一 ,因此金融行业率先落地有数据基础和技术需求,尤其是生成式AI浪潮中,如何用好大模型服务业务是重要课题 。同时金融对速度、效率、安全 、可靠性等要求高 ,也是验证技术的标杆场景。
未来,中国银联将依托国家人工智能应用中试基地,联合华为等生态伙伴共建“AI+金融”示范应用 ,推动技术成果从“实验室验证 ”走向“规模化应用”。
华为的差异化路径
谈及UCM的差异化,华为数据存储产品线AI存储首席架构师向21世纪经济报道记者表示,当前 ,业界在分级缓存管理方面已有许多探索与实践,华为UCM在这一领域的最大优势在于将专业存储能力引入其中,引入后在软硬件协同与卸载方面做了大量工作 ,例如直通加速、KV检索索引与底层文件系统元数据的融合等。同时,在KV Cache生命周期管理方面,UCM具备预热、分级 、淘汰等一整套机制,这是UCM在N级缓存管理上的差异化能力之一 。
其次 ,上述专家提到,在算法加速库方面,业界现有方案普遍只停留在Prefix Cache这一层面 ,并未像华为一样,将稀疏全流程算法、后缀检索算法等投入商用,也缺乏多样化的技术手段。相比之下 ,UCM在这一层贡献了更多、更丰富、更可靠的算法,算法库还在不断扩展完善。
此外,UCM的体系更加完整 ,专家谈道,推理场景多种多样,请求的输入输出变化极大 ,而目前业界缺乏一套在各种场景下都能普适适用的框架 、加速机制与算法 。UCM能够在各种长短序列、不同请求条件下,实现自动切换与自适应的平滑优化。
“华为希望通过将部分成果开放,促进框架厂商、存储厂商以及算力厂商共同加速这一框架机制的成熟,最终解决当前AI行业落地过程中的效率与成本问题。”专家说道 。
今天 ,华为还正式公布了UCM开源计划。UCM通过开放统一的南北向接口,可适配多类型推理引擎框架 、算力及存储系统。今年9月,UCM将正式开源 ,后续逐步贡献给业界主流推理引擎社区,和全产业共同推动AI推理生态的繁荣发展 。
整体而言,一方面是华为在AI推理技术层面持续进行研发 ,UCM也是结合华为存储技术的积累进行创新;另一方面,在AI的布局上,华为继续在产业链的各个环节进行升级 ,实现系统性的提升。
业内人士指出,国外领先芯片厂商通过硬件迭代、软件优化、生态绑定构建了推理时代的“铁三角 ”,短期内难以被代替。中国单点硬件技术 ,如芯片设计上有所突破,但国产软件及生态适配还有差距,华为等科技厂商也在不断补上生态短板 。
正如华为专家所言:“大家一定要关注网络 、存储、端到端的系统性、成本降低,才能有效的去加速AI的落地。从单点的算力模组转向系统性优化 ,这是大趋势。”
(文章来源:21世纪经济报道)
热点:配资专业在线炒股配资-成都路桥(002628.SZ)2024年净利润为-9217.21万元,同比由盈转亏
新手适合在哪个app买股票:专业在线配资炒股查询-广电总局:改进电视剧集数和季播剧播出间隔时长等管理政策
有关股票的app:配资炒股真专业-高盛乐观预测:中国股市仍有上涨空间
专业在线股票配资交易平台:投资炒股配资-特斯拉夜盘股价直线大跳水!特朗普突然“发飙” 炮轰马斯克!“你拿的补贴比谁都多”!
热点:在线股票炒股配资门户-罗志恒:中国应对特朗普关税的三大原则和五大建议
在线股票配资门户:178炒股配资论坛网-李强宣布雅鲁藏布江下游水电工程开工!新央企中国雅江集团成立
长宏网-杠杆配资网-专业配资杠杆炒股-专业杠杆配资开户提示:文章来自网络,不代表本站观点。
2025年3月24日下午三点A股收盘后,港股科技板块持续走强至四点十分收盘。消息面上,一方面美元相对于人民币连续3个交易...
7月16日出版的第14期《求是》杂志将发表中共中央总书记、国家主席、中央军委主席习近平的重要文章《坚定不移推进高水平...
6月18日(星期三),今日报刊头条主要内容精华如下: 中国证券报 国企改革深化提升行动重点任务平均完成率超80%...
美股三大指数集体收涨,纳斯达克指数涨2.06%,标普500指数涨1.81%,道琼斯指数涨1.56%。标普500指数本周上...
首个可叠加国补政策红利的618大促落下帷幕,扫地机器人成为小家电细分品类中的“销量担当”。天猫数据显示,618期间可...
央行公告,为保持银行体系流动性充裕,更好满足不同参与机构差异化资金需求,自本月起中期借贷便利(MLF)将采用固定数量、利...
记者|张乔遇火锅丸子等速冻食品“一哥”安井食品近日披露了向香港联交所递交了境外发行上市申请,拟在联交所主...
2025年4月8日至9日,中国人民银行副行长宣昌能赴马来西亚吉隆坡出席东盟与中日韩(10+3)财政和央行副手会,并代表中...
热点聚焦 中美关系: 玉渊谭天发文详解中美元首通话。其中写道,6月5日晚,国家主席习近平应约同美国总统特朗普通电...
对抗阻碍执法、消极应对整改的*ST紫天(300280)6月27日深夜公告,福建证监局对公司出具《行政处罚事先告知书》...
“公司的产品有在人形机器人上应用吗?”在近期的互动平台上,这是电池企业需要解答的投资者问题之一。市场关注的背后,全球人形...
据央视新闻报道,当地时间19日夜间,以色列12频道披露了以色列对伊朗核科学家发动暗杀行动的更多细节。 报道称,以色...
国金证券指出,7月A股迎来自下而上的牛市氛围,市场的火热是流动性宽松与政策预期共振的结果,情绪改善来自外部环境的积极...
界面新闻记者|邹文榕继1月正式取得经营证券期货业务许可证后,3月21日,国信证券资产管理有限公司(下称:国信...
海洋经济再迎利好。 今天(7月2日)早盘海洋经济概念飙升。截至上午收盘,海洋经济指数涨近6%。消息面上,中央财经委...