当前位置：首页 > 百科

华为发布AI推理创新技术UCM：实现高吞吐、低时延推理体验，降低每Token推理成本

　　新浪科技讯 8月12日下午消息，发布在2025金融AI推理应用落地与发展论坛上，推理吞吐n推华为联合中国银联共同发布AI推理创新技术UCM（推理记忆数据管理器），创新实现高吞吐、技术低时延的现高推理体验。

　　在当今数字化时代，低时低AI发展日新月异。延推验降大模型训练的理体理成热潮尚未消退，AI推理体验却已悄然成为AI应用的发布关键。中信建投在2025WAIC期间发布的推理吞吐n推白皮书指出，AI正从训练向推理的创新结构性转变而快速增长。在这样的技术大背景下，AI推理体验的现高重要性愈发凸显。

　　推理体验直接关系到用户与AI交互时的低时低感受，包括回答问题的延推验降时延、答案的准确度以及复杂上下文的推理能力等方面。资料显示，国外主流模型的单用户输出速度已进入200 Tokens/s区间（时延5ms），而我国普遍小于60Tokens/s（时延50 - 100ms），如何解决推理效率与用户体验的难题迫在眉睫。

　　据介绍，华为此次发布的AI推理创新技术UCM（推理记忆数据管理器），作为一款以KV Cache为中心的推理加速套件，其融合了多类型缓存加速算法工具，分级管理推理过程中产生的KV Cache记忆数据，扩大推理上下文窗口，以实现高吞吐、低时延的推理体验，降低每Token推理成本。

海量资讯、精准解读，尽在新浪财经APP

责任编辑：郭栩彤

上一篇

浓缩着京味文化的宫廷小吃：娇小玲珑窝窝头
下一篇

关于教师节的作文：老师谢谢您

华为发布AI推理创新技术UCM：实现高吞吐、低时延推理体验，降低每Token推理成本

相关推荐

《忍者龙剑传4》全新视频准备大战性感狐花魁

2025年海淀小升初非京籍在京实际居住证明审核标准

牛栏山《烟火人间》系列短片播放破3亿铸就品牌内容传播新典范

《星际：异端先知》女主回应争议：这也是种鼓励

万物皆可魂！任天堂员工称《宝可梦传说 Z

蓝湾青少年公开赛收官孟紫嫣等三人获LPGA外卡

华为发布AI推理创新技术UCM：实现高吞吐、低时延推理体验，降低每Token推理成本

相关推荐

《忍者龙剑传4》全新视频 准备大战性感狐花魁

2025年海淀小升初非京籍在京实际居住证明审核标准

牛栏山《烟火人间》系列短片播放破3亿 铸就品牌内容传播新典范

《星际：异端先知》女主回应争议：这也是种鼓励

万物皆可魂！ 任天堂员工称《宝可梦传说 Z

蓝湾青少年公开赛收官 孟紫嫣等三人获LPGA外卡

《忍者龙剑传4》全新视频准备大战性感狐花魁

牛栏山《烟火人间》系列短片播放破3亿铸就品牌内容传播新典范

万物皆可魂！任天堂员工称《宝可梦传说 Z

蓝湾青少年公开赛收官孟紫嫣等三人获LPGA外卡