头条 科技 产经 消电 智能 手机 芯片 软件 电商 English
中国IT产经新闻网-移动互联网与智能搜索领域是未来IT产业发展的趋势!
中国IT产经新闻/软件安全/正文
更快更小! 腾讯发布Sherry,开启LLM三值量化1.25bit时代
来源:
2026-02-05
编辑:晓露

针对边缘设备上的需求,大语言模型(LLM)的低比特量化技术层出不穷,三值量化(1.58Bit)在端侧LLM中使用的越来越广,比如BitNet、BitCPM等方法。遗憾的是,  三值量化的打包一直是关键瓶颈: 2bit打包策略比如TQ2_0, I2_S有极大的空间浪费,而1.67bit打包策略比如TQ1_0,  TL2很不规则, 推理速度比较慢。最近,腾讯混元AngelSlim团队延续了此前发布的Tequila ICLR’26,  提出了一种硬件高效的1.25bit 三元量化框架Sherry,该方法引入 3:4 稀疏性,通过将四个权重块打包成五位来实现 1.25  bit的规范化宽度,恢复并对齐2的幂次,将硬件效率利用至极致。
1、三值量化介绍
回顾三值量化,是一种部署大语言模型到端侧和CPU设备的高效方法。其核心是将权重约束为【-1, 0, +1】三个值,从而将矩阵乘法简化为加法操作。这种转换显著降低了计算复杂度。由于加法被硬件原生支持,因此三值量化在推动边缘计算和低功耗AI应用方面潜力巨大。

2、Sherry:将三值量化的特殊结构物尽其用
现有的三值量化推理引擎,如bitnet.cpp,  t-mac , 因其非标准位宽与标准硬件架构之间的不匹配而存在实际上的效率低下问题。现阶段所有的三值量化实现通常有两种打包策略:(1)2  bit策略,即将每个权重压缩为 2 位,如下图(Left)所示。这种方案存在巨大的位宽浪费。与标准的INT2量化相比并未节省内存;(2)1.67  bit策略,将三个权重压缩为 5 位,如下图 (Middle)所示。虽然 1.67 bit策略在信息密度上有所提高,但其 3  路分组与SIMD单元的2的幂次向量通道存在根本的不兼容性,经常导致与2bit  策略相比更慢的推理速度。因此,现有的三值量化方法被迫在位宽和推理速度之间进行权衡,这使得它们无法充分发挥三值量化的理论优势。

为解决这些局限性,我们提出了Sherry,这是一种新颖的硬件高效三值量化框架,它能实现  1.25 bit  的位宽,同时保持出色的推理速度。我们的关键发现是,三值模型固有的稀疏性可以有策略地进行结构化处理,以协调存储密度和计算规范性之间的矛盾,这种基于块的方法恢复了现代SIMD单元所需的2的幂次对齐,从而能够在规范化的硬件操作中进行并行处理。


产业点评更多
厂商动态更多
热门综合更多
CopyRight @ 2008-2026 中国IT产经新闻网 All Right Reserved 违者必究 湘ICP备2022017330号-2