开云kaiyun体育这种规范仅存储经过 b 比特整数目化后的数值-ky体育登录官网

开云kaiyun体育这种规范仅存储经过 b 比特整数目化后的数值-ky体育登录官网

在 InternVL-2.5 上终了 10 倍浑沌量进步开云kaiyun体育,模子性能简直无失掉。

最新 1-bit 多模态大模子 KV cache 量化决策CalibQuant来了。

通过联结后缩放和校准规范,可显耀镌汰显存与筹商资本,无需更动原模子即可径直使用。

即插即用、无缝集成

多模态大讲话模子在各式应用中展现出了非凡的性能。然则,它们在部署经由中的筹商支出仍然是一个重要瓶颈。

诚然 KV cache 通过用显存换筹商在一定进度上提高了推理后果,但跟着 KV cache 的增大,显存占用摆布加多,浑沌量受到了极大截止。

为了措置这一挑战,作家提倡了 CalibQuant,一种通俗却高效的视觉 KV cache 量化计谋,好像大幅镌汰显存和筹商支出。具体来说,CalibQuant 引入了一种极点的 1 比特量化决策,罗致了针对视觉 KV cache 内在方式遐想的后缩放和校准时刻,在保证高效性的同期,不就义模子性能。

作家通过愚弄 Triton 进行 runtime 优化,在 InternVL-2.5 模子上终贯通 10 倍的浑沌量进步。这一规范具有即插即用的特质,好像无缝集成到各式现存的多模态大讲话模子中。

动机

现时的多模态大讲话模子在实质应用中往往需要处理大尺寸、高分辨率的图像或视频数据,KV cache 机制诚然能进步后果,但其显存占用与输入长度(如视觉帧数、图像尺寸等)成正比。

当输入数据的范围增大(举例更多的视觉帧、更高的图像分辨率)时,KV 缓存的显存使用量速即加多,成为截止浑沌量的瓶颈。尽管现时有些针对 LLM KV cache 量化的规范不错将其压缩至 2 比特,但这些规范莫得针对多模态问题中至极的视觉冗余作念分析优化,导致其无法在极限情况 1 比特下被使用。

本文通过分析多模态大讲话模子中的视觉 KV cache 的冗余,遐想了相宜多模态模子至极的 KV cache 量化决策。

规范

本文在通谈维度量化的基础上提倡了针对反量化筹商礼貌的后缩放优化决策和针对珍眼力权重优化的校准计谋。

1、通谈维度 KV cache 量化:

一种平凡使用的规范是均匀整数目化。给定一个比特宽度 b>0 和一个输入值 x,它位于某个范围 [ α , β ] 内,则将其映射到一个龙套整数

,筹商经由为:

这里的⌊⋅⌉暗示取整运算符。最朴素的规范是使用全局统计量来筹商这些极值,但是模子性能会受较大影响,作家采用在通谈维度上细化统计范围。具体来说,令

暗示一个 K cache,其中 n 和 d 差别暗示 token 的数目和 head 的维度。界说两个向量

如下:

然后,通过上述经由对 K 中的每一溜向量进行量化,其中乘法操作是逐元素进行的。作家相同将这种按通谈的量化规范应用于 V cache。

2、后缩放 KV cache 料理计谋:

量化后的 K cache 不错用龙套化的整数值、一个缩放因子(scale factor)和一个偏置项(bias term)来暗示。在解码阶段,这些值被用于对 K cache 进行反量化,并随后与 Q 相乘。然则,通谈维度的量化需要为每个通谈差别指定不同的缩放因子和偏置向量,这将导致产生多量不同的数值,加多了反量化经由中的筹商支出。此外,这种神志也使得 CUDA 内核中的筹商后果镌汰。作家不雅察到量化后的 K 仅具有有限数目的龙套取值(举例,关于 2 比特量化,其取值仅为 0、1、2、3),于是提倡愚弄通俗的筹商礼貌重排来减少存储需求,并提高筹商后果。具体经由如下:

是 K cache 矩阵

中的苟且一溜向量,

为其进行 b 比特整数目化后的收尾,并追随有逐通谈的缩放因子 α , β。给定一个查询向量

,在生成 token 经由中珍眼力筹商如下:

其中,秀气⋅和⊙差别暗示向量之间的内积和逐元素乘积。通谈维度上的反量化操作

被延伸履行,并高效地集成到后续的向量乘法运算中。因此,这种规范仅存储经过 b 比特整数目化后的数值,而且幸免了全精度反量化筹商经由。这种规范确保了低比特反量化履行的高效性。这种后缩放规范也不错当然地应用到 V cache 的反量化经由中。

3、量化后的校准:

1 比特量化的一个截止是经过反量化之后的数值往往会包含多量的极点值。这是因为 1 比特量化的码本老是包含了最小值和最大值,导致那些接近范畴的输入值在反量化后径直映射到了极点值。

因此,重建后的 KV cache 时常包含过多的大皆备值,最终导致珍眼力分数产生彰着的失真。为了措置这个问题,作家提倡了一种量化后校准规范,用于诊治 softmax 之前珍眼力分数的峰值。具体来说,假定

中的通盘元素都位于区间

内。给定

,界说一个线性变换 g 将区间

映射到

,其抒发式如下:

随后对珍眼力分数进行如下诊治:

如下图所示,校准规范(Quant-C,红色)灵验缩小了极点值的影响,使诊治后的着重分数分散相较于未经校准的量化规范(Quant,蓝色)更接近全精度(Exact)分散。

实验收尾

作家将提倡的量化规范差别应用在 LLaVA 和 InternVL model 上,测试了其在 captioning,VQA,Video QA 三个不同的任务上的性能。以 captioning 任务为例,下图展示了本文所提倡的规范在 cococaption benchmark 下和其他规范如 KIVI,VLCache 的对比。

在不同比特数(8,4,2,1)下,本文提倡的规范在大部分测试标的上都优于其他两种规范。举例关于 llava-1.5-7b,本文的规范在 8 比特下达到最高的 CIDEr 分数 1.105,与全精度捏平,并在 1 比特下进步至 1.109,来源了 VLCache(1.053)。相同地,关于 InternVL-2.5-26B,本文的规范在 4 比特和 2 比特下差别得回了最高的 CIDEr 分数 1.32 和 1.313,均优于 VLCache 和 KIVI。

Runtime 分析

为了展示本文提倡的量化规范对解码后果的影响,作家使用 InternVL-2.5 系列模子,将所提倡的 1 比特量化规范与 16 比特基线进行了浑沌量评估(即每秒生成的 token 数)。作家辩论了两种视觉 token 长度的情况:n=3328 和 8192。作家将 GPU 最大内存从 5GB 变化到 30GB,并在每种内存截止下,寻找好像容纳的最大 batch size,测量解码阶段的浑沌量。

如下图展示,1 比特量化规范在通盘显存预算下长期优于基线规范。举例,当 n=3329 且使用 80 亿参数模子时,本文的规范在 5GB 显存下终贯通 126.582tokens/s 的浑沌量(基线为 11.628tokens/s),在 30GB 下进步至 459.016tokens/s(基线为 40.816tokens/s)。这意味着比拟基线,本文规范的浑沌量进步约为 9.88 × 到 11.24 ×,充分展示了该规范在受限显存条款下显耀进步解码速度。

转头

本文探讨了多模态大讲话模子中视觉 KV cache 的压缩规范。通俗地将量化应用到极低比特数往往会激发分散偏移,导致模子性能着落。为了措置这一问题,本文提倡了一种新颖的校准计谋,作用于 softmax 之前的珍眼力分数,灵验缓解了量化带来的失真。此外,本文还引入了一种高效的通谈维度后缩放时刻以提高筹商和存储后果。

作家在 InternVL 和 LLaVA 模子系列上,针对 COCO Caption、MMBench-Video 和 DocVQA 等基准任务进行了实验,收尾考证了所提倡规范的灵验性。作家愚弄 Triton 终贯通本文所提倡的规范,runtime 分析标明本文提倡的规范相较于全精度模子有大致 10 倍的浑沌量进步。

论文标题:CalibQuant:1-Bit KV Cache Quantization for Multimodal LLMs

论文地址:https://arxiv.org/abs/2502.14882

代码地址:https://github.com/insuhan/calibquant

一键三连「点赞」「转发」「注意心」

接待在议论区留住你的念念法!

—  完  —

学术投稿请于使命日发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿内容‍

附上论文 / 技俩主页长入,以及干系神志哦

咱们会(尽量)实时回应你

� � 点亮星标 � �

科技前沿理会逐日见开云kaiyun体育