低精度只实用于未充足练习的LLM?腾讯提出LLM量
发表时间:2024年12月31日浏览量:
本文来自腾讯 AI Lab,先容了一套针对低比特量化的 scaling laws。论文题目:Low-Bit Quantization Favors Undertrained LLMs:Scaling Laws for Quantized LLMs with 100T Training Tokens论文链接:https://arxiv.org/abs/2411.17691低比特量化(low-bit quantization)跟低比特年夜言语模子(low-bit LLM)近期遭到了普遍的存眷,由于有一些研讨发明,它们可能以更小的模子范围、更低的内存占用跟更少的盘算资本,获得与 fp16 或 bf16 精度相称的机能表示。这一发明让低比特言语模子一度被以为是实现模子高效化的一个十分有远景的偏向。但是,这一观念遭到了腾讯 AI Lab 的挑衅。他们的研讨发明,低比特量化只有在未充足练习的 LLM(练习量平日在 1000 亿 tokens 以内,基础不会超越 5000 亿 tokens:这种 setting 在以后的学术界研讨论文中十分罕见)上才干获得与 fp16/bf16 相称的机能表示。跟着练习的深刻跟模子逐步被充足练习,低比特量化与 fp16/bf16 之间的机能差距会明显扩展。为了更体系地研讨这一景象,研讨职员量化了超越 1500 个差别巨细以及差别练习水平的开源 LLM 检讨点。试图察看并建模量化所招致的机能退化(QiD,quantization-induced degradation,即量化后模子与原始 fp16/bf16 模子的机能差距,记作∆qLoss)终极推上演了一套针对低比特量化的 scaling laws。经由过程这套 scaling laws,能够猜测出当 7B, 70B 以及 405B 的模子在练习范围到达 100 万亿 tokens 时低比特量化时丧失(如下图)。依据研讨职员的描写,这个任务最初是源于 2 个察看(如下图):a) model size 牢固的情形下,training tokens 越多,QiD 就会变得越年夜;b) training token 数牢固的情形下,model size 越小,QiD 就会变得越年夜。斟酌到不论是减小 model size 仍是增添 training tokens 都市有利于模子更充足的练习,因而研讨职员揣测在充足练习的模子长进行低比特量化会形成较为重大的 degradation,反之在未充足练习的模子上则不会有太多 degradation.为了更好地验证这一揣测,研讨职员抉择了 Pythia 系列开源言语模子停止试验,由于 Pythia 系列模子不只公然了差别尺寸的 LLM,并且还开源了此中间练习进程的检讨点。研讨职员拔取了 160M, 410M, 1B, 2.8B, 6.9B 以及 12B 这 6 种差别尺寸的 LLM。对每种尺寸的 LLM,又拔取了其练习进程旁边 20 个检讨点。对这 120 个检讨点,研讨职员用 GPTQ 对它们分辨停止了 2-bit, 3-bit, 4-bit 量化,来察看在差别检讨点上量化所招致的机能退化(即 QiD)。经由过程分辨对 training tokens, model size 以及量化比特数分辨的建模剖析(分辨建模的成果这里就不胪陈了,感兴致的能够浏览论文),终极失掉一个同一的 scaling laws:这里 N, D, P 分辨表现模子参数目(撤除 embedding 局部),training tokens 数以及精度(比特数)。α, β 跟 γ 分辨表现它们对应的指数(α, β, γ 均为正数),k 为结合系数。依据这个 scaling law 的公式,咱们不难过到当别的变量牢固时:N 越年夜(模子越年夜),QiD 越小,阐明越年夜的模子,量化失落点越小;D 越年夜(练习数据量越年夜),QiD 越年夜,阐明练习越多的模子,量化失落点越多;P 越年夜(精度越高),QiD 越小,阐明量化的精度(比特数)越高,量化失落点越小。研讨职员依据上述函数情势拟合观察到的数据点,失掉在 Pythia 系列 LLM 的低比特量化的 scaling law 公式:研讨职员依据这个公式绘制出曲线,发明可能很好地拟合观察到的数据点:别的,研讨职员对差别测试数据,差别量化方式以及差别的基本模子都停止了评测,发明所失掉的 scaling laws 的函数情势大略率是普适建立的:如下图所示,咱们当初晓得了充足练习的 LLMs 会遭遇更年夜的 QiD,而练习缺乏的 LLMs 则更轻易实现近乎无损的低比特量化。那这个景象是怎样形成的呢?研讨职员从练习时权重变更幅度这一角度给出了一些看法:未经充足练习的 LLMs 每每会阅历较年夜幅度的权重变更,在练习进程中的这种年夜起年夜落式的变更会让模子对 weight variation 变得更为鲁棒 —— 即使停止了低比特量化,量化所形成的偏离每每也要小于它在练习进程中阅历的偏移;而充足练习的 LLM 在练习进程中的权重变更就会十分小了,每每在小数点后多少位变更,这个时间模子假如遭度更年夜幅度的权重变更 (如低比特量化带来的权重变更),就十分轻易形成重大的 degradation.除此之外,研讨职员还首创性地将 QiD 视为一个权衡 LLM 能否充足练习的指标。假如低比特量化的 QiD≈0,那阐明这个 LLM 还远远不充足练习,还不将参数高精度的潜力施展出来。那么依据前文所失掉的 scaling laws,就能够推算出差别尺寸的 LLM 到达指定 QiD 所须要的 training tokens 数,如下表:咱们以 4-bit 量化形成 QiD=0.2 为例,7B 模子到达这个水平须要近 17.3 万亿 tokens,而 405b 模子则须要快要 50 万亿 tokens. 斟酌到近 4 年模子的练习数据量增加了近 50 倍,能够预感将来模子的练习量会更年夜(比方,将来多少年可能会到达 100 万亿 token)。跟着模子练习变得愈加充足,低比特量化在将来的利用远景则会变得并不暧昧。除此之外,研讨职员也对原生的(native)低比特 LLM(比方BitNet-b1.58)停止了评测,发明其法则与低比特量化近乎分歧,但比拟于量化,原生的低比特LLM可能会在更前期才会显明裸露这个成绩——由于原生的低精度练习可能让模子始终坚持在低精度权重下任务的才能。只管有一些研讨宣称原生的低比特LLM能够媲美fp16/bf16精度下的表示,但这些研讨广泛都是在未充足言语模子上失掉的成果从而推出的论断,研讨职员以为在充足练习的情形下停止比拟的话,低比特LLM也将很难对抗其在fp16/bf16精度下对应的模子。 斟酌到学术界算力的限度,在未充足练习的 LLM 长进行试验、评测,从而失掉一些论断,并试图将这些论断推广为广泛实用,这一景象曾经越来越广泛,这也激发了研讨职员的担扰,由于在未充足练习的 LLM 上失掉的论断并纷歧定可能广泛实用。研讨职员也盼望社区能从新审阅那些在未充足练习的 LLM 上失掉的论断,从而引出更深刻的思考与探讨。最后的最后,研讨职员用了一组插画来抽象地归纳综合了一下他们的发明:1.假如把模子类比成水瓶,那水瓶里的装水量就能够反应模子的练习充足水平。小模子更轻易被装满,年夜模子则须要更多的水才干装满。2.量化就相称于用手去挤压瓶身。对装满水的瓶子,水会溢出(performance degradation);而没装满水的瓶子则不会有水溢出。3.量化的精度能够类比成挤压瓶身的力气巨细。越低比特的量化挤压得越狠,越轻易形成大批的水被挤出(significant degradation)。© THE END 转载请接洽本大众号取得受权投稿或追求报道:[email protected]
]article_adlist-->
申明:新浪网独家稿件,未经受权制止转载。 -->