距第二篇研究仅过去三天红腾网,Thingking Machines 发布了第三篇研究博客。
核心作者是 OpenAI 联创之一 John Schulman。
Thingking Machines 创始人、OpenAI 前 CTO Mira Murati 继续转发站台。
第三篇研究是关于LoRA 参数的高效微调方法,题目为《LoRA Without Regret》,探究了 LoRA 匹配全量微调(FullFT)效率的条件,还给出了大幅降低调参难度的简化方案。
当前主流大模型动辄万亿参数,预训练数据达数十万亿 token,但下游任务往往只需要小数据集、聚焦特定领域。
用 FullFT 更新所有参数,资源浪费严重。
而 LoRA 作为参数高效微调(PEFT)的核心方法,通过低秩矩阵 A 和 B(总参数远少于原权重)捕捉微调信息,却始终面临一个争议:它真的能追上 FullFT 的性能吗?
John Schulman 和 Thingking Machines 团队给出了肯定答案:只要抓准关键细节,LoRA 不仅能和 FullFT 拥有相同的样本效率,还能达到一样的最终性能。
下面具体来看。
LoRA 最优学习率是 FullFT 的 10 倍
研究团队通过多组实验提炼出三个核心发现:
在中小数据集中,LoRA 与 FullFT 性能相当;
LoRA 应用不能仅聚焦于注意力层,全能覆盖性能最优
LoRA 的最优学习率为 FullFT 的 10 倍
首先,在中小数据集微调场景下,LoRA 完全具备与 FullFT 抗衡的能力。
研究团队采用 Llama 3、Qwen3 系列模型,分别在聚焦指令跟随的 Tulu3 数据集和侧重推理任务的 OpenThoughts3 数据集上展开测试。
结果显示高秩 LoRA(如秩 512)的学习曲线与 FullFT 几乎完全重合,两者的损失值均随训练步数呈对数线性下降趋势;
只有当数据集规模远超 LoRA 自身容量时,其训练效率才会出现下滑,而这种极端情况在多数后训练场景中极少出现。
红腾网
并且,在 MATH、GSM 等数学推理类强化学习任务中,即便将 LoRA 的秩降低至 1,其性能依旧能与 FullFT 持平。
这一现象的背后,是强化学习的信息需求特性:每轮训练仅需依靠 scalar 优势函数吸收 O ( 1 ) 比特信息,而秩 1 LoRA 的参数容量早已满足这一需求,甚至存在大量冗余。
其次,在 LoRA 的应用层选择上,全层覆盖才是发挥其性能的关键,而非传统认知中仅聚焦注意力层。
过去不少研究习惯将 LoRA 仅应用于注意力矩阵,但此次实验结果却打破了这一固有思路。
仅作用于注意力层的 LoRA 表现明显落后,即便通过提升秩(如秩 256)来匹配 MLP 层 LoRA(秩 128)的参数量,性能差距依然显著;
而当 LoRA 应用于模型所有层,尤其是参数占比最高的 MLP 层与 MoE 层时,性能得到极大提升,甚至仅在 MLP 层单独应用 LoRA,效果就与" MLP 层 + 注意力层"组合应用相差无几。
这一结果的逻辑的核心在于,模型梯度的主导权掌握在参数数量更多的层手中,只有实现全层覆盖,LoRA 的优化动态才能真正接近 FullFT,从而释放出与 FullFT 相当的性能。
最后,针对 LoRA 超参数难调试的痛点,研究团队给出了大幅降低调试难度的简化方案。
许多使用者曾因超参数调试复杂对 LoRA 望而却步,但研究发现,LoRA 的最优学习率存在明确规律——始终约为 FullFT 的 10 倍。(为观察结果,团队表示还将进一步完善理论框架)
并且,这一比例在 14 个不同模型在 Tulu3 数据集的测试中几乎保持恒定。
同时,得益于 1/r 缩放因子的作用,不同秩 LoRA 的最优学习率差异极小,在秩 4 至秩 512 的范围内,变化幅度不足 2 倍,在短期训练任务中,甚至可直接忽略秩对最优学习率的影响。
更具实用性的发现是,LoRA 的 4 个潜在超参数中,有 2 个属于冗余参数,实际调试过程中只需重点关注"初始更新规模"与" A 矩阵偏离初始状态的步数"两个维度。
这一发现直接将 LoRA 的调参难度降低了一半。
ChatGPT 架构师 John Schulman
这项研究的核心作者是 OpenAI 联创、跑去 Anthropic 不到半年又火速加入 Thingking Machines 的John Schulman。
John Schulman 博士毕业于加州大学伯克利分校,师从强化学习大牛Pieter Abbeel
联合创立 OpenAI 后,他曾在 OpenAI 工作 9 年,领导了从 GPT-3.5、GPT-4 到 GPT-4o 的一系列对齐 / 后训练工作,被誉为ChatGPT 架构师。
Google Scholar 页面显示,John Schulman 的学术引用将近 14 万。
其中,引用量最高的《Proximal policy optimization algorithms》是他的代表作,PPO 算法也是 ChatGPT 核心技术 RLHF 中选用的强化学习算法。
当初离开 OpenAI 时,John Schulman 公开提及自己的职业规划是渴望回归核心技术领域。
而这一想法也推动他最终加入 Thinking Machines,现以首席科学家的身份开启新的工作阶段。
参考链接:
[ 1 ] https://x.com/thinkymachines/status/1972708674100765006
[ 2 ] https://thinkingmachines.ai/blog/lora/
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
� � 年度科技风向标「2025 人工智能年度榜单」评选报名开启啦!我们正在寻找 AI+ 时代领航者 点击了解详情
❤️� � 企业、产品、人物 3 大维度,共设立了 5 类奖项,欢迎企业报名参与 � �
一键关注 � � 点亮星标
科技前沿进展每日见红腾网
通弘网提示:文章来自网络,不代表本站观点。