红腾网 ChatGPT架构师，刚发布了最新研究成果

距第二篇研究仅过去三天红腾网，Thingking Machines 发布了第三篇研究博客。

核心作者是 OpenAI 联创之一 John Schulman。

Thingking Machines 创始人、OpenAI 前 CTO Mira Murati 继续转发站台。

第三篇研究是关于LoRA 参数的高效微调方法，题目为《LoRA Without Regret》，探究了 LoRA 匹配全量微调（FullFT）效率的条件，还给出了大幅降低调参难度的简化方案。

当前主流大模型动辄万亿参数，预训练数据达数十万亿 token，但下游任务往往只需要小数据集、聚焦特定领域。

用 FullFT 更新所有参数，资源浪费严重。

而 LoRA 作为参数高效微调（PEFT）的核心方法，通过低秩矩阵 A 和 B（总参数远少于原权重）捕捉微调信息，却始终面临一个争议：它真的能追上 FullFT 的性能吗？

John Schulman 和 Thingking Machines 团队给出了肯定答案：只要抓准关键细节，LoRA 不仅能和 FullFT 拥有相同的样本效率，还能达到一样的最终性能。

下面具体来看。

LoRA 最优学习率是 FullFT 的 10 倍

研究团队通过多组实验提炼出三个核心发现：

在中小数据集中，LoRA 与 FullFT 性能相当；

LoRA 应用不能仅聚焦于注意力层，全能覆盖性能最优

LoRA 的最优学习率为 FullFT 的 10 倍

首先，在中小数据集微调场景下，LoRA 完全具备与 FullFT 抗衡的能力。

研究团队采用 Llama 3、Qwen3 系列模型，分别在聚焦指令跟随的 Tulu3 数据集和侧重推理任务的 OpenThoughts3 数据集上展开测试。

结果显示高秩 LoRA（如秩 512）的学习曲线与 FullFT 几乎完全重合，两者的损失值均随训练步数呈对数线性下降趋势；

只有当数据集规模远超 LoRA 自身容量时，其训练效率才会出现下滑，而这种极端情况在多数后训练场景中极少出现。

红腾网

并且，在 MATH、GSM 等数学推理类强化学习任务中，即便将 LoRA 的秩降低至 1，其性能依旧能与 FullFT 持平。

这一现象的背后，是强化学习的信息需求特性：每轮训练仅需依靠 scalar 优势函数吸收 O ( 1 ) 比特信息，而秩 1 LoRA 的参数容量早已满足这一需求，甚至存在大量冗余。

其次，在 LoRA 的应用层选择上，全层覆盖才是发挥其性能的关键，而非传统认知中仅聚焦注意力层。

过去不少研究习惯将 LoRA 仅应用于注意力矩阵，但此次实验结果却打破了这一固有思路。

仅作用于注意力层的 LoRA 表现明显落后，即便通过提升秩（如秩 256）来匹配 MLP 层 LoRA（秩 128）的参数量，性能差距依然显著；

而当 LoRA 应用于模型所有层，尤其是参数占比最高的 MLP 层与 MoE 层时，性能得到极大提升，甚至仅在 MLP 层单独应用 LoRA，效果就与" MLP 层 + 注意力层"组合应用相差无几。

这一结果的逻辑的核心在于，模型梯度的主导权掌握在参数数量更多的层手中，只有实现全层覆盖，LoRA 的优化动态才能真正接近 FullFT，从而释放出与 FullFT 相当的性能。

最后，针对 LoRA 超参数难调试的痛点，研究团队给出了大幅降低调试难度的简化方案。

许多使用者曾因超参数调试复杂对 LoRA 望而却步，但研究发现，LoRA 的最优学习率存在明确规律——始终约为 FullFT 的 10 倍。（为观察结果，团队表示还将进一步完善理论框架）

并且，这一比例在 14 个不同模型在 Tulu3 数据集的测试中几乎保持恒定。

同时，得益于 1/r 缩放因子的作用，不同秩 LoRA 的最优学习率差异极小，在秩 4 至秩 512 的范围内，变化幅度不足 2 倍，在短期训练任务中，甚至可直接忽略秩对最优学习率的影响。

更具实用性的发现是，LoRA 的 4 个潜在超参数中，有 2 个属于冗余参数，实际调试过程中只需重点关注"初始更新规模"与" A 矩阵偏离初始状态的步数"两个维度。

这一发现直接将 LoRA 的调参难度降低了一半。

ChatGPT 架构师 John Schulman

这项研究的核心作者是 OpenAI 联创、跑去 Anthropic 不到半年又火速加入 Thingking Machines 的John Schulman。

John Schulman 博士毕业于加州大学伯克利分校，师从强化学习大牛Pieter Abbeel

联合创立 OpenAI 后，他曾在 OpenAI 工作 9 年，领导了从 GPT-3.5、GPT-4 到 GPT-4o 的一系列对齐 / 后训练工作，被誉为ChatGPT 架构师。

Google Scholar 页面显示，John Schulman 的学术引用将近 14 万。

其中，引用量最高的《Proximal policy optimization algorithms》是他的代表作，PPO 算法也是 ChatGPT 核心技术 RLHF 中选用的强化学习算法。

当初离开 OpenAI 时，John Schulman 公开提及自己的职业规划是渴望回归核心技术领域。

而这一想法也推动他最终加入 Thinking Machines，现以首席科学家的身份开启新的工作阶段。

参考链接：

[ 1 ] https://x.com/thinkymachines/status/1972708674100765006

[ 2 ] https://thinkingmachines.ai/blog/lora/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

� � 年度科技风向标「2025 人工智能年度榜单」评选报名开启啦！我们正在寻找 AI+ 时代领航者点击了解详情

❤️‍� � 企业、产品、人物 3 大维度，共设立了 5 类奖项，欢迎企业报名参与 � �

一键关注 � � 点亮星标

科技前沿进展每日见红腾网

通弘网提示：文章来自网络，不代表本站观点。

红腾网 ChatGPT架构师，刚发布了最新研究成果

中金汇融孕期37周，孕期40周，什么时候生才算好？_妈妈_剖宫产_肺部

财盛证券硕贝德申请仿金属手机背板塑料相关专利, 减少铝片与手机背板塑料壳体间表面高度差

策略宝重庆一背篓老人等公交被拒载，当地回应：属实，性质比较恶劣，涉事司机已被开除

胜亿配资 Kindle离场两周年，“中国造”电纸书路在何方？

安徽润格从“直选领袖民主制”到“威权主义领袖国家”

亿盛资产火箭队执行两人选项，续约达成！1230万+1100万留下未来双子星

德旺配资反制！中国商务部对安世半导体实施出口管制

天诚配资保障全运会供水，花都“移动充水宝”上线

胜亿配资 Kindle离场两周年，“中国造”电纸书路在何方？

信弘优配菲找印度“抱团取暖”意欲何为各怀战略算盘

天弘配资中国人民银行副行长、国家外汇管理局局长朱鹤新出席欧洲复兴开发银行2025年年会

金元速配北京U16男足载誉而归 冠军激励北京足球继续前进

宜人配资载入史册！央行、平准基金、国家队、国资、险资……超级组合拳来了

富通优配第一季度知识产权执法专项行动共查处相关案件近11.3万件

中金汇融 孕期37周，孕期40周，什么时候生才算好？_妈妈_剖宫产_肺部

财盛证券 硕贝德申请仿金属手机背板塑料相关专利, 减少铝片与手机背板塑料壳体间表面高度差

策略宝 重庆一背篓老人等公交被拒载，当地回应：属实，性质比较恶劣，涉事司机已被开除

中金汇融孕期37周，孕期40周，什么时候生才算好？_妈妈_剖宫产_肺部

财盛证券硕贝德申请仿金属手机背板塑料相关专利, 减少铝片与手机背板塑料壳体间表面高度差

策略宝重庆一背篓老人等公交被拒载，当地回应：属实，性质比较恶劣，涉事司机已被开除