开云(中国)Kaiyun·官方网站 - 登录入口-开云体育优于包含念念考流程的 RFT-开云(中国)Kaiyun·官方网站 - 登录入口

开云体育优于包含念念考流程的 RFT-开云(中国)Kaiyun·官方网站 - 登录入口

发布日期:2026-06-13 04:54  点击次数:103

开云体育优于包含念念考流程的 RFT-开云(中国)Kaiyun·官方网站 - 登录入口

近期开云体育,上海东谈主工智能实验室实习生李明与张凯鹏照顾员的团队,辩论了在多模态大模子规矩基础的强化学习微调(RFT,Reinforcement Fine-Tuning)中显式念念考流程的作用。

该照顾揭示了一个具有枢纽奉行意思的发现:以 DeepSeek-R1 为代表的大模子频频需要“先念念考再恢复”的推理方式,但在浮浅视觉任务场景下,选定“不念念考”强化学习(No-Thinking-RL)战略反而粗略权臣提高模子的微调恶果和性能进展。

这一风物的背后波及枢纽的计较资源优化机制。照顾发现,与传统监督式微调(SFT,Supervised Fine-Tuning)比较,RFT 会权臣加多 GPU 显存需求。

具体进展为:一个正本仅需单张 80G 显存 NVIDIA A100 显卡即可完成的 SFT 任务,而选定 RFT 时可能需要 4 至 8 张同规格显卡才能得志需求。这种显存占用的急剧加多主要源于 RFT 需要并行处理多个较长序列的模子输出。

“不念念考”的强化学习方式粗略强制模子仅输出精简的最终谜底,从而权臣阻抑 GPU 内存占用。张凯鹏对 DeepTech 暗示,这种新方式对计较资源相对有限的中小企业或学校实验室具有枢纽的意思。通过选定这种优化面孔,即使仅配备中低端显卡(如 40GB 显存)也粗略开展大模子磋磨的强化学习微调照顾,权臣阻抑了照顾门槛。

在现实期骗场景中,如出动端、自动驾驶系统、及时反应系统和需要快速迭代的拓荒环境等,资源管理频频是最枢纽的考量身分之一。在这种条款下,若需得志快速微调的需求,选定“不念念考”微调面孔则显败露其独到上风。因此,在出动计较、医疗影像分析等必须在腹地完成微调的期骗场景中,当资源本钱成为主要考量身分时,“不念念考”微调面孔展现出权臣的实用价值。

值得在意的是,这一照顾认识已赢得业界的正常热心。刻下主流大模子厂商(如阿里云发布的通义千问 2.5 和字节卓著的豆包大模子 1.5)在模子瞎想中已开动整合念念考方式的接受机制。

这种要领不仅贬责了资源受限环境下的微调恶果问题,还幸免了因计较资源不及导致的性能下落,为边际计较和出动端 AI 期骗开辟了新的工夫可能性。

日前,磋磨论文以《念念考与不念念考:基于规矩的视觉强化微调中的显式念念考照顾》(Think or Not Think: A Study of Explicit Thinking in Rule-Based Visual Reinforcement Fine-Tuning)为题发表在预印本网站arXiv[1]。李明是第一作家,张凯鹏担任通信作家。

“不念念考”竟成微调最优旅途?

在照顾初期,照顾东谈主员建议将基础规矩的强化学习(CLS-RL,Classification Reinforcement Learning)期骗于分类任务,试图通过可考据的奖励机制来促进多模态大模子进行显式念念考。

但是,实验流程中发现,以 DeepSeek-R1 为代表的大模子在强微调时会出现恢复长度不时加多的风物,而 CLS-RL 在图像分类任务中的恢复长度却呈现阻抑趋势。

值得在意的是,试验完成后模子的念念考流程对最终谜底的孝敬极度有限。这一风物促使照顾东谈主员建议了枢纽假定:在视觉感知任务(如图像分类)中,模子性能更多依赖于对图像自己的感知才能而非复杂的推理流程。

基于这一枢纽发现,照顾团队改动性地调遣了微调战略,让模子自觉减少不消要的念念考门径,径直输出谜底而非选定“先念念考再恢复”的传统方式。

在少样本图像分类微调任务中,该框架的改动性主要体当今两个枢纽方面:

最初,照顾团队创造性地将 DeepSeek-R1 的奖励机制引入分类任务,通过成立可考据的奖励体系,将多模态大模子的分类才能与传统强化学习相逢迎,使用分类类一名呼行为奖励函数来替代传统的监督学习耗费函数,这种瞎想使得模子粗略径直优化合座恢复战略而非局部 token 级别的优化。

其次,模仿 DeepSeek-R1 的告捷教学,选定结构化输出奖励机制,要求模子按照预设体式输出恢复,在确保谜底可考据性的同期饱读舞模子进行各样化探索。

令东谈主惊喜的是,这种简化战略不仅在特定领域任务上超越了 CLS-RL,在泛化才能方面也展现出权臣上风,同期大幅培植了试验管理速率,并大幅阻抑了试验时代(减少约 94%)。

限度知道,在 11 个数据逢迎,“不念念考”战略在 10 个数据逢迎的进展优于 CLS-RL,最终平均准确率比 CLS-RL 高出 3.14%。这标明,不包含念念考流程的 RFT 粗略有用培植模子在分类任务上的性能,优于包含念念考流程的 RFT。

与传统 SFT 要领比较,CLS-RL 有用幸免了模子对试验数据的机械操心和由此激发的落索性淡忘问题,而是携带模子学习任务的内容特征(如图像分类中的配景、光照等枢纽要素)。

这种学习面孔使得模子在未经微调的数据集上也能保持精熟性能,照顾团队将这种风物称为“免费午餐”(free-lunch)泛化效应。张凯鹏暗示:“这种学习内容特征的才能权臣阻抑了对特定领域数据的依赖性,不仅有用防患了学问淡忘,还竣事了优异的跨领域搬动性能。”

为进一步探究显式念念考对 RFT 流程的影响机制,他们建议了“先恢复后念念考”(Think-After-Answer)的改动要领,通过让模子先输出谜底再生成念念考流程的面孔来缩小念念考门径对有规画的潜在搅扰。

照顾东谈主员在数学推理、空间瓦解和谜题解答等多种任务上对“不念念考”战略进行了系统考据,并对比分析了 2B 和 7B 两种鸿沟模子的性能进展。

限度知道,在 2B 模子中,“不念念考”的微调面孔在总计任务(包括数学推理)上齐优于基于念念考的 RFT,而“先恢复后念念考”的进展居中。李明对此评释注解说谈:“在处理复杂数学问题时,2B 模子由于参数目有限,难以生成高质料的推理链条。因此,即使在需要复杂推理的任务中,强制引入念念考门径也无法带来性能培植。”

但是当模子鸿沟扩大到 7B 时,情况发生了权臣变化:更大鸿沟的模子照旧具备生成有用念念维链的才能,在数学等复杂推理任务中,显式念念考的微调面孔展现出彰着上风。

RFT 的中枢上风在于其粗略权臣阻抑数据标注和领域适配的本钱。具体而言,若模子在当然图像分类任务上通过 RFT 完成微调,其学到的底层任务学问可能搬动至其他高标注本钱领域(如医疗图像或遥感图像),从而幸免相似网罗标注数据的支出。

这种搬动才能的竣事枢纽在于 RFT 是否着实造就模子深刻雇务内容,而非浮浅地操心试验数据。要是模子粗略通过 RFT 掌执通用的问题贬责范式,而非局限于特定数据散布,那么这种才能有望延长到更多标注资源稀缺的领域,从而竣事跨领域性能培植与本钱从简的均衡。

该照顾不仅揭示了念念考流程在不同任务中的互异化作用,成立了模子鸿沟与念念考战略有用性的关联规则,还为 RFT 在现实期骗中的跨领域搬动后劲提供了表面因循,对鼓吹大模子的高效微长入现实部署具有枢纽的指导意思。

为构建通用大模子提供新念念路

张凯鹏团队主要聚焦于多模态领路与生成、多模态评测等认识的照顾。在评测体系构建方面,他们系统性地照顾了包括单模态任务(如言语或代码磋磨任务)和多模态任务在内的各样评测任务,并先后构建了一系列涵盖通用才能和针对各样下贱期骗场景及专项才能的评测基准体系。

通过全面的评测奉行,照顾团队深刻意志到构建着实通用的多模态大模子濒临重大挑战,独特是在竣事正常场景遮蔽才能方面存在的清苦。

在团队早期的照顾职责中,曾探索将多模态单一模子期骗于各样视觉任务,包括多种分类任务终点他细分领域任务。照顾发现,即便使用总计细分任务的数据进行合资试验,所得模子在多量任务上的进展仍权臣落伍于民众模子。

“通过选定自安妥念念考的强化学习微调要领,有望试验出在多个细分任务上均进展优异的通用大模子,这一发现为奈何使单一模子安妥各样化任务需求方面提供了枢纽启示。”张凯鹏说。

基于这一意志,该团队刻下正要点照顾奈何说明具体任务属性和模子才能水平,自安妥地细则最优的试验战略和念念考方式。这一照顾认识为 AI 模子的试验优化开辟了新念念路。

以自动驾驶为例,关于浮浅的感知类任务(如阻挠物检测),选定“不念念考”的径直反应方式更为高效;而关于复杂的有规画任务(如旅途盘算),则需要模子进行深度推理和盘算。

在现存自动驾驶系统中,时常选定多个民众模子并行处理不同任务。若将总计任务数据输入单一模子,不仅难以竣事任务间的协同促进,反而可能激发任务冲破。因此,自安妥念念考机制(Adaptive-Thinking)的引入,有望减少任务冲破,增强正向搬动,使单一模子粗略胜任更多任务,这对工业场景的现实部署具有枢纽意思。

与此同期,他们还在积极探索多任务夹杂试验的新范式,旨在使夹杂模子在保持通用性的同期,达到以致超越民众模子的性能水平,这或将为多模态大模子的发张开辟新的工夫旅途。

此外,本次照顾的发现还促使该团队深入念念考 AI 系统与东谈主类瓦解和念念考面孔的互异,独特是在资源分拨和任务处理机制方面的不同特质。这些基础性的探索不仅有助于揭示 AI 与东谈主类智能的内容互异,也可能为异日大模子框架的改动提供枢纽参考。

参考贵府:

1.https://arxiv.org/pdf/2503.16188

2.https://github.com/minglllli/CLS-RL/tree/main

排版:刘雅坤、何晨龙



相关资讯
热点资讯
  • 友情链接:

Powered by 开云(中国)Kaiyun·官方网站 - 登录入口 @2013-2022 RSS地图 HTML地图