亚洲大香人伊一本线_久久久久久a亚洲欧洲aⅴ_国产精品亚洲视频_亚洲精品无码久久一线

首頁 >快訊 >

今日關注:X上63萬人圍觀的Traning-Free GRPO:把GRPO搬進上下文空間學習

年初的 DeepSeek-R1,帶來了大模型強化學習(RL)的火爆。無論是數學推理、工具調用,還是多智能體協作,GRPO(Group Relative Policy Optimization)都成了最常見的 RL 算法。


(資料圖片僅供參考)

GRPO 的核心思路很簡單卻強大:

  • 對同一個問題,同時生成多條解答路徑(rollout)
  • 給這些路徑打分,比較組內優劣
  • 再根據優勢信號來更新模型參數,讓模型越來越偏好高質量解法

這種「多路徑并行 + 組內優勢」的機制,雖然比傳統 PPO 等方法更加簡潔,但仍然需要優化模型參數, 太貴了!

  • 在 32B 量級的模型上訓練一次 RL,就可能要花掉上萬美元
  • 如果是 600B 級別的超大模型,成本和工程難度更是上天

這讓 GRPO 雖然強大,卻幾乎只能由巨頭來玩,中小團隊和個人開發者根本「玩不起」。

能不能不改模型參數,也來跑一遍 GRPO?

騰訊優圖的一篇最新論文就提出了一個非常有意思的答案:既然更新參數這么貴,那就不更新參數,直接把 GRPO 的「學習過程」搬進上下文空間!

  • 論文標題:Training-Free Group Relative Policy Optimization
  • arXiv 鏈接:
  • https://arxiv.org/abs/2510.08191
  • GitHub 地址:
  • https://github.com/TencentCloudADP/youtu-agent/tree/training_free_GRPO

Training-Free GRPO 是把 GRPO 訓練的整個范式遷移到了上下文學習之中:

  • 訓練集上多輪迭代學習,然后在獨立的測試集上驗證
  • 每輪中,對同一道題目并行生成多條解答(Rollout)
  • 對比組內不同解法的差異,提取文本型組內優勢(Semantic Group Advantage),對齊 GRPO 里的數值型組內優勢
  • 根據這些文本優勢優化一個文本型 LoRA,對齊 GRPO 里的參數型 LoRA

舉個例子,對于訓練集里這道數學幾何題,模型會生成多個不同的解答路徑(Rollout),可能會出現不同的解題路徑,有的做對了有的做錯了。

隨后,模型總結不同解法的過程與正確性,從而比較同一組內的不同解答。這個過程自然提煉出文本型組內優勢:總結出有的做法為什么對,有的做法為什么錯。比如例子里:

  • 錯誤的解法不僅設錯方向,還沒有做條件約束檢查
  • 成功的解法則正確了設定坐標方向,也系統化驗證了所有條件

在一個迭代里,得到每道題的文本型組內優勢后,模型就把當前批次的優勢都更新文本型 LoRA 里,也就是對經驗庫進行增刪改,沉淀學習到的經驗。

實驗效果

在數學推理上,僅用100 個訓練樣本,花費約 8-18 美元,就能在已經足夠強大的 671B 模型上繼續提升性能。

無論是否采用代碼工具(CI,code interpreter)幫助解題,在 AIME 榜單上的 Mean@32 指標都能實現提升。

令人驚喜的是,在三個輪次中,訓練集和測試集的平均工具調用次數均有所減少。這表明 Training-Free GRPO 不僅能夠鼓勵正確的推理和行動,還能教會代理找捷徑,更高效明智地使用工具。

而在網頁搜索場景中,Training-Free GRPO 同樣無需更新模型參數,即可在 DeepSeek-V3.1-Terminus 強悍水平之上,實現了 4.6% 的 Pass@1 顯著提升。

為什么需要 Training-Free GRPO?

  • 保留 GRPO 的強化學習優勢

多路徑探索、group advantage、多輪迭代、完全獨立的訓練與測試集……這些 GRPO 的精華一項不少,全部在上下文層面重現了出來。

  • 成本暴降

不用訓練模型參數,僅需少量數據,并且全程只靠 API 隨用隨付!

只需 8~18 美元以及 100 條訓練數據,就能在 671B LLM 上跑完多輪的強化學習訓練!遠遠低于 32B 模型的訓練成本。

  • 泛化更好

與 Self-Refine 這類就地改寫不同,Training-Free GRPO 是在獨立數據集上多輪迭代訓練的,對測試集里的 Out-of-Domain (OOD) 數據都有顯著提升。

并且,參數微調后的 32B 級別模型往往只能勝任特定窄域任務,可能需要多個專用模型來覆蓋完整業務需求,顯著增加了系統復雜度和維護成本。而 Training-Free GRPO 只需要一個統一的模型和 API 就可以泛化到不同的場景!

小結:RL 不一定非得有梯度

過去我們默認,強化學習就意味著參數更新。雖然前期有一些上下文空間優化的探索如 Self-Refine、Reflexion、TextGrad 等,但 Training-Free GRPO 與他們不同,完全對齊了參數空間 RL 訓練的流程和細節:

  • 把 GRPO 的「獨立訓練集 + 多輪迭代 + 并行 Rollout + 組內優勢」這套 RL 訓練范式,整體遷移到上下文空間,在不訓練模型的情況下,也能獲得強化學習效果。
  • 這讓超大模型的 RL 優化變得廉價、靈活、可持續,也給每個開發者的小業務提供了用得起的新方案。

本文方法已開源,歡迎 Star 和試用!

預告:Training-Free GRPO 將作為一個新功能集成到 Youtu-Agent 框架中,幫助開發者們進一步提升各種自定義場景的效果。

注:成本計算基于 DeepSeek API 官方定價,實際可能因使用情況而有所波動。

關鍵詞: 調用 算法 上下文 空間學習 深度思考模

責任編輯:Rex_22

亚洲大香人伊一本线_久久久久久a亚洲欧洲aⅴ_国产精品亚洲视频_亚洲精品无码久久一线
<ul id="ckcqq"><sup id="ckcqq"></sup></ul>
<ul id="ckcqq"></ul>
<cite id="ckcqq"><table id="ckcqq"></table></cite>
  • <fieldset id="ckcqq"><menu id="ckcqq"></menu></fieldset><ul id="ckcqq"></ul>
  • <fieldset id="ckcqq"><menu id="ckcqq"></menu></fieldset>
    午夜精品成人在线视频| 久久久久久久综合日本| 国产精品久久久久久久久免费桃花 | 国产欧美一二三区| 色婷婷综合久色| 久久久精品国产99久久精品芒果| 亚洲高清在线精品| av在线不卡免费看| 亚洲高清中文字幕| 久久久三级国产网站| 日韩激情视频网站| 久久精品视频免费观看| 在线观看精品一区| 自拍偷拍国产精品| 国产91对白在线观看九色| 亚洲人成网站影音先锋播放| 欧美一级免费观看| 亚洲国产另类av| 91免费精品国自产拍在线不卡| 亚洲成人免费在线| 日本一区二区视频在线| 韩国欧美国产一区| 一区二区三区四区精品在线视频| 精品999久久久| 日韩免费观看高清完整版 | 在线综合亚洲欧美在线视频| 中文字幕一区免费在线观看| 国产伦精品一区二区三区视频青涩| 国产精品超碰97尤物18| 欧美一区二区精品在线| 午夜精品久久久久久久蜜桃app| 91天堂素人约啪| 欧美色欧美亚洲另类二区| 亚洲欧美一区二区三区孕妇| heyzo一本久久综合| 色视频欧美一区二区三区| 中文字幕欧美三区| 国产成人啪免费观看软件 | 日韩成人免费电影| 国产精品久久久久四虎| 精品日韩在线一区| 久久99国产精品麻豆| 一区二区三区四区在线免费观看| 久久这里只精品最新地址| 极品美女销魂一区二区三区免费| 亚洲女同ⅹxx女同tv| 国产日产欧美一区| 国产aⅴ综合色| 欧美做爰猛烈大尺度电影无法无天| 亚洲欧美成人一区二区三区| 久久亚洲欧美国产精品乐播 | 亚洲成人av在线电影| 中文字幕中文字幕在线一区| av成人动漫在线观看| 在线成人高清不卡| 蜜桃视频一区二区三区在线观看| 亚洲欧美另类在线| 一区视频在线播放| 久久久精品综合| 精品国产乱码久久久久久久久| 国内成+人亚洲+欧美+综合在线| 五月天婷婷综合| 亚洲小少妇裸体bbw| 国产精品视频在线看| 国产日韩欧美综合一区| www.激情成人| 欧美一三区三区四区免费在线看| 蜜臀av性久久久久av蜜臀妖精| 亚洲一区在线电影| 亚洲综合色婷婷| 亚洲人成网站精品片在线观看| 国产精品人妖ts系列视频| 99精品视频在线免费观看| 日韩视频免费观看高清完整版在线观看 | 亚洲欧美日韩中文字幕一区二区三区| 国产精品色噜噜| 久久久久久久综合日本| 久久亚洲二区三区| 99久久99久久精品免费看蜜桃| 欧美一级日韩不卡播放免费| 国产在线精品不卡| 欧美日韩你懂的| 精品在线观看视频| 欧美三级电影在线观看| 久久99热这里只有精品| 在线观看网站黄不卡| 奇米精品一区二区三区在线观看一| 夜夜精品浪潮av一区二区三区| 亚洲精品一二三四区| 亚洲视频你懂的| 亚洲精品成a人| 亚洲欧美一区二区三区极速播放| 亚洲视频每日更新| 亚洲欧美一区二区三区极速播放 | 综合久久久久久| 亚洲精品国产品国语在线app| 中文字幕一区不卡| 樱桃视频在线观看一区| 亚洲精品视频一区| 亚洲成人动漫一区| 一本色道久久综合亚洲91| 免费成人av资源网| 欧美少妇性性性| 国产成人av电影在线观看| 日韩欧美在线网站| 91在线视频免费91| 国产精品三级在线观看| 国产精品久久久久久久久搜平片| 亚洲伦在线观看| 亚洲一级二级在线| 美女视频黄免费的久久 | 日韩激情一区二区| 欧美午夜精品理论片a级按摩| 国产一区不卡在线| 欧美mv日韩mv| 国产欧美精品日韩区二区麻豆天美| 国产精品久久久久久久久动漫| 成人欧美一区二区三区白人| 亚洲电影一区二区三区| 日本久久电影网| 国产精品一区二区黑丝| 26uuu精品一区二区| 国产精品色在线| 亚洲午夜羞羞片| 日本韩国精品在线| 国产aⅴ精品一区二区三区色成熟| www久久精品| 国产精品另类一区| 丝袜美腿亚洲综合| 在线不卡免费av| 91免费观看在线| 亚洲女人小视频在线观看| 午夜一区二区三区在线观看| 国产裸体歌舞团一区二区| 久久精品一二三| 亚洲三级在线播放| 美国一区二区三区在线播放| 日韩欧美国产麻豆| 国产精品国模大尺度视频| 亚洲成人三级小说| 3atv在线一区二区三区| 久久精品夜色噜噜亚洲aⅴ| 亚洲夂夂婷婷色拍ww47 | 亚洲中国最大av网站| 韩国视频一区二区| 国产欧美一区二区三区在线看蜜臀 | 精品国产免费一区二区三区四区 | 一区二区三区美女| 欧美日韩国产精品自在自线| 91视频在线观看| 一区二区不卡在线播放 | 天天色 色综合| 成人av电影在线观看| 成人欧美一区二区三区1314| 色婷婷av一区二区三区gif | 国产精品免费观看视频| 亚洲3atv精品一区二区三区| 国产福利视频一区二区三区| 中文字幕电影一区| 色婷婷精品大视频在线蜜桃视频| 不卡电影免费在线播放一区| 伊人色综合久久天天| 欧美日韩亚洲综合一区| 国产欧美一区二区精品仙草咪| 日韩国产高清影视| 久久蜜桃av一区精品变态类天堂 | 3751色影院一区二区三区| 欧美高清在线一区二区| 美女脱光内衣内裤视频久久影院| 欧美精品一区二区三区一线天视频| 亚洲日本一区二区| 国产高清精品在线| 一区二区三区色| 日韩午夜激情免费电影| 亚洲视频一区二区在线| 国产盗摄视频一区二区三区| 亚洲品质自拍视频| 欧美一二三区在线| 夜夜精品视频一区二区| eeuss鲁一区二区三区| 午夜视黄欧洲亚洲| 国产亚洲精久久久久久| 色狠狠桃花综合| 国产视频一区在线播放| 久久精品99国产精品日本| 国产精品萝li| 7777精品伊人久久久大香线蕉完整版 | 久久99精品国产麻豆婷婷| 中文字幕一区二区三区蜜月| 精品视频一区二区不卡| 中文字幕一区二区三| 成人国产精品免费网站| 婷婷综合久久一区二区三区| 久久精品一区二区三区不卡| 欧美主播一区二区三区| 综合中文字幕亚洲| hitomi一区二区三区精品| 麻豆精品在线播放| 亚洲美女一区二区三区| 久久综合视频网|