国产精品免费看_97不卡在线视频_中文字幕综合在线观看_国产成人精品影视_欧美寡妇偷汉性猛交_青青国产在线_国产成人av电影在线观看_精品国产免费av_欧美日韩综合_欧美图片一区二区三区_久久综合精品一区_芒果视频成人app

首頁 >快訊 >

今日關注:X上63萬人圍觀的Traning-Free GRPO:把GRPO搬進上下文空間學習

年初的 DeepSeek-R1,帶來了大模型強化學習(RL)的火爆。無論是數學推理、工具調用,還是多智能體協作,GRPO(Group Relative Policy Optimization)都成了最常見的 RL 算法。


(資料圖片僅供參考)

GRPO 的核心思路很簡單卻強大:

  • 對同一個問題,同時生成多條解答路徑(rollout)
  • 給這些路徑打分,比較組內優劣
  • 再根據優勢信號來更新模型參數,讓模型越來越偏好高質量解法

這種「多路徑并行 + 組內優勢」的機制,雖然比傳統 PPO 等方法更加簡潔,但仍然需要優化模型參數, 太貴了!

  • 在 32B 量級的模型上訓練一次 RL,就可能要花掉上萬美元
  • 如果是 600B 級別的超大模型,成本和工程難度更是上天

這讓 GRPO 雖然強大,卻幾乎只能由巨頭來玩,中小團隊和個人開發者根本「玩不起」。

能不能不改模型參數,也來跑一遍 GRPO?

騰訊優圖的一篇最新論文就提出了一個非常有意思的答案:既然更新參數這么貴,那就不更新參數,直接把 GRPO 的「學習過程」搬進上下文空間!

  • 論文標題:Training-Free Group Relative Policy Optimization
  • arXiv 鏈接:
  • https://arxiv.org/abs/2510.08191
  • GitHub 地址:
  • https://github.com/TencentCloudADP/youtu-agent/tree/training_free_GRPO

Training-Free GRPO 是把 GRPO 訓練的整個范式遷移到了上下文學習之中:

  • 訓練集上多輪迭代學習,然后在獨立的測試集上驗證
  • 每輪中,對同一道題目并行生成多條解答(Rollout)
  • 對比組內不同解法的差異,提取文本型組內優勢(Semantic Group Advantage),對齊 GRPO 里的數值型組內優勢
  • 根據這些文本優勢優化一個文本型 LoRA,對齊 GRPO 里的參數型 LoRA

舉個例子,對于訓練集里這道數學幾何題,模型會生成多個不同的解答路徑(Rollout),可能會出現不同的解題路徑,有的做對了有的做錯了。

隨后,模型總結不同解法的過程與正確性,從而比較同一組內的不同解答。這個過程自然提煉出文本型組內優勢:總結出有的做法為什么對,有的做法為什么錯。比如例子里:

  • 錯誤的解法不僅設錯方向,還沒有做條件約束檢查
  • 成功的解法則正確了設定坐標方向,也系統化驗證了所有條件

在一個迭代里,得到每道題的文本型組內優勢后,模型就把當前批次的優勢都更新文本型 LoRA 里,也就是對經驗庫進行增刪改,沉淀學習到的經驗。

實驗效果

在數學推理上,僅用100 個訓練樣本,花費約 8-18 美元,就能在已經足夠強大的 671B 模型上繼續提升性能。

無論是否采用代碼工具(CI,code interpreter)幫助解題,在 AIME 榜單上的 Mean@32 指標都能實現提升。

令人驚喜的是,在三個輪次中,訓練集和測試集的平均工具調用次數均有所減少。這表明 Training-Free GRPO 不僅能夠鼓勵正確的推理和行動,還能教會代理找捷徑,更高效明智地使用工具。

而在網頁搜索場景中,Training-Free GRPO 同樣無需更新模型參數,即可在 DeepSeek-V3.1-Terminus 強悍水平之上,實現了 4.6% 的 Pass@1 顯著提升。

為什么需要 Training-Free GRPO?

  • 保留 GRPO 的強化學習優勢

多路徑探索、group advantage、多輪迭代、完全獨立的訓練與測試集……這些 GRPO 的精華一項不少,全部在上下文層面重現了出來。

  • 成本暴降

不用訓練模型參數,僅需少量數據,并且全程只靠 API 隨用隨付!

只需 8~18 美元以及 100 條訓練數據,就能在 671B LLM 上跑完多輪的強化學習訓練!遠遠低于 32B 模型的訓練成本。

  • 泛化更好

與 Self-Refine 這類就地改寫不同,Training-Free GRPO 是在獨立數據集上多輪迭代訓練的,對測試集里的 Out-of-Domain (OOD) 數據都有顯著提升。

并且,參數微調后的 32B 級別模型往往只能勝任特定窄域任務,可能需要多個專用模型來覆蓋完整業務需求,顯著增加了系統復雜度和維護成本。而 Training-Free GRPO 只需要一個統一的模型和 API 就可以泛化到不同的場景!

小結:RL 不一定非得有梯度

過去我們默認,強化學習就意味著參數更新。雖然前期有一些上下文空間優化的探索如 Self-Refine、Reflexion、TextGrad 等,但 Training-Free GRPO 與他們不同,完全對齊了參數空間 RL 訓練的流程和細節:

  • 把 GRPO 的「獨立訓練集 + 多輪迭代 + 并行 Rollout + 組內優勢」這套 RL 訓練范式,整體遷移到上下文空間,在不訓練模型的情況下,也能獲得強化學習效果。
  • 這讓超大模型的 RL 優化變得廉價、靈活、可持續,也給每個開發者的小業務提供了用得起的新方案。

本文方法已開源,歡迎 Star 和試用!

預告:Training-Free GRPO 將作為一個新功能集成到 Youtu-Agent 框架中,幫助開發者們進一步提升各種自定義場景的效果。

注:成本計算基于 DeepSeek API 官方定價,實際可能因使用情況而有所波動。

關鍵詞: 調用 算法 上下文 空間學習 深度思考模

責任編輯:Rex_22

欧美大香线蕉线伊人久久| 成人久久久久久| 免费在线视频你懂得| av成人免费在线观看| yellow视频在线观看一区二区 | 99这里只有久久精品视频| 欧美成人蜜桃| 黄色日韩精品| 亚洲自拍av在线| 日韩在线高清| 国产精品久久一| 欧美亚洲国产激情| 国产精品视频xxx| 99精品美女| 亚洲最大av在线| 欧美日韩国产精品一区二区亚洲| 国产综合色香蕉精品| 手机亚洲手机国产手机日韩| 国产精品99一区| 99国产精品一区二区| 91精品在线观| 亚洲三级毛片| 日韩电影在线播放| 久久黄色级2电影| av 日韩 人妻 黑人 综合 无码| 久久97超碰色| 欧美二区在线视频| 中文av一区二区| 免费黄视频网站| 欧美午夜激情小视频| 午夜激情视频在线| 亚洲国产另类久久精品| 韩国成人在线| 久久久久久有精品国产| 一区三区在线欧| 1卡2卡3卡精品视频| 一本久道久久综合狠狠爱| 日韩欧美第二区在线观看| 久久精品99久久久| 欧美黄色免费影院| 亚洲激情欧美激情| yourporn在线观看中文站| 亚洲第一av网| 日本精品视频| 国产免费一区二区三区在线观看| 伊人久久久大香线蕉综合直播| 日韩wuma| 久久久久国产精品麻豆| 色老板在线视频| 欧美亚洲日本国产| 亚洲欧美韩国| 4p变态网欧美系列| 一本色道久久综合亚洲精品高清| 亚洲高清视频一区| 久久亚洲欧美国产精品乐播| 动漫黄在线观看| 欧美mv日韩mv国产网站app| 亚洲福利影视| 91在线网站视频| 国产专区欧美精品| 色老板亚洲精品一区| 精品国产免费人成在线观看| 视频一区中文字幕精品| 国产福利久久| 久久综合九色综合久久久精品综合 | 日本久久精品电影| 欧美日韩成人影院| 国产欧美精品日韩精品| 免费亚洲网站| 日本超碰在线观看| 亚洲精品一区二区三区四区高清 | 熟女性饥渴一区二区三区| 亚洲一区日韩精品中文字幕| 在线观看av免费| 97免费视频在线播放| 久久激情视频| 成年人免费网站| 亚洲人成77777在线观看网| 欧美超碰在线| 免费无码av片在线观看| 欧美网站一区二区| 国产欧美自拍一区| 亚洲精品欧美精品| 亚洲国产毛片aaaaa无费看| av2020不卡| 国产美女91呻吟求| 91欧美激情一区二区三区成人| 国产在线一二三区| 久久久久久久国产精品视频| 日韩国产成人精品| 在线播放91| 久久777国产线看观看精品| 日精品一区二区三区| 真不卡电影网| 午夜精品一区二区三区视频免费看 | 日韩大陆欧美高清视频区| 91亚洲国产高清| 538在线视频观看| 日韩麻豆第一页| 午夜欧美精品久久久久久久| 爆乳熟妇一区二区三区霸乳| 日韩久久精品一区| 激情婷婷欧美| 中文在线一二区| 久久久久久香蕉网| 不卡av在线免费观看| 成人在线黄色电影| 久久riav| 精品动漫一区二区| 性欧美lx╳lx╳| 欧美日韩在线免费播放| 亚洲午夜女主播在线直播| 久久午夜激情| 国产98在线| 5566中文字幕一区二区| 亚洲精品乱码久久久久久久久| 国产精品毛片无码| 亚洲天堂第一区| 亚洲精品成人久久| 免费日本视频一区| 色在线视频网| 亚洲第一导航| 日韩av中文字幕在线播放| 美女诱惑黄网站一区| jyzzz在线观看视频| 国产精品久久久一区二区三区| 欧美日韩日本国产| 欧美伊人影院| av国产在线观看| 精品国产乱码一区二区三区四区 | 黄网站app在线观看大全免费视频| 国内伊人久久久久久网站视频 | 日本三日本三级少妇三级66| 51精品久久久久久久蜜臀| 亚洲理论在线| 天天在线视频色| 久久国产精品 国产精品| 欧美在线免费视屏| 在线欧美福利| 黄色小网站在线观看| 免费99视频| 日韩av在线网址| 99精品国产视频| 精品无人区一区二区| 中文乱码字幕高清在线观看| 成人国产精品久久久| 欧美日韩国产一区二区三区地区| 国产精品外国| 日本一本在线免费福利| 加勒比海盗1在线观看免费国语版| 亚洲桃花岛网站| av资源网一区| 天堂资源在线亚洲| 国产一区二区三区福利| 无码免费一区二区三区免费播放| 精品日韩99亚洲| 国产不卡一区视频| 国产福利一区二区精品秒拍| 午夜影院免费| 国偷自产av一区二区三区小尤奈| 日韩欧美国产一二三区| 97久久精品人人做人人爽50路| 国产成人aa在线观看网站站| 中文字幕免费在线视频| 久久影院理伦片| 一区二区福利视频| 亚洲欧洲日产国产综合网| 欧美日韩hd| 亚洲一区二区三区四区| www.三区| 深夜福利成人| 久久全国免费视频| 91官网在线免费观看| 国产自产高清不卡| 人体久久天天| 黄色av电影在线播放| 日韩精品 欧美| 96sao精品视频在线观看| 亚洲美女av在线播放| 亚洲色图在线播放| 久久午夜精品一区二区| 久久久精品区| 黄视频网站在线| 成人毛片免费在线观看| 九色综合婷婷综合| 欧美国产日产韩国视频| 欧美熟乱第一页| 99精品国产热久久91蜜凸| 欧美黄色一区二区| 国产精品美女久久久久人| 国产区视频在线播放| 国内外成人激情视频| 国产精品久久久对白| 中文字幕亚洲欧美在线| 天天亚洲美女在线视频| 成人动漫一区二区三区| 亚洲欧洲综合| 国产成人手机高清在线观看网站| 深夜福利视频一区二区| 国产乱视频在线观看|