ChatPaper.aiChatPaper

初心者からプロへ:分布収縮型強化学習による効率的なスキル習得

From Prior to Pro: Efficient Skill Mastery via Distribution Contractive RL Finetuning

March 10, 2026
著者: Zhanyi Sun, Shuran Song
cs.AI

要旨

我々は、Distribution Contractive Reinforcement Learning (DICE-RL) を提案する。これは、強化学習 (RL) を「分布縮小」演算子として利用し、事前学習された生成ロボットポリシーを改良するフレームワークである。DICE-RL は、事前学習された行動事前分布を、オンラインフィードバックから得られた高成功率の行動を増幅することで、高性能な「プロ」ポリシーへと変換する。我々は、拡散モデルまたはフローベースのポリシーを広範な行動カバレッジを得るために事前学習し、その後、選択的行動正則化と価値誘導型行動選択を組み合わせた、安定かつサンプル効率の良い残差オフポリシー RL フレームワークを用いて微調整する。大規模な実験と分析により、DICE-RL が強力な安定性とサンプル効率をもって性能を確実に向上させることが示されている。本手法は、シミュレーションおよび実ロボットにおいて、高次元のピクセル入力から直接、複雑な長期視野のマニピュレーション技能を習得することを可能にする。プロジェクトウェブサイト: https://zhanyisun.github.io/dice.rl.2026/。
English
We introduce Distribution Contractive Reinforcement Learning (DICE-RL), a framework that uses reinforcement learning (RL) as a "distribution contraction" operator to refine pretrained generative robot policies. DICE-RL turns a pretrained behavior prior into a high-performing "pro" policy by amplifying high-success behaviors from online feedback. We pretrain a diffusion- or flow-based policy for broad behavioral coverage, then finetune it with a stable, sample-efficient residual off-policy RL framework that combines selective behavior regularization with value-guided action selection. Extensive experiments and analyses show that DICE-RL reliably improves performance with strong stability and sample efficiency. It enables mastery of complex long-horizon manipulation skills directly from high-dimensional pixel inputs, both in simulation and on a real robot. Project website: https://zhanyisun.github.io/dice.rl.2026/.
PDF22March 20, 2026