ChatPaper.aiChatPaper

ロボット制御における拡散モデルの適用条件の探求

Exploring Conditions for Diffusion models in Robotic Control

October 17, 2025
著者: Heeseong Shin, Byeongho Heo, Dongyoon Han, Seungryong Kim, Taekyung Kim
cs.AI

要旨

事前学習済み視覚表現は模倣学習を大きく進展させたものの、政策学習中に固定されたままであるため、多くの場合タスク非依存的な性質を持つ。本研究では、モデル自体のファインチューニングを行わずに、ロボット制御のためのタスク適応型視覚表現を獲得するために、事前学習済みテキスト-to-画像拡散モデルの活用を探求する。しかしながら、他の視覚領域で成功しているテキスト条件付けの手法を単純に適用しても、制御タスクでは効果が限定的あるいは逆効果さえ生じることを見出した。この要因を、拡散モデルの学習データとロボット制御環境の間のドメインギャップに帰し、制御に必要な特定の動的視覚情報を考慮した条件付けの必要性を提唱する。この目的のために、我々はORCAを提案する。これは制御環境に適応する学習可能なタスクプロンプトと、細粒度のフレーム固有の詳細を捕捉する視覚プロンプトを導入する。新たに考案した条件付けによるタスク適応型表現の促進を通じて、本手法は様々なロボット制御ベンチマークで従来手法を大幅に上回る最高性能を達成する。
English
While pre-trained visual representations have significantly advanced imitation learning, they are often task-agnostic as they remain frozen during policy learning. In this work, we explore leveraging pre-trained text-to-image diffusion models to obtain task-adaptive visual representations for robotic control, without fine-tuning the model itself. However, we find that naively applying textual conditions - a successful strategy in other vision domains - yields minimal or even negative gains in control tasks. We attribute this to the domain gap between the diffusion model's training data and robotic control environments, leading us to argue for conditions that consider the specific, dynamic visual information required for control. To this end, we propose ORCA, which introduces learnable task prompts that adapt to the control environment and visual prompts that capture fine-grained, frame-specific details. Through facilitating task-adaptive representations with our newly devised conditions, our approach achieves state-of-the-art performance on various robotic control benchmarks, significantly surpassing prior methods.
PDF392December 2, 2025