ChatPaper.aiChatPaper

Exploration des conditions d'utilisation des modèles de diffusion pour le contrôle robotique

Exploring Conditions for Diffusion models in Robotic Control

October 17, 2025
papers.authors: Heeseong Shin, Byeongho Heo, Dongyoon Han, Seungryong Kim, Taekyung Kim
cs.AI

papers.abstract

Si les représentations visuelles pré-entraînées ont considérablement fait progresser l'apprentissage par imitation, elles sont souvent agnostiques à la tâche car elles restent figées pendant l'apprentissage de la politique. Dans ce travail, nous explorons l'exploitation de modèles de diffusion texte-image pré-entraînés pour obtenir des représentations visuelles adaptatives pour le contrôle robotique, sans fine-tuning du modèle lui-même. Cependant, nous constatons qu'appliquer naïvement les conditions textuelles – une stratégie pourtant efficace dans d'autres domaines de la vision – apporte des gains minimes, voire négatifs, dans les tâches de contrôle. Nous attribuons cela à l'écart de domaine entre les données d'entraînement du modèle de diffusion et les environnements de contrôle robotique, ce qui nous amène à plaider pour des conditions qui prennent en compte les informations visuelles dynamiques et spécifiques requises pour le contrôle. Pour cela, nous proposons ORCA, qui introduit des prompts de tâche apprenables s'adaptant à l'environnement de contrôle et des prompts visuels capturant des détails fins et spécifiques à chaque image. En facilitant l'obtention de représentations adaptatives via nos nouvelles conditions, notre approche atteint des performances de pointe sur divers benchmarks de contrôle robotique, surpassant significativement les méthodes antérieures.
English
While pre-trained visual representations have significantly advanced imitation learning, they are often task-agnostic as they remain frozen during policy learning. In this work, we explore leveraging pre-trained text-to-image diffusion models to obtain task-adaptive visual representations for robotic control, without fine-tuning the model itself. However, we find that naively applying textual conditions - a successful strategy in other vision domains - yields minimal or even negative gains in control tasks. We attribute this to the domain gap between the diffusion model's training data and robotic control environments, leading us to argue for conditions that consider the specific, dynamic visual information required for control. To this end, we propose ORCA, which introduces learnable task prompts that adapt to the control environment and visual prompts that capture fine-grained, frame-specific details. Through facilitating task-adaptive representations with our newly devised conditions, our approach achieves state-of-the-art performance on various robotic control benchmarks, significantly surpassing prior methods.
PDF392December 2, 2025