Esplorazione delle condizioni per i modelli di diffusione nel controllo robotico
Exploring Conditions for Diffusion models in Robotic Control
October 17, 2025
Autori: Heeseong Shin, Byeongho Heo, Dongyoon Han, Seungryong Kim, Taekyung Kim
cs.AI
Abstract
Sebbene le rappresentazioni visive pre-addestrate abbiano fatto progredire significativamente l'apprendimento per imitazione, sono spesso indipendenti dal compito poiché rimangono congelate durante l'apprendimento della politica. In questo lavoro, esploriamo l'utilizzo di modelli di diffusione testo-immagine pre-addestrati per ottenere rappresentazioni visive adattive al compito per il controllo robotico, senza mettere a punto il modello stesso. Tuttavia, riscontriamo che applicare ingenuamente le condizioni testuali - una strategia di successo in altri ambiti visivi - produce guadagni minimi o addirittura negativi nei compiti di controllo. Attribuiamo ciò al divario di dominio tra i dati di addestramento del modello di diffusione e gli ambienti di controllo robotico, portandoci a sostenere l'uso di condizioni che considerino le specifiche informazioni visive dinamiche richieste per il controllo. A tal fine, proponiamo ORCA, che introduce prompt di compito apprendibili che si adattano all'ambiente di controllo e prompt visivi che catturano dettagli granulari e specifici per il fotogramma. Facilitando rappresentazioni adattive al compito con le nostre nuove condizioni, il nostro approccio raggiunge prestazioni all'avanguardia su varie benchmark di controllo robotico, superando significativamente i metodi precedenti.
English
While pre-trained visual representations have significantly advanced
imitation learning, they are often task-agnostic as they remain frozen during
policy learning. In this work, we explore leveraging pre-trained text-to-image
diffusion models to obtain task-adaptive visual representations for robotic
control, without fine-tuning the model itself. However, we find that naively
applying textual conditions - a successful strategy in other vision domains -
yields minimal or even negative gains in control tasks. We attribute this to
the domain gap between the diffusion model's training data and robotic control
environments, leading us to argue for conditions that consider the specific,
dynamic visual information required for control. To this end, we propose ORCA,
which introduces learnable task prompts that adapt to the control environment
and visual prompts that capture fine-grained, frame-specific details. Through
facilitating task-adaptive representations with our newly devised conditions,
our approach achieves state-of-the-art performance on various robotic control
benchmarks, significantly surpassing prior methods.