Exploración de Condiciones para Modelos de Difusión en el Control Robótico
Exploring Conditions for Diffusion models in Robotic Control
October 17, 2025
Autores: Heeseong Shin, Byeongho Heo, Dongyoon Han, Seungryong Kim, Taekyung Kim
cs.AI
Resumen
Si bien las representaciones visuales preentrenadas han impulsado significativamente el aprendizaje por imitación, a menudo son agnósticas a la tarea, ya que permanecen congeladas durante el aprendizaje de políticas. En este trabajo, exploramos el uso de modelos de difusión de texto a imagen preentrenados para obtener representaciones visuales adaptativas para el control robótico, sin ajustar el modelo en sí. Sin embargo, encontramos que aplicar condiciones textuales de forma ingenua —una estrategia exitosa en otros dominios de visión— produce ganancias mínimas o incluso negativas en tareas de control. Atribuimos esto a la brecha de dominio entre los datos de entrenamiento del modelo de difusión y los entornos de control robótico, lo que nos lleva a proponer condiciones que consideren la información visual específica y dinámica requerida para el control. Con este fin, proponemos ORCA, que introduce indicaciones de tarea adaptables al entorno de control e indicaciones visuales que capturan detalles específicos de cada fotograma. Al facilitar representaciones adaptativas mediante nuestras nuevas condiciones, nuestro método logra un rendimiento de vanguardia en varios benchmarks de control robótico, superando significativamente a métodos anteriores.
English
While pre-trained visual representations have significantly advanced
imitation learning, they are often task-agnostic as they remain frozen during
policy learning. In this work, we explore leveraging pre-trained text-to-image
diffusion models to obtain task-adaptive visual representations for robotic
control, without fine-tuning the model itself. However, we find that naively
applying textual conditions - a successful strategy in other vision domains -
yields minimal or even negative gains in control tasks. We attribute this to
the domain gap between the diffusion model's training data and robotic control
environments, leading us to argue for conditions that consider the specific,
dynamic visual information required for control. To this end, we propose ORCA,
which introduces learnable task prompts that adapt to the control environment
and visual prompts that capture fine-grained, frame-specific details. Through
facilitating task-adaptive representations with our newly devised conditions,
our approach achieves state-of-the-art performance on various robotic control
benchmarks, significantly surpassing prior methods.