Exploración de Condiciones para Modelos de Difusión en el Control Robótico

Resumen

Si bien las representaciones visuales preentrenadas han impulsado significativamente el aprendizaje por imitación, a menudo son agnósticas a la tarea, ya que permanecen congeladas durante el aprendizaje de políticas. En este trabajo, exploramos el uso de modelos de difusión de texto a imagen preentrenados para obtener representaciones visuales adaptativas para el control robótico, sin ajustar el modelo en sí. Sin embargo, encontramos que aplicar condiciones textuales de forma ingenua —una estrategia exitosa en otros dominios de visión— produce ganancias mínimas o incluso negativas en tareas de control. Atribuimos esto a la brecha de dominio entre los datos de entrenamiento del modelo de difusión y los entornos de control robótico, lo que nos lleva a proponer condiciones que consideren la información visual específica y dinámica requerida para el control. Con este fin, proponemos ORCA, que introduce indicaciones de tarea adaptables al entorno de control e indicaciones visuales que capturan detalles específicos de cada fotograma. Al facilitar representaciones adaptativas mediante nuestras nuevas condiciones, nuestro método logra un rendimiento de vanguardia en varios benchmarks de control robótico, superando significativamente a métodos anteriores.

English

While pre-trained visual representations have significantly advanced imitation learning, they are often task-agnostic as they remain frozen during policy learning. In this work, we explore leveraging pre-trained text-to-image diffusion models to obtain task-adaptive visual representations for robotic control, without fine-tuning the model itself. However, we find that naively applying textual conditions - a successful strategy in other vision domains - yields minimal or even negative gains in control tasks. We attribute this to the domain gap between the diffusion model's training data and robotic control environments, leading us to argue for conditions that consider the specific, dynamic visual information required for control. To this end, we propose ORCA, which introduces learnable task prompts that adapt to the control environment and visual prompts that capture fine-grained, frame-specific details. Through facilitating task-adaptive representations with our newly devised conditions, our approach achieves state-of-the-art performance on various robotic control benchmarks, significantly surpassing prior methods.

Exploración de Condiciones para Modelos de Difusión en el Control Robótico

Exploring Conditions for Diffusion models in Robotic Control

Resumen

Support