ChatPaper.aiChatPaper

Explorando Condições para Modelos de Difusão no Controle Robótico

Exploring Conditions for Diffusion models in Robotic Control

October 17, 2025
Autores: Heeseong Shin, Byeongho Heo, Dongyoon Han, Seungryong Kim, Taekyung Kim
cs.AI

Resumo

Embora as representações visuais pré-treinadas tenham avançado significativamente a aprendizagem por imitação, elas frequentemente são agnósticas à tarefa, pois permanecem congeladas durante o aprendizado da política. Neste trabalho, exploramos a utilização de modelos de difusão texto-imagem pré-treinados para obter representações visuais adaptativas para tarefas de controle robótico, sem ajustar o próprio modelo. No entanto, descobrimos que a aplicação ingênua de condições textuais - uma estratégia bem-sucedida em outros domínios da visão computacional - produz ganhos mínimos ou mesmo negativos em tarefas de controle. Atribuímos isso à lacuna de domínio entre os dados de treinamento do modelo de difusão e os ambientes de controle robótico, levando-nos a defender condições que considerem as informações visuais dinâmicas e específicas necessárias para o controle. Para isso, propomos o ORCA, que introduz *prompts* de tarefa aprendíveis que se adaptam ao ambiente de controle e *prompts* visuais que capturam detalhes refinados e específicos de cada quadro. Ao facilitar representações adaptativas à tarefa com nossas condições recém-desenvolvidas, nossa abordagem atinge desempenho de ponta em vários benchmarks de controle robótico, superando significativamente métodos anteriores.
English
While pre-trained visual representations have significantly advanced imitation learning, they are often task-agnostic as they remain frozen during policy learning. In this work, we explore leveraging pre-trained text-to-image diffusion models to obtain task-adaptive visual representations for robotic control, without fine-tuning the model itself. However, we find that naively applying textual conditions - a successful strategy in other vision domains - yields minimal or even negative gains in control tasks. We attribute this to the domain gap between the diffusion model's training data and robotic control environments, leading us to argue for conditions that consider the specific, dynamic visual information required for control. To this end, we propose ORCA, which introduces learnable task prompts that adapt to the control environment and visual prompts that capture fine-grained, frame-specific details. Through facilitating task-adaptive representations with our newly devised conditions, our approach achieves state-of-the-art performance on various robotic control benchmarks, significantly surpassing prior methods.
PDF392December 2, 2025