ChatPaper.aiChatPaper

Исследование условий применения моделей диффузии в робототехническом управлении

Exploring Conditions for Diffusion models in Robotic Control

October 17, 2025
Авторы: Heeseong Shin, Byeongho Heo, Dongyoon Han, Seungryong Kim, Taekyung Kim
cs.AI

Аннотация

Хотя предварительно обученные визуальные представления значительно продвинули имитационное обучение, они часто оказываются неспецифичными для задачи, поскольку остаются замороженными в процессе обучения политики. В данной работе мы исследуем возможность использования предварительно обученных диффузионных моделей "текст-изображение" для получения адаптивных к задаче визуальных представлений в робототехнике без тонкой настройки самой модели. Однако мы обнаружили, что наивное применение текстовых условий — успешная стратегия в других областях компьютерного зрения — дает минимальный или даже отрицательный эффект в задачах управления. Мы объясняем это разрывом между данными, на которых обучалась диффузионная модель, и средами роботизированного управления, что заставляет нас утверждать необходимость условий, учитывающих специфическую, динамическую визуальную информацию, требуемую для управления. Для решения этой проблемы мы предлагаем ORCA, которая вводит обучаемые промпты задач, адаптирующиеся к среде управления, и визуальные промпты, захватывающие детализированную, специфичную для кадра информацию. Благодаря обеспечению адаптивных к задаче представлений с помощью наших новых условий, наш подход достигает наилучших результатов на различных робототехнических бенчмарках, значительно превосходя предыдущие методы.
English
While pre-trained visual representations have significantly advanced imitation learning, they are often task-agnostic as they remain frozen during policy learning. In this work, we explore leveraging pre-trained text-to-image diffusion models to obtain task-adaptive visual representations for robotic control, without fine-tuning the model itself. However, we find that naively applying textual conditions - a successful strategy in other vision domains - yields minimal or even negative gains in control tasks. We attribute this to the domain gap between the diffusion model's training data and robotic control environments, leading us to argue for conditions that consider the specific, dynamic visual information required for control. To this end, we propose ORCA, which introduces learnable task prompts that adapt to the control environment and visual prompts that capture fine-grained, frame-specific details. Through facilitating task-adaptive representations with our newly devised conditions, our approach achieves state-of-the-art performance on various robotic control benchmarks, significantly surpassing prior methods.
PDF392December 2, 2025