로봇 제어에서의 확산 모델 적용 조건 탐구
Exploring Conditions for Diffusion models in Robotic Control
October 17, 2025
저자: Heeseong Shin, Byeongho Heo, Dongyoon Han, Seungryong Kim, Taekyung Kim
cs.AI
초록
사전 훈련된 시각 표현이 모방 학습을 크게 발전시켰지만, 정책 학습 중에 고정된 상태로 남아 있어 종종 작업에 무관한(task-agnostic) 특성을 보입니다. 본 연구에서는 모델 자체를 미세 조정하지 않고 로봇 제어를 위한 작업 적응형 시각 표현을 얻기 위해 사전 훈련된 텍스트-이미지 확산 모델 활용 방안을 탐구합니다. 그러나 다른 비전 영역에서 성공적인 전략인 텍스트 조건을 단순히 적용하는 것은 제어 작업에서 최소한의 이득만을 보이거나 오히려 성능 저하를 초래함을 발견했습니다. 우리는 이를 확산 모델의 훈련 데이터와 로봇 제어 환경 간의 영역 차이(domain gap)로 귀결 지으며, 제어에 필요한 구체적이고 동적인 시각 정보를 고려한 조건의 필요성을 주장합니다. 이를 위해 우리는 제어 환경에 적응하는 학습 가능한 작업 프롬프트(task prompt)와 프레임별 세부 사항을 포착하는 시각 프롬프트(visual prompt)를 도입한 ORCA를 제안합니다. 새롭게 설계된 조건을 통해 작업 적응형 표현을 용이하게 하는 우리의 접근 방식은 다양한 로봇 제어 벤치마크에서 기존 방법들을 크게 능가하는 최첨단 성능을 달성합니다.
English
While pre-trained visual representations have significantly advanced
imitation learning, they are often task-agnostic as they remain frozen during
policy learning. In this work, we explore leveraging pre-trained text-to-image
diffusion models to obtain task-adaptive visual representations for robotic
control, without fine-tuning the model itself. However, we find that naively
applying textual conditions - a successful strategy in other vision domains -
yields minimal or even negative gains in control tasks. We attribute this to
the domain gap between the diffusion model's training data and robotic control
environments, leading us to argue for conditions that consider the specific,
dynamic visual information required for control. To this end, we propose ORCA,
which introduces learnable task prompts that adapt to the control environment
and visual prompts that capture fine-grained, frame-specific details. Through
facilitating task-adaptive representations with our newly devised conditions,
our approach achieves state-of-the-art performance on various robotic control
benchmarks, significantly surpassing prior methods.