ChatPaper.aiChatPaper

Onderzoek naar Condities voor Diffusiemodellen bij Robotbesturing

Exploring Conditions for Diffusion models in Robotic Control

October 17, 2025
Auteurs: Heeseong Shin, Byeongho Heo, Dongyoon Han, Seungryong Kim, Taekyung Kim
cs.AI

Samenvatting

Hoewel vooraf getrainde visuele representaties een aanzienlijke vooruitgang hebben geboekt in imitatieleren, zijn ze vaak taakonafhankelijk omdat ze tijdens het beleidsleren bevroren blijven. In dit werk onderzoeken we hoe we vooraf getrainde tekst-naar-beeld diffusiemodellen kunnen benutten om taakadaptieve visuele representaties voor robotbesturing te verkrijgen, zonder het model zelf te fine-tunen. We stellen echter vast dat een naïeve toepassing van tekstuele condities - een succesvolle strategie in andere visiedomeinen - minimale of zelfs negatieve resultaten oplevert bij besturingstaken. Wij schrijven dit toe aan de domeinkloof tussen de trainingsdata van het diffusiemodel en robotbesturingsomgevingen, wat ons doet pleiten voor condities die rekening houden met de specifieke, dynamische visuele informatie die nodig is voor besturing. Hiertoe stellen we ORCA voor, dat leerbare taakprompts introduceert die zich aanpassen aan de besturingsomgeving en visuele prompts die fijnmazige, framespecifieke details vastleggen. Door taakadaptieve representaties mogelijk te maken met onze nieuw ontworpen condities, behaalt onze aanpak state-of-the-art prestaties op diverse robotbesturingsbenchmarks, waarbij eerdere methodes significant worden overtroffen.
English
While pre-trained visual representations have significantly advanced imitation learning, they are often task-agnostic as they remain frozen during policy learning. In this work, we explore leveraging pre-trained text-to-image diffusion models to obtain task-adaptive visual representations for robotic control, without fine-tuning the model itself. However, we find that naively applying textual conditions - a successful strategy in other vision domains - yields minimal or even negative gains in control tasks. We attribute this to the domain gap between the diffusion model's training data and robotic control environments, leading us to argue for conditions that consider the specific, dynamic visual information required for control. To this end, we propose ORCA, which introduces learnable task prompts that adapt to the control environment and visual prompts that capture fine-grained, frame-specific details. Through facilitating task-adaptive representations with our newly devised conditions, our approach achieves state-of-the-art performance on various robotic control benchmarks, significantly surpassing prior methods.
PDF392December 2, 2025