ChatPaper.aiChatPaper

Untersuchung der Bedingungen für Diffusionsmodelle in der Robotiksteuerung

Exploring Conditions for Diffusion models in Robotic Control

October 17, 2025
papers.authors: Heeseong Shin, Byeongho Heo, Dongyoon Han, Seungryong Kim, Taekyung Kim
cs.AI

papers.abstract

Während vortrainierte visuelle Repräsentationen das Imitationslernen erheblich vorangebracht haben, sind sie oft aufgabenagnostisch, da sie während des Politik-Lernens eingefroren bleiben. In dieser Arbeit untersuchen wir die Nutzung vortrainierter Text-zu-Bild-Diffusionsmodelle, um aufgabenadaptive visuelle Repräsentationen für die Robotiksteuerung zu erhalten, ohne das Modell selbst feinabzustimmen. Wir stellen jedoch fest, dass die naive Anwendung textueller Bedingungen – eine erfolgreiche Strategie in anderen Vision-Bereichen – bei Steuerungsaufgaben nur minimale oder sogar negative Verbesserungen bringt. Wir führen dies auf die Domänenlücke zwischen den Trainingsdaten des Diffusionsmodells und Robotiksteuerungsumgebungen zurück, was uns zu der Forderung nach Bedingungen veranlasst, die die spezifischen, dynamischen visuellen Informationen berücksichtigen, die für die Steuerung erforderlich sind. Zu diesem Zweck schlagen wir ORCA vor, das lernbare Aufgaben-Prompts einführt, die sich an die Steuerungsumgebung anpassen, und visuelle Prompts, die feinkörnige, framespezifische Details erfassen. Durch die Ermöglichung aufgabenadaptiver Repräsentationen mit unseren neu entwickelten Bedingungen erzielt unser Ansatz state-of-the-art Leistung in verschiedenen Robotiksteuerungs-Benchmarks und übertrifft bisherige Methoden deutlich.
English
While pre-trained visual representations have significantly advanced imitation learning, they are often task-agnostic as they remain frozen during policy learning. In this work, we explore leveraging pre-trained text-to-image diffusion models to obtain task-adaptive visual representations for robotic control, without fine-tuning the model itself. However, we find that naively applying textual conditions - a successful strategy in other vision domains - yields minimal or even negative gains in control tasks. We attribute this to the domain gap between the diffusion model's training data and robotic control environments, leading us to argue for conditions that consider the specific, dynamic visual information required for control. To this end, we propose ORCA, which introduces learnable task prompts that adapt to the control environment and visual prompts that capture fine-grained, frame-specific details. Through facilitating task-adaptive representations with our newly devised conditions, our approach achieves state-of-the-art performance on various robotic control benchmarks, significantly surpassing prior methods.
PDF392December 2, 2025