ChatPaper.aiChatPaper

LoHoVLA: Ein einheitliches Vision-Sprache-Handlungs-Modell für langfristige verkörperte Aufgaben

LoHoVLA: A Unified Vision-Language-Action Model for Long-Horizon Embodied Tasks

May 31, 2025
Autoren: Yi Yang, Jiaxuan Sun, Siqi Kou, Yihan Wang, Zhijie Deng
cs.AI

Zusammenfassung

Reale, verkörperte Agenten stehen vor langfristigen Aufgaben, die durch hochrangige Ziele gekennzeichnet sind, die mehrstufige Lösungen über einzelne Aktionen hinaus erfordern. Um diese erfolgreich zu bewältigen, sind sowohl die Planung auf hoher Ebene (d.h. die Zerlegung von Zielen in Teilaufgaben) als auch die Steuerung auf niedriger Ebene (d.h. die Erzeugung präziser Roboteraktionen) erforderlich. Während bestehende Vision-Language-Action (VLA)-Modelle und hierarchische Architekturen Potenzial für verkörperte Aufgaben bieten, scheitern erstere oft bei der Planung, und letztere können unter Koordinationsproblemen leiden, was beides die Leistung beeinträchtigt. Wir stellen ein neues, vereinheitlichtes VLA-Framework für langfristige Aufgaben vor, genannt LoHoVLA, um diese Einschränkungen zu überwinden. LoHoVLA nutzt ein großes, vortrainiertes Vision-Language-Modell (VLM) als Rückgrat, um gemeinsam Sprach- und Aktionstokens für die Generierung von Teilaufgaben und die Vorhersage von Roboteraktionen zu erzeugen. Diese gemeinsame Repräsentation fördert eine bessere Generalisierung über Aufgaben hinweg. Darüber hinaus integriert LoHoVLA einen hierarchischen Regelkreis-Mechanismus, um Fehler zu minimieren, die sowohl aus der Planung auf hoher Ebene als auch aus der Steuerung auf niedriger Ebene stammen. Um LoHoVLA zu trainieren, führen wir LoHoSet ein, einen auf dem Ravens-Simulator basierenden Datensatz, der 20 langfristige Aufgaben enthält, jeweils mit 1.000 Experten-Demonstrationen, die aus visuellen Beobachtungen, linguistischen Zielen, Teilaufgaben und Roboteraktionen bestehen. Experimentelle Ergebnisse zeigen, dass LoHoVLA sowohl hierarchische als auch standardmäßige VLA-Ansätze bei langfristigen, verkörperten Aufgaben im Ravens-Simulator deutlich übertrifft. Diese Ergebnisse unterstreichen das Potenzial vereinheitlichter Architekturen für die Weiterentwicklung generalisierbarer, verkörperter Intelligenz.
English
Real-world embodied agents face long-horizon tasks, characterized by high-level goals demanding multi-step solutions beyond single actions. Successfully navigating these requires both high-level task planning (i.e., decomposing goals into sub-tasks) and low-level motion control (i.e., generating precise robot actions). While existing vision language action (VLA) models and hierarchical architectures offer potential in embodied tasks, the former often falter in planning, and the latter can suffer from coordination issues, both hampering performance. We introduce a new unified VLA framework for long-horizon tasks, dubbed LoHoVLA, to overcome these limitations. LoHoVLA leverages a large pretrained vision language model (VLM) as the backbone to jointly generate language and action tokens for sub-task generation and robot action prediction, respectively. This shared representation promotes better generalization across tasks. Additionally, LoHoVLA embraces a hierarchical closed-loop control mechanism to mitigate errors originating from both high-level planning and low-level control. To train LoHoVLA, we introduce LoHoSet, a dataset built on the Ravens simulator, containing 20 long-horizon tasks, each with 1,000 expert demonstrations composed of visual observations, linguistic goals, sub-tasks, and robot actions. Experimental results show that LoHoVLA significantly surpasses both hierarchical and standard VLA approaches on long-horizon embodied tasks in the Ravens simulator. These findings underscore the promise of unified architectures for advancing generalizable embodied intelligence.
PDF282June 3, 2025