Act2Goal: Vom Weltmodell zur allgemeinen zielbedingten Politik
Act2Goal: From World Model To General Goal-conditioned Policy
December 29, 2025
papers.authors: Pengfei Zhou, Liliang Chen, Shengcong Chen, Di Chen, Wenzhi Zhao, Rongjun Jin, Guanghui Ren, Jianlan Luo
cs.AI
papers.abstract
Die Spezifikation von Robotermanipulationsaufgaben auf eine sowohl ausdrucksstarke als auch präzise Weise bleibt eine zentrale Herausforderung. Während visuelle Ziele eine kompakte und eindeutige Aufgabenbeschreibung bieten, haben bestehende zielkonditionierte Strategien oft Schwierigkeiten mit langfristiger Manipulation, da sie auf Einzelschritt-Aktionsvorhersagen ohne explizite Modellierung des Aufgabenfortschritts angewiesen sind. Wir schlagen Act2Goal vor, eine allgemeine zielkonditionierte Manipulationsstrategie, die ein zielkonditioniertes visuelles Weltmodell mit mehrskaliger zeitlicher Steuerung integriert. Gegeben eine aktuelle Beobachtung und ein visuelles Zielzustandsbild, generiert das Weltmodell eine plausible Abfolge von intermediären visuellen Zuständen, die die langfristige Struktur erfasst. Um diesen visuellen Plan in eine robuste Ausführung zu übersetzen, führen wir Multi-Scale Temporal Hashing (MSTH) ein, das die imaginierte Trajektorie in dichte proximale Frames für fein abgestimmte Closed-Loop-Steuerung und spärliche distale Frames zerlegt, die die globale Aufgabenkonsistenz verankern. Die Strategie koppelt diese Repräsentationen durch End-to-End-Cross-Attention mit der Motorsteuerung, wodurch kohärentes langfristiges Verhalten ermöglicht wird, während sie reaktiv auf lokale Störungen bleibt. Act2Goal erreicht eine starke Zero-Shot-Generalisierung auf neue Objekte, räumliche Anordnungen und Umgebungen. Wir ermöglichen weiterhin belohnungsfreie Online-Anpassung durch Hindsight-Goal-Relabeling mit LoRA-basiertem Finetuning, was eine schnelle autonome Verbesserung ohne externe Überwachung erlaubt. Echte-Roboter-Experimente zeigen, dass Act2Goal die Erfolgsrate bei anspruchsvollen Out-of-Distribution-Aufgaben innerhalb von Minuten autonomer Interaktion von 30 % auf 90 % steigert, was bestätigt, dass zielkonditionierte Weltmodelle mit mehrskaliger zeitlicher Steuerung die strukturierte Führung bereitstellen, die für robuste langfristige Manipulation notwendig ist. Projektseite: https://act2goal.github.io/
English
Specifying robotic manipulation tasks in a manner that is both expressive and precise remains a central challenge. While visual goals provide a compact and unambiguous task specification, existing goal-conditioned policies often struggle with long-horizon manipulation due to their reliance on single-step action prediction without explicit modeling of task progress. We propose Act2Goal, a general goal-conditioned manipulation policy that integrates a goal-conditioned visual world model with multi-scale temporal control. Given a current observation and a target visual goal, the world model generates a plausible sequence of intermediate visual states that captures long-horizon structure. To translate this visual plan into robust execution, we introduce Multi-Scale Temporal Hashing (MSTH), which decomposes the imagined trajectory into dense proximal frames for fine-grained closed-loop control and sparse distal frames that anchor global task consistency. The policy couples these representations with motor control through end-to-end cross-attention, enabling coherent long-horizon behavior while remaining reactive to local disturbances. Act2Goal achieves strong zero-shot generalization to novel objects, spatial layouts, and environments. We further enable reward-free online adaptation through hindsight goal relabeling with LoRA-based finetuning, allowing rapid autonomous improvement without external supervision. Real-robot experiments demonstrate that Act2Goal improves success rates from 30% to 90% on challenging out-of-distribution tasks within minutes of autonomous interaction, validating that goal-conditioned world models with multi-scale temporal control provide structured guidance necessary for robust long-horizon manipulation. Project page: https://act2goal.github.io/