Act2Goal : Du modèle du monde à la politique générale conditionnée par un objectif
Act2Goal: From World Model To General Goal-conditioned Policy
December 29, 2025
papers.authors: Pengfei Zhou, Liliang Chen, Shengcong Chen, Di Chen, Wenzhi Zhao, Rongjun Jin, Guanghui Ren, Jianlan Luo
cs.AI
papers.abstract
La spécification de tâches de manipulation robotique d'une manière à la fois expressive et précise reste un défi central. Bien que les objectifs visuels fournissent une spécification de tâche compacte et non ambiguë, les politiques conditionnées par objectif existantes peinent souvent avec la manipulation à long horizon en raison de leur dépendance à la prédiction d'actions en une seule étape sans modélisation explicite de la progression de la tâche. Nous proposons Act2Goal, une politique de manipulation générale conditionnée par objectif qui intègre un modèle visuel du monde conditionné par objectif avec un contrôle temporel multi-échelle. Étant donné une observation actuelle et un objectif visuel cible, le modèle du monde génère une séquence plausible d'états visuels intermédiaires qui capture la structure à long horizon. Pour traduire ce plan visuel en une exécution robuste, nous introduisons le Hachage Temporel Multi-Échelle (MSTH), qui décompose la trajectoire imaginée en images proximales denses pour un contrôle en boucle fermée à grain fin et en images distales éparses qui ancrent la cohérence globale de la tâche. La politique couple ces représentations avec le contrôle moteur par attention croisée de bout en bout, permettant un comportement cohérent à long horizon tout en restant réactive aux perturbations locales. Act2Goal atteint une forte généralisation zero-shot à de nouveaux objets, agencements spatiaux et environnements. Nous permettons en outre une adaptation en ligne sans récompense par re-étiquetage rétrospectif d'objectifs avec un affinage basé sur LoRA, permettant une amélioration autonome rapide sans supervision externe. Les expériences sur robot réel démontrent qu'Act2Goal améliore les taux de réussite de 30% à 90% sur des tâches hors distribution difficiles en quelques minutes d'interaction autonome, validant que les modèles du monde conditionnés par objectif avec contrôle temporel multi-échelle fournissent le guidage structuré nécessaire pour une manipulation robuste à long horizon. Page du projet : https://act2goal.github.io/
English
Specifying robotic manipulation tasks in a manner that is both expressive and precise remains a central challenge. While visual goals provide a compact and unambiguous task specification, existing goal-conditioned policies often struggle with long-horizon manipulation due to their reliance on single-step action prediction without explicit modeling of task progress. We propose Act2Goal, a general goal-conditioned manipulation policy that integrates a goal-conditioned visual world model with multi-scale temporal control. Given a current observation and a target visual goal, the world model generates a plausible sequence of intermediate visual states that captures long-horizon structure. To translate this visual plan into robust execution, we introduce Multi-Scale Temporal Hashing (MSTH), which decomposes the imagined trajectory into dense proximal frames for fine-grained closed-loop control and sparse distal frames that anchor global task consistency. The policy couples these representations with motor control through end-to-end cross-attention, enabling coherent long-horizon behavior while remaining reactive to local disturbances. Act2Goal achieves strong zero-shot generalization to novel objects, spatial layouts, and environments. We further enable reward-free online adaptation through hindsight goal relabeling with LoRA-based finetuning, allowing rapid autonomous improvement without external supervision. Real-robot experiments demonstrate that Act2Goal improves success rates from 30% to 90% on challenging out-of-distribution tasks within minutes of autonomous interaction, validating that goal-conditioned world models with multi-scale temporal control provide structured guidance necessary for robust long-horizon manipulation. Project page: https://act2goal.github.io/