ChatPaper.aiChatPaper

Act2Goal: Van Wereldmodel naar Algemene Doelgerichte Beleidsvoering

Act2Goal: From World Model To General Goal-conditioned Policy

December 29, 2025
Auteurs: Pengfei Zhou, Liliang Chen, Shengcong Chen, Di Chen, Wenzhi Zhao, Rongjun Jin, Guanghui Ren, Jianlan Luo
cs.AI

Samenvatting

Het specificeren van robotmanipulatietaken op een manier die zowel expressief als precies is, blijft een centrale uitdaging. Hoewel visuele doelen een compacte en eenduidige taakspecificatie bieden, worstelen bestaande doelgeconditioneerde policies vaak met langetermijnmanipulatie vanwege hun afhankelijkheid van enkelstaps actievoorspelling zonder expliciete modellering van taakvoortgang. Wij presenteren Act2Goal, een algemene doelgeconditioneerde manipulatiewpolicy die een doelgeconditioneerd visueel wereldmodel integreert met multischaal temporele controle. Gegeven een huidige observatie en een visueel doel, genereert het wereldmodel een plausibele reeks tussenliggende visuele toestanden die de langetermijnstructuur vastlegt. Voor de vertaling van dit visuele plan naar robuuste uitvoering introduceren we Multi-Scale Temporal Hashing (MSTH), dat de voorspelde trajectorie decomposeert in dense proximale frames voor fijnmazige closed-loop controle en sparse distale frames die globale taakconsistentie verankeren. De policy koppelt deze representaties via end-to-end cross-attention aan motorcontrole, wat coherent langetermijngedrag mogelijk maakt terwijl lokaal reactief op verstoringen blijft. Act2Goal bereikt sterke zero-shot generalisatie naar nieuwe objecten, ruimtelijke configuraties en omgevingen. We faciliteren verder reward-vrije online aanpassing via hindsight doelherlabeling met LoRA-based finetuning, waardoor snelle autonome verbetering zonder externe supervisie mogelijk wordt. Real-robot experimenten tonen aan dat Act2Goal succespercentages verhoogt van 30% naar 90% op uitdagende out-of-distribution taken binnen minuten van autonome interactie, wat valideert dat doelgeconditioneerde wereldmodellen met multischaal temporele controle de gestructureerde begeleiding bieden die nodig is voor robuuste langetermijnmanipulatie. Projectpagina: https://act2goal.github.io/
English
Specifying robotic manipulation tasks in a manner that is both expressive and precise remains a central challenge. While visual goals provide a compact and unambiguous task specification, existing goal-conditioned policies often struggle with long-horizon manipulation due to their reliance on single-step action prediction without explicit modeling of task progress. We propose Act2Goal, a general goal-conditioned manipulation policy that integrates a goal-conditioned visual world model with multi-scale temporal control. Given a current observation and a target visual goal, the world model generates a plausible sequence of intermediate visual states that captures long-horizon structure. To translate this visual plan into robust execution, we introduce Multi-Scale Temporal Hashing (MSTH), which decomposes the imagined trajectory into dense proximal frames for fine-grained closed-loop control and sparse distal frames that anchor global task consistency. The policy couples these representations with motor control through end-to-end cross-attention, enabling coherent long-horizon behavior while remaining reactive to local disturbances. Act2Goal achieves strong zero-shot generalization to novel objects, spatial layouts, and environments. We further enable reward-free online adaptation through hindsight goal relabeling with LoRA-based finetuning, allowing rapid autonomous improvement without external supervision. Real-robot experiments demonstrate that Act2Goal improves success rates from 30% to 90% on challenging out-of-distribution tasks within minutes of autonomous interaction, validating that goal-conditioned world models with multi-scale temporal control provide structured guidance necessary for robust long-horizon manipulation. Project page: https://act2goal.github.io/
PDF191December 31, 2025