Act2Goal: Del Modelo Mundial a la Política General Condicionada por Objetivos
Act2Goal: From World Model To General Goal-conditioned Policy
December 29, 2025
Autores: Pengfei Zhou, Liliang Chen, Shengcong Chen, Di Chen, Wenzhi Zhao, Rongjun Jin, Guanghui Ren, Jianlan Luo
cs.AI
Resumen
La especificación de tareas de manipulación robótica de manera expresiva y precisa sigue siendo un desafío central. Si bien los objetivos visuales proporcionan una especificación de tarea compacta y no ambigua, las políticas existentes condicionadas por objetivos a menudo luchan con la manipración de horizonte largo debido a su dependencia de la predicción de acciones de un solo paso sin un modelado explícito del progreso de la tarea. Proponemos Act2Goal, una política de manipulación general condicionada por objetivos que integra un modelo visual del mundo condicionado por objetivos con control temporal multi-escala. Dada una observación actual y un objetivo visual destino, el modelo del mundo genera una secuencia plausible de estados visuales intermedios que captura la estructura de horizonte largo. Para traducir este plan visual en una ejecución robusta, introducimos el *Hashing Temporal Multi-Escala* (MSTH), que descompone la trayectoria imaginada en fotogramas proximales densos para un control de bucle cerrado de grano fino y fotogramas distales dispersos que anclan la consistencia global de la tarea. La política acopla estas representaciones con el control motor mediante atención cruzada de extremo a extremo, permitiendo un comportamiento coherente a largo plazo mientras se mantiene reactiva a las perturbaciones locales. Act2Goal logra una fuerte generalización *zero-shot* a objetos nuevos, disposiciones espaciales y entornos. Además, habilitamos una adaptación online libre de recompensas mediante el re-etiquetado de objetivos *hindsight* con ajuste fino basado en LoRA, permitiendo una mejora autónoma rápida sin supervisión externa. Los experimentos con robots reales demuestran que Act2Goal mejora las tasas de éxito del 30% al 90% en tareas desafiantes fuera de distribución en minutos de interacción autónoma, validando que los modelos del mundo condicionados por objetivos con control temporal multi-escala proporcionan la guía estructurada necesaria para una manipulación robusta de horizonte largo. Página del proyecto: https://act2goal.github.io/
English
Specifying robotic manipulation tasks in a manner that is both expressive and precise remains a central challenge. While visual goals provide a compact and unambiguous task specification, existing goal-conditioned policies often struggle with long-horizon manipulation due to their reliance on single-step action prediction without explicit modeling of task progress. We propose Act2Goal, a general goal-conditioned manipulation policy that integrates a goal-conditioned visual world model with multi-scale temporal control. Given a current observation and a target visual goal, the world model generates a plausible sequence of intermediate visual states that captures long-horizon structure. To translate this visual plan into robust execution, we introduce Multi-Scale Temporal Hashing (MSTH), which decomposes the imagined trajectory into dense proximal frames for fine-grained closed-loop control and sparse distal frames that anchor global task consistency. The policy couples these representations with motor control through end-to-end cross-attention, enabling coherent long-horizon behavior while remaining reactive to local disturbances. Act2Goal achieves strong zero-shot generalization to novel objects, spatial layouts, and environments. We further enable reward-free online adaptation through hindsight goal relabeling with LoRA-based finetuning, allowing rapid autonomous improvement without external supervision. Real-robot experiments demonstrate that Act2Goal improves success rates from 30% to 90% on challenging out-of-distribution tasks within minutes of autonomous interaction, validating that goal-conditioned world models with multi-scale temporal control provide structured guidance necessary for robust long-horizon manipulation. Project page: https://act2goal.github.io/