Act2Goal: Dal Modello del Mondo alla Politica Generale Condizionata agli Obiettivi

Abstract

Definire le attività di manipolazione robotica in modo sia espressivo che preciso rimane una sfida centrale. Sebbene gli obiettivi visivi forniscano una specifica compatta e non ambigua del compito, le politiche condizionate all'obiettivo esistenti spesso incontrano difficoltà con la manipolazione a lungo termine a causa della loro dipendenza dalla previsione di azioni a singolo passo, senza una modellizzazione esplicita del progresso del compito. Proponiamo Act2Goal, una politica generale di manipolazione condizionata all'obiettivo che integra un modello visivo del mondo condizionato all'obiettivo con un controllo temporale multi-scala. Dati un'osservazione corrente e un obiettivo visivo target, il modello del mondo genera una sequenza plausibile di stati visivi intermedi che cattura la struttura a lungo termine. Per tradurre questo piano visivo in un'esecuzione robusta, introduciamo il Multi-Scale Temporal Hashing (MSTH), che scompone la traiettoria immaginata in frame prossimali densi per un controllo a ciclo chiuso granulare e in frame distali sparsi che ancorano la coerenza globale del compito. La politica accoppia queste rappresentazioni con il controllo motorio attraverso un meccanismo di cross-attention end-to-end, consentendo un comportamento coerente a lungo termine rimanendo reattiva ai disturbi locali. Act2Goal raggiunge una forte generalizzazione zero-shot verso nuovi oggetti, layout spaziali e ambienti. Abilitiamo inoltre un adattamento online senza ricompensa tramite rilabeling retrospettivo degli obiettivi con fine-tuning basato su LoRA, permettendo un rapido miglioramento autonomo senza supervisione esterna. Esperimenti su robot reali dimostrano che Act2Goal migliora i tassi di successo dal 30% al 90% su compiti complessi fuori distribuzione in pochi minuti di interazione autonoma, convalidando che i modelli del mondo condizionati all'obiettivo con controllo temporale multi-scala forniscono la guida strutturata necessaria per una manipolazione robusta a lungo termine. Pagina del progetto: https://act2goal.github.io/

English

Specifying robotic manipulation tasks in a manner that is both expressive and precise remains a central challenge. While visual goals provide a compact and unambiguous task specification, existing goal-conditioned policies often struggle with long-horizon manipulation due to their reliance on single-step action prediction without explicit modeling of task progress. We propose Act2Goal, a general goal-conditioned manipulation policy that integrates a goal-conditioned visual world model with multi-scale temporal control. Given a current observation and a target visual goal, the world model generates a plausible sequence of intermediate visual states that captures long-horizon structure. To translate this visual plan into robust execution, we introduce Multi-Scale Temporal Hashing (MSTH), which decomposes the imagined trajectory into dense proximal frames for fine-grained closed-loop control and sparse distal frames that anchor global task consistency. The policy couples these representations with motor control through end-to-end cross-attention, enabling coherent long-horizon behavior while remaining reactive to local disturbances. Act2Goal achieves strong zero-shot generalization to novel objects, spatial layouts, and environments. We further enable reward-free online adaptation through hindsight goal relabeling with LoRA-based finetuning, allowing rapid autonomous improvement without external supervision. Real-robot experiments demonstrate that Act2Goal improves success rates from 30% to 90% on challenging out-of-distribution tasks within minutes of autonomous interaction, validating that goal-conditioned world models with multi-scale temporal control provide structured guidance necessary for robust long-horizon manipulation. Project page: https://act2goal.github.io/

Act2Goal: Dal Modello del Mondo alla Politica Generale Condizionata agli Obiettivi

Act2Goal: From World Model To General Goal-conditioned Policy

Abstract

Support