Act2Goal: Do Modelo Mundial à Política Geral Condicionada por Objetivos

Resumo

A especificação de tarefas de manipulação robótica de forma expressiva e precisa continua sendo um desafio central. Embora objetivos visuais forneçam uma especificação de tarefa compacta e inequívoca, as políticas condicionadas a objetivos existentes frequentemente lutam com a manipração de longo horizonte devido à sua dependência da previsão de ação de etapa única sem modelagem explícita do progresso da tarefa. Propomos o Act2Goal, uma política de manipulação geral condicionada a objetivos que integra um modelo de mundo visual condicionado a objetivos com controle temporal multi-escala. Dada uma observação atual e um objetivo visual alvo, o modelo de mundo gera uma sequência plausível de estados visuais intermediários que captura a estrutura de longo horizonte. Para traduzir este plano visual em execução robusta, introduzimos o Hashing Temporal Multi-Escala (MSTH), que decompõe a trajetória imaginada em quadros proximais densos para controle de malha fechada de granularidade fina e quadros distais esparsos que ancoram a consistência global da tarefa. A política acopla essas representações com o controle motor por meio de atenção cruzada de ponta a ponta, permitindo comportamento coerente de longo horizonte enquanto permanece reativa a perturbações locais. O Act2Goal alcança forte generalização zero-shot para novos objetos, layouts espaciais e ambientes. Além disso, permitimos adaptação online livre de recompensas por meio de re-rotulação de objetivos com hindsight com afinação baseada em LoRA, permitindo melhoria autônoma rápida sem supervisão externa. Experimentos com robôs reais demonstram que o Act2Goal melhora as taxas de sucesso de 30% para 90% em tarefas desafiadoras fora da distribuição em minutos de interação autônoma, validando que modelos de mundo condicionados a objetivos com controle temporal multi-escala fornecem a orientação estruturada necessária para manipulação robusta de longo horizonte. Página do projeto: https://act2goal.github.io/

English

Specifying robotic manipulation tasks in a manner that is both expressive and precise remains a central challenge. While visual goals provide a compact and unambiguous task specification, existing goal-conditioned policies often struggle with long-horizon manipulation due to their reliance on single-step action prediction without explicit modeling of task progress. We propose Act2Goal, a general goal-conditioned manipulation policy that integrates a goal-conditioned visual world model with multi-scale temporal control. Given a current observation and a target visual goal, the world model generates a plausible sequence of intermediate visual states that captures long-horizon structure. To translate this visual plan into robust execution, we introduce Multi-Scale Temporal Hashing (MSTH), which decomposes the imagined trajectory into dense proximal frames for fine-grained closed-loop control and sparse distal frames that anchor global task consistency. The policy couples these representations with motor control through end-to-end cross-attention, enabling coherent long-horizon behavior while remaining reactive to local disturbances. Act2Goal achieves strong zero-shot generalization to novel objects, spatial layouts, and environments. We further enable reward-free online adaptation through hindsight goal relabeling with LoRA-based finetuning, allowing rapid autonomous improvement without external supervision. Real-robot experiments demonstrate that Act2Goal improves success rates from 30% to 90% on challenging out-of-distribution tasks within minutes of autonomous interaction, validating that goal-conditioned world models with multi-scale temporal control provide structured guidance necessary for robust long-horizon manipulation. Project page: https://act2goal.github.io/