FRAPPE: Infusão de Modelagem de Mundo em Políticas Generalistas via Alinhamento de Múltiplas Representações Futuras

Resumo

A capacidade de os modelos VLA preverem a dinâmica ambiental, conhecida como modelação do mundo, tem sido reconhecida como essencial para melhorar o raciocínio e a generalização robótica. No entanto, as abordagens atuais enfrentam dois problemas principais: 1. O objetivo de treino força os modelos a sobrevalorizar a reconstrução a nível de píxeis, o que limita a aprendizagem semântica e a generalização; 2. A dependência de observações futuras previstas durante a inferência frequentemente leva à acumulação de erros. Para enfrentar estes desafios, introduzimos o Alinhamento de Representações Futuras via Expansão Paralela Progressiva (FRAPPE). O nosso método adota uma estratégia de afinação em duas fases: Na fase de meio-treino, o modelo aprende a prever as representações latentes das observações futuras; Na fase de pós-treino, expandimos a carga computacional em paralelo e alinhamos a representação simultaneamente com múltiplos modelos visuais fundamentais diferentes. Ao melhorar significativamente a eficiência da afinação e reduzir a dependência de dados anotados com ações, o FRAPPE fornece um caminho escalável e eficiente em dados para melhorar a consciência do mundo em políticas robóticas generalistas. Experiências no benchmark RoboTwin e em tarefas do mundo real demonstram que o FRAPPE supera as abordagens state-of-the-art e mostra uma forte generalização em cenários de longo horizonte e não observados.

English

Enabling VLA models to predict environmental dynamics, known as world modeling, has been recognized as essential for improving robotic reasoning and generalization. However, current approaches face two main issues: 1. The training objective forces models to over-emphasize pixel-level reconstruction, which constrains semantic learning and generalization 2. Reliance on predicted future observations during inference often leads to error accumulation. To address these challenges, we introduce Future Representation Alignment via Parallel Progressive Expansion (FRAPPE). Our method adopts a two-stage fine-tuning strategy: In the mid-training phase, the model learns to predict the latent representations of future observations; In the post-training phase, we expand the computational workload in parallel and align the representation simultaneously with multiple different visual foundation models. By significantly improving fine-tuning efficiency and reducing dependence on action-annotated data, FRAPPE provides a scalable and data-efficient pathway to enhance world-awareness in generalist robotic policies. Experiments on the RoboTwin benchmark and real-world tasks demonstrate that FRAPPE outperforms state-of-the-art approaches and shows strong generalization in long-horizon and unseen scenarios.

FRAPPE: Infusão de Modelagem de Mundo em Políticas Generalistas via Alinhamento de Múltiplas Representações Futuras

FRAPPE: Infusing World Modeling into Generalist Policies via Multiple Future Representation Alignment

Resumo

Support