Força de Objetivo: Ensinando Modelos de Vídeo a Alcançar Metas Condicionadas pela Física

Resumo

Os recentes avanços na geração de vídeo permitiram o desenvolvimento de "modelos de mundo" capazes de simular futuros potenciais para robótica e planeamento. No entanto, especificar objetivos precisos para estes modelos continua a ser um desafio; as instruções em texto são frequentemente demasiado abstratas para captar nuances físicas, enquanto as imagens-alvo são muitas vezes inviáveis de especificar para tarefas dinâmicas. Para resolver isto, introduzimos o Goal Force, uma nova estrutura que permite aos utilizadores definir objetivos através de vetores de força explícitos e dinâmicas intermédias, espelhando a forma como os humanos conceptualizam tarefas físicas. Treinamos um modelo de geração de vídeo num conjunto de dados curado de primitivas causais sintéticas—como colisões elásticas e dominós a cair—ensinando-o a propagar forças no tempo e no espaço. Apesar de ter sido treinado com dados de física simples, o nosso modelo exibe uma notável generalização zero-shot para cenários complexos do mundo real, incluindo manipulação de ferramentas e cadeias causais multiobjeto. Os nossos resultados sugerem que, ao fundamentar a geração de vídeo em interações físicas fundamentais, os modelos podem emergir como simuladores de física neural implícitos, permitindo um planeamento preciso e consciente da física sem depender de motores externos. Disponibilizamos todos os conjuntos de dados, código, pesos do modelo e demonstrações de vídeo interativas na nossa página do projeto.

English

Recent advancements in video generation have enabled the development of ``world models'' capable of simulating potential futures for robotics and planning. However, specifying precise goals for these models remains a challenge; text instructions are often too abstract to capture physical nuances, while target images are frequently infeasible to specify for dynamic tasks. To address this, we introduce Goal Force, a novel framework that allows users to define goals via explicit force vectors and intermediate dynamics, mirroring how humans conceptualize physical tasks. We train a video generation model on a curated dataset of synthetic causal primitives-such as elastic collisions and falling dominos-teaching it to propagate forces through time and space. Despite being trained on simple physics data, our model exhibits remarkable zero-shot generalization to complex, real-world scenarios, including tool manipulation and multi-object causal chains. Our results suggest that by grounding video generation in fundamental physical interactions, models can emerge as implicit neural physics simulators, enabling precise, physics-aware planning without reliance on external engines. We release all datasets, code, model weights, and interactive video demos at our project page.

Força de Objetivo: Ensinando Modelos de Vídeo a Alcançar Metas Condicionadas pela Física

Goal Force: Teaching Video Models To Accomplish Physics-Conditioned Goals

Resumo

Support