ChatPaper.aiChatPaper

Force de But : Enseigner aux modèles vidéo à accomplir des objectifs conditionnés par la physique

Goal Force: Teaching Video Models To Accomplish Physics-Conditioned Goals

January 9, 2026
papers.authors: Nate Gillman, Yinghua Zhou, Zitian Tang, Evan Luo, Arjan Chakravarthy, Daksh Aggarwal, Michael Freeman, Charles Herrmann, Chen Sun
cs.AI

papers.abstract

Les progrès récents en génération vidéo ont permis le développement de « modèles du monde » capables de simuler des futurs potentiels pour la robotique et la planification. Cependant, la spécification d'objectifs précis pour ces modèles reste un défi ; les instructions textuelles sont souvent trop abstraites pour saisir les nuances physiques, tandis que les images cibles sont fréquemment impossibles à spécifier pour des tâches dynamiques. Pour résoudre ce problème, nous présentons Goal Force, un nouveau cadre qui permet aux utilisateurs de définir des objectifs via des vecteurs de force explicites et une dynamique intermédiaire, reflétant la façon dont les humains conceptualisent les tâches physiques. Nous entraînons un modèle de génération vidéo sur un ensemble de données soigneusement sélectionné de primitives causales synthétiques – telles que les collisions élastiques et les dominos qui tombent – pour lui apprendre à propager les forces dans le temps et l'espace. Bien qu'entraîné sur des données de physique simples, notre modèle démontre une remarquable généralisation zero-shot à des scénarios complexes du monde réel, incluant la manipulation d'outils et les chaînes causales multi-objets. Nos résultats suggèrent qu'en ancrant la génération vidéo dans des interactions physiques fondamentales, les modèles peuvent émerger en tant que simulateurs de physique neuronaux implicites, permettant une planification précise et consciente de la physique sans dépendre de moteurs externes. Nous publions tous les jeux de données, le code, les poids des modèles et les démonstrations vidéo interactives sur notre page projet.
English
Recent advancements in video generation have enabled the development of ``world models'' capable of simulating potential futures for robotics and planning. However, specifying precise goals for these models remains a challenge; text instructions are often too abstract to capture physical nuances, while target images are frequently infeasible to specify for dynamic tasks. To address this, we introduce Goal Force, a novel framework that allows users to define goals via explicit force vectors and intermediate dynamics, mirroring how humans conceptualize physical tasks. We train a video generation model on a curated dataset of synthetic causal primitives-such as elastic collisions and falling dominos-teaching it to propagate forces through time and space. Despite being trained on simple physics data, our model exhibits remarkable zero-shot generalization to complex, real-world scenarios, including tool manipulation and multi-object causal chains. Our results suggest that by grounding video generation in fundamental physical interactions, models can emerge as implicit neural physics simulators, enabling precise, physics-aware planning without reliance on external engines. We release all datasets, code, model weights, and interactive video demos at our project page.
PDF111January 13, 2026