Doel Kracht: Videomodellen Leren Doelen met Natuurkundige Randvoorwaarden te Bereiken
Goal Force: Teaching Video Models To Accomplish Physics-Conditioned Goals
January 9, 2026
Auteurs: Nate Gillman, Yinghua Zhou, Zitian Tang, Evan Luo, Arjan Chakravarthy, Daksh Aggarwal, Michael Freeman, Charles Herrmann, Chen Sun
cs.AI
Samenvatting
Recente vooruitgang in videogeneratie heeft de ontwikkeling mogelijk gemaakt van "wereldmodellen" die potentiële toekomsten kunnen simuleren voor robotica en planning. Het specificeren van precieze doelen voor deze modellen blijft echter een uitdaging; tekstinstructies zijn vaak te abstract om fysieke nuances vast te leggen, terwijl doelafbeeldingen vaak onhaalbaar zijn om te specificeren voor dynamische taken. Om dit aan te pakken, introduceren we Goal Force, een nieuw raamwerk waarmee gebruikers doelen kunnen definiëren via expliciete krachtvectoren en tussenliggende dynamiek, vergelijkbaar met hoe mensen fysieke taken conceptualiseren. We trainen een videogeneratiemodel op een gecureerde dataset van synthetische causale primitieven – zoals elastische botsingen en vallende dominostenen – om het krachten door tijd en ruimte te leren voortplanten. Ondanks training op eenvoudige fysicadata vertoont ons model opmerkelijke zero-shot generalisatie naar complexe, realistische scenario's, inclusief gereedschapsmanipulatie en causale ketens met meerdere objecten. Onze resultaten suggereren dat door videogeneratie te verankeren in fundamentele fysieke interacties, modellen kunnen opkomen als impliciete neurale fysicasimulators, waardoor precieze, fysica-bewuste planning mogelijk wordt zonder afhankelijkheid van externe engines. We publiceren alle datasets, code, modelgewichten en interactieve videodemo's op onze projectpagina.
English
Recent advancements in video generation have enabled the development of ``world models'' capable of simulating potential futures for robotics and planning. However, specifying precise goals for these models remains a challenge; text instructions are often too abstract to capture physical nuances, while target images are frequently infeasible to specify for dynamic tasks. To address this, we introduce Goal Force, a novel framework that allows users to define goals via explicit force vectors and intermediate dynamics, mirroring how humans conceptualize physical tasks. We train a video generation model on a curated dataset of synthetic causal primitives-such as elastic collisions and falling dominos-teaching it to propagate forces through time and space. Despite being trained on simple physics data, our model exhibits remarkable zero-shot generalization to complex, real-world scenarios, including tool manipulation and multi-object causal chains. Our results suggest that by grounding video generation in fundamental physical interactions, models can emerge as implicit neural physics simulators, enabling precise, physics-aware planning without reliance on external engines. We release all datasets, code, model weights, and interactive video demos at our project page.