Zielkraft: Videomodelle dazu bringen, physikalisch bedingte Ziele zu erreichen
Goal Force: Teaching Video Models To Accomplish Physics-Conditioned Goals
January 9, 2026
papers.authors: Nate Gillman, Yinghua Zhou, Zitian Tang, Evan Luo, Arjan Chakravarthy, Daksh Aggarwal, Michael Freeman, Charles Herrmann, Chen Sun
cs.AI
papers.abstract
Jüngste Fortschritte in der Videogenerierung haben die Entwicklung von „Weltmodellen“ ermöglicht, die in der Lage sind, potenzielle Zukunftsszenarien für Robotik und Planung zu simulieren. Die präzise Zielvorgabe für diese Modelle bleibt jedoch eine Herausforderung: Textanweisungen sind oft zu abstrakt, um physische Nuancen zu erfassen, während Zielbilder für dynamische Aufgaben häufig nicht praktikabel spezifizierbar sind. Um dieses Problem zu lösen, stellen wir Goal Force vor, einen neuartigen Rahmen, der es Nutzern ermöglicht, Ziele über explizite Kraftvektoren und Zwischendynamiken zu definieren – ähnlich wie Menschen physikalische Aufgaben konzeptualisieren. Wir trainieren ein Videogenerierungsmodell auf einem kuratierten Datensatz synthetischer kausaler Primitive – wie elastische Kollisionen und fallende Dominosteine – und bringen ihm bei, Kräfte durch Zeit und Raum zu propagieren. Obwohl unser Modell nur auf einfachen physikalischen Daten trainiert wurde, zeigt es bemerkenswerte Zero-Shot-Generalisierung auf komplexe, realistische Szenarien, einschließlich Werkzeugmanipulation und kausaler Mehrobjektketten. Unsere Ergebnisse deuten darauf hin, dass Modelle durch die Verankerung der Videogenerierung in grundlegenden physikalischen Wechselwirkungen als implizite neuronale Physiksimulatoren fungieren können, was eine präzise, physikbewusste Planung ohne externe Engines ermöglicht. Wir veröffentlichen alle Datensätze, Code, Modellgewichte und interaktive Videodemos auf unserer Projektseite.
English
Recent advancements in video generation have enabled the development of ``world models'' capable of simulating potential futures for robotics and planning. However, specifying precise goals for these models remains a challenge; text instructions are often too abstract to capture physical nuances, while target images are frequently infeasible to specify for dynamic tasks. To address this, we introduce Goal Force, a novel framework that allows users to define goals via explicit force vectors and intermediate dynamics, mirroring how humans conceptualize physical tasks. We train a video generation model on a curated dataset of synthetic causal primitives-such as elastic collisions and falling dominos-teaching it to propagate forces through time and space. Despite being trained on simple physics data, our model exhibits remarkable zero-shot generalization to complex, real-world scenarios, including tool manipulation and multi-object causal chains. Our results suggest that by grounding video generation in fundamental physical interactions, models can emerge as implicit neural physics simulators, enabling precise, physics-aware planning without reliance on external engines. We release all datasets, code, model weights, and interactive video demos at our project page.