ChatPaper.aiChatPaper

Fuerza Objetivo: Enseñando a Modelos de Video a Lograr Metas Condicionadas por la Física

Goal Force: Teaching Video Models To Accomplish Physics-Conditioned Goals

January 9, 2026
Autores: Nate Gillman, Yinghua Zhou, Zitian Tang, Evan Luo, Arjan Chakravarthy, Daksh Aggarwal, Michael Freeman, Charles Herrmann, Chen Sun
cs.AI

Resumen

Los recientes avances en generación de vídeo han permitido el desarrollo de "modelos del mundo" capaces de simular futuros potenciales para la robótica y la planificación. Sin embargo, especificar objetivos precisos para estos modelos sigue siendo un desafío; las instrucciones de texto suelen ser demasiado abstractas para capturar matices físicos, mientras que las imágenes objetivo a menudo no son factibles de especificar para tareas dinámicas. Para abordar esto, presentamos Goal Force, un marco novedoso que permite a los usuarios definir objetivos mediante vectores de fuerza explícitos y dinámicas intermedias, reflejando cómo los humanos conceptualizan tareas físicas. Entrenamos un modelo de generación de vídeo en un conjunto de datos curando de primitivas causales sintéticas—como colisiones elásticas y fichas de dominó cayendo—enseñándole a propagar fuerzas a través del tiempo y el espacio. A pesar de estar entrenado con datos de física simple, nuestro modelo exhibe una notable generalización zero-shot a escenarios complejos del mundo real, incluyendo la manipulación de herramientas y cadenas causales multi-objeto. Nuestros resultados sugieren que, al fundamentar la generación de vídeo en interacciones físicas fundamentales, los modelos pueden surgir como simuladores de física neuronal implícitos, permitiendo una planificación precisa y consciente de la física sin depender de motores externos. Publicamos todos los conjuntos de datos, código, pesos del modelo y demostraciones de vídeo interactivas en nuestra página del proyecto.
English
Recent advancements in video generation have enabled the development of ``world models'' capable of simulating potential futures for robotics and planning. However, specifying precise goals for these models remains a challenge; text instructions are often too abstract to capture physical nuances, while target images are frequently infeasible to specify for dynamic tasks. To address this, we introduce Goal Force, a novel framework that allows users to define goals via explicit force vectors and intermediate dynamics, mirroring how humans conceptualize physical tasks. We train a video generation model on a curated dataset of synthetic causal primitives-such as elastic collisions and falling dominos-teaching it to propagate forces through time and space. Despite being trained on simple physics data, our model exhibits remarkable zero-shot generalization to complex, real-world scenarios, including tool manipulation and multi-object causal chains. Our results suggest that by grounding video generation in fundamental physical interactions, models can emerge as implicit neural physics simulators, enabling precise, physics-aware planning without reliance on external engines. We release all datasets, code, model weights, and interactive video demos at our project page.
PDF111January 13, 2026