Goal Force: Insegnare ai Modelli Video a Raggiungere Obiettivi Condizionati dalla Fisica

Abstract

I recenti progressi nella generazione video hanno permesso lo sviluppo di "modelli mondiali" in grado di simulare futuri potenziali per la robotica e la pianificazione. Tuttavia, specificare obiettivi precisi per questi modelli rimane una sfida; le istruzioni testuali sono spesso troppo astratte per cogliere le sfumature fisiche, mentre le immagini target sono spesso irrealizzabili da specificare per compiti dinamici. Per affrontare questo problema, introduciamo Goal Force, un nuovo framework che consente agli utenti di definire obiettivi tramite vettori di forza espliciti e dinamiche intermedie, riflettendo il modo in cui gli umani concettualizzano i compiti fisici. Addestriamo un modello di generazione video su un dataset curato di primitive causali sintetiche—come collisioni elastiche e domino che cadono—insegnandogli a propagare le forze attraverso il tempo e lo spazio. Nonostante l'addestramento su dati fisici semplici, il nostro modello mostra una notevole generalizzazione zero-shot a scenari complessi del mondo reale, inclusa la manipolazione di utensili e catene causali multi-oggetto. I nostri risultati suggeriscono che, ancorando la generazione video a interazioni fisiche fondamentali, i modelli possono emergere come simulatori fisici neurali impliciti, consentendo una pianificazione precisa e consapevole della fisica senza dipendere da motori esterni. Rilasciamo tutti i dataset, il codice, i pesi del modello e le demo video interattive sulla nostra pagina del progetto.

English

Recent advancements in video generation have enabled the development of ``world models'' capable of simulating potential futures for robotics and planning. However, specifying precise goals for these models remains a challenge; text instructions are often too abstract to capture physical nuances, while target images are frequently infeasible to specify for dynamic tasks. To address this, we introduce Goal Force, a novel framework that allows users to define goals via explicit force vectors and intermediate dynamics, mirroring how humans conceptualize physical tasks. We train a video generation model on a curated dataset of synthetic causal primitives-such as elastic collisions and falling dominos-teaching it to propagate forces through time and space. Despite being trained on simple physics data, our model exhibits remarkable zero-shot generalization to complex, real-world scenarios, including tool manipulation and multi-object causal chains. Our results suggest that by grounding video generation in fundamental physical interactions, models can emerge as implicit neural physics simulators, enabling precise, physics-aware planning without reliance on external engines. We release all datasets, code, model weights, and interactive video demos at our project page.

Goal Force: Insegnare ai Modelli Video a Raggiungere Obiettivi Condizionati dalla Fisica

Goal Force: Teaching Video Models To Accomplish Physics-Conditioned Goals

Abstract

Support