PensaJEPA: Potenziare i Modelli del Mondo Latenti con un Grande Modello di Ragionamento Visivo-Linguistico

Abstract

I recenti progressi nei modelli latenti del mondo (ad esempio, V-JEPA) hanno dimostrato capacità promettenti nel prevedere stati futuri del mondo a partire da osservazioni video. Tuttavia, la previsione densa basata su una breve finestra di osservazione limita il contesto temporale e può portare i predittori a concentrarsi su estrapolazioni locali e di basso livello, rendendo difficile la cattura di semantiche a lungo termine e riducendo l'utilità per compiti a valle. I modelli visione-linguaggio (VLM), al contrario, forniscono un forte ancoraggio semantico e conoscenza generale ragionando su frame campionati uniformemente, ma non sono ideali come predittori densi autonomi a causa del campionamento sparso dettato da esigenze computazionali, di un collo di bottiglia nell'output linguistico che comprime stati di interazione granulari in rappresentazioni orientate al testo, e di un disallineamento nel regime di dati quando adattati a piccoli dataset condizionati all'azione. Proponiamo un framework di modellazione latente del mondo in stile JEPA guidato da VLM che combina la modellazione densa della dinamica dei frame con una guida semantica a lungo termine attraverso un percorso temporale duale: un ramo JEPA denso per cogliere indizi di movimento e interazione fine, e un ramo "pensante" VLM campionato uniformemente con un passo temporale maggiore per una guida ricca di conoscenza. Per trasferire efficacemente i segnali di ragionamento progressivo del VLM, introduciamo un modulo di estrazione della rappresentazione piramidale gerarchica che aggrega le rappresentazioni multi-livello del VLM in caratteristiche di guida compatibili con la previsione latente. Esperimenti sulla previsione di traiettorie di manipolazione manuale mostrano che il nostro metodo supera sia una baseline basata solo su VLM che una baseline basata su predittore JEPA, e produce comportamenti di rollout a lungo termine più robusti.

English

Recent progress in latent world models (e.g., V-JEPA2) has shown promising capability in forecasting future world states from video observations. Nevertheless, dense prediction from a short observation window limits temporal context and can bias predictors toward local, low-level extrapolation, making it difficult to capture long-horizon semantics and reducing downstream utility. Vision--language models (VLMs), in contrast, provide strong semantic grounding and general knowledge by reasoning over uniformly sampled frames, but they are not ideal as standalone dense predictors due to compute-driven sparse sampling, a language-output bottleneck that compresses fine-grained interaction states into text-oriented representations, and a data-regime mismatch when adapting to small action-conditioned datasets. We propose a VLM-guided JEPA-style latent world modeling framework that combines dense-frame dynamics modeling with long-horizon semantic guidance via a dual-temporal pathway: a dense JEPA branch for fine-grained motion and interaction cues, and a uniformly sampled VLM thinker branch with a larger temporal stride for knowledge-rich guidance. To transfer the VLM's progressive reasoning signals effectively, we introduce a hierarchical pyramid representation extraction module that aggregates multi-layer VLM representations into guidance features compatible with latent prediction. Experiments on hand-manipulation trajectory prediction show that our method outperforms both a strong VLM-only baseline and a JEPA-predictor baseline, and yields more robust long-horizon rollout behavior.

PensaJEPA: Potenziare i Modelli del Mondo Latenti con un Grande Modello di Ragionamento Visivo-Linguistico

ThinkJEPA: Empowering Latent World Models with Large Vision-Language Reasoning Model

Abstract

Support