ThinkJEPA: Het Versterken van Latente Wereldmodellen met een Groot Visueel-Taal Redeneermodel

Samenvatting

Recente vooruitgang in latente wereldmodellen (zoals V-JEPA2) heeft veelbelovende capaciteit getoond om toekomstige wereldtoestanden te voorspellen uit videoobservaties. Toch beperkt dichte voorspelling vanuit een kort observatievenster de temporele context en kan het voorspellers bevooroordelen richting lokale, laag-niveau extrapolatie, waardoor het moeilijk wordt om semantiek op lange termijn vast te leggen en de bruikbaarheid voor downstreamtaken afneemt. Vision-language modellen (VLMs) daarentegen bieden een sterke semantische verankering en algemene kennis door te redeneren over uniform bemonsterde frames, maar zij zijn niet ideaal als zelfstandige dichte voorspellers vanwege compute-gedreven sparse sampling, een taal-output bottleneck die fijnmazige interactietoestanden comprimeert tot tekstgerichte representaties, en een data-regime mismatch bij aanpassing aan kleine actie-geconditioneerde datasets. Wij stellen een VLM-gestuurd JEPA-stijl latent wereldmodel voor dat dichte-frame dynamiekmodellering combineert met semantische begeleiding op lange termijn via een dubbel temporeel pad: een dichte JEPA-tak voor fijnmazige beweging en interactie-signalen, en een uniform bemonsterde VLM-denkerstak met een grotere temporele stap voor kennisrijke begeleiding. Om de progressieve redeneersignalen van de VLM effectief over te dragen, introduceren we een hiërarchische piramide-representatie-extractiemodule die multi-layer VLM-representaties aggregeert tot begeleidingsfeatures die compatibel zijn met latente voorspelling. Experimenten met voorspelling van handmanipulatietrajectorieën tonen aan dat onze methode zowel een sterke VLM-only baseline als een JEPA-voorspellerbaseline overtreft, en robuuster uitrolgedrag op lange termijn oplevert.

English

Recent progress in latent world models (e.g., V-JEPA2) has shown promising capability in forecasting future world states from video observations. Nevertheless, dense prediction from a short observation window limits temporal context and can bias predictors toward local, low-level extrapolation, making it difficult to capture long-horizon semantics and reducing downstream utility. Vision--language models (VLMs), in contrast, provide strong semantic grounding and general knowledge by reasoning over uniformly sampled frames, but they are not ideal as standalone dense predictors due to compute-driven sparse sampling, a language-output bottleneck that compresses fine-grained interaction states into text-oriented representations, and a data-regime mismatch when adapting to small action-conditioned datasets. We propose a VLM-guided JEPA-style latent world modeling framework that combines dense-frame dynamics modeling with long-horizon semantic guidance via a dual-temporal pathway: a dense JEPA branch for fine-grained motion and interaction cues, and a uniformly sampled VLM thinker branch with a larger temporal stride for knowledge-rich guidance. To transfer the VLM's progressive reasoning signals effectively, we introduce a hierarchical pyramid representation extraction module that aggregates multi-layer VLM representations into guidance features compatible with latent prediction. Experiments on hand-manipulation trajectory prediction show that our method outperforms both a strong VLM-only baseline and a JEPA-predictor baseline, and yields more robust long-horizon rollout behavior.

ThinkJEPA: Het Versterken van Latente Wereldmodellen met een Groot Visueel-Taal Redeneermodel

ThinkJEPA: Empowering Latent World Models with Large Vision-Language Reasoning Model

Samenvatting

Support