ThinkJEPA: Capacitando Modelos Mundiais Latentes com Grandes Modelos de Raciocínio Visuo-Linguístico

Resumo

Os recentes avanços em modelos de mundo latente (por exemplo, V-JEPA) têm demonstrado capacidades promissoras na previsão de estados futuros do mundo a partir de observações em vídeo. No entanto, a previsão densa a partir de uma janela de observação curta limita o contexto temporal e pode enviesar os preditores para uma extrapolação local e de baixo nível, dificultando a captura de semântica de longo prazo e reduzindo a utilidade para tarefas subsequentes. Em contraste, os modelos de visão e linguagem (VLMs) fornecem uma base semântica robusta e conhecimento geral ao raciocinar sobre quadros amostrados uniformemente, mas não são ideais como preditores densos autónomos devido à amostragem esparsa motivada por restrições computacionais, a um gargalo de saída em linguagem que comprime estados de interação de granularidade fina em representações orientadas a texto, e a um desajuste de regime de dados ao adaptarem-se a conjuntos de dados pequenos e condicionados por ações. Propomos uma estrutura de modelação de mundo latente no estilo JEPA guiada por VLM que combina a modelação de dinâmica de quadros densos com orientação semântica de longo prazo através de uma via de dupla temporalidade: um ramo JEPA denso para pistas de movimento e interação de granularidade fina, e um ramo "pensante" VLM, amostrado uniformemente com um *stride* temporal maior, para orientação rica em conhecimento. Para transferir eficazmente os sinais de raciocínio progressivo do VLM, introduzimos um módulo de extração de representação em pirâmide hierárquica que agrega representações de múltiplas camadas do VLM em características de orientação compatíveis com a previsão latente. Experiências na previsão de trajetórias de manipulação manual mostram que o nosso método supera tanto uma linha de base forte baseada apenas em VLM como uma linha de base de preditor JEPA, e produz um comportamento de *rollout* de longo prazo mais robusto.

English

Recent progress in latent world models (e.g., V-JEPA2) has shown promising capability in forecasting future world states from video observations. Nevertheless, dense prediction from a short observation window limits temporal context and can bias predictors toward local, low-level extrapolation, making it difficult to capture long-horizon semantics and reducing downstream utility. Vision--language models (VLMs), in contrast, provide strong semantic grounding and general knowledge by reasoning over uniformly sampled frames, but they are not ideal as standalone dense predictors due to compute-driven sparse sampling, a language-output bottleneck that compresses fine-grained interaction states into text-oriented representations, and a data-regime mismatch when adapting to small action-conditioned datasets. We propose a VLM-guided JEPA-style latent world modeling framework that combines dense-frame dynamics modeling with long-horizon semantic guidance via a dual-temporal pathway: a dense JEPA branch for fine-grained motion and interaction cues, and a uniformly sampled VLM thinker branch with a larger temporal stride for knowledge-rich guidance. To transfer the VLM's progressive reasoning signals effectively, we introduce a hierarchical pyramid representation extraction module that aggregates multi-layer VLM representations into guidance features compatible with latent prediction. Experiments on hand-manipulation trajectory prediction show that our method outperforms both a strong VLM-only baseline and a JEPA-predictor baseline, and yields more robust long-horizon rollout behavior.

ThinkJEPA: Capacitando Modelos Mundiais Latentes com Grandes Modelos de Raciocínio Visuo-Linguístico

ThinkJEPA: Empowering Latent World Models with Large Vision-Language Reasoning Model

Resumo

Support