ThinkJEPA: Расширение возможностей латентных мировых моделей с помощью крупной модели визуально-языкового мышления
ThinkJEPA: Empowering Latent World Models with Large Vision-Language Reasoning Model
March 23, 2026
Авторы: Haichao Zhang, Yijiang Li, Shwai He, Tushar Nagarajan, Mingfei Chen, Jianglin Lu, Ang Li, Yun Fu
cs.AI
Аннотация
Последние достижения в области латентных моделей мира (например, V-JEPA2) продемонстрировали значительный потенциал в прогнозировании будущих состояний мира на основе видеонаблюдений. Тем не менее, плотное предсказание из короткого окна наблюдения ограничивает временной контекст и может смещать предсказания в сторону локальной, низкоуровневой экстраполяции, что затрудняет capture долгосрочной семантики и снижает полезность для последующих задач. Модели "зрение–язык" (VLMs), напротив, обеспечивают сильную семантическую обоснованность и общие знания за счет рассуждений по равномерно сэмплированным кадрам, но они не идеальны в качестве самостоятельных плотных предсказателей из-за разреженной выборки, обусловленной вычислительными затратами, узкого места в виде языкового вывода, которое сжимает состояния тонкого взаимодействия в ориентированные на текст представления, и несоответствия режима данных при адаптации к малым наборам данных с условиями действий. Мы предлагаем фреймворк латентного моделирования мира в стиле JEPA с управлением от VLM, который сочетает моделирование динамики плотных кадров с долгосрочным семантическим руководством через двухвременной путь: плотную ветвь JEPA для тонких сигналов движения и взаимодействия и равномерно сэмплированную "мыслящую" ветвь VLM с большим временным шагом для насыщенного знаниями руководства. Для эффективной передачи прогрессирующих сигналов рассуждения VLM мы вводим модуль извлечения иерархических пирамидальных представлений, который агрегирует многоуровневые представления VLM в признаки руководства, совместимые с латентным предсказанием. Эксперименты по прогнозированию траекторий манипуляций руками показывают, что наш метод превосходит как сильный базовый уровень только на VLM, так и базовый уровень на основе JEPA-предсказателя, и обеспечивает более устойчивое поведение при долгосрочном прогоне.
English
Recent progress in latent world models (e.g., V-JEPA2) has shown promising capability in forecasting future world states from video observations. Nevertheless, dense prediction from a short observation window limits temporal context and can bias predictors toward local, low-level extrapolation, making it difficult to capture long-horizon semantics and reducing downstream utility. Vision--language models (VLMs), in contrast, provide strong semantic grounding and general knowledge by reasoning over uniformly sampled frames, but they are not ideal as standalone dense predictors due to compute-driven sparse sampling, a language-output bottleneck that compresses fine-grained interaction states into text-oriented representations, and a data-regime mismatch when adapting to small action-conditioned datasets. We propose a VLM-guided JEPA-style latent world modeling framework that combines dense-frame dynamics modeling with long-horizon semantic guidance via a dual-temporal pathway: a dense JEPA branch for fine-grained motion and interaction cues, and a uniformly sampled VLM thinker branch with a larger temporal stride for knowledge-rich guidance. To transfer the VLM's progressive reasoning signals effectively, we introduce a hierarchical pyramid representation extraction module that aggregates multi-layer VLM representations into guidance features compatible with latent prediction. Experiments on hand-manipulation trajectory prediction show that our method outperforms both a strong VLM-only baseline and a JEPA-predictor baseline, and yields more robust long-horizon rollout behavior.