V-JEPA 2.1: Desbloqueando Recursos Densos no Aprendizado Autossupervisionado de Vídeo

Resumo

Apresentamos o V-JEPA 2.1, uma família de modelos auto supervisionados que aprendem representações visuais densas e de alta qualidade tanto para imagens quanto para vídeos, mantendo uma forte compreensão global da cena. A abordagem combina quatro componentes-chave. Primeiro, uma função de perda preditiva densa utiliza um objetivo baseado em mascaramento no qual tanto os *tokens* visíveis quanto os mascarados contribuem para o sinal de treinamento, incentivando uma ancoragem espacial e temporal explícita. Segundo, a auto supervisão profunda aplica o objetivo auto supervisionado hierarquicamente em múltiplas camadas intermediárias do codificador para melhorar a qualidade da representação. Terceiro, *tokenizers* multimodais permitem o treinamento unificado para imagens e vídeos. Por fim, o modelo beneficia de uma escala eficaz tanto na capacidade do modelo quanto nos dados de treinamento. Juntas, essas escolhas de projeto produzem representações que são espacialmente estruturadas, semanticamente coerentes e temporalmente consistentes. Empiricamente, o V-JEPA 2.1 atinge um desempenho de última geração em diversos benchmarks desafiadores, incluindo 7.71 mAP no Ego4D para antecipação de interação com objetos de curto prazo e 40.8 Recall@5 no EPIC-KITCHENS para antecipação de ações de alto nível, além de uma melhoria de 20 pontos na taxa de sucesso de agarramento com robôs reais em comparação com o V-JEPA-2 AC. O modelo também demonstra um forte desempenho em navegação robótica (5.687 ATE no TartanDrive), estimativa de profundidade (0.307 RMSE no NYUv2 com uma sonda linear) e reconhecimento global (77.7 no Something-Something-V2). Esses resultados mostram que o V-JEPA 2.1 avança significativamente o estado da arte na compreensão visual densa e na modelagem do mundo.

English

We present V-JEPA 2.1, a family of self-supervised models that learn dense, high-quality visual representations for both images and videos while retaining strong global scene understanding. The approach combines four key components. First, a dense predictive loss uses a masking-based objective in which both visible and masked tokens contribute to the training signal, encouraging explicit spatial and temporal grounding. Second, deep self-supervision applies the self-supervised objective hierarchically across multiple intermediate encoder layers to improve representation quality. Third, multi-modal tokenizers enable unified training across images and videos. Finally, the model benefits from effective scaling in both model capacity and training data. Together, these design choices produce representations that are spatially structured, semantically coherent, and temporally consistent. Empirically, V-JEPA 2.1 achieves state-of-the-art performance on several challenging benchmarks, including 7.71 mAP on Ego4D for short-term object-interaction anticipation and 40.8 Recall@5 on EPIC-KITCHENS for high-level action anticipation, as well as a 20-point improvement in real-robot grasping success rate over V-JEPA-2 AC. The model also demonstrates strong performance in robotic navigation (5.687 ATE on TartanDrive), depth estimation (0.307 RMSE on NYUv2 with a linear probe), and global recognition (77.7 on Something-Something-V2). These results show that V-JEPA 2.1 significantly advances the state of the art in dense visual understanding and world modeling.

V-JEPA 2.1: Desbloqueando Recursos Densos no Aprendizado Autossupervisionado de Vídeo

V-JEPA 2.1: Unlocking Dense Features in Video Self-Supervised Learning

Resumo

Support