Repenser l'intelligence visuelle : Perspectives issues du pré-entraînement vidéo
Rethinking Visual Intelligence: Insights from Video Pretraining
October 28, 2025
papers.authors: Pablo Acuaviva, Aram Davtyan, Mariam Hassan, Sebastian Stapf, Ahmad Rahimi, Alexandre Alahi, Paolo Favaro
cs.AI
papers.abstract
Les grands modèles de langage (LLM) ont démontré qu'un pré-entraînement à grande échelle permet aux systèmes de s'adapter rapidement à de nouveaux problèmes avec peu de supervision dans le domaine linguistique. Cependant, ce succès ne s'est pas traduit aussi efficacement dans le domaine visuel, où les modèles, y compris les LLM, continuent de rencontrer des difficultés avec la compréhension compositionnelle, l'efficacité des échantillons et la résolution de problèmes généraliste. Nous étudions les modèles de diffusion vidéo (VDM) comme une voie prometteuse pour combler cette lacune. Le pré-entraînement sur des données spatiotemporelles dote ces modèles de forts biais inductifs pour la structure et la dynamique, ce qui, selon notre hypothèse, peut soutenir une large adaptabilité aux tâches. Pour tester cela, nous concevons une évaluation contrôlée dans laquelle un LLM pré-entraîné et un VDM pré-entraîné sont équipés d'adaptateurs légers et confrontés à des tâches dans leurs modalités naturelles. Sur des benchmarks incluant ARC-AGI, ConceptARC, des jeux visuels, la planification d'itinéraires et les automates cellulaires, les VDM démontrent une efficacité des données supérieure à leurs homologues linguistiques. Dans l'ensemble, nos résultats indiquent que le pré-entraînement vidéo offre des biais inductifs qui favorisent les progrès vers des modèles fondationnels visuels.
English
Large language models (LLMs) have demonstrated that large-scale pretraining
enables systems to adapt rapidly to new problems with little supervision in the
language domain. This success, however, has not translated as effectively to
the visual domain, where models, including LLMs, continue to struggle with
compositional understanding, sample efficiency, and general-purpose
problem-solving. We investigate Video Diffusion Models (VDMs) as a promising
direction for bridging this gap. Pretraining on spatiotemporal data endows
these models with strong inductive biases for structure and dynamics, which we
hypothesize can support broad task adaptability. To test this, we design a
controlled evaluation in which both a pretrained LLM and a pretrained VDM are
equipped with lightweight adapters and presented with tasks in their natural
modalities. Across benchmarks including ARC-AGI, ConceptARC, visual games,
route planning, and cellular automata, VDMs demonstrate higher data efficiency
than their language counterparts. Taken together, our results indicate that
video pretraining offers inductive biases that support progress toward visual
foundation models.