Repenser l'intelligence visuelle : Perspectives issues du pré-entraînement vidéo

papers.abstract

Les grands modèles de langage (LLM) ont démontré qu'un pré-entraînement à grande échelle permet aux systèmes de s'adapter rapidement à de nouveaux problèmes avec peu de supervision dans le domaine linguistique. Cependant, ce succès ne s'est pas traduit aussi efficacement dans le domaine visuel, où les modèles, y compris les LLM, continuent de rencontrer des difficultés avec la compréhension compositionnelle, l'efficacité des échantillons et la résolution de problèmes généraliste. Nous étudions les modèles de diffusion vidéo (VDM) comme une voie prometteuse pour combler cette lacune. Le pré-entraînement sur des données spatiotemporelles dote ces modèles de forts biais inductifs pour la structure et la dynamique, ce qui, selon notre hypothèse, peut soutenir une large adaptabilité aux tâches. Pour tester cela, nous concevons une évaluation contrôlée dans laquelle un LLM pré-entraîné et un VDM pré-entraîné sont équipés d'adaptateurs légers et confrontés à des tâches dans leurs modalités naturelles. Sur des benchmarks incluant ARC-AGI, ConceptARC, des jeux visuels, la planification d'itinéraires et les automates cellulaires, les VDM démontrent une efficacité des données supérieure à leurs homologues linguistiques. Dans l'ensemble, nos résultats indiquent que le pré-entraînement vidéo offre des biais inductifs qui favorisent les progrès vers des modèles fondationnels visuels.

English

Large language models (LLMs) have demonstrated that large-scale pretraining enables systems to adapt rapidly to new problems with little supervision in the language domain. This success, however, has not translated as effectively to the visual domain, where models, including LLMs, continue to struggle with compositional understanding, sample efficiency, and general-purpose problem-solving. We investigate Video Diffusion Models (VDMs) as a promising direction for bridging this gap. Pretraining on spatiotemporal data endows these models with strong inductive biases for structure and dynamics, which we hypothesize can support broad task adaptability. To test this, we design a controlled evaluation in which both a pretrained LLM and a pretrained VDM are equipped with lightweight adapters and presented with tasks in their natural modalities. Across benchmarks including ARC-AGI, ConceptARC, visual games, route planning, and cellular automata, VDMs demonstrate higher data efficiency than their language counterparts. Taken together, our results indicate that video pretraining offers inductive biases that support progress toward visual foundation models.

Repenser l'intelligence visuelle : Perspectives issues du pré-entraînement vidéo

Rethinking Visual Intelligence: Insights from Video Pretraining

papers.abstract

Support