Une étude empirique de la pré-formation autorégressive à partir de vidéos
An Empirical Study of Autoregressive Pre-training from Videos
January 9, 2025
Auteurs: Jathushan Rajasegaran, Ilija Radosavovic, Rahul Ravishankar, Yossi Gandelsman, Christoph Feichtenhofer, Jitendra Malik
cs.AI
Résumé
Nous étudions empiriquement la pré-formation autorégressive à partir de vidéos. Pour mener notre étude, nous construisons une série de modèles vidéo autorégressifs, appelés Toto. Nous considérons les vidéos comme des séquences de jetons visuels et entraînons des modèles de transformateur à prédire de manière autorégressive les jetons futurs. Nos modèles sont pré-entraînés sur un ensemble de données diversifié de vidéos et d'images comprenant plus de 1 billion de jetons visuels. Nous explorons différentes options de conception architecturale, d'entraînement et d'inférence. Nous évaluons les représentations visuelles apprises sur une gamme de tâches secondaires, y compris la reconnaissance d'images, la classification vidéo, le suivi d'objets et la robotique. Nos résultats démontrent que, malgré des biais inductifs minimes, la pré-formation autorégressive conduit à des performances compétitives sur tous les benchmarks. Enfin, nous constatons que l'augmentation de l'échelle de nos modèles vidéo entraîne des courbes d'augmentation similaires à celles observées dans les modèles de langage, bien que à un rythme différent. Plus de détails sur https://brjathu.github.io/toto/
English
We empirically study autoregressive pre-training from videos. To perform our
study, we construct a series of autoregressive video models, called Toto. We
treat videos as sequences of visual tokens and train transformer models to
autoregressively predict future tokens. Our models are pre-trained on a diverse
dataset of videos and images comprising over 1 trillion visual tokens. We
explore different architectural, training, and inference design choices. We
evaluate the learned visual representations on a range of downstream tasks
including image recognition, video classification, object tracking, and
robotics. Our results demonstrate that, despite minimal inductive biases,
autoregressive pre-training leads to competitive performance across all
benchmarks. Finally, we find that scaling our video models results in similar
scaling curves to those seen in language models, albeit with a different rate.
More details at https://brjathu.github.io/toto/Summary
AI-Generated Summary