ChatPaper.aiChatPaper

Un Estudio Empírico del Preentrenamiento Autoregresivo a partir de Videos

An Empirical Study of Autoregressive Pre-training from Videos

January 9, 2025
Autores: Jathushan Rajasegaran, Ilija Radosavovic, Rahul Ravishankar, Yossi Gandelsman, Christoph Feichtenhofer, Jitendra Malik
cs.AI

Resumen

Estudiamos empíricamente el pre-entrenamiento autoregresivo a partir de videos. Para llevar a cabo nuestro estudio, construimos una serie de modelos de video autoregresivos, llamados Toto. Tratamos los videos como secuencias de tokens visuales y entrenamos modelos transformer para predecir autoregresivamente tokens futuros. Nuestros modelos se pre-entrenan en un conjunto de datos diverso de videos e imágenes que comprenden más de 1 billón de tokens visuales. Exploramos diferentes opciones de diseño arquitectónico, entrenamiento e inferencia. Evaluamos las representaciones visuales aprendidas en una variedad de tareas secundarias que incluyen reconocimiento de imágenes, clasificación de videos, seguimiento de objetos y robótica. Nuestros resultados demuestran que, a pesar de los mínimos sesgos inductivos, el pre-entrenamiento autoregresivo conduce a un rendimiento competitivo en todos los benchmarks. Finalmente, encontramos que escalar nuestros modelos de video resulta en curvas de escala similares a las vistas en modelos de lenguaje, aunque con una tasa diferente. Más detalles en https://brjathu.github.io/toto/
English
We empirically study autoregressive pre-training from videos. To perform our study, we construct a series of autoregressive video models, called Toto. We treat videos as sequences of visual tokens and train transformer models to autoregressively predict future tokens. Our models are pre-trained on a diverse dataset of videos and images comprising over 1 trillion visual tokens. We explore different architectural, training, and inference design choices. We evaluate the learned visual representations on a range of downstream tasks including image recognition, video classification, object tracking, and robotics. Our results demonstrate that, despite minimal inductive biases, autoregressive pre-training leads to competitive performance across all benchmarks. Finally, we find that scaling our video models results in similar scaling curves to those seen in language models, albeit with a different rate. More details at https://brjathu.github.io/toto/

Summary

AI-Generated Summary

PDF427January 10, 2025