ChatPaper.aiChatPaper

Эмпирическое исследование авторегрессионного предварительного обучения на видео

An Empirical Study of Autoregressive Pre-training from Videos

January 9, 2025
Авторы: Jathushan Rajasegaran, Ilija Radosavovic, Rahul Ravishankar, Yossi Gandelsman, Christoph Feichtenhofer, Jitendra Malik
cs.AI

Аннотация

Мы проводим эмпирическое исследование авторегрессионного предварительного обучения на видео. Для выполнения нашего исследования мы создаем серию авторегрессионных видеомоделей, названных Toto. Мы рассматриваем видео как последовательности визуальных токенов и обучаем модели трансформера для авторегрессивного предсказания будущих токенов. Наши модели предварительно обучаются на разнообразном наборе данных видео и изображений, включающем более 1 триллиона визуальных токенов. Мы исследуем различные архитектурные, обучающие и дизайнерские выборы. Мы оцениваем изученные визуальные представления на ряде задач в дальнейшем, включая распознавание изображений, классификацию видео, отслеживание объектов и робототехнику. Наши результаты показывают, что, несмотря на минимальные индуктивные предпочтения, авторегрессионное предварительное обучение приводит к конкурентоспособной производительности на всех бенчмарках. Наконец, мы обнаруживаем, что масштабирование наших видеомоделей приводит к аналогичным кривым масштабирования, как и в моделях языка, хотя и с другой скоростью. Более подробная информация доступна по ссылке https://brjathu.github.io/toto/
English
We empirically study autoregressive pre-training from videos. To perform our study, we construct a series of autoregressive video models, called Toto. We treat videos as sequences of visual tokens and train transformer models to autoregressively predict future tokens. Our models are pre-trained on a diverse dataset of videos and images comprising over 1 trillion visual tokens. We explore different architectural, training, and inference design choices. We evaluate the learned visual representations on a range of downstream tasks including image recognition, video classification, object tracking, and robotics. Our results demonstrate that, despite minimal inductive biases, autoregressive pre-training leads to competitive performance across all benchmarks. Finally, we find that scaling our video models results in similar scaling curves to those seen in language models, albeit with a different rate. More details at https://brjathu.github.io/toto/

Summary

AI-Generated Summary

PDF427January 10, 2025