ChatPaper.aiChatPaper

Een Empirische Studie van Autoregressieve Voortraining van Video's

An Empirical Study of Autoregressive Pre-training from Videos

January 9, 2025
Auteurs: Jathushan Rajasegaran, Ilija Radosavovic, Rahul Ravishankar, Yossi Gandelsman, Christoph Feichtenhofer, Jitendra Malik
cs.AI

Samenvatting

We bestuderen empirisch autoregressieve voorafgaande training vanuit video's. Om onze studie uit te voeren, construeren we een reeks autoregressieve videomodellen, genaamd Toto. We behandelen video's als sequenties van visuele tokens en trainen transformermodellen om autoregressief toekomstige tokens te voorspellen. Onze modellen worden vooraf getraind op een divers dataset van video's en afbeeldingen bestaande uit meer dan 1 biljoen visuele tokens. We verkennen verschillende architecturale, trainings- en inferentieontwerpkeuzes. We evalueren de geleerde visuele representaties op een reeks taken, waaronder beeldherkenning, videoclassificatie, objecttracking en robotica. Onze resultaten tonen aan dat, ondanks minimale inductieve vooroordelen, autoregressieve voorafgaande training leidt tot competitieve prestaties op alle benchmarks. Tenslotte vinden we dat het schalen van onze videomodellen resulteert in vergelijkbare schalingscurves als die gezien worden bij taalmodellen, zij het met een ander tempo. Meer details op https://brjathu.github.io/toto/
English
We empirically study autoregressive pre-training from videos. To perform our study, we construct a series of autoregressive video models, called Toto. We treat videos as sequences of visual tokens and train transformer models to autoregressively predict future tokens. Our models are pre-trained on a diverse dataset of videos and images comprising over 1 trillion visual tokens. We explore different architectural, training, and inference design choices. We evaluate the learned visual representations on a range of downstream tasks including image recognition, video classification, object tracking, and robotics. Our results demonstrate that, despite minimal inductive biases, autoregressive pre-training leads to competitive performance across all benchmarks. Finally, we find that scaling our video models results in similar scaling curves to those seen in language models, albeit with a different rate. More details at https://brjathu.github.io/toto/

Summary

AI-Generated Summary

PDF427January 10, 2025