Eine empirische Studie zum autoregressiven Vor-Training anhand von Videos
An Empirical Study of Autoregressive Pre-training from Videos
January 9, 2025
Autoren: Jathushan Rajasegaran, Ilija Radosavovic, Rahul Ravishankar, Yossi Gandelsman, Christoph Feichtenhofer, Jitendra Malik
cs.AI
Zusammenfassung
Wir untersuchen empirisch das autoregressive Pre-Training von Videos. Um unsere Studie durchzuführen, konstruieren wir eine Reihe von autoregressiven Videomodellen, genannt Toto. Wir behandeln Videos als Sequenzen von visuellen Tokens und trainieren Transformer-Modelle, um zukünftige Tokens autoregressiv vorherzusagen. Unsere Modelle werden auf einem vielfältigen Datensatz von Videos und Bildern mit über 1 Billion visuellen Tokens vorab trainiert. Wir untersuchen verschiedene architektonische, Trainings- und Inferenz-Designentscheidungen. Wir evaluieren die erlernten visuellen Repräsentationen anhand einer Vielzahl von Aufgaben, darunter Bilderkennung, Videoklassifikation, Objektverfolgung und Robotik. Unsere Ergebnisse zeigen, dass autoregressives Pre-Training trotz minimaler induktiver Vorurteile zu einer wettbewerbsfähigen Leistung bei allen Benchmarks führt. Schließlich stellen wir fest, dass das Skalieren unserer Videomodelle zu ähnlichen Skalierungskurven führt wie bei Sprachmodellen, wenn auch mit einer anderen Rate. Weitere Details unter https://brjathu.github.io/toto/
English
We empirically study autoregressive pre-training from videos. To perform our
study, we construct a series of autoregressive video models, called Toto. We
treat videos as sequences of visual tokens and train transformer models to
autoregressively predict future tokens. Our models are pre-trained on a diverse
dataset of videos and images comprising over 1 trillion visual tokens. We
explore different architectural, training, and inference design choices. We
evaluate the learned visual representations on a range of downstream tasks
including image recognition, video classification, object tracking, and
robotics. Our results demonstrate that, despite minimal inductive biases,
autoregressive pre-training leads to competitive performance across all
benchmarks. Finally, we find that scaling our video models results in similar
scaling curves to those seen in language models, albeit with a different rate.
More details at https://brjathu.github.io/toto/Summary
AI-Generated Summary