OpenFlamingo: Ein Open-Source-Framework für das Training großer autoregressiver Vision-Sprach-Modelle
OpenFlamingo: An Open-Source Framework for Training Large Autoregressive Vision-Language Models
August 2, 2023
Autoren: Anas Awadalla, Irena Gao, Josh Gardner, Jack Hessel, Yusuf Hanafy, Wanrong Zhu, Kalyani Marathe, Yonatan Bitton, Samir Gadre, Shiori Sagawa, Jenia Jitsev, Simon Kornblith, Pang Wei Koh, Gabriel Ilharco, Mitchell Wortsman, Ludwig Schmidt
cs.AI
Zusammenfassung
Wir stellen OpenFlamingo vor, eine Familie autoregressiver Vision-Sprache-Modelle mit einer Größe von 3B bis 9B Parametern. OpenFlamingo ist ein fortlaufendes Projekt, das darauf abzielt, eine Open-Source-Replikation der Flamingo-Modelle von DeepMind zu erstellen. Auf sieben Vision-Sprache-Datensätzen erreichen die OpenFlamingo-Modelle durchschnittlich 80 - 89 % der entsprechenden Flamingo-Leistung. Dieser technische Bericht beschreibt unsere Modelle, Trainingsdaten, Hyperparameter und das Evaluationsframework. Wir stellen unsere Modelle und den Code unter https://github.com/mlfoundations/open_flamingo zur Verfügung.
English
We introduce OpenFlamingo, a family of autoregressive vision-language models
ranging from 3B to 9B parameters. OpenFlamingo is an ongoing effort to produce
an open-source replication of DeepMind's Flamingo models. On seven
vision-language datasets, OpenFlamingo models average between 80 - 89% of
corresponding Flamingo performance. This technical report describes our models,
training data, hyperparameters, and evaluation suite. We share our models and
code at https://github.com/mlfoundations/open_flamingo.