OpenFlamingo: Ein Open-Source-Framework für das Training großer autoregressiver Vision-Sprach-Modelle

Zusammenfassung

Wir stellen OpenFlamingo vor, eine Familie autoregressiver Vision-Sprache-Modelle mit einer Größe von 3B bis 9B Parametern. OpenFlamingo ist ein fortlaufendes Projekt, das darauf abzielt, eine Open-Source-Replikation der Flamingo-Modelle von DeepMind zu erstellen. Auf sieben Vision-Sprache-Datensätzen erreichen die OpenFlamingo-Modelle durchschnittlich 80 - 89 % der entsprechenden Flamingo-Leistung. Dieser technische Bericht beschreibt unsere Modelle, Trainingsdaten, Hyperparameter und das Evaluationsframework. Wir stellen unsere Modelle und den Code unter https://github.com/mlfoundations/open_flamingo zur Verfügung.

English

We introduce OpenFlamingo, a family of autoregressive vision-language models ranging from 3B to 9B parameters. OpenFlamingo is an ongoing effort to produce an open-source replication of DeepMind's Flamingo models. On seven vision-language datasets, OpenFlamingo models average between 80 - 89% of corresponding Flamingo performance. This technical report describes our models, training data, hyperparameters, and evaluation suite. We share our models and code at https://github.com/mlfoundations/open_flamingo.

OpenFlamingo: Ein Open-Source-Framework für das Training großer autoregressiver Vision-Sprach-Modelle

OpenFlamingo: An Open-Source Framework for Training Large Autoregressive Vision-Language Models

Zusammenfassung

Support