OpenFlamingo : Un Cadre Open-Source pour l'Entraînement de Grands Modèles Autoregressifs Vision-Langage

Résumé

Nous présentons OpenFlamingo, une famille de modèles vision-langage autoregressifs allant de 3 à 9 milliards de paramètres. OpenFlamingo est un effort continu visant à produire une réplication open-source des modèles Flamingo de DeepMind. Sur sept ensembles de données vision-langage, les modèles OpenFlamingo atteignent en moyenne entre 80 et 89 % des performances des modèles Flamingo correspondants. Ce rapport technique décrit nos modèles, les données d'entraînement, les hyperparamètres et notre suite d'évaluation. Nous partageons nos modèles et notre code à l'adresse https://github.com/mlfoundations/open_flamingo.

English

We introduce OpenFlamingo, a family of autoregressive vision-language models ranging from 3B to 9B parameters. OpenFlamingo is an ongoing effort to produce an open-source replication of DeepMind's Flamingo models. On seven vision-language datasets, OpenFlamingo models average between 80 - 89% of corresponding Flamingo performance. This technical report describes our models, training data, hyperparameters, and evaluation suite. We share our models and code at https://github.com/mlfoundations/open_flamingo.

OpenFlamingo : Un Cadre Open-Source pour l'Entraînement de Grands Modèles Autoregressifs Vision-Langage

OpenFlamingo: An Open-Source Framework for Training Large Autoregressive Vision-Language Models

Résumé

Support