OpenFlamingo: Um Framework de Código Aberto para Treinamento de Grandes Modelos Autoregressivos de Visão e Linguagem

Resumo

Apresentamos o OpenFlamingo, uma família de modelos autoregressivos de visão e linguagem que variam de 3B a 9B parâmetros. O OpenFlamingo é um esforço contínuo para produzir uma replicação de código aberto dos modelos Flamingo da DeepMind. Em sete conjuntos de dados de visão e linguagem, os modelos OpenFlamingo atingem, em média, entre 80% e 89% do desempenho correspondente dos modelos Flamingo. Este relatório técnico descreve nossos modelos, dados de treinamento, hiperparâmetros e conjunto de avaliação. Compartilhamos nossos modelos e código em https://github.com/mlfoundations/open_flamingo.

English

We introduce OpenFlamingo, a family of autoregressive vision-language models ranging from 3B to 9B parameters. OpenFlamingo is an ongoing effort to produce an open-source replication of DeepMind's Flamingo models. On seven vision-language datasets, OpenFlamingo models average between 80 - 89% of corresponding Flamingo performance. This technical report describes our models, training data, hyperparameters, and evaluation suite. We share our models and code at https://github.com/mlfoundations/open_flamingo.

OpenFlamingo: Um Framework de Código Aberto para Treinamento de Grandes Modelos Autoregressivos de Visão e Linguagem

OpenFlamingo: An Open-Source Framework for Training Large Autoregressive Vision-Language Models

Resumo

Support