OpenFlamingo: Открытая платформа для обучения крупных авторегрессивных моделей, объединяющих зрение и язык
OpenFlamingo: An Open-Source Framework for Training Large Autoregressive Vision-Language Models
August 2, 2023
Авторы: Anas Awadalla, Irena Gao, Josh Gardner, Jack Hessel, Yusuf Hanafy, Wanrong Zhu, Kalyani Marathe, Yonatan Bitton, Samir Gadre, Shiori Sagawa, Jenia Jitsev, Simon Kornblith, Pang Wei Koh, Gabriel Ilharco, Mitchell Wortsman, Ludwig Schmidt
cs.AI
Аннотация
Мы представляем OpenFlamingo — семейство авторегрессивных моделей для обработки визуально-языковых данных с количеством параметров от 3 до 9 миллиардов. OpenFlamingo — это продолжающийся проект, направленный на создание открытой репликации моделей Flamingo от DeepMind. На семи наборах данных для задач визуально-языкового взаимодействия модели OpenFlamingo демонстрируют в среднем от 80 до 89% производительности соответствующих моделей Flamingo. В данном техническом отчете описаны наши модели, данные для обучения, гиперпараметры и набор инструментов для оценки. Мы предоставляем доступ к нашим моделям и коду по адресу https://github.com/mlfoundations/open_flamingo.
English
We introduce OpenFlamingo, a family of autoregressive vision-language models
ranging from 3B to 9B parameters. OpenFlamingo is an ongoing effort to produce
an open-source replication of DeepMind's Flamingo models. On seven
vision-language datasets, OpenFlamingo models average between 80 - 89% of
corresponding Flamingo performance. This technical report describes our models,
training data, hyperparameters, and evaluation suite. We share our models and
code at https://github.com/mlfoundations/open_flamingo.