ChatPaper.aiChatPaper

OpenFlamingo: 大規模自己回帰型視覚言語モデルを訓練するためのオープンソースフレームワーク

OpenFlamingo: An Open-Source Framework for Training Large Autoregressive Vision-Language Models

August 2, 2023
著者: Anas Awadalla, Irena Gao, Josh Gardner, Jack Hessel, Yusuf Hanafy, Wanrong Zhu, Kalyani Marathe, Yonatan Bitton, Samir Gadre, Shiori Sagawa, Jenia Jitsev, Simon Kornblith, Pang Wei Koh, Gabriel Ilharco, Mitchell Wortsman, Ludwig Schmidt
cs.AI

要旨

OpenFlamingoを紹介します。これは、3Bから9Bパラメータまでの自己回帰型視覚言語モデルのファミリーです。OpenFlamingoは、DeepMindのFlamingoモデルのオープンソース再現を目指す継続的な取り組みです。7つの視覚言語データセットにおいて、OpenFlamingoモデルは対応するFlamingoの性能の80~89%の平均を達成しています。本技術レポートでは、モデル、トレーニングデータ、ハイパーパラメータ、および評価スイートについて説明します。モデルとコードはhttps://github.com/mlfoundations/open_flamingoで公開しています。
English
We introduce OpenFlamingo, a family of autoregressive vision-language models ranging from 3B to 9B parameters. OpenFlamingo is an ongoing effort to produce an open-source replication of DeepMind's Flamingo models. On seven vision-language datasets, OpenFlamingo models average between 80 - 89% of corresponding Flamingo performance. This technical report describes our models, training data, hyperparameters, and evaluation suite. We share our models and code at https://github.com/mlfoundations/open_flamingo.
PDF333December 15, 2024