Was ist wichtig beim Aufbau von Modellen für die Verbindung von Bildern und Sprache?
What matters when building vision-language models?
May 3, 2024
Autoren: Hugo Laurençon, Léo Tronchon, Matthieu Cord, Victor Sanh
cs.AI
Zusammenfassung
Das wachsende Interesse an Vision-Language-Modellen (VLMs) wurde durch Verbesserungen bei großen Sprachmodellen und Vision-Transformern vorangetrieben. Trotz der Fülle an Literatur zu diesem Thema stellen wir fest, dass kritische Entscheidungen bezüglich des Designs von VLMs oft nicht gerechtfertigt sind. Wir argumentieren, dass diese nicht unterstützten Entscheidungen den Fortschritt in diesem Bereich behindern, da es schwierig wird zu identifizieren, welche Entscheidungen die Leistung des Modells verbessern. Um dieses Problem anzugehen, führen wir umfangreiche Experimente zu vortrainierten Modellen, Architekturwahl, Daten und Trainingsmethoden durch. Unsere Zusammenfassung der Ergebnisse umfasst die Entwicklung von Idefics2, einem effizienten grundlegenden VLM mit 8 Milliarden Parametern. Idefics2 erzielt Spitzenleistungen innerhalb seiner Größenkategorie in verschiedenen multimodalen Benchmarks und steht oft auf Augenhöhe mit Modellen, die viermal so groß sind. Wir veröffentlichen das Modell (Basis, instruiert und Chat) zusammen mit den für das Training erstellten Datensätzen.
English
The growing interest in vision-language models (VLMs) has been driven by
improvements in large language models and vision transformers. Despite the
abundance of literature on this subject, we observe that critical decisions
regarding the design of VLMs are often not justified. We argue that these
unsupported decisions impede progress in the field by making it difficult to
identify which choices improve model performance. To address this issue, we
conduct extensive experiments around pre-trained models, architecture choice,
data, and training methods. Our consolidation of findings includes the
development of Idefics2, an efficient foundational VLM of 8 billion parameters.
Idefics2 achieves state-of-the-art performance within its size category across
various multimodal benchmarks, and is often on par with models four times its
size. We release the model (base, instructed, and chat) along with the datasets
created for its training.Summary
AI-Generated Summary