Was ist wichtig beim Aufbau von Modellen für die Verbindung von Bildern und Sprache?What matters when building vision-language models?
Das wachsende Interesse an Vision-Language-Modellen (VLMs) wurde durch Verbesserungen bei großen Sprachmodellen und Vision-Transformern vorangetrieben. Trotz der Fülle an Literatur zu diesem Thema stellen wir fest, dass kritische Entscheidungen bezüglich des Designs von VLMs oft nicht gerechtfertigt sind. Wir argumentieren, dass diese nicht unterstützten Entscheidungen den Fortschritt in diesem Bereich behindern, da es schwierig wird zu identifizieren, welche Entscheidungen die Leistung des Modells verbessern. Um dieses Problem anzugehen, führen wir umfangreiche Experimente zu vortrainierten Modellen, Architekturwahl, Daten und Trainingsmethoden durch. Unsere Zusammenfassung der Ergebnisse umfasst die Entwicklung von Idefics2, einem effizienten grundlegenden VLM mit 8 Milliarden Parametern. Idefics2 erzielt Spitzenleistungen innerhalb seiner Größenkategorie in verschiedenen multimodalen Benchmarks und steht oft auf Augenhöhe mit Modellen, die viermal so groß sind. Wir veröffentlichen das Modell (Basis, instruiert und Chat) zusammen mit den für das Training erstellten Datensätzen.