Révélation des modÚles vision-langage sans encodeurUnveiling Encoder-Free Vision-Language Models
Les modĂšles vision-langage (VLMs) existants reposent principalement sur des encodeurs visuels pour extraire des caractĂ©ristiques visuelles, suivis de grands modĂšles de langage (LLMs) pour les tĂąches vision-langage. Cependant, les encodeurs visuels imposent un fort biais inductif dans l'abstraction de la reprĂ©sentation visuelle, par exemple en termes de rĂ©solution, de rapport d'aspect et de prĂ©jugĂ©s sĂ©mantiques, ce qui pourrait entraver la flexibilitĂ© et l'efficacitĂ© des VLMs. L'entraĂźnement de VLMs purs qui acceptent des entrĂ©es visuelles et linguistiques sans discontinuitĂ©, c'est-Ă -dire sans encodeurs visuels, reste un dĂ©fi et est rarement explorĂ©. Des observations empiriques rĂ©vĂšlent qu'un entraĂźnement direct sans encodeurs entraĂźne une convergence lente et des Ă©carts de performance importants. Dans ce travail, nous comblons le fossĂ© entre les modĂšles basĂ©s sur des encodeurs et les modĂšles sans encodeurs, et prĂ©sentons une recette d'entraĂźnement simple mais efficace pour des VLMs purs. Plus prĂ©cisĂ©ment, nous dĂ©voilons les aspects clĂ©s de l'entraĂźnement efficace de VLMs sans encodeurs grĂące Ă des expĂ©riences approfondies : (1) Combler la reprĂ©sentation vision-langage au sein d'un dĂ©codeur unifiĂ© ; (2) AmĂ©liorer la capacitĂ© de reconnaissance visuelle via une supervision supplĂ©mentaire. Avec ces stratĂ©gies, nous lançons EVE, un modĂšle vision-langage sans encodeur qui peut ĂȘtre entraĂźnĂ© et utilisĂ© efficacement. Notamment, en utilisant uniquement 35 millions de donnĂ©es accessibles au public, EVE peut rivaliser de maniĂšre impressionnante avec les VLMs basĂ©s sur des encodeurs de capacitĂ©s similaires sur plusieurs benchmarks vision-langage. Il surpasse significativement le modĂšle Fuyu-8B, dont les procĂ©dures d'entraĂźnement mystĂ©rieuses et les donnĂ©es d'entraĂźnement non divulguĂ©es. Nous croyons qu'EVE offre une voie transparente et efficace pour dĂ©velopper une architecture purement basĂ©e sur un dĂ©codeur Ă travers les modalitĂ©s. Notre code et nos modĂšles sont disponibles publiquement Ă l'adresse : https://github.com/baaivision/EVE.