Enthüllung von Encoder-freien Vision-Sprach-ModellenUnveiling Encoder-Free Vision-Language Models
Bestehende Vision-Sprach-Modelle (VLMs) stützen sich hauptsächlich auf Vision-Encoder, um visuelle Merkmale zu extrahieren, gefolgt von großen Sprachmodellen (LLMs) für visuell-sprachliche Aufgaben. Die Vision-Encoder setzen jedoch starke induktive Vorurteile bei der Abstraktion visueller Darstellungen, z.B. Auflösung, Seitenverhältnis und semantische Vorgaben, die die Flexibilität und Effizienz der VLMs beeinträchtigen könnten. Das Training reiner VLMs, die nahtlose Vision- und Spracheingaben akzeptieren, d.h. ohne Vision-Encoder, bleibt herausfordernd und wurde selten erforscht. Empirische Beobachtungen zeigen, dass ein direktes Training ohne Encoder zu langsamer Konvergenz und großen Leistungsunterschieden führt. In dieser Arbeit überbrücken wir die Kluft zwischen encoderbasierten und encoderfreien Modellen und präsentieren ein einfaches, aber effektives Schulungsrezept für reine VLMs. Insbesondere enthüllen wir die Schlüsselaspekte des effizienten Trainings von encoderfreien VLMs durch gründliche Experimente: (1) Verknüpfung der Vision-Sprach-Repräsentation in einem vereinheitlichten Decoder; (2) Verbesserung der visuellen Erkennungsfähigkeit durch zusätzliche Überwachung. Mit diesen Strategien starten wir EVE, ein encoderfreies Vision-Sprach-Modell, das effizient trainiert und weitergeleitet werden kann. Bemerkenswerterweise kann EVE allein mit 35M öffentlich zugänglichen Daten beeindruckend mit den encoderbasierten VLMs ähnlicher Kapazitäten in mehreren Vision-Sprach-Benchmarks konkurrieren. Es übertrifft signifikant das Gegenstück Fuyu-8B mit mysteriösen Trainingsverfahren und nicht offengelegten Trainingsdaten. Wir glauben, dass EVE einen transparenten und effizienten Weg zur Entwicklung einer reinen Decoder-Architektur über Modalitäten hinweg bietet. Unser Code und unsere Modelle sind öffentlich unter folgendem Link verfügbar: https://github.com/baaivision/EVE.