Seed1.5-VL Technischer BerichtSeed1.5-VL Technical Report
Wir präsentieren Seed1.5-VL, ein Vision-Language-Foundation-Modell, das entwickelt wurde, um das allgemeine multimodale Verständnis und die multimodale Argumentation voranzutreiben. Seed1.5-VL besteht aus einem Vision-Encoder mit 532 Millionen Parametern und einem Mixture-of-Experts (MoE)-LLM mit 20 Milliarden aktiven Parametern. Trotz seiner relativ kompakten Architektur liefert es eine starke Leistung über ein breites Spektrum öffentlicher VLM-Benchmarks und interner Evaluationssuiten und erreicht state-of-the-art-Leistungen in 38 von 60 öffentlichen Benchmarks. Darüber hinaus übertrifft Seed1.5-VL in agentenzentrierten Aufgaben wie GUI-Steuerung und Gameplay führende multimodale Systeme, einschließlich OpenAI CUA und Claude 3.7. Neben dem Verständnis von Bildern und Videos zeigt es auch starke Argumentationsfähigkeiten, was es besonders effektiv für multimodale Argumentationsherausforderungen wie visuelle Rätsel macht. Wir glauben, dass diese Fähigkeiten breitere Anwendungen über diverse Aufgaben hinweg ermöglichen werden. In diesem Bericht geben wir hauptsächlich einen umfassenden Überblick über unsere Erfahrungen beim Aufbau von Seed1.5-VL in den Bereichen Modelldesign, Datenkonstruktion und Training in verschiedenen Phasen, in der Hoffnung, dass dieser Bericht weitere Forschungen inspirieren kann. Seed1.5-VL ist jetzt unter https://www.volcengine.com/ (Volcano Engine Model ID: doubao-1-5-thinking-vision-pro-250428) zugänglich.