Технический отчет Seed1.5-VL

Аннотация

Мы представляем Seed1.5-VL, базовую модель для обработки визуальной и текстовой информации, разработанную для продвижения универсального мультимодального понимания и рассуждений. Seed1.5-VL состоит из визуального энкодера с 532 миллионами параметров и модели Mixture-of-Experts (MoE) с 20 миллиардами активных параметров. Несмотря на относительно компактную архитектуру, модель демонстрирует высокую производительность на широком спектре публичных бенчмарков для мультимодальных моделей и внутренних оценочных наборов, достигая наилучших результатов на 38 из 60 публичных бенчмарков. Кроме того, в задачах, ориентированных на агентов, таких как управление графическим интерфейсом и игровой процесс, Seed1.5-VL превосходит ведущие мультимодальные системы, включая OpenAI CUA и Claude 3.7. Помимо понимания изображений и видео, модель также демонстрирует сильные способности к рассуждениям, что делает её особенно эффективной для мультимодальных задач, таких как визуальные головоломки. Мы считаем, что эти возможности откроют более широкие возможности для применения в разнообразных задачах. В данном отчёте мы в основном предоставляем всесторонний обзор нашего опыта в создании Seed1.5-VL, включая проектирование модели, создание данных и обучение на различных этапах, надеясь, что этот отчёт вдохновит на дальнейшие исследования. Seed1.5-VL теперь доступна по адресу https://www.volcengine.com/ (ID модели Volcano Engine: doubao-1-5-thinking-vision-pro-250428).

English

We present Seed1.5-VL, a vision-language foundation model designed to advance general-purpose multimodal understanding and reasoning. Seed1.5-VL is composed with a 532M-parameter vision encoder and a Mixture-of-Experts (MoE) LLM of 20B active parameters. Despite its relatively compact architecture, it delivers strong performance across a wide spectrum of public VLM benchmarks and internal evaluation suites, achieving the state-of-the-art performance on 38 out of 60 public benchmarks. Moreover, in agent-centric tasks such as GUI control and gameplay, Seed1.5-VL outperforms leading multimodal systems, including OpenAI CUA and Claude 3.7. Beyond visual and video understanding, it also demonstrates strong reasoning abilities, making it particularly effective for multimodal reasoning challenges such as visual puzzles. We believe these capabilities will empower broader applications across diverse tasks. In this report, we mainly provide a comprehensive review of our experiences in building Seed1.5-VL across model design, data construction, and training at various stages, hoping that this report can inspire further research. Seed1.5-VL is now accessible at https://www.volcengine.com/ (Volcano Engine Model ID: doubao-1-5-thinking-vision-pro-250428)

Технический отчет Seed1.5-VL

Seed1.5-VL Technical Report

Аннотация

Support