Технический отчет Seed1.5-VLSeed1.5-VL Technical Report
Мы представляем Seed1.5-VL, базовую модель для обработки визуальной и текстовой информации, разработанную для продвижения универсального мультимодального понимания и рассуждений. Seed1.5-VL состоит из визуального энкодера с 532 миллионами параметров и модели Mixture-of-Experts (MoE) с 20 миллиардами активных параметров. Несмотря на относительно компактную архитектуру, модель демонстрирует высокую производительность на широком спектре публичных бенчмарков для мультимодальных моделей и внутренних оценочных наборов, достигая наилучших результатов на 38 из 60 публичных бенчмарков. Кроме того, в задачах, ориентированных на агентов, таких как управление графическим интерфейсом и игровой процесс, Seed1.5-VL превосходит ведущие мультимодальные системы, включая OpenAI CUA и Claude 3.7. Помимо понимания изображений и видео, модель также демонстрирует сильные способности к рассуждениям, что делает её особенно эффективной для мультимодальных задач, таких как визуальные головоломки. Мы считаем, что эти возможности откроют более широкие возможности для применения в разнообразных задачах. В данном отчёте мы в основном предоставляем всесторонний обзор нашего опыта в создании Seed1.5-VL, включая проектирование модели, создание данных и обучение на различных этапах, надеясь, что этот отчёт вдохновит на дальнейшие исследования. Seed1.5-VL теперь доступна по адресу https://www.volcengine.com/ (ID модели Volcano Engine: doubao-1-5-thinking-vision-pro-250428).