Informe Técnico de Seed1.5-VLSeed1.5-VL Technical Report
Presentamos Seed1.5-VL, un modelo base de visión y lenguaje diseñado para avanzar en la comprensión y razonamiento multimodal de propósito general. Seed1.5-VL está compuesto por un codificador visual de 532 millones de parámetros y un modelo de lenguaje Mixture-of-Experts (MoE) con 20 mil millones de parámetros activos. A pesar de su arquitectura relativamente compacta, ofrece un rendimiento sólido en una amplia gama de benchmarks públicos de VLM y suites de evaluación internas, logrando un rendimiento de vanguardia en 38 de los 60 benchmarks públicos. Además, en tareas centradas en agentes, como el control de interfaces gráficas y el juego, Seed1.5-VL supera a los principales sistemas multimodales, incluyendo OpenAI CUA y Claude 3.7. Más allá de la comprensión visual y de video, también demuestra fuertes habilidades de razonamiento, lo que lo hace particularmente efectivo para desafíos de razonamiento multimodal como los rompecabezas visuales. Creemos que estas capacidades permitirán aplicaciones más amplias en diversas tareas. En este informe, proporcionamos principalmente una revisión exhaustiva de nuestras experiencias en la construcción de Seed1.5-VL en las etapas de diseño del modelo, construcción de datos y entrenamiento, con la esperanza de que este informe pueda inspirar futuras investigaciones. Seed1.5-VL ahora está accesible en https://www.volcengine.com/ (ID del modelo de Volcano Engine: doubao-1-5-thinking-vision-pro-250428).