Rapport technique de Seed1.5-VLSeed1.5-VL Technical Report
Nous présentons Seed1.5-VL, un modÚle fondationnel vision-langage conçu pour faire progresser la compréhension et le raisonnement multimodales à usage général. Seed1.5-VL est composé d'un encodeur visuel de 532 millions de paramÚtres et d'un modÚle de langage à base de mélange d'experts (MoE) comptant 20 milliards de paramÚtres actifs. Malgré son architecture relativement compacte, il offre des performances solides sur un large éventail de benchmarks publics de modÚles vision-langage (VLM) et de suites d'évaluation internes, atteignant des performances de pointe sur 38 des 60 benchmarks publics. De plus, dans des tùches centrées sur l'agent, telles que le contrÎle d'interface graphique et le gameplay, Seed1.5-VL surpasse les principaux systÚmes multimodaux, y compris OpenAI CUA et Claude 3.7. Au-delà de la compréhension visuelle et vidéo, il démontre également de solides capacités de raisonnement, le rendant particuliÚrement efficace pour les défis de raisonnement multimodal tels que les puzzles visuels. Nous croyons que ces capacités permettront d'élargir les applications à travers diverses tùches. Dans ce rapport, nous fournissons principalement une revue complÚte de nos expériences dans la construction de Seed1.5-VL, couvrant la conception du modÚle, la construction des données et l'entraßnement à différentes étapes, espérant que ce rapport inspirera des recherches supplémentaires. Seed1.5-VL est désormais accessible à l'adresse https://www.volcengine.com/ (ID de modÚle Volcano Engine : doubao-1-5-thinking-vision-pro-250428).