Seed1.5-VL Technisch RapportSeed1.5-VL Technical Report
We presenteren Seed1.5-VL, een vision-language foundation model ontworpen om algemene multimodale begrips- en redeneervaardigheden te bevorderen. Seed1.5-VL bestaat uit een vision encoder met 532 miljoen parameters en een Mixture-of-Experts (MoE) LLM met 20 miljard actieve parameters. Ondanks de relatief compacte architectuur levert het sterke prestaties op een breed scala aan publieke VLM-benchmarks en interne evaluatiesuites, waarbij het state-of-the-art prestaties behaalt op 38 van de 60 publieke benchmarks. Bovendien overtreft Seed1.5-VL toonaangevende multimodale systemen, waaronder OpenAI CUA en Claude 3.7, in agent-gerichte taken zoals GUI-besturing en gameplay. Naast visueel en video-begrip toont het ook sterke redeneervaardigheden, waardoor het bijzonder effectief is voor multimodale redeneeruitdagingen zoals visuele puzzels. Wij geloven dat deze mogelijkheden bredere toepassingen over diverse taken zullen mogelijk maken. In dit rapport bieden we voornamelijk een uitgebreide evaluatie van onze ervaringen met het bouwen van Seed1.5-VL, met betrekking tot modelontwerp, dataconstructie en training in verschillende fasen, in de hoop dat dit rapport verder onderzoek zal inspireren. Seed1.5-VL is nu toegankelijk op https://www.volcengine.com/ (Volcano Engine Model ID: doubao-1-5-thinking-vision-pro-250428).