MM1.5: Methoden, Analyse & Inzichten uit Multimodale LLM Fine-tuningMM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning
We presenteren MM1.5, een nieuwe familie van multimodale grote taalmodellen (MLLM's) die zijn ontworpen om de mogelijkheden op het gebied van tekstrijke beeldbegrip, visuele verwijzing en verankering, en multi-beeldredenering te verbeteren. Voortbouwend op de MM1-architectuur, neemt MM1.5 een op data gerichte benadering aan voor modeltraining, waarbij systematisch de impact van diverse datamixen gedurende de gehele modeltrainingslevenscyclus wordt onderzocht. Dit omvat hoogwaardige OCR-gegevens en synthetische bijschriften voor voortdurende voorafgaande training, evenals een geoptimaliseerde visuele instructie-afstemmingsdatamix voor begeleide fijnafstemming. Onze modellen variëren van 1B tot 30B parameters, waarbij zowel dichte als mengsel-van-experts (MoE) varianten zijn opgenomen, en laten zien dat zorgvuldige gegevenscuratie en trainingsstrategieën zelfs bij kleine schalen (1B en 3B) sterke prestaties kunnen opleveren. Daarnaast introduceren we twee gespecialiseerde varianten: MM1.5-Video, ontworpen voor videobegrip, en MM1.5-UI, op maat gemaakt voor begrip van mobiele gebruikersinterfaces. Via uitgebreide empirische studies en ablaties bieden we gedetailleerde inzichten in de trainingsprocessen en beslissingen die onze uiteindelijke ontwerpen informeren, en bieden waardevolle richtlijnen voor toekomstig onderzoek in de ontwikkeling van MLLM's.