MM1.5: Metodi, Analisi e Approfondimenti dal Fine-tuning Multimodale di LLMMM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning
Presentiamo MM1.5, una nuova famiglia di modelli di linguaggio multimodali di grandi dimensioni (MLLMs) progettati per potenziare le capacità nella comprensione delle immagini ricche di testo, nel riferimento e ancoraggio visuale e nel ragionamento multi-immagine. Basandosi sull'architettura MM1, MM1.5 adotta un approccio centrato sui dati per l'addestramento del modello, esplorando sistematicamente l'impatto di diverse combinazioni di dati lungo l'intero ciclo di addestramento del modello. Ciò include dati OCR di alta qualità e didascalie sintetiche per il pre-addestramento continuo, nonché una combinazione ottimizzata di dati per il raffinamento supervisionato delle istruzioni visive. I nostri modelli vanno da 1B a 30B di parametri, includendo varianti dense e di misto di esperti (MoE), e dimostrano che una accurata cura dei dati e strategie di addestramento possono portare a ottime prestazioni anche a piccola scala (1B e 3B). Inoltre, introduciamo due varianti specializzate: MM1.5-Video, progettato per la comprensione dei video, e MM1.5-UI, adattato per la comprensione dell'interfaccia utente mobile. Attraverso ampi studi empirici e ablation, forniamo dettagliate intuizioni sui processi di addestramento e sulle decisioni che hanno guidato i nostri design finali, offrendo preziose indicazioni per la ricerca futura nello sviluppo di MLLM.