PaliGemma 2: Una famiglia di VLM versatili per il trasferimentoPaliGemma 2: A Family of Versatile VLMs for Transfer
PaliGemma 2 è un aggiornamento del Modello di Visione-Linguaggio (VLM) open PaliGemma basato sulla famiglia di modelli linguistici Gemma 2. Combiniamo l'encoder di visione SigLIP-So400m, utilizzato anche da PaliGemma, con l'intera gamma di modelli Gemma 2, dal modello 2B fino al modello 27B. Alleniamo questi modelli a tre risoluzioni (224px, 448px e 896px) in diverse fasi per dotarli di una vasta conoscenza per il trasferimento tramite raffinamento. La famiglia risultante di modelli base che coprono diverse dimensioni e risoluzioni ci consente di indagare sui fattori che influenzano le prestazioni di trasferimento (come il tasso di apprendimento) e di analizzare l'interazione tra il tipo di compito, la dimensione del modello e la risoluzione. Aumentiamo ulteriormente il numero e l'ampiezza dei compiti di trasferimento al di là del campo di PaliGemma, inclusi diversi compiti correlati all'OCR come il riconoscimento della struttura delle tabelle, il riconoscimento della struttura molecolare, il riconoscimento dello spartito musicale, nonché la generazione di didascalie dettagliate e la redazione di referti radiografici, su cui PaliGemma 2 ottiene risultati all'avanguardia.