Istruzioni Esplicative: Verso la Comprensione delle Attività di Visione Unificata e la Generalizzazione a Zero-shotExplanatory Instructions: Towards Unified Vision Tasks Understanding and
Zero-shot Generalization
La Computer Vision (CV) deve ancora raggiungere pienamente la generalizzazione del compito zero-shot osservata nel Natural Language Processing (NLP), nonostante segua molti dei traguardi stabiliti nel NLP, come i grandi modelli trasformatore, l'ampia preformazione e il paradigma dell'autoregressione, tra gli altri. In questo articolo, esploriamo l'idea che la CV adotti definizioni di compiti discrete e terminologiche (ad esempio, "segmentazione dell'immagine"), che potrebbero rappresentare un ostacolo chiave alla generalizzazione del compito zero-shot. La nostra ipotesi è che senza comprendere veramente i compiti precedentemente visti - a causa di queste definizioni terminologiche - i modelli profondi faticano a generalizzare a compiti nuovi. Per verificare ciò, introduciamo le Istruzioni Esplicative, che forniscono un modo intuitivo per definire gli obiettivi del compito di CV attraverso dettagliate trasformazioni linguistiche dalle immagini di input alle uscite. Creiamo un dataset su larga scala composto da 12 milioni di triplette "input dell'immagine alle istruzioni esplicative all'output" e addestriamo un modello visione-linguaggio basato sull'autoregressione (VLM basato su AR) che prende sia immagini che istruzioni esplicative come input. Imparando a seguire queste istruzioni, il VLM basato su AR raggiunge capacità zero-shot a livello di istruzione per compiti precedentemente visti e dimostra una forte generalizzazione zero-shot per compiti di CV non visti. Il codice e il dataset saranno disponibili apertamente sul nostro repository GitHub.