I generatori di immagini sono apprendisti visivi generalisti

Abstract

I lavori recenti dimostrano che i generatori di immagini e video mostrano comportamenti di comprensione visiva zero-shot, in modo simile a come i grandi modelli linguistici sviluppano capacità emergenti di comprensione e ragionamento linguistico attraverso il preaddestramento generativo. Sebbene si sia a lungo ipotizzato che la capacità di creare contenuti visivi implichi la capacità di comprenderli, le prove che i modelli generativi visivi abbiano sviluppato solide capacità di comprensione sono state limitate. In questo lavoro, dimostriamo che l'addestramento alla generazione di immagini svolge un ruolo simile al preaddestramento dei LLM, permettendo ai modelli di apprendere rappresentazioni visive potenti e generali che abilitano prestazioni allo stato dell'arte su vari compiti visivi. Introduciamo Vision Banana, un modello generalista costruito tramite instruction-tuning di Nano Banana Pro (NBP) su un mix dei suoi dati di addestramento originali insieme a una piccola quantità di dati per compiti visivi. Parametrizzando lo spazio di output dei compiti visivi come immagini RGB, riformuliamo perfettamente la percezione come generazione di immagini. Il nostro modello generalista, Vision Banana, ottiene risultati allo stato dell'arte su una varietà di compiti visivi che coinvolgono la comprensione sia 2D che 3D, superando o rivaleggiando con specialisti di dominio zero-shot, incluso Segment Anything Model 3 sui compiti di segmentazione e la serie Depth Anything sulla stima della profondità metrica. Mostriamo che questi risultati possono essere ottenuti con un instruction-tuning leggero senza sacrificare le capacità di generazione di immagini del modello base. I risultati superiori suggeriscono che il preaddestramento alla generazione di immagini è un apprendista generalista della visione. Mostra inoltre che la generazione di immagini funge da interfaccia unificata e universale per i compiti visivi, simile al ruolo della generazione di testo nella comprensione e nel ragionamento linguistico. Potremmo assistere a un importante cambiamento di paradigma per la visione artificiale, in cui il preaddestramento visivo generativo assume un ruolo centrale nella costruzione di Modelli di Visione Fondazionale sia per la generazione che per la comprensione.

English

Recent works show that image and video generators exhibit zero-shot visual understanding behaviors, in a way reminiscent of how LLMs develop emergent capabilities of language understanding and reasoning from generative pretraining. While it has long been conjectured that the ability to create visual content implies an ability to understand it, there has been limited evidence that generative vision models have developed strong understanding capabilities. In this work, we demonstrate that image generation training serves a role similar to LLM pretraining, and lets models learn powerful and general visual representations that enable SOTA performance on various vision tasks. We introduce Vision Banana, a generalist model built by instruction-tuning Nano Banana Pro (NBP) on a mixture of its original training data alongside a small amount of vision task data. By parameterizing the output space of vision tasks as RGB images, we seamlessly reframe perception as image generation. Our generalist model, Vision Banana, achieves SOTA results on a variety of vision tasks involving both 2D and 3D understanding, beating or rivaling zero-shot domain-specialists, including Segment Anything Model 3 on segmentation tasks, and the Depth Anything series on metric depth estimation. We show that these results can be achieved with lightweight instruction-tuning without sacrificing the base model's image generation capabilities. The superior results suggest that image generation pretraining is a generalist vision learner. It also shows that image generation serves as a unified and universal interface for vision tasks, similar to text generation's role in language understanding and reasoning. We could be witnessing a major paradigm shift for computer vision, where generative vision pretraining takes a central role in building Foundational Vision Models for both generation and understanding.

I generatori di immagini sono apprendisti visivi generalisti

Image Generators are Generalist Vision Learners

Abstract

Support