Os Geradores de Imagem são Aprendizes Visuais Generalistas
Image Generators are Generalist Vision Learners
April 22, 2026
Autores: Valentin Gabeur, Shangbang Long, Songyou Peng, Paul Voigtlaender, Shuyang Sun, Yanan Bao, Karen Truong, Zhicheng Wang, Wenlei Zhou, Jonathan T. Barron, Kyle Genova, Nithish Kannen, Sherry Ben, Yandong Li, Mandy Guo, Suhas Yogin, Yiming Gu, Huizhong Chen, Oliver Wang, Saining Xie, Howard Zhou, Kaiming He, Thomas Funkhouser, Jean-Baptiste Alayrac, Radu Soricut
cs.AI
Resumo
Trabalhos recentes demonstram que geradores de imagens e vídeos exibem comportamentos de compreensão visual de modo zero-shot, de forma reminiscente a como os LLMs desenvolvem capacidades emergentes de compreensão e raciocínio linguístico a partir do pré-treinamento generativo. Embora há muito se conjecture que a capacidade de criar conteúdo visual implica a capacidade de compreendê-lo, havia evidências limitadas de que modelos de visão generativa desenvolveram fortes capacidades de compreensão. Neste trabalho, demonstramos que o treino de geração de imagens desempenha um papel semelhante ao pré-treinamento de LLMs, permitindo que os modelos aprendam representações visuais poderosas e gerais que possibilitam desempenho de estado da arte em várias tarefas de visão. Apresentamos o Vision Banana, um modelo generalista construído através do ajuste por instrução do Nano Banana Pro (NBP) numa mistura dos seus dados de treino originais com uma pequena quantidade de dados de tarefas visuais. Ao parametrizar o espaço de saída das tarefas visuais como imagens RGB, reformulamos perfeitamente a perceção como geração de imagens. O nosso modelo generalista, Vision Banana, alcança resultados de estado da arte numa variedade de tarefas visuais envolvendo compreensão 2D e 3D, superando ou rivalizando com especialistas de domínio zero-shot, incluindo o Segment Anything Model 3 em tarefas de segmentação e a série Depth Anything na estimação de profundidade métrica. Mostramos que estes resultados podem ser alcançados com um ajuste por instrução leve sem sacrificar as capacidades de geração de imagens do modelo base. Os resultados superiores sugerem que o pré-treinamento em geração de imagens é um aprendiz de visão generalista. Também mostra que a geração de imagens serve como uma interface unificada e universal para tarefas visuais, semelhante ao papel da geração de texto na compreensão e raciocínio linguístico. Poderemos estar a testemunhar uma grande mudança de paradigma para a visão computacional, onde o pré-treinamento de visão generativa assume um papel central na construção de Modelos de Visão Fundamentais para geração e compreensão.
English
Recent works show that image and video generators exhibit zero-shot visual understanding behaviors, in a way reminiscent of how LLMs develop emergent capabilities of language understanding and reasoning from generative pretraining. While it has long been conjectured that the ability to create visual content implies an ability to understand it, there has been limited evidence that generative vision models have developed strong understanding capabilities. In this work, we demonstrate that image generation training serves a role similar to LLM pretraining, and lets models learn powerful and general visual representations that enable SOTA performance on various vision tasks. We introduce Vision Banana, a generalist model built by instruction-tuning Nano Banana Pro (NBP) on a mixture of its original training data alongside a small amount of vision task data. By parameterizing the output space of vision tasks as RGB images, we seamlessly reframe perception as image generation. Our generalist model, Vision Banana, achieves SOTA results on a variety of vision tasks involving both 2D and 3D understanding, beating or rivaling zero-shot domain-specialists, including Segment Anything Model 3 on segmentation tasks, and the Depth Anything series on metric depth estimation. We show that these results can be achieved with lightweight instruction-tuning without sacrificing the base model's image generation capabilities. The superior results suggest that image generation pretraining is a generalist vision learner. It also shows that image generation serves as a unified and universal interface for vision tasks, similar to text generation's role in language understanding and reasoning. We could be witnessing a major paradigm shift for computer vision, where generative vision pretraining takes a central role in building Foundational Vision Models for both generation and understanding.