A Geração Aprimora a Compreensão em Modelos Multimodais Unificados por meio da Geração Multi-Representação

Resumo

Os Modelos Multimodais Unificados (UMMs) integram a compreensão e a geração visual num único quadro. A sua aspiração final é criar um ciclo em que a compreensão e a geração se reforçam mutuamente. Embora métodos recentes de pós-treinamento tenham utilizado com sucesso a compreensão para melhorar a geração, a direção inversa de utilizar a geração para melhorar a compreensão permanece largamente inexplorada. Neste trabalho, propomos o UniMRG (Geração Unificada de Múltiplas Representações), um método de pós-treinamento simples mas eficaz, independente da arquitetura. O UniMRG melhora as capacidades de compreensão dos UMMs através da incorporação de tarefas auxiliares de geração. Especificamente, treinamos os UMMs para gerar múltiplas representações intrínsecas de imagens de entrada, nomeadamente pixels (reconstrução), profundidade (geometria) e segmentação (estrutura), em conjunto com os objetivos padrão de compreensão visual. Ao sintetizar estas diversas representações, os UMMs capturam informação complementar sobre a aparência, as relações espaciais e o layout estrutural. Consequentemente, os UMMs desenvolvem uma compreensão mais profunda e abrangente dos inputs visuais. Experiências extensas em diversas arquiteturas de UMMs demonstram que o nosso método melhora notavelmente a perceção de detalhe fino, reduz alucinações e melhora a compreensão espacial, enquanto simultaneamente impulsiona as capacidades de geração.

English

Unified Multimodal Models (UMMs) integrate both visual understanding and generation within a single framework. Their ultimate aspiration is to create a cycle where understanding and generation mutually reinforce each other. While recent post-training methods have successfully leveraged understanding to enhance generation, the reverse direction of utilizing generation to improve understanding remains largely unexplored. In this work, we propose UniMRG (Unified Multi-Representation Generation), a simple yet effective architecture-agnostic post-training method. UniMRG enhances the understanding capabilities of UMMs by incorporating auxiliary generation tasks. Specifically, we train UMMs to generate multiple intrinsic representations of input images, namely pixel (reconstruction), depth (geometry), and segmentation (structure), alongside standard visual understanding objectives. By synthesizing these diverse representations, UMMs capture complementary information regarding appearance, spatial relations, and structural layout. Consequently, UMMs develop a deeper and more comprehensive understanding of visual inputs. Extensive experiments across diverse UMM architectures demonstrate that our method notably enhances fine-grained perception, reduces hallucinations, and improves spatial understanding, while simultaneously boosting generation capabilities.

A Geração Aprimora a Compreensão em Modelos Multimodais Unificados por meio da Geração Multi-Representação

Generation Enhances Understanding in Unified Multimodal Models via Multi-Representation Generation

Resumo

Support