UFO: Uma Abordagem Unificada para Percepção Visual de Alta Granularidade via Interface de Linguagem Aberta
UFO: A Unified Approach to Fine-grained Visual Perception via Open-ended Language Interface
March 3, 2025
Autores: Hao Tang, Chenwei Xie, Haiyang Wang, Xiaoyi Bao, Tingyu Weng, Pandeng Li, Yun Zheng, Liwei Wang
cs.AI
Resumo
Modelos generalistas têm alcançado sucesso notável tanto em tarefas de linguagem quanto em tarefas de visão e linguagem, demonstrando o potencial da modelagem unificada. No entanto, integrar efetivamente tarefas de percepção de granularidade fina, como detecção e segmentação, nesses modelos continua sendo um desafio significativo. Isso ocorre principalmente porque essas tarefas frequentemente dependem fortemente de designs e arquiteturas específicas para cada tarefa, o que pode complicar o processo de modelagem. Para enfrentar esse desafio, apresentamos \ours, uma estrutura que unifica tarefas de percepção visual de granularidade fina por meio de uma interface de linguagem aberta. Ao transformar todos os alvos de percepção no espaço da linguagem, \ours unifica a detecção em nível de objeto, a segmentação em nível de pixel e tarefas de visão e linguagem em nível de imagem em um único modelo. Além disso, introduzimos uma nova abordagem de recuperação de embeddings que depende exclusivamente da interface de linguagem para suportar tarefas de segmentação. Nossa estrutura preenche a lacuna entre a percepção de granularidade fina e as tarefas de visão e linguagem, simplificando significativamente o design arquitetônico e as estratégias de treinamento, ao mesmo tempo em que alcança desempenho comparável ou superior a métodos com designs específicos para cada tarefa. Após o treinamento multitarefa em cinco conjuntos de dados padrão de percepção visual, \ours supera os modelos generalistas de última geração anteriores em 12,3 mAP na segmentação de instâncias do COCO e em 3,3 mIoU na segmentação semântica do ADE20K. Além disso, nosso método se integra perfeitamente com os MLLMs existentes, combinando efetivamente capacidades de percepção de granularidade fina com suas habilidades avançadas de linguagem, permitindo assim tarefas mais desafiadoras, como a segmentação por raciocínio. O código e os modelos estarão publicamente disponíveis.
English
Generalist models have achieved remarkable success in both language and
vision-language tasks, showcasing the potential of unified modeling. However,
effectively integrating fine-grained perception tasks like detection and
segmentation into these models remains a significant challenge. This is
primarily because these tasks often rely heavily on task-specific designs and
architectures that can complicate the modeling process. To address this
challenge, we present \ours, a framework that Unifies
Fine-grained visual perception tasks through an Open-ended
language interface. By transforming all perception targets into the language
space, \ours unifies object-level detection, pixel-level segmentation, and
image-level vision-language tasks into a single model. Additionally, we
introduce a novel embedding retrieval approach that relies solely on the
language interface to support segmentation tasks. Our framework bridges the gap
between fine-grained perception and vision-language tasks, significantly
simplifying architectural design and training strategies while achieving
comparable or superior performance to methods with intricate task-specific
designs. After multi-task training on five standard visual perception datasets,
\ours outperforms the previous state-of-the-art generalist models by 12.3 mAP
on COCO instance segmentation and 3.3 mIoU on ADE20K semantic segmentation.
Furthermore, our method seamlessly integrates with existing MLLMs, effectively
combining fine-grained perception capabilities with their advanced language
abilities, thereby enabling more challenging tasks such as reasoning
segmentation. Code and models will be publicly available.Summary
AI-Generated Summary