UFO: Un Enfoque Unificado para la Percepción Visual de Alto Detalle mediante una Interfaz de Lenguaje Abierto
UFO: A Unified Approach to Fine-grained Visual Perception via Open-ended Language Interface
March 3, 2025
Autores: Hao Tang, Chenwei Xie, Haiyang Wang, Xiaoyi Bao, Tingyu Weng, Pandeng Li, Yun Zheng, Liwei Wang
cs.AI
Resumen
Los modelos generalistas han logrado un éxito notable tanto en tareas de lenguaje como en tareas de visión-lenguaje, demostrando el potencial del modelado unificado. Sin embargo, integrar de manera efectiva tareas de percepción de grano fino, como detección y segmentación, en estos modelos sigue siendo un desafío significativo. Esto se debe principalmente a que estas tareas suelen depender en gran medida de diseños y arquitecturas específicas para cada tarea, lo que puede complicar el proceso de modelado. Para abordar este desafío, presentamos \ours, un marco que unifica tareas de percepción visual de grano fino a través de una interfaz de lenguaje abierta. Al transformar todos los objetivos de percepción en el espacio del lenguaje, \ours unifica la detección a nivel de objetos, la segmentación a nivel de píxeles y las tareas de visión-lenguaje a nivel de imagen en un solo modelo. Además, introducimos un novedoso enfoque de recuperación de incrustaciones que se basa únicamente en la interfaz de lenguaje para apoyar las tareas de segmentación. Nuestro marco cierra la brecha entre la percepción de grano fino y las tareas de visión-lenguaje, simplificando significativamente el diseño arquitectónico y las estrategias de entrenamiento, al mismo tiempo que logra un rendimiento comparable o superior a los métodos con diseños específicos para cada tarea. Después del entrenamiento multitarea en cinco conjuntos de datos estándar de percepción visual, \ours supera a los modelos generalistas anteriores en un 12.3 mAP en la segmentación de instancias de COCO y en un 3.3 mIoU en la segmentación semántica de ADE20K. Además, nuestro método se integra perfectamente con los MLLM existentes, combinando de manera efectiva las capacidades de percepción de grano fino con sus avanzadas habilidades de lenguaje, permitiendo así tareas más desafiantes como la segmentación razonada. El código y los modelos estarán disponibles públicamente.
English
Generalist models have achieved remarkable success in both language and
vision-language tasks, showcasing the potential of unified modeling. However,
effectively integrating fine-grained perception tasks like detection and
segmentation into these models remains a significant challenge. This is
primarily because these tasks often rely heavily on task-specific designs and
architectures that can complicate the modeling process. To address this
challenge, we present \ours, a framework that Unifies
Fine-grained visual perception tasks through an Open-ended
language interface. By transforming all perception targets into the language
space, \ours unifies object-level detection, pixel-level segmentation, and
image-level vision-language tasks into a single model. Additionally, we
introduce a novel embedding retrieval approach that relies solely on the
language interface to support segmentation tasks. Our framework bridges the gap
between fine-grained perception and vision-language tasks, significantly
simplifying architectural design and training strategies while achieving
comparable or superior performance to methods with intricate task-specific
designs. After multi-task training on five standard visual perception datasets,
\ours outperforms the previous state-of-the-art generalist models by 12.3 mAP
on COCO instance segmentation and 3.3 mIoU on ADE20K semantic segmentation.
Furthermore, our method seamlessly integrates with existing MLLMs, effectively
combining fine-grained perception capabilities with their advanced language
abilities, thereby enabling more challenging tasks such as reasoning
segmentation. Code and models will be publicly available.Summary
AI-Generated Summary