UFO: Ein einheitlicher Ansatz zur feinkörnigen visuellen Wahrnehmung über eine offene Sprachschnittstelle
UFO: A Unified Approach to Fine-grained Visual Perception via Open-ended Language Interface
March 3, 2025
Autoren: Hao Tang, Chenwei Xie, Haiyang Wang, Xiaoyi Bao, Tingyu Weng, Pandeng Li, Yun Zheng, Liwei Wang
cs.AI
Zusammenfassung
Generalist-Modelle haben bemerkenswerte Erfolge sowohl in Sprach- als auch in Vision-Sprach-Aufgaben erzielt und das Potenzial der einheitlichen Modellierung aufgezeigt. Die effektive Integration von feingranularen Wahrnehmungsaufgaben wie Detektion und Segmentierung in diese Modelle bleibt jedoch eine erhebliche Herausforderung. Dies liegt vor allem daran, dass diese Aufgaben oft stark auf aufgabenspezifische Designs und Architekturen angewiesen sind, was den Modellierungsprozess verkomplizieren kann. Um diese Herausforderung zu bewältigen, präsentieren wir \ours, ein Framework, das feingranulare visuelle Wahrnehmungsaufgaben durch eine offene Sprachschnittstelle vereinheitlicht. Indem alle Wahrnehmungsziele in den Sprachraum transformiert werden, vereint \ours objektbasierte Detektion, pixelgenaue Segmentierung und bildbasierte Vision-Sprach-Aufgaben in einem einzigen Modell. Zusätzlich führen wir einen neuartigen Embedding-Retrieval-Ansatz ein, der sich ausschließlich auf die Sprachschnittstelle stützt, um Segmentierungsaufgaben zu unterstützen. Unser Framework überbrückt die Lücke zwischen feingranularer Wahrnehmung und Vision-Sprach-Aufgaben, vereinfacht die architektonische Gestaltung und Trainingsstrategien erheblich und erreicht dabei vergleichbare oder überlegene Leistungen gegenüber Methoden mit komplexen aufgabenspezifischen Designs. Nach einem Multi-Task-Training auf fünf Standard-Datensätzen für visuelle Wahrnehmung übertrifft \ours die bisherigen State-of-the-Art-Generalist-Modelle um 12,3 mAP bei der Instanzsegmentierung auf COCO und 3,3 mIoU bei der semantischen Segmentierung auf ADE20K. Darüber hinaus integriert sich unsere Methode nahtlos in bestehende MLLMs und kombiniert effektiv feingranulare Wahrnehmungsfähigkeiten mit ihren fortgeschrittenen Sprachfähigkeiten, wodurch anspruchsvollere Aufgaben wie Reasoning-Segmentierung ermöglicht werden. Code und Modelle werden öffentlich verfügbar sein.
English
Generalist models have achieved remarkable success in both language and
vision-language tasks, showcasing the potential of unified modeling. However,
effectively integrating fine-grained perception tasks like detection and
segmentation into these models remains a significant challenge. This is
primarily because these tasks often rely heavily on task-specific designs and
architectures that can complicate the modeling process. To address this
challenge, we present \ours, a framework that Unifies
Fine-grained visual perception tasks through an Open-ended
language interface. By transforming all perception targets into the language
space, \ours unifies object-level detection, pixel-level segmentation, and
image-level vision-language tasks into a single model. Additionally, we
introduce a novel embedding retrieval approach that relies solely on the
language interface to support segmentation tasks. Our framework bridges the gap
between fine-grained perception and vision-language tasks, significantly
simplifying architectural design and training strategies while achieving
comparable or superior performance to methods with intricate task-specific
designs. After multi-task training on five standard visual perception datasets,
\ours outperforms the previous state-of-the-art generalist models by 12.3 mAP
on COCO instance segmentation and 3.3 mIoU on ADE20K semantic segmentation.
Furthermore, our method seamlessly integrates with existing MLLMs, effectively
combining fine-grained perception capabilities with their advanced language
abilities, thereby enabling more challenging tasks such as reasoning
segmentation. Code and models will be publicly available.Summary
AI-Generated Summary