UFO: Ein einheitlicher Ansatz zur feinkörnigen visuellen Wahrnehmung über eine offene Sprachschnittstelle

Zusammenfassung

Generalist-Modelle haben bemerkenswerte Erfolge sowohl in Sprach- als auch in Vision-Sprach-Aufgaben erzielt und das Potenzial der einheitlichen Modellierung aufgezeigt. Die effektive Integration von feingranularen Wahrnehmungsaufgaben wie Detektion und Segmentierung in diese Modelle bleibt jedoch eine erhebliche Herausforderung. Dies liegt vor allem daran, dass diese Aufgaben oft stark auf aufgabenspezifische Designs und Architekturen angewiesen sind, was den Modellierungsprozess verkomplizieren kann. Um diese Herausforderung zu bewältigen, präsentieren wir \ours, ein Framework, das feingranulare visuelle Wahrnehmungsaufgaben durch eine offene Sprachschnittstelle vereinheitlicht. Indem alle Wahrnehmungsziele in den Sprachraum transformiert werden, vereint \ours objektbasierte Detektion, pixelgenaue Segmentierung und bildbasierte Vision-Sprach-Aufgaben in einem einzigen Modell. Zusätzlich führen wir einen neuartigen Embedding-Retrieval-Ansatz ein, der sich ausschließlich auf die Sprachschnittstelle stützt, um Segmentierungsaufgaben zu unterstützen. Unser Framework überbrückt die Lücke zwischen feingranularer Wahrnehmung und Vision-Sprach-Aufgaben, vereinfacht die architektonische Gestaltung und Trainingsstrategien erheblich und erreicht dabei vergleichbare oder überlegene Leistungen gegenüber Methoden mit komplexen aufgabenspezifischen Designs. Nach einem Multi-Task-Training auf fünf Standard-Datensätzen für visuelle Wahrnehmung übertrifft \ours die bisherigen State-of-the-Art-Generalist-Modelle um 12,3 mAP bei der Instanzsegmentierung auf COCO und 3,3 mIoU bei der semantischen Segmentierung auf ADE20K. Darüber hinaus integriert sich unsere Methode nahtlos in bestehende MLLMs und kombiniert effektiv feingranulare Wahrnehmungsfähigkeiten mit ihren fortgeschrittenen Sprachfähigkeiten, wodurch anspruchsvollere Aufgaben wie Reasoning-Segmentierung ermöglicht werden. Code und Modelle werden öffentlich verfügbar sein.

English

Generalist models have achieved remarkable success in both language and vision-language tasks, showcasing the potential of unified modeling. However, effectively integrating fine-grained perception tasks like detection and segmentation into these models remains a significant challenge. This is primarily because these tasks often rely heavily on task-specific designs and architectures that can complicate the modeling process. To address this challenge, we present \ours, a framework that Unifies Fine-grained visual perception tasks through an Open-ended language interface. By transforming all perception targets into the language space, \ours unifies object-level detection, pixel-level segmentation, and image-level vision-language tasks into a single model. Additionally, we introduce a novel embedding retrieval approach that relies solely on the language interface to support segmentation tasks. Our framework bridges the gap between fine-grained perception and vision-language tasks, significantly simplifying architectural design and training strategies while achieving comparable or superior performance to methods with intricate task-specific designs. After multi-task training on five standard visual perception datasets, \ours outperforms the previous state-of-the-art generalist models by 12.3 mAP on COCO instance segmentation and 3.3 mIoU on ADE20K semantic segmentation. Furthermore, our method seamlessly integrates with existing MLLMs, effectively combining fine-grained perception capabilities with their advanced language abilities, thereby enabling more challenging tasks such as reasoning segmentation. Code and models will be publicly available.