UFO: Een Geïntegreerde Aanpak voor Fijnmazige Visuele Waarneming via een Open Taalinterface
UFO: A Unified Approach to Fine-grained Visual Perception via Open-ended Language Interface
March 3, 2025
Auteurs: Hao Tang, Chenwei Xie, Haiyang Wang, Xiaoyi Bao, Tingyu Weng, Pandeng Li, Yun Zheng, Liwei Wang
cs.AI
Samenvatting
Generalistische modellen hebben opmerkelijke successen behaald in zowel taal- als visueel-taaltaken, wat het potentieel van uniforme modellering aantoont. Het effectief integreren van fijnmazige perceptietaken zoals detectie en segmentatie in deze modellen blijft echter een aanzienlijke uitdaging. Dit komt voornamelijk doordat deze taken vaak sterk leunen op taakspecifieke ontwerpen en architecturen die het modelleringsproces kunnen bemoeilijken. Om deze uitdaging aan te pakken, presenteren wij \ours, een raamwerk dat fijnmazige visuele perceptietaken verenigt via een open taalinterface. Door alle perceptiedoelen om te zetten in de taalspace, verenigt \ours objectniveau-detectie, pixelniveau-segmentatie en beeldniveau-visueel-taaltaken in één model. Daarnaast introduceren we een nieuwe benadering voor het ophalen van embeddings die uitsluitend afhankelijk is van de taalinterface om segmentatietaken te ondersteunen. Ons raamwerk overbrugt de kloof tussen fijnmazige perceptie en visueel-taaltaken, waardoor het architectonisch ontwerp en de trainingsstrategieën aanzienlijk worden vereenvoudigd, terwijl het vergelijkbare of superieure prestaties behaalt ten opzichte van methoden met ingewikkelde taakspecifieke ontwerpen. Na multi-task training op vijf standaard visuele perceptiedatasets, overtreft \ours de vorige state-of-the-art generalistische modellen met 12.3 mAP op COCO instance segmentation en 3.3 mIoU op ADE20K semantische segmentatie. Bovendien integreert onze methode naadloos met bestaande MLLM's, waardoor fijnmazige perceptiecapaciteiten effectief worden gecombineerd met hun geavanceerde taalvaardigheden, wat het mogelijk maakt om uitdagendere taken zoals redeneersegmentatie uit te voeren. Code en modellen zullen publiekelijk beschikbaar worden gesteld.
English
Generalist models have achieved remarkable success in both language and
vision-language tasks, showcasing the potential of unified modeling. However,
effectively integrating fine-grained perception tasks like detection and
segmentation into these models remains a significant challenge. This is
primarily because these tasks often rely heavily on task-specific designs and
architectures that can complicate the modeling process. To address this
challenge, we present \ours, a framework that Unifies
Fine-grained visual perception tasks through an Open-ended
language interface. By transforming all perception targets into the language
space, \ours unifies object-level detection, pixel-level segmentation, and
image-level vision-language tasks into a single model. Additionally, we
introduce a novel embedding retrieval approach that relies solely on the
language interface to support segmentation tasks. Our framework bridges the gap
between fine-grained perception and vision-language tasks, significantly
simplifying architectural design and training strategies while achieving
comparable or superior performance to methods with intricate task-specific
designs. After multi-task training on five standard visual perception datasets,
\ours outperforms the previous state-of-the-art generalist models by 12.3 mAP
on COCO instance segmentation and 3.3 mIoU on ADE20K semantic segmentation.
Furthermore, our method seamlessly integrates with existing MLLMs, effectively
combining fine-grained perception capabilities with their advanced language
abilities, thereby enabling more challenging tasks such as reasoning
segmentation. Code and models will be publicly available.Summary
AI-Generated Summary