Pixel-SAIL: Enkele Transformer voor Pixel-Gebaseerd Begrip
Pixel-SAIL: Single Transformer For Pixel-Grounded Understanding
April 14, 2025
Auteurs: Tao Zhang, Xiangtai Li, Zilong Huang, Yanwei Li, Weixian Lei, Xueqing Deng, Shihao Chen, Shunping Ji, Jiashi Feng
cs.AI
Samenvatting
Multimodale Large Language Models (MLLMs) behalen opmerkelijke prestaties voor fijnmazige, pixelgebaseerde begripstaken. Echter, alle bestaande werken zijn sterk afhankelijk van extra componenten, zoals een vision encoder (CLIP) en segmentatie-experts, wat leidt tot een hoge systeemcomplexiteit en de schaalbaarheid van het model beperkt. In dit werk is ons doel om een sterk vereenvoudigde MLLM te verkennen zonder extra componenten te introduceren. Ons werk is geïnspireerd door recente onderzoeken naar het ontwerp van een Single trAnsformer als een geïntegreerd vIsion-Language Model (SAIL), waarbij deze werken visuele tokens en teksttokens gezamenlijk leren in transformers. Wij presenteren Pixel-SAIL, een enkele transformer voor pixelgebaseerde MLLM-taken. In het bijzonder presenteren we drie technische verbeteringen ten opzichte van de standaard baseline. Ten eerste ontwerpen we een leerbare upsampling-module om visuele tokenfeatures te verfijnen. Ten tweede stellen we een nieuwe strategie voor visuele promptinjectie voor, waardoor de enkele transformer visuele promptinputs kan begrijpen en profiteert van de vroege fusie van visuele prompt-embeddings en visuele tokens. Ten derde introduceren we een strategie voor vision expert-distillatie om de fijnmazige feature-extractiecapaciteit van de enkele transformer efficiënt te verbeteren. Daarnaast hebben we een uitgebreide benchmark voor pixelbegrip (PerBench) samengesteld, waarbij een handmatige controle is toegepast. Deze omvat drie taken: gedetailleerde objectbeschrijving, visuele prompt-gebaseerde vraagbeantwoording en visueel-tekstuele verwijzende segmentatie. Uitgebreide experimenten op vier verwijzende segmentatiebenchmarks, één visuele prompt-benchmark en onze PerBench laten zien dat onze Pixel-SAIL vergelijkbare of zelfs betere resultaten behaalt met een veel eenvoudiger pipeline. Code en model zullen worden vrijgegeven op https://github.com/magic-research/Sa2VA.
English
Multimodal Large Language Models (MLLMs) achieve remarkable performance for
fine-grained pixel-level understanding tasks. However, all the works rely
heavily on extra components, such as vision encoder (CLIP), segmentation
experts, leading to high system complexity and limiting model scaling. In this
work, our goal is to explore a highly simplified MLLM without introducing extra
components. Our work is motivated by the recent works on Single trAnsformer as
a unified vIsion-Language Model (SAIL) design, where these works jointly learn
vision tokens and text tokens in transformers. We present Pixel-SAIL, a single
transformer for pixel-wise MLLM tasks. In particular, we present three
technical improvements on the plain baseline. First, we design a learnable
upsampling module to refine visual token features. Secondly, we propose a novel
visual prompt injection strategy to enable the single transformer to understand
visual prompt inputs and benefit from the early fusion of visual prompt
embeddings and vision tokens. Thirdly, we introduce a vision expert
distillation strategy to efficiently enhance the single transformer's
fine-grained feature extraction capability. In addition, we have collected a
comprehensive pixel understanding benchmark (PerBench), using a manual check.
It includes three tasks: detailed object description, visual prompt-based
question answering, and visual-text referring segmentation. Extensive
experiments on four referring segmentation benchmarks, one visual prompt
benchmark, and our PerBench show that our Pixel-SAIL achieves comparable or
even better results with a much simpler pipeline. Code and model will be
released at https://github.com/magic-research/Sa2VA.Summary
AI-Generated Summary