ChatPaper.aiChatPaper

Pixel-SAIL: Ein einzelner Transformer für pixelbasierte Verständnisaufgaben

Pixel-SAIL: Single Transformer For Pixel-Grounded Understanding

April 14, 2025
Autoren: Tao Zhang, Xiangtai Li, Zilong Huang, Yanwei Li, Weixian Lei, Xueqing Deng, Shihao Chen, Shunping Ji, Jiashi Feng
cs.AI

Zusammenfassung

Multimodale Large Language Models (MLLMs) erzielen bemerkenswerte Leistungen bei feingranularen, pixelgenauen Verständnisaufgaben. Allerdings basieren alle bisherigen Arbeiten stark auf zusätzlichen Komponenten wie Vision-Encodern (CLIP) oder Segmentierungsexperten, was zu einer hohen Systemkomplexität führt und die Skalierbarkeit der Modelle einschränkt. In dieser Arbeit ist unser Ziel, ein stark vereinfachtes MLLM zu erforschen, ohne zusätzliche Komponenten einzuführen. Unsere Arbeit wird durch aktuelle Ansätze zur Single-Transformer-Designs als vereinheitlichte Vision-Sprache-Modelle (SAIL) inspiriert, bei denen Vision-Token und Text-Token gemeinsam in Transformern gelernt werden. Wir präsentieren Pixel-SAIL, einen einzelnen Transformer für pixelweise MLLM-Aufgaben. Insbesondere führen wir drei technische Verbesserungen gegenüber der einfachen Baseline ein. Erstens entwerfen wir ein lernbares Upsampling-Modul, um visuelle Token-Features zu verfeinern. Zweitens schlagen wir eine neuartige Strategie zur Einbindung visueller Prompts vor, die es dem einzelnen Transformer ermöglicht, visuelle Prompt-Eingaben zu verstehen und von der frühen Fusion von visuellen Prompt-Embeddings und Vision-Tokens zu profitieren. Drittens führen wir eine Vision-Expert-Distillationsstrategie ein, um die feingranulare Feature-Extraktionsfähigkeit des einzelnen Transformers effizient zu verbessern. Zusätzlich haben wir einen umfassenden Benchmark für das Pixelverständnis (PerBench) durch manuelle Überprüfung zusammengestellt. Dieser umfasst drei Aufgaben: detaillierte Objektbeschreibung, visuelle Prompt-basierte Frage-Antwort-Systeme und visuell-textuelle Referenzsegmentierung. Umfangreiche Experimente auf vier Referenzsegmentierungs-Benchmarks, einem visuellen Prompt-Benchmark und unserem PerBench zeigen, dass Pixel-SAIL mit einer deutlich einfacheren Pipeline vergleichbare oder sogar bessere Ergebnisse erzielt. Code und Modelle werden unter https://github.com/magic-research/Sa2VA veröffentlicht.
English
Multimodal Large Language Models (MLLMs) achieve remarkable performance for fine-grained pixel-level understanding tasks. However, all the works rely heavily on extra components, such as vision encoder (CLIP), segmentation experts, leading to high system complexity and limiting model scaling. In this work, our goal is to explore a highly simplified MLLM without introducing extra components. Our work is motivated by the recent works on Single trAnsformer as a unified vIsion-Language Model (SAIL) design, where these works jointly learn vision tokens and text tokens in transformers. We present Pixel-SAIL, a single transformer for pixel-wise MLLM tasks. In particular, we present three technical improvements on the plain baseline. First, we design a learnable upsampling module to refine visual token features. Secondly, we propose a novel visual prompt injection strategy to enable the single transformer to understand visual prompt inputs and benefit from the early fusion of visual prompt embeddings and vision tokens. Thirdly, we introduce a vision expert distillation strategy to efficiently enhance the single transformer's fine-grained feature extraction capability. In addition, we have collected a comprehensive pixel understanding benchmark (PerBench), using a manual check. It includes three tasks: detailed object description, visual prompt-based question answering, and visual-text referring segmentation. Extensive experiments on four referring segmentation benchmarks, one visual prompt benchmark, and our PerBench show that our Pixel-SAIL achieves comparable or even better results with a much simpler pipeline. Code and model will be released at https://github.com/magic-research/Sa2VA.

Summary

AI-Generated Summary

PDF283April 16, 2025