Pixel-SAIL: Единый трансформатор для понимания на уровне пикселей
Pixel-SAIL: Single Transformer For Pixel-Grounded Understanding
April 14, 2025
Авторы: Tao Zhang, Xiangtai Li, Zilong Huang, Yanwei Li, Weixian Lei, Xueqing Deng, Shihao Chen, Shunping Ji, Jiashi Feng
cs.AI
Аннотация
Мультимодальные большие языковые модели (MLLM) демонстрируют выдающиеся результаты в задачах детального понимания на уровне пикселей. Однако все существующие работы сильно зависят от дополнительных компонентов, таких как визуальный кодировщик (CLIP) или эксперты по сегментации, что приводит к высокой сложности системы и ограничивает масштабируемость моделей. В данной работе наша цель — исследовать максимально упрощённую MLLM без введения дополнительных компонентов. Наше исследование вдохновлено недавними работами по проектированию единой модели на основе одного трансформера для задач визуального и языкового моделирования (SAIL), где визуальные и текстовые токены обучаются совместно в рамках трансформера. Мы представляем Pixel-SAIL — единый трансформер для задач пиксельного MLLM. В частности, мы предлагаем три технических улучшения по сравнению с базовой моделью. Во-первых, мы разработали обучаемый модуль апсемплинга для уточнения признаков визуальных токенов. Во-вторых, мы предлагаем новую стратегию инъекции визуальных подсказок, которая позволяет единому трансформеру понимать входные визуальные подсказки и извлекать пользу из раннего слияния эмбеддингов визуальных подсказок и визуальных токенов. В-третьих, мы вводим стратегию дистилляции знаний от визуальных экспертов для эффективного улучшения способности единого трансформера извлекать детализированные признаки. Кроме того, мы собрали комплексный бенчмарк для задач пиксельного понимания (PerBench), используя ручную проверку. Он включает три задачи: детальное описание объектов, ответы на вопросы на основе визуальных подсказок и визуально-текстовую референсную сегментацию. Эксперименты на четырёх бенчмарках для референсной сегментации, одном бенчмарке для визуальных подсказок и нашем PerBench показывают, что Pixel-SAIL достигает сопоставимых или даже лучших результатов при значительно более простом пайплайне. Код и модель будут доступны по адресу https://github.com/magic-research/Sa2VA.
English
Multimodal Large Language Models (MLLMs) achieve remarkable performance for
fine-grained pixel-level understanding tasks. However, all the works rely
heavily on extra components, such as vision encoder (CLIP), segmentation
experts, leading to high system complexity and limiting model scaling. In this
work, our goal is to explore a highly simplified MLLM without introducing extra
components. Our work is motivated by the recent works on Single trAnsformer as
a unified vIsion-Language Model (SAIL) design, where these works jointly learn
vision tokens and text tokens in transformers. We present Pixel-SAIL, a single
transformer for pixel-wise MLLM tasks. In particular, we present three
technical improvements on the plain baseline. First, we design a learnable
upsampling module to refine visual token features. Secondly, we propose a novel
visual prompt injection strategy to enable the single transformer to understand
visual prompt inputs and benefit from the early fusion of visual prompt
embeddings and vision tokens. Thirdly, we introduce a vision expert
distillation strategy to efficiently enhance the single transformer's
fine-grained feature extraction capability. In addition, we have collected a
comprehensive pixel understanding benchmark (PerBench), using a manual check.
It includes three tasks: detailed object description, visual prompt-based
question answering, and visual-text referring segmentation. Extensive
experiments on four referring segmentation benchmarks, one visual prompt
benchmark, and our PerBench show that our Pixel-SAIL achieves comparable or
even better results with a much simpler pipeline. Code and model will be
released at https://github.com/magic-research/Sa2VA.Summary
AI-Generated Summary