Pixel-SAIL: Um Único Transformer para Compreensão Baseada em Pixels
Pixel-SAIL: Single Transformer For Pixel-Grounded Understanding
April 14, 2025
Autores: Tao Zhang, Xiangtai Li, Zilong Huang, Yanwei Li, Weixian Lei, Xueqing Deng, Shihao Chen, Shunping Ji, Jiashi Feng
cs.AI
Resumo
Modelos de Linguagem Multimodais de Grande Escala (MLLMs) alcançam desempenho notável em tarefas de compreensão em nível de pixel com alto detalhamento. No entanto, todos os trabalhos dependem fortemente de componentes extras, como codificadores visuais (CLIP) e especialistas em segmentação, resultando em alta complexidade do sistema e limitando a escalabilidade do modelo. Neste trabalho, nosso objetivo é explorar um MLLM altamente simplificado sem a introdução de componentes extras. Nosso trabalho é motivado por estudos recentes sobre o design de um Único Transformer como Modelo Unificado de Visão e Linguagem (SAIL), onde esses trabalhos aprendem conjuntamente tokens visuais e tokens de texto em transformers. Apresentamos o Pixel-SAIL, um único transformer para tarefas MLLM em nível de pixel. Em particular, apresentamos três melhorias técnicas em relação à linha de base simples. Primeiro, projetamos um módulo de upsampling aprendível para refinar as características dos tokens visuais. Em segundo lugar, propomos uma nova estratégia de injeção de prompt visual para permitir que o único transformer compreenda entradas de prompt visual e se beneficie da fusão precoce de embeddings de prompt visual e tokens visuais. Terceiro, introduzimos uma estratégia de destilação de especialista visual para aprimorar eficientemente a capacidade de extração de características detalhadas do único transformer. Além disso, coletamos um benchmark abrangente de compreensão em nível de pixel (PerBench), utilizando uma verificação manual. Ele inclui três tarefas: descrição detalhada de objetos, resposta a perguntas baseadas em prompt visual e segmentação referencial visual-textual. Experimentos extensos em quatro benchmarks de segmentação referencial, um benchmark de prompt visual e nosso PerBench mostram que o Pixel-SAIL alcança resultados comparáveis ou até melhores com um pipeline muito mais simples. O código e o modelo serão disponibilizados em https://github.com/magic-research/Sa2VA.
English
Multimodal Large Language Models (MLLMs) achieve remarkable performance for
fine-grained pixel-level understanding tasks. However, all the works rely
heavily on extra components, such as vision encoder (CLIP), segmentation
experts, leading to high system complexity and limiting model scaling. In this
work, our goal is to explore a highly simplified MLLM without introducing extra
components. Our work is motivated by the recent works on Single trAnsformer as
a unified vIsion-Language Model (SAIL) design, where these works jointly learn
vision tokens and text tokens in transformers. We present Pixel-SAIL, a single
transformer for pixel-wise MLLM tasks. In particular, we present three
technical improvements on the plain baseline. First, we design a learnable
upsampling module to refine visual token features. Secondly, we propose a novel
visual prompt injection strategy to enable the single transformer to understand
visual prompt inputs and benefit from the early fusion of visual prompt
embeddings and vision tokens. Thirdly, we introduce a vision expert
distillation strategy to efficiently enhance the single transformer's
fine-grained feature extraction capability. In addition, we have collected a
comprehensive pixel understanding benchmark (PerBench), using a manual check.
It includes three tasks: detailed object description, visual prompt-based
question answering, and visual-text referring segmentation. Extensive
experiments on four referring segmentation benchmarks, one visual prompt
benchmark, and our PerBench show that our Pixel-SAIL achieves comparable or
even better results with a much simpler pipeline. Code and model will be
released at https://github.com/magic-research/Sa2VA.