Pixel-SAIL: Un Único Transformador para la Comprensión Basada en Píxeles
Pixel-SAIL: Single Transformer For Pixel-Grounded Understanding
April 14, 2025
Autores: Tao Zhang, Xiangtai Li, Zilong Huang, Yanwei Li, Weixian Lei, Xueqing Deng, Shihao Chen, Shunping Ji, Jiashi Feng
cs.AI
Resumen
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) logran un rendimiento notable en tareas de comprensión a nivel de píxeles de gran detalle. Sin embargo, todos los trabajos dependen en gran medida de componentes adicionales, como un codificador visual (CLIP) o expertos en segmentación, lo que aumenta la complejidad del sistema y limita la escalabilidad del modelo. En este trabajo, nuestro objetivo es explorar un MLLM altamente simplificado sin introducir componentes adicionales. Nuestra investigación está motivada por trabajos recientes sobre el diseño de un único Transformer como Modelo Unificado de Visión y Lenguaje (SAIL), donde estos trabajos aprenden conjuntamente tokens visuales y de texto en transformers. Presentamos Pixel-SAIL, un único transformer para tareas MLLM a nivel de píxeles. En particular, presentamos tres mejoras técnicas sobre la línea base simple. Primero, diseñamos un módulo de muestreo ascendente aprendible para refinar las características de los tokens visuales. En segundo lugar, proponemos una novedosa estrategia de inyección de indicaciones visuales para permitir que el transformer único comprenda entradas de indicaciones visuales y se beneficie de la fusión temprana de las incrustaciones de indicaciones visuales y los tokens visuales. En tercer lugar, introducimos una estrategia de destilación de expertos visuales para mejorar eficientemente la capacidad de extracción de características detalladas del transformer único. Además, hemos recopilado un punto de referencia integral para la comprensión de píxeles (PerBench), utilizando una verificación manual. Este incluye tres tareas: descripción detallada de objetos, respuesta a preguntas basadas en indicaciones visuales y segmentación referencial visual-textual. Experimentos extensos en cuatro puntos de referencia de segmentación referencial, un punto de referencia de indicaciones visuales y nuestro PerBench muestran que Pixel-SAIL logra resultados comparables o incluso mejores con una canalización mucho más simple. El código y el modelo se publicarán en https://github.com/magic-research/Sa2VA.
English
Multimodal Large Language Models (MLLMs) achieve remarkable performance for
fine-grained pixel-level understanding tasks. However, all the works rely
heavily on extra components, such as vision encoder (CLIP), segmentation
experts, leading to high system complexity and limiting model scaling. In this
work, our goal is to explore a highly simplified MLLM without introducing extra
components. Our work is motivated by the recent works on Single trAnsformer as
a unified vIsion-Language Model (SAIL) design, where these works jointly learn
vision tokens and text tokens in transformers. We present Pixel-SAIL, a single
transformer for pixel-wise MLLM tasks. In particular, we present three
technical improvements on the plain baseline. First, we design a learnable
upsampling module to refine visual token features. Secondly, we propose a novel
visual prompt injection strategy to enable the single transformer to understand
visual prompt inputs and benefit from the early fusion of visual prompt
embeddings and vision tokens. Thirdly, we introduce a vision expert
distillation strategy to efficiently enhance the single transformer's
fine-grained feature extraction capability. In addition, we have collected a
comprehensive pixel understanding benchmark (PerBench), using a manual check.
It includes three tasks: detailed object description, visual prompt-based
question answering, and visual-text referring segmentation. Extensive
experiments on four referring segmentation benchmarks, one visual prompt
benchmark, and our PerBench show that our Pixel-SAIL achieves comparable or
even better results with a much simpler pipeline. Code and model will be
released at https://github.com/magic-research/Sa2VA.Summary
AI-Generated Summary