Pixel-SAIL: 픽셀 기반 이해를 위한 단일 트랜스포머
Pixel-SAIL: Single Transformer For Pixel-Grounded Understanding
April 14, 2025
저자: Tao Zhang, Xiangtai Li, Zilong Huang, Yanwei Li, Weixian Lei, Xueqing Deng, Shihao Chen, Shunping Ji, Jiashi Feng
cs.AI
초록
멀티모달 대형 언어 모델(MLLMs)은 세밀한 픽셀 수준의 이해 작업에서 뛰어난 성능을 달성합니다. 그러나 모든 연구는 비전 인코더(CLIP), 세분화 전문가와 같은 추가 구성 요소에 크게 의존하여 시스템 복잡성을 높이고 모델 확장을 제한합니다. 본 연구에서는 추가 구성 요소를 도입하지 않고도 고도로 단순화된 MLLM을 탐구하는 것을 목표로 합니다. 우리의 연구는 단일 트랜스포머를 통합 비전-언어 모델(SAIL)로 설계한 최근 연구들에서 영감을 받았으며, 이러한 연구들은 트랜스포머 내에서 비전 토큰과 텍스트 토큰을 공동으로 학습합니다. 우리는 픽셀 단위 MLLM 작업을 위한 단일 트랜스포머인 Pixel-SAIL을 제안합니다. 특히, 우리는 기본 베이스라인에 세 가지 기술적 개선을 적용했습니다. 첫째, 시각적 토큰 특징을 정제하기 위해 학습 가능한 업샘플링 모듈을 설계했습니다. 둘째, 단일 트랜스포머가 시각적 프롬프트 입력을 이해하고 시각적 프롬프트 임베딩과 비전 토큰의 초기 융합으로부터 이점을 얻을 수 있도록 새로운 시각적 프롬프트 주입 전략을 제안했습니다. 셋째, 단일 트랜스포머의 세밀한 특징 추출 능력을 효율적으로 향상시키기 위해 비전 전문가 지식 증류 전략을 도입했습니다. 또한, 우리는 수동 검사를 통해 포괄적인 픽셀 이해 벤치마크(PerBench)를 수집했습니다. 이 벤치마크는 세부 객체 설명, 시각적 프롬프트 기반 질의응답, 시각-텍스트 참조 세분화 등 세 가지 작업을 포함합니다. 네 가지 참조 세분화 벤치마크, 하나의 시각적 프롬프트 벤치마크, 그리고 우리의 PerBench에 대한 광범위한 실험을 통해 Pixel-SAIL이 훨씬 더 간단한 파이프라인으로도 비슷하거나 더 나은 결과를 달성함을 보여줍니다. 코드와 모델은 https://github.com/magic-research/Sa2VA에서 공개될 예정입니다.
English
Multimodal Large Language Models (MLLMs) achieve remarkable performance for
fine-grained pixel-level understanding tasks. However, all the works rely
heavily on extra components, such as vision encoder (CLIP), segmentation
experts, leading to high system complexity and limiting model scaling. In this
work, our goal is to explore a highly simplified MLLM without introducing extra
components. Our work is motivated by the recent works on Single trAnsformer as
a unified vIsion-Language Model (SAIL) design, where these works jointly learn
vision tokens and text tokens in transformers. We present Pixel-SAIL, a single
transformer for pixel-wise MLLM tasks. In particular, we present three
technical improvements on the plain baseline. First, we design a learnable
upsampling module to refine visual token features. Secondly, we propose a novel
visual prompt injection strategy to enable the single transformer to understand
visual prompt inputs and benefit from the early fusion of visual prompt
embeddings and vision tokens. Thirdly, we introduce a vision expert
distillation strategy to efficiently enhance the single transformer's
fine-grained feature extraction capability. In addition, we have collected a
comprehensive pixel understanding benchmark (PerBench), using a manual check.
It includes three tasks: detailed object description, visual prompt-based
question answering, and visual-text referring segmentation. Extensive
experiments on four referring segmentation benchmarks, one visual prompt
benchmark, and our PerBench show that our Pixel-SAIL achieves comparable or
even better results with a much simpler pipeline. Code and model will be
released at https://github.com/magic-research/Sa2VA.Summary
AI-Generated Summary