Pixel-SAIL : Un seul transformateur pour la compréhension ancrée au niveau des pixels
Pixel-SAIL: Single Transformer For Pixel-Grounded Understanding
April 14, 2025
Auteurs: Tao Zhang, Xiangtai Li, Zilong Huang, Yanwei Li, Weixian Lei, Xueqing Deng, Shihao Chen, Shunping Ji, Jiashi Feng
cs.AI
Résumé
Les modèles de langage multimodaux de grande taille (MLLMs) atteignent des performances remarquables pour les tâches de compréhension fine au niveau des pixels. Cependant, toutes les approches reposent fortement sur des composants supplémentaires, tels qu'un encodeur visuel (CLIP) ou des experts en segmentation, ce qui entraîne une complexité système élevée et limite la mise à l'échelle des modèles. Dans ce travail, notre objectif est d'explorer un MLLM hautement simplifié sans introduire de composants supplémentaires. Notre démarche s'inspire des travaux récents sur la conception d'un unique transformateur comme modèle unifié vision-langage (SAIL), où ces travaux apprennent conjointement les tokens visuels et textuels dans les transformateurs. Nous présentons Pixel-SAIL, un transformateur unique pour les tâches MLLM au niveau des pixels. En particulier, nous proposons trois améliorations techniques par rapport à la base de référence. Premièrement, nous concevons un module d'upsampling apprenable pour affiner les caractéristiques des tokens visuels. Deuxièmement, nous proposons une nouvelle stratégie d'injection de prompts visuels pour permettre au transformateur unique de comprendre les entrées de prompts visuels et de bénéficier de la fusion précoce des embeddings de prompts visuels et des tokens visuels. Troisièmement, nous introduisons une stratégie de distillation d'expert visuel pour améliorer efficacement la capacité d'extraction de caractéristiques fines du transformateur unique. En outre, nous avons constitué un benchmark complet de compréhension des pixels (PerBench) en effectuant une vérification manuelle. Il comprend trois tâches : description détaillée d'objets, réponse à des questions basées sur des prompts visuels, et segmentation référentielle visuo-textuelle. Des expériences approfondies sur quatre benchmarks de segmentation référentielle, un benchmark de prompts visuels et notre PerBench montrent que notre Pixel-SAIL obtient des résultats comparables, voire supérieurs, avec un pipeline bien plus simple. Le code et le modèle seront disponibles à l'adresse https://github.com/magic-research/Sa2VA.
English
Multimodal Large Language Models (MLLMs) achieve remarkable performance for
fine-grained pixel-level understanding tasks. However, all the works rely
heavily on extra components, such as vision encoder (CLIP), segmentation
experts, leading to high system complexity and limiting model scaling. In this
work, our goal is to explore a highly simplified MLLM without introducing extra
components. Our work is motivated by the recent works on Single trAnsformer as
a unified vIsion-Language Model (SAIL) design, where these works jointly learn
vision tokens and text tokens in transformers. We present Pixel-SAIL, a single
transformer for pixel-wise MLLM tasks. In particular, we present three
technical improvements on the plain baseline. First, we design a learnable
upsampling module to refine visual token features. Secondly, we propose a novel
visual prompt injection strategy to enable the single transformer to understand
visual prompt inputs and benefit from the early fusion of visual prompt
embeddings and vision tokens. Thirdly, we introduce a vision expert
distillation strategy to efficiently enhance the single transformer's
fine-grained feature extraction capability. In addition, we have collected a
comprehensive pixel understanding benchmark (PerBench), using a manual check.
It includes three tasks: detailed object description, visual prompt-based
question answering, and visual-text referring segmentation. Extensive
experiments on four referring segmentation benchmarks, one visual prompt
benchmark, and our PerBench show that our Pixel-SAIL achieves comparable or
even better results with a much simpler pipeline. Code and model will be
released at https://github.com/magic-research/Sa2VA.Summary
AI-Generated Summary