ChatPaper.aiChatPaper

Patch-as-Decodable-Token: К унифицированному подходу к многомодальным задачам компьютерного зрения в MLLM

Patch-as-Decodable-Token: Towards Unified Multi-Modal Vision Tasks in MLLMs

October 2, 2025
Авторы: Yongyi Su, Haojie Zhang, Shijie Li, Nanqing Liu, Jingyi Liao, Junyi Pan, Yuan Liu, Xiaofen Xing, Chong Sun, Chen Li, Nancy F. Chen, Shuicheng Yan, Xulei Yang, Xun Xu
cs.AI

Аннотация

Мультимодальные большие языковые модели (MLLMs) в последние годы быстро развиваются. Однако существующие подходы для задач компьютерного зрения часто полагаются на косвенные представления, такие как генерация координат в виде текста для детекции, что ограничивает производительность и препятствует выполнению задач плотного предсказания, таких как сегментация. Чтобы преодолеть эти ограничения, мы представляем Patch-as-Decodable Token (PaDT) — унифицированную парадигму, которая позволяет MLLMs напрямую генерировать как текстовые, так и разнообразные визуальные выходы. Основой PaDT являются Visual Reference Tokens (VRTs), полученные из визуальных патч-эмбеддингов запрашиваемых изображений и интегрированные с текстовыми токенами, выводимыми языковой моделью. Легковесный декодер затем преобразует выходы языковой модели в предсказания для задач детекции, сегментации и локализации. В отличие от предыдущих методов, PaDT обрабатывает VRTs независимо на каждом шаге и динамически расширяет таблицу эмбеддингов, что улучшает локализацию и различение схожих объектов. Мы также разработали стратегию обучения для PaDT, случайным образом выбирая VRTs для контролируемой тонкой настройки и вводя устойчивую потерю кросс-энтропии на уровне токенов. Наши эмпирические исследования на четырех задачах визуального восприятия и понимания показывают, что PaDT стабильно достигает наилучших результатов, даже по сравнению с значительно более крупными моделями MLLM. Код доступен по адресу https://github.com/Gorilla-Lab-SCUT/PaDT.
English
Multimodal large language models (MLLMs) have advanced rapidly in recent years. However, existing approaches for vision tasks often rely on indirect representations, such as generating coordinates as text for detection, which limits performance and prevents dense prediction tasks like segmentation. To overcome these challenges, we introduce Patch-as-Decodable Token (PaDT), a unified paradigm that enables MLLMs to directly generate both textual and diverse visual outputs. Central to PaDT are Visual Reference Tokens (VRTs), derived from visual patch embeddings of query images and interleaved seamlessly with LLM's output textual tokens. A lightweight decoder then transforms LLM's outputs into detection, segmentation, and grounding predictions. Unlike prior methods, PaDT processes VRTs independently at each forward pass and dynamically expands the embedding table, thus improving localization and differentiation among similar objects. We further tailor a training strategy for PaDT by randomly selecting VRTs for supervised fine-tuning and introducing a robust per-token cross-entropy loss. Our empirical studies across four visual perception and understanding tasks suggest PaDT consistently achieving state-of-the-art performance, even compared with significantly larger MLLM models. The code is available at https://github.com/Gorilla-Lab-SCUT/PaDT.
PDF92October 9, 2025