ChatPaper.aiChatPaper

패치-디코더블-토큰: MLLM에서 통합된 다중 모달 비전 태스크를 향하여

Patch-as-Decodable-Token: Towards Unified Multi-Modal Vision Tasks in MLLMs

October 2, 2025
저자: Yongyi Su, Haojie Zhang, Shijie Li, Nanqing Liu, Jingyi Liao, Junyi Pan, Yuan Liu, Xiaofen Xing, Chong Sun, Chen Li, Nancy F. Chen, Shuicheng Yan, Xulei Yang, Xun Xu
cs.AI

초록

최근 멀티모달 대형 언어 모델(MLLM)이 빠르게 발전하고 있습니다. 그러나 기존의 시각 작업 접근 방식은 탐지를 위해 텍스트로 좌표를 생성하는 것과 같은 간접적인 표현에 의존하는 경우가 많아, 성능이 제한되고 세그멘테이션과 같은 밀집 예측 작업을 수행하기 어렵습니다. 이러한 문제를 해결하기 위해, 우리는 Patch-as-Decodable Token(PaDT)을 소개합니다. PaDT는 MLLM이 텍스트와 다양한 시각적 출력을 직접 생성할 수 있도록 하는 통합 패러다임입니다. PaDT의 핵심은 쿼리 이미지의 시각적 패치 임베딩에서 파생된 Visual Reference Token(VRT)으로, 이는 LLM의 출력 텍스트 토큰과 자연스럽게 결합됩니다. 경량 디코더는 LLM의 출력을 탐지, 세그멘테이션, 그리고 그라운딩 예측으로 변환합니다. 기존 방법과 달리, PaDT는 각 순방향 패스에서 VRT를 독립적으로 처리하고 임베딩 테이블을 동적으로 확장함으로써 유사한 객체 간의 위치 파악과 구분을 개선합니다. 또한, 우리는 PaDT를 위한 학습 전략을 맞춤화하여 지도 미세 조정을 위해 무작위로 VRT를 선택하고, 강력한 토큰별 교차 엔트로피 손실을 도입했습니다. 네 가지 시각적 인식 및 이해 작업에 대한 실험 결과, PaDT는 상당히 큰 MLLM 모델과 비교해도 꾸준히 최첨단 성능을 달성하는 것으로 나타났습니다. 코드는 https://github.com/Gorilla-Lab-SCUT/PaDT에서 확인할 수 있습니다.
English
Multimodal large language models (MLLMs) have advanced rapidly in recent years. However, existing approaches for vision tasks often rely on indirect representations, such as generating coordinates as text for detection, which limits performance and prevents dense prediction tasks like segmentation. To overcome these challenges, we introduce Patch-as-Decodable Token (PaDT), a unified paradigm that enables MLLMs to directly generate both textual and diverse visual outputs. Central to PaDT are Visual Reference Tokens (VRTs), derived from visual patch embeddings of query images and interleaved seamlessly with LLM's output textual tokens. A lightweight decoder then transforms LLM's outputs into detection, segmentation, and grounding predictions. Unlike prior methods, PaDT processes VRTs independently at each forward pass and dynamically expands the embedding table, thus improving localization and differentiation among similar objects. We further tailor a training strategy for PaDT by randomly selecting VRTs for supervised fine-tuning and introducing a robust per-token cross-entropy loss. Our empirical studies across four visual perception and understanding tasks suggest PaDT consistently achieving state-of-the-art performance, even compared with significantly larger MLLM models. The code is available at https://github.com/Gorilla-Lab-SCUT/PaDT.
PDF92October 9, 2025