SegAgent: Esplorazione delle Capacità di Comprensione Pixel nelle MLLM Imitando le Traiettorie degli Annotatori Umani
SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by Imitating Human Annotator Trajectories
March 11, 2025
Autori: Muzhi Zhu, Yuzhuo Tian, Hao Chen, Chunluan Zhou, Qingpei Guo, Yang Liu, Ming Yang, Chunhua Shen
cs.AI
Abstract
Sebbene i Modelli Multilingue di Apprendimento (MLLM) abbiano dimostrato capacità adeguate di comprensione delle immagini, continuano a lottare con la comprensione a livello di pixel, limitando le loro applicazioni pratiche. Le attuali attività di valutazione come il VQA (Visual Question Answering) e il grounding visivo rimangono troppo approssimative per valutare accuratamente la comprensione fine a livello di pixel. Sebbene la segmentazione sia fondamentale per la comprensione a livello di pixel, i metodi esistenti spesso richiedono che i MLLM generino token impliciti, decodificati tramite decoder di pixel esterni. Questo approccio interrompe lo spazio di output testuale del MLLM, potenzialmente compromettendo le capacità linguistiche e riducendo la flessibilità e l'estensibilità, senza riuscire a riflettere la comprensione intrinseca del modello a livello di pixel.
Pertanto, introduciamo il Human-Like Mask Annotation Task (HLMAT), un nuovo paradigma in cui i MLLM imitano gli annotatori umani utilizzando strumenti di segmentazione interattiva. Modellando la segmentazione come un Processo Decisionale di Markov multi-step, l'HLMAT consente ai MLLM di generare iterativamente punti di clic basati su testo, ottenendo maschere di alta qualità senza modifiche architetturali o token impliciti. Attraverso questa configurazione, sviluppiamo SegAgent, un modello fine-tuned su traiettorie di annotazione simili a quelle umane, che raggiunge prestazioni comparabili ai metodi state-of-the-art (SOTA) e supporta ulteriori attività come il perfezionamento delle maschere e il filtraggio delle annotazioni.
L'HLMAT fornisce un protocollo per valutare la comprensione fine a livello di pixel nei MLLM e introduce un'attività decisionale multi-step centrata sulla visione che facilita l'esplorazione delle capacità di ragionamento visivo dei MLLM. I nostri adattamenti del metodo di miglioramento delle politiche StaR e della ricerca ad albero guidata da PRM migliorano ulteriormente la robustezza del modello in compiti di segmentazione complessi, gettando le basi per futuri progressi nella percezione visiva fine e nel processo decisionale multi-step per i MLLM.
English
While MLLMs have demonstrated adequate image understanding capabilities, they
still struggle with pixel-level comprehension, limiting their practical
applications. Current evaluation tasks like VQA and visual grounding remain too
coarse to assess fine-grained pixel comprehension accurately. Though
segmentation is foundational for pixel-level understanding, existing methods
often require MLLMs to generate implicit tokens, decoded through external pixel
decoders. This approach disrupts the MLLM's text output space, potentially
compromising language capabilities and reducing flexibility and extensibility,
while failing to reflect the model's intrinsic pixel-level understanding.
Thus, we introduce the Human-Like Mask Annotation Task (HLMAT), a new
paradigm where MLLMs mimic human annotators using interactive segmentation
tools. Modeling segmentation as a multi-step Markov Decision Process, HLMAT
enables MLLMs to iteratively generate text-based click points, achieving
high-quality masks without architectural changes or implicit tokens. Through
this setup, we develop SegAgent, a model fine-tuned on human-like annotation
trajectories, which achieves performance comparable to state-of-the-art (SOTA)
methods and supports additional tasks like mask refinement and annotation
filtering.
HLMAT provides a protocol for assessing fine-grained pixel understanding in
MLLMs and introduces a vision-centric, multi-step decision-making task that
facilitates exploration of MLLMs' visual reasoning abilities. Our adaptations
of policy improvement method StaR and PRM-guided tree search further enhance
model robustness in complex segmentation tasks, laying a foundation for future
advancements in fine-grained visual perception and multi-step decision-making
for MLLMs.