SegAgent: Explorando Capacidades de Compreensão de Pixels em MLLMs por meio da Imitação de Trajetórias de Anotadores Humanos
SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by Imitating Human Annotator Trajectories
March 11, 2025
Autores: Muzhi Zhu, Yuzhuo Tian, Hao Chen, Chunluan Zhou, Qingpei Guo, Yang Liu, Ming Yang, Chunhua Shen
cs.AI
Resumo
Embora os MLLMs (Modelos Multimodais de Linguagem) tenham demonstrado capacidades adequadas de compreensão de imagens, eles ainda enfrentam dificuldades com a compreensão em nível de pixel, o que limita suas aplicações práticas. As tarefas de avaliação atuais, como VQA (Visual Question Answering) e ancoragem visual, permanecem muito amplas para avaliar com precisão a compreensão detalhada em nível de pixel. Embora a segmentação seja fundamental para a compreensão em nível de pixel, os métodos existentes frequentemente exigem que os MLLMs gerem tokens implícitos, decodificados por meio de decodificadores de pixel externos. Essa abordagem perturba o espaço de saída de texto do MLLM, potencialmente comprometendo as capacidades linguísticas e reduzindo a flexibilidade e extensibilidade, ao mesmo tempo em que falha em refletir a compreensão intrínseca do modelo em nível de pixel.
Assim, introduzimos a Tarefa de Anotação de Máscara Humanóide (HLMAT), um novo paradigma no qual os MLLMs imitam anotadores humanos usando ferramentas de segmentação interativa. Modelando a segmentação como um Processo de Decisão de Markov de múltiplos passos, o HLMAT permite que os MLLMs gerem iterativamente pontos de clique baseados em texto, alcançando máscaras de alta qualidade sem alterações arquitetônicas ou tokens implícitos. Por meio dessa configuração, desenvolvemos o SegAgent, um modelo ajustado em trajetórias de anotação humanóide, que alcança desempenho comparável aos métodos state-of-the-art (SOTA) e suporta tarefas adicionais como refinamento de máscara e filtragem de anotações.
O HLMAT fornece um protocolo para avaliar a compreensão detalhada em nível de pixel em MLLMs e introduz uma tarefa de tomada de decisão de múltiplos passos centrada na visão, que facilita a exploração das habilidades de raciocínio visual dos MLLMs. Nossas adaptações do método de melhoria de política StaR e da busca em árvore guiada por PRM aprimoram ainda mais a robustez do modelo em tarefas complexas de segmentação, estabelecendo uma base para avanços futuros na percepção visual detalhada e na tomada de decisão de múltiplos passos para MLLMs.
English
While MLLMs have demonstrated adequate image understanding capabilities, they
still struggle with pixel-level comprehension, limiting their practical
applications. Current evaluation tasks like VQA and visual grounding remain too
coarse to assess fine-grained pixel comprehension accurately. Though
segmentation is foundational for pixel-level understanding, existing methods
often require MLLMs to generate implicit tokens, decoded through external pixel
decoders. This approach disrupts the MLLM's text output space, potentially
compromising language capabilities and reducing flexibility and extensibility,
while failing to reflect the model's intrinsic pixel-level understanding.
Thus, we introduce the Human-Like Mask Annotation Task (HLMAT), a new
paradigm where MLLMs mimic human annotators using interactive segmentation
tools. Modeling segmentation as a multi-step Markov Decision Process, HLMAT
enables MLLMs to iteratively generate text-based click points, achieving
high-quality masks without architectural changes or implicit tokens. Through
this setup, we develop SegAgent, a model fine-tuned on human-like annotation
trajectories, which achieves performance comparable to state-of-the-art (SOTA)
methods and supports additional tasks like mask refinement and annotation
filtering.
HLMAT provides a protocol for assessing fine-grained pixel understanding in
MLLMs and introduces a vision-centric, multi-step decision-making task that
facilitates exploration of MLLMs' visual reasoning abilities. Our adaptations
of policy improvement method StaR and PRM-guided tree search further enhance
model robustness in complex segmentation tasks, laying a foundation for future
advancements in fine-grained visual perception and multi-step decision-making
for MLLMs.Summary
AI-Generated Summary