SegAgent: Exploración de las capacidades de comprensión de píxeles en MLLM mediante la imitación de trayectorias de anotadores humanos
SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by Imitating Human Annotator Trajectories
March 11, 2025
Autores: Muzhi Zhu, Yuzhuo Tian, Hao Chen, Chunluan Zhou, Qingpei Guo, Yang Liu, Ming Yang, Chunhua Shen
cs.AI
Resumen
Si bien los MLLM han demostrado capacidades adecuadas de comprensión de imágenes, aún tienen dificultades con la comprensión a nivel de píxeles, lo que limita sus aplicaciones prácticas. Las tareas de evaluación actuales, como VQA y la localización visual, siguen siendo demasiado generales para evaluar con precisión la comprensión detallada a nivel de píxeles. Aunque la segmentación es fundamental para la comprensión a nivel de píxeles, los métodos existentes a menudo requieren que los MLLM generen tokens implícitos, decodificados a través de decodificadores de píxeles externos. Este enfoque interrumpe el espacio de salida de texto del MLLM, lo que podría comprometer las capacidades lingüísticas y reducir la flexibilidad y extensibilidad, sin reflejar la comprensión intrínseca del modelo a nivel de píxeles.
Por lo tanto, presentamos la Tarea de Anotación de Máscara Similar a Humana (HLMAT), un nuevo paradigma en el que los MLLM imitan a los anotadores humanos utilizando herramientas de segmentación interactiva. Al modelar la segmentación como un Proceso de Decisión de Markov de múltiples pasos, HLMAT permite que los MLLM generen iterativamente puntos de clic basados en texto, logrando máscaras de alta calidad sin cambios arquitectónicos ni tokens implícitos. A través de esta configuración, desarrollamos SegAgent, un modelo ajustado en trayectorias de anotación similares a las humanas, que alcanza un rendimiento comparable a los métodos de vanguardia (SOTA) y admite tareas adicionales como el refinamiento de máscaras y el filtrado de anotaciones.
HLMAT proporciona un protocolo para evaluar la comprensión detallada a nivel de píxeles en los MLLM e introduce una tarea de toma de decisiones de múltiples pasos centrada en la visión que facilita la exploración de las habilidades de razonamiento visual de los MLLM. Nuestras adaptaciones del método de mejora de políticas StaR y la búsqueda en árbol guiada por PRM mejoran aún más la robustez del modelo en tareas de segmentación complejas, sentando las bases para futuros avances en la percepción visual detallada y la toma de decisiones de múltiples pasos para los MLLM.
English
While MLLMs have demonstrated adequate image understanding capabilities, they
still struggle with pixel-level comprehension, limiting their practical
applications. Current evaluation tasks like VQA and visual grounding remain too
coarse to assess fine-grained pixel comprehension accurately. Though
segmentation is foundational for pixel-level understanding, existing methods
often require MLLMs to generate implicit tokens, decoded through external pixel
decoders. This approach disrupts the MLLM's text output space, potentially
compromising language capabilities and reducing flexibility and extensibility,
while failing to reflect the model's intrinsic pixel-level understanding.
Thus, we introduce the Human-Like Mask Annotation Task (HLMAT), a new
paradigm where MLLMs mimic human annotators using interactive segmentation
tools. Modeling segmentation as a multi-step Markov Decision Process, HLMAT
enables MLLMs to iteratively generate text-based click points, achieving
high-quality masks without architectural changes or implicit tokens. Through
this setup, we develop SegAgent, a model fine-tuned on human-like annotation
trajectories, which achieves performance comparable to state-of-the-art (SOTA)
methods and supports additional tasks like mask refinement and annotation
filtering.
HLMAT provides a protocol for assessing fine-grained pixel understanding in
MLLMs and introduces a vision-centric, multi-step decision-making task that
facilitates exploration of MLLMs' visual reasoning abilities. Our adaptations
of policy improvement method StaR and PRM-guided tree search further enhance
model robustness in complex segmentation tasks, laying a foundation for future
advancements in fine-grained visual perception and multi-step decision-making
for MLLMs.Summary
AI-Generated Summary