SegAgent : Exploration des capacités de compréhension des pixels dans les MLLM par l'imitation des trajectoires d'annotateurs humains
SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by Imitating Human Annotator Trajectories
March 11, 2025
Auteurs: Muzhi Zhu, Yuzhuo Tian, Hao Chen, Chunluan Zhou, Qingpei Guo, Yang Liu, Ming Yang, Chunhua Shen
cs.AI
Résumé
Bien que les MLLM (Modèles Multimodaux de Langage) aient démontré des capacités adéquates de compréhension d'images, ils peinent encore à atteindre une compréhension au niveau des pixels, ce qui limite leurs applications pratiques. Les tâches d'évaluation actuelles, telles que la VQA (Question-Réponse Visuelle) et l'ancrage visuel, restent trop grossières pour évaluer avec précision la compréhension fine des pixels. Bien que la segmentation soit fondamentale pour une compréhension au niveau des pixels, les méthodes existantes obligent souvent les MLLM à générer des tokens implicites, décodés via des décodeurs de pixels externes. Cette approche perturbe l'espace de sortie textuelle des MLLM, compromettant potentiellement leurs capacités linguistiques et réduisant leur flexibilité et extensibilité, tout en ne reflétant pas la compréhension intrinsèque des pixels par le modèle.
Ainsi, nous introduisons la tâche d'annotation de masque de type humain (HLMAT), un nouveau paradigme où les MLLM imitent les annotateurs humains en utilisant des outils de segmentation interactive. En modélisant la segmentation comme un processus de décision markovien multi-étapes, HLMAT permet aux MLLM de générer itérativement des points de clic basés sur du texte, obtenant ainsi des masques de haute qualité sans modifications architecturales ni tokens implicites. Grâce à cette configuration, nous développons SegAgent, un modèle affiné sur des trajectoires d'annotation de type humain, qui atteint des performances comparables aux méthodes de pointe (SOTA) et supporte des tâches supplémentaires comme le raffinement de masques et le filtrage d'annotations.
HLMAT fournit un protocole pour évaluer la compréhension fine des pixels dans les MLLM et introduit une tâche de prise de décision multi-étapes centrée sur la vision, facilitant l'exploration des capacités de raisonnement visuel des MLLM. Nos adaptations de la méthode d'amélioration de politique StaR et de la recherche arborescente guidée par PRM renforcent davantage la robustesse du modèle dans les tâches de segmentation complexes, posant ainsi les bases pour des avancées futures dans la perception visuelle fine et la prise de décision multi-étapes pour les MLLM.
English
While MLLMs have demonstrated adequate image understanding capabilities, they
still struggle with pixel-level comprehension, limiting their practical
applications. Current evaluation tasks like VQA and visual grounding remain too
coarse to assess fine-grained pixel comprehension accurately. Though
segmentation is foundational for pixel-level understanding, existing methods
often require MLLMs to generate implicit tokens, decoded through external pixel
decoders. This approach disrupts the MLLM's text output space, potentially
compromising language capabilities and reducing flexibility and extensibility,
while failing to reflect the model's intrinsic pixel-level understanding.
Thus, we introduce the Human-Like Mask Annotation Task (HLMAT), a new
paradigm where MLLMs mimic human annotators using interactive segmentation
tools. Modeling segmentation as a multi-step Markov Decision Process, HLMAT
enables MLLMs to iteratively generate text-based click points, achieving
high-quality masks without architectural changes or implicit tokens. Through
this setup, we develop SegAgent, a model fine-tuned on human-like annotation
trajectories, which achieves performance comparable to state-of-the-art (SOTA)
methods and supports additional tasks like mask refinement and annotation
filtering.
HLMAT provides a protocol for assessing fine-grained pixel understanding in
MLLMs and introduces a vision-centric, multi-step decision-making task that
facilitates exploration of MLLMs' visual reasoning abilities. Our adaptations
of policy improvement method StaR and PRM-guided tree search further enhance
model robustness in complex segmentation tasks, laying a foundation for future
advancements in fine-grained visual perception and multi-step decision-making
for MLLMs.Summary
AI-Generated Summary