SegAgent: Onderzoek naar Pixelbegrip in MLLMs door het Nabootsen van Menselijke Annotator Trajectories
SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by Imitating Human Annotator Trajectories
March 11, 2025
Auteurs: Muzhi Zhu, Yuzhuo Tian, Hao Chen, Chunluan Zhou, Qingpei Guo, Yang Liu, Ming Yang, Chunhua Shen
cs.AI
Samenvatting
Hoewel MLLM's adequate beeldbegrip hebben getoond, worstelen ze nog steeds met begrip op pixelniveau, wat hun praktische toepassingen beperkt. Huidige evaluatietaken zoals VQA en visuele verankering blijven te grof om een nauwkeurige beoordeling van fijnmazig pixelbegrip mogelijk te maken. Hoewel segmentatie fundamenteel is voor begrip op pixelniveau, vereisen bestaande methoden vaak dat MLLM's impliciete tokens genereren, die worden gedecodeerd via externe pixeldecoders. Deze aanpak verstoort de tekstuitvoerruimte van de MLLM, wat mogelijk de taalvaardigheden aantast en de flexibiliteit en uitbreidbaarheid vermindert, terwijl het intrinsieke pixelbegrip van het model niet accuraat wordt weergegeven.
Daarom introduceren we de Human-Like Mask Annotation Task (HLMAT), een nieuw paradigma waarbij MLLM's menselijke annotators nabootsen met behulp van interactieve segmentatietools. Door segmentatie te modelleren als een meerstaps Markov-beslissingsproces, stelt HLMAT MLLM's in staat om iteratief tekstgebaseerde klikpunten te genereren, waardoor hoogwaardige maskers worden bereikt zonder architectuurwijzigingen of impliciete tokens. Via deze opzet ontwikkelen we SegAgent, een model dat is afgestemd op mensachtige annotatietrajecten, dat prestaties bereikt die vergelijkbaar zijn met state-of-the-art (SOTA) methoden en aanvullende taken ondersteunt zoals maskerverfijning en annotatiefiltering.
HLMAT biedt een protocol voor het beoordelen van fijnmazig pixelbegrip in MLLM's en introduceert een visiegerichte, meerstaps besluitvormingstaak die het verkennen van de visuele redeneervaardigheden van MLLM's vergemakkelijkt. Onze aanpassingen van de beleidsverbeteringsmethode StaR en PRM-geleide boomzoektocht versterken verder de robuustheid van het model in complexe segmentatietaken, wat een basis legt voor toekomstige vooruitgang in fijnmazige visuele perceptie en meerstaps besluitvorming voor MLLM's.
English
While MLLMs have demonstrated adequate image understanding capabilities, they
still struggle with pixel-level comprehension, limiting their practical
applications. Current evaluation tasks like VQA and visual grounding remain too
coarse to assess fine-grained pixel comprehension accurately. Though
segmentation is foundational for pixel-level understanding, existing methods
often require MLLMs to generate implicit tokens, decoded through external pixel
decoders. This approach disrupts the MLLM's text output space, potentially
compromising language capabilities and reducing flexibility and extensibility,
while failing to reflect the model's intrinsic pixel-level understanding.
Thus, we introduce the Human-Like Mask Annotation Task (HLMAT), a new
paradigm where MLLMs mimic human annotators using interactive segmentation
tools. Modeling segmentation as a multi-step Markov Decision Process, HLMAT
enables MLLMs to iteratively generate text-based click points, achieving
high-quality masks without architectural changes or implicit tokens. Through
this setup, we develop SegAgent, a model fine-tuned on human-like annotation
trajectories, which achieves performance comparable to state-of-the-art (SOTA)
methods and supports additional tasks like mask refinement and annotation
filtering.
HLMAT provides a protocol for assessing fine-grained pixel understanding in
MLLMs and introduces a vision-centric, multi-step decision-making task that
facilitates exploration of MLLMs' visual reasoning abilities. Our adaptations
of policy improvement method StaR and PRM-guided tree search further enhance
model robustness in complex segmentation tasks, laying a foundation for future
advancements in fine-grained visual perception and multi-step decision-making
for MLLMs.Summary
AI-Generated Summary