ChatPaper.aiChatPaper

SegAgent: 人間のアノテーターの軌跡を模倣することでMLLMのピクセル理解能力を探る

SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by Imitating Human Annotator Trajectories

March 11, 2025
著者: Muzhi Zhu, Yuzhuo Tian, Hao Chen, Chunluan Zhou, Qingpei Guo, Yang Liu, Ming Yang, Chunhua Shen
cs.AI

要旨

MLLM(マルチモーダル大規模言語モデル)は、画像理解能力において一定の成果を示しているものの、ピクセルレベルの理解には依然として課題があり、実用的な応用が制限されています。現在の評価タスクであるVQA(視覚的質問応答)やビジュアルグラウンディングは、細かいピクセルレベルの理解を正確に評価するには粗すぎます。セグメンテーションはピクセルレベルの理解の基盤ですが、既存の手法では、MLLMに暗黙的なトークンを生成させ、外部のピクセルデコーダーを通じてデコードする必要があります。このアプローチは、MLLMのテキスト出力空間を乱し、言語能力を損なう可能性があり、柔軟性と拡張性を低下させると同時に、モデルの本質的なピクセルレベルの理解を反映しません。 そこで、我々は「Human-Like Mask Annotation Task(HLMAT)」を導入しました。これは、MLLMがインタラクティブなセグメンテーションツールを使用して人間のアノテーターを模倣する新しいパラダイムです。セグメンテーションを多段階のマルコフ決定過程としてモデル化することで、HLMATはMLLMがテキストベースのクリックポイントを反復的に生成し、アーキテクチャの変更や暗黙的なトークンを必要とせずに高品質なマスクを実現します。この設定を通じて、人間のようなアノテーショントラジェクトリに微調整されたモデル「SegAgent」を開発し、最新の手法(SOTA)に匹敵する性能を達成し、マスクの精緻化やアノテーションフィルタリングなどの追加タスクもサポートします。 HLMATは、MLLMの細かいピクセルレベルの理解を評価するためのプロトコルを提供し、視覚中心の多段階意思決定タスクを導入することで、MLLMの視覚的推論能力の探求を促進します。我々は、ポリシー改善手法「StaR」とPRMガイド付き木探索を適応させ、複雑なセグメンテーションタスクにおけるモデルの堅牢性をさらに向上させ、MLLMの細かい視覚的知覚と多段階意思決定の将来の発展の基盤を築きました。
English
While MLLMs have demonstrated adequate image understanding capabilities, they still struggle with pixel-level comprehension, limiting their practical applications. Current evaluation tasks like VQA and visual grounding remain too coarse to assess fine-grained pixel comprehension accurately. Though segmentation is foundational for pixel-level understanding, existing methods often require MLLMs to generate implicit tokens, decoded through external pixel decoders. This approach disrupts the MLLM's text output space, potentially compromising language capabilities and reducing flexibility and extensibility, while failing to reflect the model's intrinsic pixel-level understanding. Thus, we introduce the Human-Like Mask Annotation Task (HLMAT), a new paradigm where MLLMs mimic human annotators using interactive segmentation tools. Modeling segmentation as a multi-step Markov Decision Process, HLMAT enables MLLMs to iteratively generate text-based click points, achieving high-quality masks without architectural changes or implicit tokens. Through this setup, we develop SegAgent, a model fine-tuned on human-like annotation trajectories, which achieves performance comparable to state-of-the-art (SOTA) methods and supports additional tasks like mask refinement and annotation filtering. HLMAT provides a protocol for assessing fine-grained pixel understanding in MLLMs and introduces a vision-centric, multi-step decision-making task that facilitates exploration of MLLMs' visual reasoning abilities. Our adaptations of policy improvement method StaR and PRM-guided tree search further enhance model robustness in complex segmentation tasks, laying a foundation for future advancements in fine-grained visual perception and multi-step decision-making for MLLMs.

Summary

AI-Generated Summary

PDF262March 12, 2025