SegAgent: Исследование возможностей понимания пикселей в MLLM через имитацию траекторий аннотирования человеком
SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by Imitating Human Annotator Trajectories
March 11, 2025
Авторы: Muzhi Zhu, Yuzhuo Tian, Hao Chen, Chunluan Zhou, Qingpei Guo, Yang Liu, Ming Yang, Chunhua Shen
cs.AI
Аннотация
Хотя мультимодальные языковые модели (MLLMs) продемонстрировали достаточные способности в понимании изображений, они всё ещё испытывают трудности с пиксельным уровнем понимания, что ограничивает их практическое применение. Текущие задачи оценки, такие как визуальный вопросно-ответ (VQA) и визуальное заземление, остаются слишком грубыми для точной оценки детального пиксельного понимания. Хотя сегментация является основой для понимания на уровне пикселей, существующие методы часто требуют, чтобы MLLMs генерировали неявные токены, которые декодируются через внешние пиксельные декодеры. Такой подход нарушает текстовое выходное пространство MLLMs, потенциально ухудшая языковые способности и снижая гибкость и расширяемость, при этом не отражая внутреннего пиксельного понимания модели.
Таким образом, мы представляем задачу аннотирования масок, подобную человеческой (Human-Like Mask Annotation Task, HLMAT), новую парадигму, в которой MLLMs имитируют работу аннотаторов с использованием интерактивных инструментов сегментации. Моделируя сегментацию как многошаговый марковский процесс принятия решений, HLMAT позволяет MLLMs итеративно генерировать текстовые точки кликов, достигая высококачественных масок без изменения архитектуры или использования неявных токенов. В рамках этого подхода мы разработали SegAgent, модель, дообученную на траекториях аннотирования, подобных человеческим, которая демонстрирует производительность, сопоставимую с современными методами (SOTA), и поддерживает дополнительные задачи, такие как уточнение масок и фильтрация аннотаций.
HLMAT предоставляет протокол для оценки детального пиксельного понимания в MLLMs и вводит визуально-ориентированную, многошаговую задачу принятия решений, которая способствует исследованию способностей MLLMs к визуальному рассуждению. Наши адаптации метода улучшения политики StaR и поиска по дереву с использованием PRM дополнительно повышают устойчивость модели в сложных задачах сегментации, закладывая основу для будущих достижений в области детального визуального восприятия и многошагового принятия решений для MLLMs.
English
While MLLMs have demonstrated adequate image understanding capabilities, they
still struggle with pixel-level comprehension, limiting their practical
applications. Current evaluation tasks like VQA and visual grounding remain too
coarse to assess fine-grained pixel comprehension accurately. Though
segmentation is foundational for pixel-level understanding, existing methods
often require MLLMs to generate implicit tokens, decoded through external pixel
decoders. This approach disrupts the MLLM's text output space, potentially
compromising language capabilities and reducing flexibility and extensibility,
while failing to reflect the model's intrinsic pixel-level understanding.
Thus, we introduce the Human-Like Mask Annotation Task (HLMAT), a new
paradigm where MLLMs mimic human annotators using interactive segmentation
tools. Modeling segmentation as a multi-step Markov Decision Process, HLMAT
enables MLLMs to iteratively generate text-based click points, achieving
high-quality masks without architectural changes or implicit tokens. Through
this setup, we develop SegAgent, a model fine-tuned on human-like annotation
trajectories, which achieves performance comparable to state-of-the-art (SOTA)
methods and supports additional tasks like mask refinement and annotation
filtering.
HLMAT provides a protocol for assessing fine-grained pixel understanding in
MLLMs and introduces a vision-centric, multi-step decision-making task that
facilitates exploration of MLLMs' visual reasoning abilities. Our adaptations
of policy improvement method StaR and PRM-guided tree search further enhance
model robustness in complex segmentation tasks, laying a foundation for future
advancements in fine-grained visual perception and multi-step decision-making
for MLLMs.Summary
AI-Generated Summary