PixelThink: В направлении эффективного цепочечного рассуждения на уровне пикселей
PixelThink: Towards Efficient Chain-of-Pixel Reasoning
May 29, 2025
Авторы: Song Wang, Gongfan Fang, Lingdong Kong, Xiangtai Li, Jianyun Xu, Sheng Yang, Qiang Li, Jianke Zhu, Xinchao Wang
cs.AI
Аннотация
Существующие подходы к сегментации с использованием рассуждений обычно дообучают мультимодальные большие языковые модели (MLLMs) на парах изображение-текст с соответствующими масками. Однако они демонстрируют ограниченную обобщаемость к сценариям, выходящим за пределы распределения данных, без явного процесса рассуждений. Хотя недавние исследования используют обучение с подкреплением через оптимизацию политики на основе групповых относительных показателей (GRPO) для улучшения способности к рассуждениям, они часто страдают от "переобдумывания" — создания излишне подробных цепочек рассуждений независимо от сложности задачи. Это приводит к повышенным вычислительным затратам и ограниченному контролю над качеством рассуждений. Для решения этой проблемы мы предлагаем PixelThink — простую, но эффективную схему, которая интегрирует внешне оцениваемую сложность задачи и внутренне измеряемую неопределённость модели для регулирования генерации рассуждений в рамках парадигмы обучения с подкреплением. Модель учится сокращать длину рассуждений в соответствии со сложностью сцены и уверенностью в предсказании. Для поддержки всесторонней оценки мы представляем ReasonSeg-Diff — расширенный бенчмарк с аннотированными эталонными рассуждениями и оценками сложности, а также набор метрик, предназначенных для совместной оценки точности сегментации, качества рассуждений и эффективности. Экспериментальные результаты показывают, что предложенный подход улучшает как эффективность рассуждений, так и общую производительность сегментации. Наша работа вносит новые перспективы в область эффективного и интерпретируемого мультимодального понимания. Код и модель будут общедоступны.
English
Existing reasoning segmentation approaches typically fine-tune multimodal
large language models (MLLMs) using image-text pairs and corresponding mask
labels. However, they exhibit limited generalization to out-of-distribution
scenarios without an explicit reasoning process. Although recent efforts
leverage reinforcement learning through group-relative policy optimization
(GRPO) to enhance reasoning ability, they often suffer from overthinking -
producing uniformly verbose reasoning chains irrespective of task complexity.
This results in elevated computational costs and limited control over reasoning
quality. To address this problem, we propose PixelThink, a simple yet effective
scheme that integrates externally estimated task difficulty and internally
measured model uncertainty to regulate reasoning generation within a
reinforcement learning paradigm. The model learns to compress reasoning length
in accordance with scene complexity and predictive confidence. To support
comprehensive evaluation, we introduce ReasonSeg-Diff, an extended benchmark
with annotated reasoning references and difficulty scores, along with a suite
of metrics designed to assess segmentation accuracy, reasoning quality, and
efficiency jointly. Experimental results demonstrate that the proposed approach
improves both reasoning efficiency and overall segmentation performance. Our
work contributes novel perspectives towards efficient and interpretable
multimodal understanding. The code and model will be publicly available.Summary
AI-Generated Summary