ChatPaper.aiChatPaper

PixelThink: В направлении эффективного цепочечного рассуждения на уровне пикселей

PixelThink: Towards Efficient Chain-of-Pixel Reasoning

May 29, 2025
Авторы: Song Wang, Gongfan Fang, Lingdong Kong, Xiangtai Li, Jianyun Xu, Sheng Yang, Qiang Li, Jianke Zhu, Xinchao Wang
cs.AI

Аннотация

Существующие подходы к сегментации с использованием рассуждений обычно дообучают мультимодальные большие языковые модели (MLLMs) на парах изображение-текст с соответствующими масками. Однако они демонстрируют ограниченную обобщаемость к сценариям, выходящим за пределы распределения данных, без явного процесса рассуждений. Хотя недавние исследования используют обучение с подкреплением через оптимизацию политики на основе групповых относительных показателей (GRPO) для улучшения способности к рассуждениям, они часто страдают от "переобдумывания" — создания излишне подробных цепочек рассуждений независимо от сложности задачи. Это приводит к повышенным вычислительным затратам и ограниченному контролю над качеством рассуждений. Для решения этой проблемы мы предлагаем PixelThink — простую, но эффективную схему, которая интегрирует внешне оцениваемую сложность задачи и внутренне измеряемую неопределённость модели для регулирования генерации рассуждений в рамках парадигмы обучения с подкреплением. Модель учится сокращать длину рассуждений в соответствии со сложностью сцены и уверенностью в предсказании. Для поддержки всесторонней оценки мы представляем ReasonSeg-Diff — расширенный бенчмарк с аннотированными эталонными рассуждениями и оценками сложности, а также набор метрик, предназначенных для совместной оценки точности сегментации, качества рассуждений и эффективности. Экспериментальные результаты показывают, что предложенный подход улучшает как эффективность рассуждений, так и общую производительность сегментации. Наша работа вносит новые перспективы в область эффективного и интерпретируемого мультимодального понимания. Код и модель будут общедоступны.
English
Existing reasoning segmentation approaches typically fine-tune multimodal large language models (MLLMs) using image-text pairs and corresponding mask labels. However, they exhibit limited generalization to out-of-distribution scenarios without an explicit reasoning process. Although recent efforts leverage reinforcement learning through group-relative policy optimization (GRPO) to enhance reasoning ability, they often suffer from overthinking - producing uniformly verbose reasoning chains irrespective of task complexity. This results in elevated computational costs and limited control over reasoning quality. To address this problem, we propose PixelThink, a simple yet effective scheme that integrates externally estimated task difficulty and internally measured model uncertainty to regulate reasoning generation within a reinforcement learning paradigm. The model learns to compress reasoning length in accordance with scene complexity and predictive confidence. To support comprehensive evaluation, we introduce ReasonSeg-Diff, an extended benchmark with annotated reasoning references and difficulty scores, along with a suite of metrics designed to assess segmentation accuracy, reasoning quality, and efficiency jointly. Experimental results demonstrate that the proposed approach improves both reasoning efficiency and overall segmentation performance. Our work contributes novel perspectives towards efficient and interpretable multimodal understanding. The code and model will be publicly available.

Summary

AI-Generated Summary

PDF11May 30, 2025