PixelThink: Hacia un razonamiento eficiente de cadena de píxeles
PixelThink: Towards Efficient Chain-of-Pixel Reasoning
May 29, 2025
Autores: Song Wang, Gongfan Fang, Lingdong Kong, Xiangtai Li, Jianyun Xu, Sheng Yang, Qiang Li, Jianke Zhu, Xinchao Wang
cs.AI
Resumen
Los enfoques existentes de segmentación por razonamiento suelen ajustar modelos de lenguaje multimodal de gran escala (MLLMs) utilizando pares de imagen-texto y etiquetas de máscara correspondientes. Sin embargo, muestran una generalización limitada a escenarios fuera de distribución sin un proceso de razonamiento explícito. Aunque esfuerzos recientes aprovechan el aprendizaje por refuerzo mediante la optimización de políticas relativas a grupos (GRPO) para mejorar la capacidad de razonamiento, a menudo sufren de "sobrepensamiento", produciendo cadenas de razonamiento uniformemente verbosas independientemente de la complejidad de la tarea. Esto resulta en costos computacionales elevados y un control limitado sobre la calidad del razonamiento. Para abordar este problema, proponemos PixelThink, un esquema simple pero efectivo que integra la dificultad de la tarea estimada externamente y la incertidumbre del modelo medida internamente para regular la generación de razonamiento dentro de un paradigma de aprendizaje por refuerzo. El modelo aprende a comprimir la longitud del razonamiento de acuerdo con la complejidad de la escena y la confianza predictiva. Para respaldar una evaluación integral, presentamos ReasonSeg-Diff, un benchmark extendido con referencias de razonamiento anotadas y puntuaciones de dificultad, junto con un conjunto de métricas diseñadas para evaluar conjuntamente la precisión de la segmentación, la calidad del razonamiento y la eficiencia. Los resultados experimentales demuestran que el enfoque propuesto mejora tanto la eficiencia del razonamiento como el rendimiento general de la segmentación. Nuestro trabajo aporta perspectivas novedosas hacia una comprensión multimodal eficiente e interpretable. El código y el modelo estarán disponibles públicamente.
English
Existing reasoning segmentation approaches typically fine-tune multimodal
large language models (MLLMs) using image-text pairs and corresponding mask
labels. However, they exhibit limited generalization to out-of-distribution
scenarios without an explicit reasoning process. Although recent efforts
leverage reinforcement learning through group-relative policy optimization
(GRPO) to enhance reasoning ability, they often suffer from overthinking -
producing uniformly verbose reasoning chains irrespective of task complexity.
This results in elevated computational costs and limited control over reasoning
quality. To address this problem, we propose PixelThink, a simple yet effective
scheme that integrates externally estimated task difficulty and internally
measured model uncertainty to regulate reasoning generation within a
reinforcement learning paradigm. The model learns to compress reasoning length
in accordance with scene complexity and predictive confidence. To support
comprehensive evaluation, we introduce ReasonSeg-Diff, an extended benchmark
with annotated reasoning references and difficulty scores, along with a suite
of metrics designed to assess segmentation accuracy, reasoning quality, and
efficiency jointly. Experimental results demonstrate that the proposed approach
improves both reasoning efficiency and overall segmentation performance. Our
work contributes novel perspectives towards efficient and interpretable
multimodal understanding. The code and model will be publicly available.Summary
AI-Generated Summary