PixelThink: Hacia un razonamiento eficiente de cadena de píxeles

Resumen

Los enfoques existentes de segmentación por razonamiento suelen ajustar modelos de lenguaje multimodal de gran escala (MLLMs) utilizando pares de imagen-texto y etiquetas de máscara correspondientes. Sin embargo, muestran una generalización limitada a escenarios fuera de distribución sin un proceso de razonamiento explícito. Aunque esfuerzos recientes aprovechan el aprendizaje por refuerzo mediante la optimización de políticas relativas a grupos (GRPO) para mejorar la capacidad de razonamiento, a menudo sufren de "sobrepensamiento", produciendo cadenas de razonamiento uniformemente verbosas independientemente de la complejidad de la tarea. Esto resulta en costos computacionales elevados y un control limitado sobre la calidad del razonamiento. Para abordar este problema, proponemos PixelThink, un esquema simple pero efectivo que integra la dificultad de la tarea estimada externamente y la incertidumbre del modelo medida internamente para regular la generación de razonamiento dentro de un paradigma de aprendizaje por refuerzo. El modelo aprende a comprimir la longitud del razonamiento de acuerdo con la complejidad de la escena y la confianza predictiva. Para respaldar una evaluación integral, presentamos ReasonSeg-Diff, un benchmark extendido con referencias de razonamiento anotadas y puntuaciones de dificultad, junto con un conjunto de métricas diseñadas para evaluar conjuntamente la precisión de la segmentación, la calidad del razonamiento y la eficiencia. Los resultados experimentales demuestran que el enfoque propuesto mejora tanto la eficiencia del razonamiento como el rendimiento general de la segmentación. Nuestro trabajo aporta perspectivas novedosas hacia una comprensión multimodal eficiente e interpretable. El código y el modelo estarán disponibles públicamente.

English

Existing reasoning segmentation approaches typically fine-tune multimodal large language models (MLLMs) using image-text pairs and corresponding mask labels. However, they exhibit limited generalization to out-of-distribution scenarios without an explicit reasoning process. Although recent efforts leverage reinforcement learning through group-relative policy optimization (GRPO) to enhance reasoning ability, they often suffer from overthinking - producing uniformly verbose reasoning chains irrespective of task complexity. This results in elevated computational costs and limited control over reasoning quality. To address this problem, we propose PixelThink, a simple yet effective scheme that integrates externally estimated task difficulty and internally measured model uncertainty to regulate reasoning generation within a reinforcement learning paradigm. The model learns to compress reasoning length in accordance with scene complexity and predictive confidence. To support comprehensive evaluation, we introduce ReasonSeg-Diff, an extended benchmark with annotated reasoning references and difficulty scores, along with a suite of metrics designed to assess segmentation accuracy, reasoning quality, and efficiency jointly. Experimental results demonstrate that the proposed approach improves both reasoning efficiency and overall segmentation performance. Our work contributes novel perspectives towards efficient and interpretable multimodal understanding. The code and model will be publicly available.

PixelThink: Hacia un razonamiento eficiente de cadena de píxeles

PixelThink: Towards Efficient Chain-of-Pixel Reasoning

Resumen

Support