PixelThink: Verso un Ragionamento Efficiente a Catena di Pixel
PixelThink: Towards Efficient Chain-of-Pixel Reasoning
May 29, 2025
Autori: Song Wang, Gongfan Fang, Lingdong Kong, Xiangtai Li, Jianyun Xu, Sheng Yang, Qiang Li, Jianke Zhu, Xinchao Wang
cs.AI
Abstract
Gli approcci esistenti per la segmentazione basata sul ragionamento tipicamente adattano i modelli linguistici multimodali di grandi dimensioni (MLLMs) utilizzando coppie immagine-testo e corrispondenti etichette di maschera. Tuttavia, mostrano una limitata generalizzazione a scenari fuori distribuzione senza un processo di ragionamento esplicito. Sebbene recenti sforzi abbiano sfruttato l'apprendimento per rinforzo attraverso l'ottimizzazione della politica relativa al gruppo (GRPO) per migliorare la capacità di ragionamento, spesso soffrono di "overthinking" - producendo catene di ragionamento uniformemente prolisse indipendentemente dalla complessità del compito. Ciò comporta costi computazionali elevati e un controllo limitato sulla qualità del ragionamento. Per affrontare questo problema, proponiamo PixelThink, uno schema semplice ma efficace che integra la difficoltà del compito stimata esternamente e l'incertezza del modello misurata internamente per regolare la generazione del ragionamento all'interno di un paradigma di apprendimento per rinforzo. Il modello impara a comprimere la lunghezza del ragionamento in base alla complessità della scena e alla fiducia predittiva. Per supportare una valutazione completa, introduciamo ReasonSeg-Diff, un benchmark esteso con riferimenti di ragionamento annotati e punteggi di difficoltà, insieme a una serie di metriche progettate per valutare congiuntamente l'accuratezza della segmentazione, la qualità del ragionamento e l'efficienza. I risultati sperimentali dimostrano che l'approccio proposto migliora sia l'efficienza del ragionamento che le prestazioni complessive della segmentazione. Il nostro lavoro contribuisce con nuove prospettive verso una comprensione multimodale efficiente e interpretabile. Il codice e il modello saranno resi pubblicamente disponibili.
English
Existing reasoning segmentation approaches typically fine-tune multimodal
large language models (MLLMs) using image-text pairs and corresponding mask
labels. However, they exhibit limited generalization to out-of-distribution
scenarios without an explicit reasoning process. Although recent efforts
leverage reinforcement learning through group-relative policy optimization
(GRPO) to enhance reasoning ability, they often suffer from overthinking -
producing uniformly verbose reasoning chains irrespective of task complexity.
This results in elevated computational costs and limited control over reasoning
quality. To address this problem, we propose PixelThink, a simple yet effective
scheme that integrates externally estimated task difficulty and internally
measured model uncertainty to regulate reasoning generation within a
reinforcement learning paradigm. The model learns to compress reasoning length
in accordance with scene complexity and predictive confidence. To support
comprehensive evaluation, we introduce ReasonSeg-Diff, an extended benchmark
with annotated reasoning references and difficulty scores, along with a suite
of metrics designed to assess segmentation accuracy, reasoning quality, and
efficiency jointly. Experimental results demonstrate that the proposed approach
improves both reasoning efficiency and overall segmentation performance. Our
work contributes novel perspectives towards efficient and interpretable
multimodal understanding. The code and model will be publicly available.