ChatPaper.aiChatPaper

PixelThink: Verso un Ragionamento Efficiente a Catena di Pixel

PixelThink: Towards Efficient Chain-of-Pixel Reasoning

May 29, 2025
Autori: Song Wang, Gongfan Fang, Lingdong Kong, Xiangtai Li, Jianyun Xu, Sheng Yang, Qiang Li, Jianke Zhu, Xinchao Wang
cs.AI

Abstract

Gli approcci esistenti per la segmentazione basata sul ragionamento tipicamente adattano i modelli linguistici multimodali di grandi dimensioni (MLLMs) utilizzando coppie immagine-testo e corrispondenti etichette di maschera. Tuttavia, mostrano una limitata generalizzazione a scenari fuori distribuzione senza un processo di ragionamento esplicito. Sebbene recenti sforzi abbiano sfruttato l'apprendimento per rinforzo attraverso l'ottimizzazione della politica relativa al gruppo (GRPO) per migliorare la capacità di ragionamento, spesso soffrono di "overthinking" - producendo catene di ragionamento uniformemente prolisse indipendentemente dalla complessità del compito. Ciò comporta costi computazionali elevati e un controllo limitato sulla qualità del ragionamento. Per affrontare questo problema, proponiamo PixelThink, uno schema semplice ma efficace che integra la difficoltà del compito stimata esternamente e l'incertezza del modello misurata internamente per regolare la generazione del ragionamento all'interno di un paradigma di apprendimento per rinforzo. Il modello impara a comprimere la lunghezza del ragionamento in base alla complessità della scena e alla fiducia predittiva. Per supportare una valutazione completa, introduciamo ReasonSeg-Diff, un benchmark esteso con riferimenti di ragionamento annotati e punteggi di difficoltà, insieme a una serie di metriche progettate per valutare congiuntamente l'accuratezza della segmentazione, la qualità del ragionamento e l'efficienza. I risultati sperimentali dimostrano che l'approccio proposto migliora sia l'efficienza del ragionamento che le prestazioni complessive della segmentazione. Il nostro lavoro contribuisce con nuove prospettive verso una comprensione multimodale efficiente e interpretabile. Il codice e il modello saranno resi pubblicamente disponibili.
English
Existing reasoning segmentation approaches typically fine-tune multimodal large language models (MLLMs) using image-text pairs and corresponding mask labels. However, they exhibit limited generalization to out-of-distribution scenarios without an explicit reasoning process. Although recent efforts leverage reinforcement learning through group-relative policy optimization (GRPO) to enhance reasoning ability, they often suffer from overthinking - producing uniformly verbose reasoning chains irrespective of task complexity. This results in elevated computational costs and limited control over reasoning quality. To address this problem, we propose PixelThink, a simple yet effective scheme that integrates externally estimated task difficulty and internally measured model uncertainty to regulate reasoning generation within a reinforcement learning paradigm. The model learns to compress reasoning length in accordance with scene complexity and predictive confidence. To support comprehensive evaluation, we introduce ReasonSeg-Diff, an extended benchmark with annotated reasoning references and difficulty scores, along with a suite of metrics designed to assess segmentation accuracy, reasoning quality, and efficiency jointly. Experimental results demonstrate that the proposed approach improves both reasoning efficiency and overall segmentation performance. Our work contributes novel perspectives towards efficient and interpretable multimodal understanding. The code and model will be publicly available.
PDF11May 30, 2025