PixelThink : Vers un raisonnement en chaîne de pixels efficace

papers.abstract

Les approches existantes de segmentation par raisonnement ajustent généralement des modèles de langage multimodaux de grande taille (MLLMs) en utilisant des paires image-texte et des labels de masque correspondants. Cependant, elles présentent une généralisation limitée aux scénarios hors distribution sans processus de raisonnement explicite. Bien que des efforts récents exploitent l'apprentissage par renforcement via l'optimisation de politique relative au groupe (GRPO) pour améliorer la capacité de raisonnement, ils souffrent souvent de surréflexion - produisant des chaînes de raisonnement uniformément verbeuses indépendamment de la complexité de la tâche. Cela entraîne des coûts de calcul élevés et un contrôle limité sur la qualité du raisonnement. Pour résoudre ce problème, nous proposons PixelThink, un schéma simple mais efficace qui intègre la difficulté de la tâche estimée de manière externe et l'incertitude du modèle mesurée de manière interne pour réguler la génération de raisonnement dans un paradigme d'apprentissage par renforcement. Le modèle apprend à compresser la longueur du raisonnement en fonction de la complexité de la scène et de la confiance prédictive. Pour soutenir une évaluation complète, nous introduisons ReasonSeg-Diff, un benchmark étendu avec des références de raisonnement annotées et des scores de difficulté, ainsi qu'une série de métriques conçues pour évaluer conjointement la précision de la segmentation, la qualité du raisonnement et l'efficacité. Les résultats expérimentaux démontrent que l'approche proposée améliore à la fois l'efficacité du raisonnement et les performances globales de la segmentation. Notre travail apporte de nouvelles perspectives vers une compréhension multimodale efficace et interprétable. Le code et le modèle seront rendus publics.

English

Existing reasoning segmentation approaches typically fine-tune multimodal large language models (MLLMs) using image-text pairs and corresponding mask labels. However, they exhibit limited generalization to out-of-distribution scenarios without an explicit reasoning process. Although recent efforts leverage reinforcement learning through group-relative policy optimization (GRPO) to enhance reasoning ability, they often suffer from overthinking - producing uniformly verbose reasoning chains irrespective of task complexity. This results in elevated computational costs and limited control over reasoning quality. To address this problem, we propose PixelThink, a simple yet effective scheme that integrates externally estimated task difficulty and internally measured model uncertainty to regulate reasoning generation within a reinforcement learning paradigm. The model learns to compress reasoning length in accordance with scene complexity and predictive confidence. To support comprehensive evaluation, we introduce ReasonSeg-Diff, an extended benchmark with annotated reasoning references and difficulty scores, along with a suite of metrics designed to assess segmentation accuracy, reasoning quality, and efficiency jointly. Experimental results demonstrate that the proposed approach improves both reasoning efficiency and overall segmentation performance. Our work contributes novel perspectives towards efficient and interpretable multimodal understanding. The code and model will be publicly available.

PixelThink : Vers un raisonnement en chaîne de pixels efficace

PixelThink: Towards Efficient Chain-of-Pixel Reasoning

papers.abstract

Support