PixelThink : Vers un raisonnement en chaîne de pixels efficace
PixelThink: Towards Efficient Chain-of-Pixel Reasoning
May 29, 2025
Auteurs: Song Wang, Gongfan Fang, Lingdong Kong, Xiangtai Li, Jianyun Xu, Sheng Yang, Qiang Li, Jianke Zhu, Xinchao Wang
cs.AI
Résumé
Les approches existantes de segmentation par raisonnement ajustent généralement des modèles de langage multimodaux de grande taille (MLLMs) en utilisant des paires image-texte et des labels de masque correspondants. Cependant, elles présentent une généralisation limitée aux scénarios hors distribution sans processus de raisonnement explicite. Bien que des efforts récents exploitent l'apprentissage par renforcement via l'optimisation de politique relative au groupe (GRPO) pour améliorer la capacité de raisonnement, ils souffrent souvent de surréflexion - produisant des chaînes de raisonnement uniformément verbeuses indépendamment de la complexité de la tâche. Cela entraîne des coûts de calcul élevés et un contrôle limité sur la qualité du raisonnement. Pour résoudre ce problème, nous proposons PixelThink, un schéma simple mais efficace qui intègre la difficulté de la tâche estimée de manière externe et l'incertitude du modèle mesurée de manière interne pour réguler la génération de raisonnement dans un paradigme d'apprentissage par renforcement. Le modèle apprend à compresser la longueur du raisonnement en fonction de la complexité de la scène et de la confiance prédictive. Pour soutenir une évaluation complète, nous introduisons ReasonSeg-Diff, un benchmark étendu avec des références de raisonnement annotées et des scores de difficulté, ainsi qu'une série de métriques conçues pour évaluer conjointement la précision de la segmentation, la qualité du raisonnement et l'efficacité. Les résultats expérimentaux démontrent que l'approche proposée améliore à la fois l'efficacité du raisonnement et les performances globales de la segmentation. Notre travail apporte de nouvelles perspectives vers une compréhension multimodale efficace et interprétable. Le code et le modèle seront rendus publics.
English
Existing reasoning segmentation approaches typically fine-tune multimodal
large language models (MLLMs) using image-text pairs and corresponding mask
labels. However, they exhibit limited generalization to out-of-distribution
scenarios without an explicit reasoning process. Although recent efforts
leverage reinforcement learning through group-relative policy optimization
(GRPO) to enhance reasoning ability, they often suffer from overthinking -
producing uniformly verbose reasoning chains irrespective of task complexity.
This results in elevated computational costs and limited control over reasoning
quality. To address this problem, we propose PixelThink, a simple yet effective
scheme that integrates externally estimated task difficulty and internally
measured model uncertainty to regulate reasoning generation within a
reinforcement learning paradigm. The model learns to compress reasoning length
in accordance with scene complexity and predictive confidence. To support
comprehensive evaluation, we introduce ReasonSeg-Diff, an extended benchmark
with annotated reasoning references and difficulty scores, along with a suite
of metrics designed to assess segmentation accuracy, reasoning quality, and
efficiency jointly. Experimental results demonstrate that the proposed approach
improves both reasoning efficiency and overall segmentation performance. Our
work contributes novel perspectives towards efficient and interpretable
multimodal understanding. The code and model will be publicly available.Summary
AI-Generated Summary