PixelThink: Rumando para uma Cadeia de Raciocínio de Pixels Eficiente
PixelThink: Towards Efficient Chain-of-Pixel Reasoning
May 29, 2025
Autores: Song Wang, Gongfan Fang, Lingdong Kong, Xiangtai Li, Jianyun Xu, Sheng Yang, Qiang Li, Jianke Zhu, Xinchao Wang
cs.AI
Resumo
As abordagens existentes de segmentação por raciocínio geralmente ajustam modelos de linguagem multimodal de grande escala (MLLMs) utilizando pares imagem-texto e rótulos de máscara correspondentes. No entanto, elas apresentam generalização limitada para cenários fora da distribuição, sem um processo explícito de raciocínio. Embora esforços recentes tenham aproveitado o aprendizado por reforço através da otimização de política relativa ao grupo (GRPO) para aprimorar a capacidade de raciocínio, elas frequentemente sofrem com o excesso de pensamento - produzindo cadeias de raciocínio uniformemente verbosas, independentemente da complexidade da tarefa. Isso resulta em custos computacionais elevados e controle limitado sobre a qualidade do raciocínio. Para resolver esse problema, propomos o PixelThink, um esquema simples, porém eficaz, que integra a dificuldade da tarefa estimada externamente e a incerteza do modelo medida internamente para regular a geração de raciocínio dentro de um paradigma de aprendizado por reforço. O modelo aprende a comprimir o comprimento do raciocínio de acordo com a complexidade da cena e a confiança preditiva. Para apoiar uma avaliação abrangente, introduzimos o ReasonSeg-Diff, um benchmark estendido com referências de raciocínio anotadas e pontuações de dificuldade, juntamente com um conjunto de métricas projetadas para avaliar conjuntamente a precisão da segmentação, a qualidade do raciocínio e a eficiência. Os resultados experimentais demonstram que a abordagem proposta melhora tanto a eficiência do raciocínio quanto o desempenho geral da segmentação. Nosso trabalho contribui com novas perspectivas para a compreensão multimodal eficiente e interpretável. O código e o modelo estarão publicamente disponíveis.
English
Existing reasoning segmentation approaches typically fine-tune multimodal
large language models (MLLMs) using image-text pairs and corresponding mask
labels. However, they exhibit limited generalization to out-of-distribution
scenarios without an explicit reasoning process. Although recent efforts
leverage reinforcement learning through group-relative policy optimization
(GRPO) to enhance reasoning ability, they often suffer from overthinking -
producing uniformly verbose reasoning chains irrespective of task complexity.
This results in elevated computational costs and limited control over reasoning
quality. To address this problem, we propose PixelThink, a simple yet effective
scheme that integrates externally estimated task difficulty and internally
measured model uncertainty to regulate reasoning generation within a
reinforcement learning paradigm. The model learns to compress reasoning length
in accordance with scene complexity and predictive confidence. To support
comprehensive evaluation, we introduce ReasonSeg-Diff, an extended benchmark
with annotated reasoning references and difficulty scores, along with a suite
of metrics designed to assess segmentation accuracy, reasoning quality, and
efficiency jointly. Experimental results demonstrate that the proposed approach
improves both reasoning efficiency and overall segmentation performance. Our
work contributes novel perspectives towards efficient and interpretable
multimodal understanding. The code and model will be publicly available.