PixelThink: Rumando para uma Cadeia de Raciocínio de Pixels Eficiente

Resumo

As abordagens existentes de segmentação por raciocínio geralmente ajustam modelos de linguagem multimodal de grande escala (MLLMs) utilizando pares imagem-texto e rótulos de máscara correspondentes. No entanto, elas apresentam generalização limitada para cenários fora da distribuição, sem um processo explícito de raciocínio. Embora esforços recentes tenham aproveitado o aprendizado por reforço através da otimização de política relativa ao grupo (GRPO) para aprimorar a capacidade de raciocínio, elas frequentemente sofrem com o excesso de pensamento - produzindo cadeias de raciocínio uniformemente verbosas, independentemente da complexidade da tarefa. Isso resulta em custos computacionais elevados e controle limitado sobre a qualidade do raciocínio. Para resolver esse problema, propomos o PixelThink, um esquema simples, porém eficaz, que integra a dificuldade da tarefa estimada externamente e a incerteza do modelo medida internamente para regular a geração de raciocínio dentro de um paradigma de aprendizado por reforço. O modelo aprende a comprimir o comprimento do raciocínio de acordo com a complexidade da cena e a confiança preditiva. Para apoiar uma avaliação abrangente, introduzimos o ReasonSeg-Diff, um benchmark estendido com referências de raciocínio anotadas e pontuações de dificuldade, juntamente com um conjunto de métricas projetadas para avaliar conjuntamente a precisão da segmentação, a qualidade do raciocínio e a eficiência. Os resultados experimentais demonstram que a abordagem proposta melhora tanto a eficiência do raciocínio quanto o desempenho geral da segmentação. Nosso trabalho contribui com novas perspectivas para a compreensão multimodal eficiente e interpretável. O código e o modelo estarão publicamente disponíveis.

English

Existing reasoning segmentation approaches typically fine-tune multimodal large language models (MLLMs) using image-text pairs and corresponding mask labels. However, they exhibit limited generalization to out-of-distribution scenarios without an explicit reasoning process. Although recent efforts leverage reinforcement learning through group-relative policy optimization (GRPO) to enhance reasoning ability, they often suffer from overthinking - producing uniformly verbose reasoning chains irrespective of task complexity. This results in elevated computational costs and limited control over reasoning quality. To address this problem, we propose PixelThink, a simple yet effective scheme that integrates externally estimated task difficulty and internally measured model uncertainty to regulate reasoning generation within a reinforcement learning paradigm. The model learns to compress reasoning length in accordance with scene complexity and predictive confidence. To support comprehensive evaluation, we introduce ReasonSeg-Diff, an extended benchmark with annotated reasoning references and difficulty scores, along with a suite of metrics designed to assess segmentation accuracy, reasoning quality, and efficiency jointly. Experimental results demonstrate that the proposed approach improves both reasoning efficiency and overall segmentation performance. Our work contributes novel perspectives towards efficient and interpretable multimodal understanding. The code and model will be publicly available.

PixelThink: Rumando para uma Cadeia de Raciocínio de Pixels Eficiente

PixelThink: Towards Efficient Chain-of-Pixel Reasoning

Resumo

Support