Desacoplamento Perceptual para Raciocínio Multimodal Escalável via Geração de Legendas Otimizada por Recompensa

Resumo

Avanços recentes em modelos de linguagem de pensamento lento (por exemplo, OpenAI-o1 e DeepSeek-R1) demonstraram habilidades notáveis em tarefas de raciocínio complexo ao emular a cognição reflexiva semelhante à humana. No entanto, estender tais capacidades para modelos de linguagem multimodal de grande escala (MLLMs) continua desafiador devido ao alto custo de retreinamento dos alinhamentos visão-linguagem ao atualizar os modelos de raciocínio subjacentes. Uma solução direta é desacoplar a percepção do raciocínio, ou seja, converter entradas visuais em representações de linguagem (por exemplo, legendas) que são então passadas para um poderoso raciocinador baseado apenas em texto. No entanto, esse desacoplamento introduz um desafio crítico: o extrator visual deve gerar descrições que sejam fiéis à imagem e suficientemente informativas para apoiar o raciocínio preciso a jusante. Para resolver isso, propomos o Desacoplamento Perceptual Alinhado ao Raciocínio via Otimização de Recompensa de Legendas (RACRO) - uma estratégia de aprendizado por reforço guiada pelo raciocínio que alinha o comportamento de legendagem do extrator com o objetivo de raciocínio. Ao fechar o ciclo percepção-raciocínio por meio de otimização baseada em recompensa, o RACRO melhora significativamente a fundamentação visual e extrai representações otimizadas para o raciocínio. Experimentos em benchmarks multimodais de matemática e ciências mostram que o método RACRO proposto alcança desempenho médio de ponta, permitindo escalabilidade superior e adaptação plug-and-play para modelos de raciocínio mais avançados sem a necessidade de realinhamento multimodal dispendioso.

English

Recent advances in slow-thinking language models (e.g., OpenAI-o1 and DeepSeek-R1) have demonstrated remarkable abilities in complex reasoning tasks by emulating human-like reflective cognition. However, extending such capabilities to multi-modal large language models (MLLMs) remains challenging due to the high cost of retraining vision-language alignments when upgrading the underlying reasoner LLMs. A straightforward solution is to decouple perception from reasoning, i.e., converting visual inputs into language representations (e.g., captions) that are then passed to a powerful text-only reasoner. However, this decoupling introduces a critical challenge: the visual extractor must generate descriptions that are both faithful to the image and informative enough to support accurate downstream reasoning. To address this, we propose Reasoning-Aligned Perceptual Decoupling via Caption Reward Optimization (RACRO) - a reasoning-guided reinforcement learning strategy that aligns the extractor's captioning behavior with the reasoning objective. By closing the perception-reasoning loop via reward-based optimization, RACRO significantly enhances visual grounding and extracts reasoning-optimized representations. Experiments on multi-modal math and science benchmarks show that the proposed RACRO method achieves state-of-the-art average performance while enabling superior scalability and plug-and-play adaptation to more advanced reasoning LLMs without the necessity for costly multi-modal re-alignment.

Desacoplamento Perceptual para Raciocínio Multimodal Escalável via Geração de Legendas Otimizada por Recompensa

Perceptual Decoupling for Scalable Multi-modal Reasoning via Reward-Optimized Captioning

Resumo

Support