Desacoplamento Perceptual para Raciocínio Multimodal Escalável via Geração de Legendas Otimizada por Recompensa
Perceptual Decoupling for Scalable Multi-modal Reasoning via Reward-Optimized Captioning
June 5, 2025
Autores: Yunhao Gou, Kai Chen, Zhili Liu, Lanqing Hong, Xin Jin, Zhenguo Li, James T. Kwok, Yu Zhang
cs.AI
Resumo
Avanços recentes em modelos de linguagem de pensamento lento (por exemplo, OpenAI-o1 e DeepSeek-R1) demonstraram habilidades notáveis em tarefas de raciocínio complexo ao emular a cognição reflexiva semelhante à humana. No entanto, estender tais capacidades para modelos de linguagem multimodal de grande escala (MLLMs) continua desafiador devido ao alto custo de retreinamento dos alinhamentos visão-linguagem ao atualizar os modelos de raciocínio subjacentes. Uma solução direta é desacoplar a percepção do raciocínio, ou seja, converter entradas visuais em representações de linguagem (por exemplo, legendas) que são então passadas para um poderoso raciocinador baseado apenas em texto. No entanto, esse desacoplamento introduz um desafio crítico: o extrator visual deve gerar descrições que sejam fiéis à imagem e suficientemente informativas para apoiar o raciocínio preciso a jusante. Para resolver isso, propomos o Desacoplamento Perceptual Alinhado ao Raciocínio via Otimização de Recompensa de Legendas (RACRO) - uma estratégia de aprendizado por reforço guiada pelo raciocínio que alinha o comportamento de legendagem do extrator com o objetivo de raciocínio. Ao fechar o ciclo percepção-raciocínio por meio de otimização baseada em recompensa, o RACRO melhora significativamente a fundamentação visual e extrai representações otimizadas para o raciocínio. Experimentos em benchmarks multimodais de matemática e ciências mostram que o método RACRO proposto alcança desempenho médio de ponta, permitindo escalabilidade superior e adaptação plug-and-play para modelos de raciocínio mais avançados sem a necessidade de realinhamento multimodal dispendioso.
English
Recent advances in slow-thinking language models (e.g., OpenAI-o1 and
DeepSeek-R1) have demonstrated remarkable abilities in complex reasoning tasks
by emulating human-like reflective cognition. However, extending such
capabilities to multi-modal large language models (MLLMs) remains challenging
due to the high cost of retraining vision-language alignments when upgrading
the underlying reasoner LLMs. A straightforward solution is to decouple
perception from reasoning, i.e., converting visual inputs into language
representations (e.g., captions) that are then passed to a powerful text-only
reasoner. However, this decoupling introduces a critical challenge: the visual
extractor must generate descriptions that are both faithful to the image and
informative enough to support accurate downstream reasoning. To address this,
we propose Reasoning-Aligned Perceptual Decoupling via Caption Reward
Optimization (RACRO) - a reasoning-guided reinforcement learning strategy that
aligns the extractor's captioning behavior with the reasoning objective. By
closing the perception-reasoning loop via reward-based optimization, RACRO
significantly enhances visual grounding and extracts reasoning-optimized
representations. Experiments on multi-modal math and science benchmarks show
that the proposed RACRO method achieves state-of-the-art average performance
while enabling superior scalability and plug-and-play adaptation to more
advanced reasoning LLMs without the necessity for costly multi-modal
re-alignment.