Découplage perceptuel pour un raisonnement multimodal évolutif via la génération de légendes optimisée par récompense
Perceptual Decoupling for Scalable Multi-modal Reasoning via Reward-Optimized Captioning
June 5, 2025
Auteurs: Yunhao Gou, Kai Chen, Zhili Liu, Lanqing Hong, Xin Jin, Zhenguo Li, James T. Kwok, Yu Zhang
cs.AI
Résumé
Les récents progrès des modèles de langage à réflexion lente (par exemple, OpenAI-o1 et DeepSeek-R1) ont démontré des capacités remarquables dans les tâches de raisonnement complexe en imitant la cognition réflexive humaine. Cependant, étendre ces capacités aux modèles de langage multi-modaux de grande taille (MLLMs) reste un défi en raison du coût élevé de réentraînement des alignements vision-langage lors de la mise à niveau des modèles de raisonnement sous-jacents. Une solution directe consiste à découpler la perception du raisonnement, c'est-à-dire à convertir les entrées visuelles en représentations linguistiques (par exemple, des légendes) qui sont ensuite transmises à un puissant raisonneur textuel. Cependant, ce découplage introduit un défi critique : l'extracteur visuel doit générer des descriptions à la fois fidèles à l'image et suffisamment informatives pour soutenir un raisonnement précis en aval. Pour résoudre ce problème, nous proposons le Découplage Perceptuel Aligné sur le Raisonnement via l'Optimisation de Récompense de Légende (RACRO) - une stratégie d'apprentissage par renforcement guidée par le raisonnement qui aligne le comportement de légendage de l'extracteur avec l'objectif de raisonnement. En fermant la boucle perception-raisonnement via une optimisation basée sur la récompense, RACRO améliore significativement l'ancrage visuel et extrait des représentations optimisées pour le raisonnement. Les expériences sur des benchmarks multi-modaux de mathématiques et de sciences montrent que la méthode RACRO proposée atteint des performances moyennes de pointe tout en permettant une scalabilité supérieure et une adaptation plug-and-play à des modèles de raisonnement plus avancés sans nécessiter de réalignement multi-modal coûteux.
English
Recent advances in slow-thinking language models (e.g., OpenAI-o1 and
DeepSeek-R1) have demonstrated remarkable abilities in complex reasoning tasks
by emulating human-like reflective cognition. However, extending such
capabilities to multi-modal large language models (MLLMs) remains challenging
due to the high cost of retraining vision-language alignments when upgrading
the underlying reasoner LLMs. A straightforward solution is to decouple
perception from reasoning, i.e., converting visual inputs into language
representations (e.g., captions) that are then passed to a powerful text-only
reasoner. However, this decoupling introduces a critical challenge: the visual
extractor must generate descriptions that are both faithful to the image and
informative enough to support accurate downstream reasoning. To address this,
we propose Reasoning-Aligned Perceptual Decoupling via Caption Reward
Optimization (RACRO) - a reasoning-guided reinforcement learning strategy that
aligns the extractor's captioning behavior with the reasoning objective. By
closing the perception-reasoning loop via reward-based optimization, RACRO
significantly enhances visual grounding and extracts reasoning-optimized
representations. Experiments on multi-modal math and science benchmarks show
that the proposed RACRO method achieves state-of-the-art average performance
while enabling superior scalability and plug-and-play adaptation to more
advanced reasoning LLMs without the necessity for costly multi-modal
re-alignment.