Perceptuele Ontkoppeling voor Schaalbaar Multi-modale Redenering via Beloning-geoptimaliseerde Bijschrijving
Perceptual Decoupling for Scalable Multi-modal Reasoning via Reward-Optimized Captioning
June 5, 2025
Auteurs: Yunhao Gou, Kai Chen, Zhili Liu, Lanqing Hong, Xin Jin, Zhenguo Li, James T. Kwok, Yu Zhang
cs.AI
Samenvatting
Recente ontwikkelingen in langzaam denkende taalmodelen (bijv. OpenAI-o1 en DeepSeek-R1) hebben opmerkelijke vaardigheden getoond in complexe redeneertaken door menselijke reflectieve cognitie na te bootsen. Het uitbreiden van dergelijke mogelijkheden naar multimodale grote taalmodelen (MLLMs) blijft echter een uitdaging vanwege de hoge kosten van het opnieuw trainen van visie-taaluitlijningen bij het upgraden van de onderliggende redeneer-LM's. Een eenvoudige oplossing is het ontkoppelen van perceptie en redeneren, waarbij visuele invoer wordt omgezet in taalrepresentaties (bijv. bijschriften) die vervolgens worden doorgegeven aan een krachtige tekstredeneerder. Deze ontkoppeling introduceert echter een kritieke uitdaging: de visuele extractor moet beschrijvingen genereren die zowel trouw zijn aan de afbeelding als informatief genoeg om nauwkeurige downstream-redenering te ondersteunen. Om dit aan te pakken, stellen we Reasoning-Aligned Perceptual Decoupling via Caption Reward Optimization (RACRO) voor – een door redeneren geleide reinforcement learning-strategie die het bijschriftgedrag van de extractor uitlijnt met het redeneerdoel. Door de perceptie-redeneringslus te sluiten via beloningsgebaseerde optimalisatie, verbetert RACRO de visuele verankering aanzienlijk en extraheert het redeneringsgeoptimaliseerde representaties. Experimenten op multimodale wiskunde- en wetenschapsbenchmarks tonen aan dat de voorgestelde RACRO-methode state-of-the-art gemiddelde prestaties bereikt, terwijl superieure schaalbaarheid en plug-and-play-aanpassing aan geavanceerdere redeneer-LM's mogelijk wordt gemaakt zonder de noodzaak van kostbare multimodale heruitlijning.
English
Recent advances in slow-thinking language models (e.g., OpenAI-o1 and
DeepSeek-R1) have demonstrated remarkable abilities in complex reasoning tasks
by emulating human-like reflective cognition. However, extending such
capabilities to multi-modal large language models (MLLMs) remains challenging
due to the high cost of retraining vision-language alignments when upgrading
the underlying reasoner LLMs. A straightforward solution is to decouple
perception from reasoning, i.e., converting visual inputs into language
representations (e.g., captions) that are then passed to a powerful text-only
reasoner. However, this decoupling introduces a critical challenge: the visual
extractor must generate descriptions that are both faithful to the image and
informative enough to support accurate downstream reasoning. To address this,
we propose Reasoning-Aligned Perceptual Decoupling via Caption Reward
Optimization (RACRO) - a reasoning-guided reinforcement learning strategy that
aligns the extractor's captioning behavior with the reasoning objective. By
closing the perception-reasoning loop via reward-based optimization, RACRO
significantly enhances visual grounding and extracts reasoning-optimized
representations. Experiments on multi-modal math and science benchmarks show
that the proposed RACRO method achieves state-of-the-art average performance
while enabling superior scalability and plug-and-play adaptation to more
advanced reasoning LLMs without the necessity for costly multi-modal
re-alignment.