Disaccoppiamento Percettivo per il Ragionamento Multi-modale Scalabile tramite Generazione di Didascalie Ottimizzata per la Ricompensa
Perceptual Decoupling for Scalable Multi-modal Reasoning via Reward-Optimized Captioning
June 5, 2025
Autori: Yunhao Gou, Kai Chen, Zhili Liu, Lanqing Hong, Xin Jin, Zhenguo Li, James T. Kwok, Yu Zhang
cs.AI
Abstract
I recenti progressi nei modelli linguistici a pensiero lento (ad esempio, OpenAI-o1 e DeepSeek-R1) hanno dimostrato capacità straordinarie in compiti di ragionamento complesso emulando la cognizione riflessiva simile a quella umana. Tuttavia, estendere tali capacità ai modelli linguistici multimodali di grandi dimensioni (MLLM) rimane una sfida a causa dell'elevato costo di riaddestramento degli allineamenti visione-linguaggio quando si aggiornano i modelli linguistici di ragionamento sottostanti. Una soluzione diretta è quella di disaccoppiare la percezione dal ragionamento, ovvero convertire gli input visivi in rappresentazioni linguistiche (ad esempio, didascalie) che vengono poi passate a un potente ragionatore basato solo su testo. Tuttavia, questo disaccoppiamento introduce una sfida critica: l'estrattore visivo deve generare descrizioni che siano sia fedeli all'immagine che sufficientemente informative per supportare un ragionamento accurato a valle. Per affrontare questo problema, proponiamo il Disaccoppiamento Percettivo Allineato al Ragionamento tramite Ottimizzazione della Ricompensa delle Didascalie (RACRO) - una strategia di apprendimento per rinforzo guidata dal ragionamento che allinea il comportamento di generazione delle didascalie dell'estrattore con l'obiettivo di ragionamento. Chiudendo il ciclo percezione-ragionamento tramite l'ottimizzazione basata sulla ricompensa, RACRO migliora significativamente il grounding visivo ed estrae rappresentazioni ottimizzate per il ragionamento. Esperimenti su benchmark multimodali di matematica e scienze dimostrano che il metodo RACRO proposto raggiunge prestazioni medie all'avanguardia, consentendo al contempo una scalabilità superiore e un adattamento plug-and-play a modelli linguistici di ragionamento più avanzati senza la necessità di un costoso riallineamento multimodale.
English
Recent advances in slow-thinking language models (e.g., OpenAI-o1 and
DeepSeek-R1) have demonstrated remarkable abilities in complex reasoning tasks
by emulating human-like reflective cognition. However, extending such
capabilities to multi-modal large language models (MLLMs) remains challenging
due to the high cost of retraining vision-language alignments when upgrading
the underlying reasoner LLMs. A straightforward solution is to decouple
perception from reasoning, i.e., converting visual inputs into language
representations (e.g., captions) that are then passed to a powerful text-only
reasoner. However, this decoupling introduces a critical challenge: the visual
extractor must generate descriptions that are both faithful to the image and
informative enough to support accurate downstream reasoning. To address this,
we propose Reasoning-Aligned Perceptual Decoupling via Caption Reward
Optimization (RACRO) - a reasoning-guided reinforcement learning strategy that
aligns the extractor's captioning behavior with the reasoning objective. By
closing the perception-reasoning loop via reward-based optimization, RACRO
significantly enhances visual grounding and extracts reasoning-optimized
representations. Experiments on multi-modal math and science benchmarks show
that the proposed RACRO method achieves state-of-the-art average performance
while enabling superior scalability and plug-and-play adaptation to more
advanced reasoning LLMs without the necessity for costly multi-modal
re-alignment.