Desacoplamiento Perceptual para Razonamiento Multimodal Escalable mediante Subtitulación Optimizada por Recompensas
Perceptual Decoupling for Scalable Multi-modal Reasoning via Reward-Optimized Captioning
June 5, 2025
Autores: Yunhao Gou, Kai Chen, Zhili Liu, Lanqing Hong, Xin Jin, Zhenguo Li, James T. Kwok, Yu Zhang
cs.AI
Resumen
Los recientes avances en modelos de lenguaje de pensamiento lento (por ejemplo, OpenAI-o1 y DeepSeek-R1) han demostrado habilidades notables en tareas de razonamiento complejo al emular la cognición reflexiva similar a la humana. Sin embargo, extender dichas capacidades a modelos de lenguaje multimodal de gran escala (MLLMs) sigue siendo un desafío debido al alto costo de reentrenar las alineaciones visión-lenguaje al actualizar los modelos de lenguaje subyacentes utilizados para el razonamiento. Una solución directa es desacoplar la percepción del razonamiento, es decir, convertir las entradas visuales en representaciones de lenguaje (por ejemplo, descripciones) que luego se pasan a un potente razonador basado únicamente en texto. Sin embargo, este desacople introduce un desafío crítico: el extractor visual debe generar descripciones que sean fieles a la imagen y lo suficientemente informativas para respaldar un razonamiento preciso en etapas posteriores. Para abordar esto, proponemos Desacople Perceptual Alineado con el Razonamiento mediante Optimización de Recompensas de Descripción (RACRO, por sus siglas en inglés), una estrategia de aprendizaje por refuerzo guiada por el razonamiento que alinea el comportamiento de generación de descripciones del extractor con el objetivo de razonamiento. Al cerrar el ciclo percepción-razonamiento mediante optimización basada en recompensas, RACRO mejora significativamente la fundamentación visual y extrae representaciones optimizadas para el razonamiento. Los experimentos en benchmarks multimodales de matemáticas y ciencias muestran que el método RACRO propuesto alcanza un rendimiento promedio de vanguardia, al tiempo que permite una escalabilidad superior y una adaptación plug-and-play a modelos de lenguaje más avanzados para el razonamiento, sin la necesidad de costosas realineaciones multimodales.
English
Recent advances in slow-thinking language models (e.g., OpenAI-o1 and
DeepSeek-R1) have demonstrated remarkable abilities in complex reasoning tasks
by emulating human-like reflective cognition. However, extending such
capabilities to multi-modal large language models (MLLMs) remains challenging
due to the high cost of retraining vision-language alignments when upgrading
the underlying reasoner LLMs. A straightforward solution is to decouple
perception from reasoning, i.e., converting visual inputs into language
representations (e.g., captions) that are then passed to a powerful text-only
reasoner. However, this decoupling introduces a critical challenge: the visual
extractor must generate descriptions that are both faithful to the image and
informative enough to support accurate downstream reasoning. To address this,
we propose Reasoning-Aligned Perceptual Decoupling via Caption Reward
Optimization (RACRO) - a reasoning-guided reinforcement learning strategy that
aligns the extractor's captioning behavior with the reasoning objective. By
closing the perception-reasoning loop via reward-based optimization, RACRO
significantly enhances visual grounding and extracts reasoning-optimized
representations. Experiments on multi-modal math and science benchmarks show
that the proposed RACRO method achieves state-of-the-art average performance
while enabling superior scalability and plug-and-play adaptation to more
advanced reasoning LLMs without the necessity for costly multi-modal
re-alignment.