Perzeptuelle Entkopplung für skalierbares multimodales Schließen durch belohnungsoptimierte Beschriftung
Perceptual Decoupling for Scalable Multi-modal Reasoning via Reward-Optimized Captioning
June 5, 2025
papers.authors: Yunhao Gou, Kai Chen, Zhili Liu, Lanqing Hong, Xin Jin, Zhenguo Li, James T. Kwok, Yu Zhang
cs.AI
papers.abstract
Jüngste Fortschritte bei langsamen Denkmodellen für Sprache (z. B. OpenAI-o1 und DeepSeek-R1) haben bemerkenswerte Fähigkeiten in komplexen Denkaufgaben durch die Nachahmung menschlicher reflektiver Kognition demonstriert. Die Erweiterung solcher Fähigkeiten auf multimodale große Sprachmodelle (MLLMs) bleibt jedoch aufgrund der hohen Kosten für das erneute Trainieren von Vision-Sprache-Alignments bei der Aktualisierung der zugrunde liegenden Denk-LMMs eine Herausforderung. Eine einfache Lösung besteht darin, die Wahrnehmung vom Denken zu entkoppeln, d. h., visuelle Eingaben in Sprachrepräsentationen (z. B. Bildbeschreibungen) umzuwandeln, die dann an einen leistungsstarken Text-Denker weitergegeben werden. Diese Entkopplung führt jedoch zu einer kritischen Herausforderung: Der visuelle Extraktor muss Beschreibungen generieren, die sowohl treu zum Bild als auch informativ genug sind, um präzises nachgelagertes Denken zu unterstützen. Um dies zu adressieren, schlagen wir Reasoning-Aligned Perceptual Decoupling via Caption Reward Optimization (RACRO) vor – eine denkgeleitete Verstärkungslernstrategie, die das Beschreibungsverhalten des Extractors mit dem Denkziel in Einklang bringt. Durch das Schließen der Wahrnehmungs-Denk-Schleife über belohnungsbasierte Optimierung verbessert RACRO die visuelle Verankerung signifikant und extrahiert denkoptimierte Repräsentationen. Experimente auf multimodalen Mathematik- und Wissenschaftsbenchmarks zeigen, dass die vorgeschlagene RACRO-Methode eine state-of-the-art Durchschnittsleistung erreicht und gleichzeitig überlegene Skalierbarkeit sowie Plug-and-Play-Anpassung an fortschrittlichere Denk-LMMs ermöglicht, ohne die Notwendigkeit kostspieliger multimodaler Neuausrichtung.
English
Recent advances in slow-thinking language models (e.g., OpenAI-o1 and
DeepSeek-R1) have demonstrated remarkable abilities in complex reasoning tasks
by emulating human-like reflective cognition. However, extending such
capabilities to multi-modal large language models (MLLMs) remains challenging
due to the high cost of retraining vision-language alignments when upgrading
the underlying reasoner LLMs. A straightforward solution is to decouple
perception from reasoning, i.e., converting visual inputs into language
representations (e.g., captions) that are then passed to a powerful text-only
reasoner. However, this decoupling introduces a critical challenge: the visual
extractor must generate descriptions that are both faithful to the image and
informative enough to support accurate downstream reasoning. To address this,
we propose Reasoning-Aligned Perceptual Decoupling via Caption Reward
Optimization (RACRO) - a reasoning-guided reinforcement learning strategy that
aligns the extractor's captioning behavior with the reasoning objective. By
closing the perception-reasoning loop via reward-based optimization, RACRO
significantly enhances visual grounding and extracts reasoning-optimized
representations. Experiments on multi-modal math and science benchmarks show
that the proposed RACRO method achieves state-of-the-art average performance
while enabling superior scalability and plug-and-play adaptation to more
advanced reasoning LLMs without the necessity for costly multi-modal
re-alignment.