Perzeptuelle Entkopplung für skalierbares multimodales Schließen durch belohnungsoptimierte Beschriftung

papers.abstract

Jüngste Fortschritte bei langsamen Denkmodellen für Sprache (z. B. OpenAI-o1 und DeepSeek-R1) haben bemerkenswerte Fähigkeiten in komplexen Denkaufgaben durch die Nachahmung menschlicher reflektiver Kognition demonstriert. Die Erweiterung solcher Fähigkeiten auf multimodale große Sprachmodelle (MLLMs) bleibt jedoch aufgrund der hohen Kosten für das erneute Trainieren von Vision-Sprache-Alignments bei der Aktualisierung der zugrunde liegenden Denk-LMMs eine Herausforderung. Eine einfache Lösung besteht darin, die Wahrnehmung vom Denken zu entkoppeln, d. h., visuelle Eingaben in Sprachrepräsentationen (z. B. Bildbeschreibungen) umzuwandeln, die dann an einen leistungsstarken Text-Denker weitergegeben werden. Diese Entkopplung führt jedoch zu einer kritischen Herausforderung: Der visuelle Extraktor muss Beschreibungen generieren, die sowohl treu zum Bild als auch informativ genug sind, um präzises nachgelagertes Denken zu unterstützen. Um dies zu adressieren, schlagen wir Reasoning-Aligned Perceptual Decoupling via Caption Reward Optimization (RACRO) vor – eine denkgeleitete Verstärkungslernstrategie, die das Beschreibungsverhalten des Extractors mit dem Denkziel in Einklang bringt. Durch das Schließen der Wahrnehmungs-Denk-Schleife über belohnungsbasierte Optimierung verbessert RACRO die visuelle Verankerung signifikant und extrahiert denkoptimierte Repräsentationen. Experimente auf multimodalen Mathematik- und Wissenschaftsbenchmarks zeigen, dass die vorgeschlagene RACRO-Methode eine state-of-the-art Durchschnittsleistung erreicht und gleichzeitig überlegene Skalierbarkeit sowie Plug-and-Play-Anpassung an fortschrittlichere Denk-LMMs ermöglicht, ohne die Notwendigkeit kostspieliger multimodaler Neuausrichtung.

English

Recent advances in slow-thinking language models (e.g., OpenAI-o1 and DeepSeek-R1) have demonstrated remarkable abilities in complex reasoning tasks by emulating human-like reflective cognition. However, extending such capabilities to multi-modal large language models (MLLMs) remains challenging due to the high cost of retraining vision-language alignments when upgrading the underlying reasoner LLMs. A straightforward solution is to decouple perception from reasoning, i.e., converting visual inputs into language representations (e.g., captions) that are then passed to a powerful text-only reasoner. However, this decoupling introduces a critical challenge: the visual extractor must generate descriptions that are both faithful to the image and informative enough to support accurate downstream reasoning. To address this, we propose Reasoning-Aligned Perceptual Decoupling via Caption Reward Optimization (RACRO) - a reasoning-guided reinforcement learning strategy that aligns the extractor's captioning behavior with the reasoning objective. By closing the perception-reasoning loop via reward-based optimization, RACRO significantly enhances visual grounding and extracts reasoning-optimized representations. Experiments on multi-modal math and science benchmarks show that the proposed RACRO method achieves state-of-the-art average performance while enabling superior scalability and plug-and-play adaptation to more advanced reasoning LLMs without the necessity for costly multi-modal re-alignment.

Perzeptuelle Entkopplung für skalierbares multimodales Schließen durch belohnungsoptimierte Beschriftung

Perceptual Decoupling for Scalable Multi-modal Reasoning via Reward-Optimized Captioning

papers.abstract

Support