スケーラブルなマルチモーダル推論のための知覚的デカップリング: 報酬最適化キャプショニングによるアプローチ
Perceptual Decoupling for Scalable Multi-modal Reasoning via Reward-Optimized Captioning
June 5, 2025
著者: Yunhao Gou, Kai Chen, Zhili Liu, Lanqing Hong, Xin Jin, Zhenguo Li, James T. Kwok, Yu Zhang
cs.AI
要旨
近年のスローシンキング言語モデル(例:OpenAI-o1やDeepSeek-R1)は、人間のような反射的認知を模倣することで、複雑な推論タスクにおいて顕著な能力を示しています。しかし、このような能力をマルチモーダル大規模言語モデル(MLLMs)に拡張することは、基盤となる推論LLMをアップグレードする際に視覚と言語のアライメントを再トレーニングするコストが高いため、依然として困難です。単純な解決策は、知覚と推論を分離すること、つまり視覚入力を言語表現(例:キャプション)に変換し、それを強力なテキスト専用推論器に渡すことです。しかし、この分離には重大な課題が生じます:視覚抽出器は、画像に忠実でありながら、正確な下流推論をサポートするのに十分な情報を提供する記述を生成しなければなりません。これを解決するために、我々は「推論に基づく知覚分離のキャプション報酬最適化(RACRO)」を提案します。これは、抽出器のキャプショニング行動を推論目的に合わせるための推論ガイド型強化学習戦略です。報酬ベースの最適化を通じて知覚と推論のループを閉じることで、RACROは視覚的基盤を大幅に強化し、推論に最適化された表現を抽出します。マルチモーダル数学および科学ベンチマークでの実験では、提案されたRACRO手法が最先端の平均性能を達成し、コストのかかるマルチモーダル再アライメントを必要とせずに、より高度な推論LLMへの優れたスケーラビリティとプラグアンドプレイ適応を可能にすることが示されました。
English
Recent advances in slow-thinking language models (e.g., OpenAI-o1 and
DeepSeek-R1) have demonstrated remarkable abilities in complex reasoning tasks
by emulating human-like reflective cognition. However, extending such
capabilities to multi-modal large language models (MLLMs) remains challenging
due to the high cost of retraining vision-language alignments when upgrading
the underlying reasoner LLMs. A straightforward solution is to decouple
perception from reasoning, i.e., converting visual inputs into language
representations (e.g., captions) that are then passed to a powerful text-only
reasoner. However, this decoupling introduces a critical challenge: the visual
extractor must generate descriptions that are both faithful to the image and
informative enough to support accurate downstream reasoning. To address this,
we propose Reasoning-Aligned Perceptual Decoupling via Caption Reward
Optimization (RACRO) - a reasoning-guided reinforcement learning strategy that
aligns the extractor's captioning behavior with the reasoning objective. By
closing the perception-reasoning loop via reward-based optimization, RACRO
significantly enhances visual grounding and extracts reasoning-optimized
representations. Experiments on multi-modal math and science benchmarks show
that the proposed RACRO method achieves state-of-the-art average performance
while enabling superior scalability and plug-and-play adaptation to more
advanced reasoning LLMs without the necessity for costly multi-modal
re-alignment.