ChatPaper.aiChatPaper

Перцептивное разделение для масштабируемого мультимодального рассуждения через оптимизацию подписей с использованием вознаграждения

Perceptual Decoupling for Scalable Multi-modal Reasoning via Reward-Optimized Captioning

June 5, 2025
Авторы: Yunhao Gou, Kai Chen, Zhili Liu, Lanqing Hong, Xin Jin, Zhenguo Li, James T. Kwok, Yu Zhang
cs.AI

Аннотация

Недавние достижения в области медленно мыслящих языковых моделей (например, OpenAI-o1 и DeepSeek-R1) продемонстрировали впечатляющие способности в решении сложных задач рассуждения, имитируя рефлексивное познание, характерное для человека. Однако расширение таких возможностей на мультимодальные крупные языковые модели (MLLMs) остается сложной задачей из-за высокой стоимости повторного обучения выравнивания визуальных и языковых данных при обновлении базовых моделей рассуждения. Простое решение заключается в разделении восприятия и рассуждения, то есть преобразовании визуальных входных данных в языковые представления (например, подписи), которые затем передаются мощному текстовому модулю рассуждения. Однако такое разделение вводит критическую проблему: визуальный экстрактор должен генерировать описания, которые одновременно точно отражают изображение и достаточно информативны для поддержки точного последующего рассуждения. Для решения этой проблемы мы предлагаем метод Reasoning-Aligned Perceptual Decoupling via Caption Reward Optimization (RACRO) — стратегию обучения с подкреплением, ориентированную на рассуждения, которая согласует поведение экстрактора при создании подписей с целью рассуждения. Замыкая цикл восприятия-рассуждения через оптимизацию на основе вознаграждений, RACRO значительно улучшает визуальное заземление и извлекает представления, оптимизированные для рассуждений. Эксперименты на мультимодальных тестах по математике и естественным наукам показывают, что предложенный метод RACRO достигает наилучших средних показателей, обеспечивая превосходную масштабируемость и возможность адаптации "plug-and-play" к более продвинутым моделям рассуждения без необходимости дорогостоящего мультимодального повторного выравнивания.
English
Recent advances in slow-thinking language models (e.g., OpenAI-o1 and DeepSeek-R1) have demonstrated remarkable abilities in complex reasoning tasks by emulating human-like reflective cognition. However, extending such capabilities to multi-modal large language models (MLLMs) remains challenging due to the high cost of retraining vision-language alignments when upgrading the underlying reasoner LLMs. A straightforward solution is to decouple perception from reasoning, i.e., converting visual inputs into language representations (e.g., captions) that are then passed to a powerful text-only reasoner. However, this decoupling introduces a critical challenge: the visual extractor must generate descriptions that are both faithful to the image and informative enough to support accurate downstream reasoning. To address this, we propose Reasoning-Aligned Perceptual Decoupling via Caption Reward Optimization (RACRO) - a reasoning-guided reinforcement learning strategy that aligns the extractor's captioning behavior with the reasoning objective. By closing the perception-reasoning loop via reward-based optimization, RACRO significantly enhances visual grounding and extracts reasoning-optimized representations. Experiments on multi-modal math and science benchmarks show that the proposed RACRO method achieves state-of-the-art average performance while enabling superior scalability and plug-and-play adaptation to more advanced reasoning LLMs without the necessity for costly multi-modal re-alignment.
PDF21June 6, 2025