Robust-R1: Устойчивое рассуждение с учетом деградации для надежного визуального понимания
Robust-R1: Degradation-Aware Reasoning for Robust Visual Understanding
December 19, 2025
Авторы: Jiaqi Tang, Jianmin Chen, Wei Wei, Xiaogang Xu, Runtao Liu, Xiangyu Wu, Qipeng Xie, Jiafei Wu, Lei Zhang, Qifeng Chen
cs.AI
Аннотация
Мультимодальные большие языковые модели демонстрируют ненадежную работу в условиях экстремальных реалистичных визуальных искажений, что ограничивает их практическую устойчивость. Существующие устойчивые MLLM в основном полагаются на неявное обучение/адаптацию, сфокусированную исключительно на обобщении визуального энкодера, что приводит к ограниченной интерпретируемости и изолированной оптимизации. Для преодоления этих ограничений мы предлагаем Robust-R1 — новую структуру, которая явно моделирует визуальные искажения через структурированные цепочки рассуждений. Наш подход интегрирует: (i) контролируемое тонкое обучение для формирования основ деградационно-ориентированного мышления, (ii) выравнивание на основе вознаграждения для точного восприятия параметров искажений, и (iii) динамическое масштабирование глубины рассуждений, адаптированное к интенсивности деградации. Для реализации подхода мы представляем специализированный датасет на 11 тыс. примеров с реалистичными искажениями, синтезированными на четырех ключевых стадиях обработки визуальной информации, каждый из которых размечен структурированными цепочками, связывающими параметры искажений, перцептивное влияние, исходную семантическую цепь рассуждений и вывод. Комплексные оценки демонстрируют передовую устойчивость: Robust-R1 превосходит все общие и специализированные базовые модели на бенчмарке реальных искажений R-Bench, сохраняя при этом превосходную устойчивость к многоуровневым адверсарным искажениям на MMMB, MMStar и RealWorldQA.
English
Multimodal Large Language Models struggle to maintain reliable performance under extreme real-world visual degradations, which impede their practical robustness. Existing robust MLLMs predominantly rely on implicit training/adaptation that focuses solely on visual encoder generalization, suffering from limited interpretability and isolated optimization. To overcome these limitations, we propose Robust-R1, a novel framework that explicitly models visual degradations through structured reasoning chains. Our approach integrates: (i) supervised fine-tuning for degradation-aware reasoning foundations, (ii) reward-driven alignment for accurately perceiving degradation parameters, and (iii) dynamic reasoning depth scaling adapted to degradation intensity. To facilitate this approach, we introduce a specialized 11K dataset featuring realistic degradations synthesized across four critical real-world visual processing stages, each annotated with structured chains connecting degradation parameters, perceptual influence, pristine semantic reasoning chain, and conclusion. Comprehensive evaluations demonstrate state-of-the-art robustness: Robust-R1 outperforms all general and robust baselines on the real-world degradation benchmark R-Bench, while maintaining superior anti-degradation performance under multi-intensity adversarial degradations on MMMB, MMStar, and RealWorldQA.