Ежедневно отобранные исследовательские статьи по ИИ с переводами
Последние достижения в области крупных моделей логического вывода стимулировали растущий интерес к расширению таких возможностей на мультимодальные области. Однако, несмотря на заметный прогресс в визуальном логическом выводе, отсутствие прозрачных и воспроизводимых стратегий подготовки данных и обучения остается основным препятствием для масштабируемых исследований. В данной работе мы представляем OpenMMReasoner — полностью прозрачный двухэтапный подход для мультимодального логического вывода, охватывающий контролируемую тонкую настройку (SFT) и обучение с подкреплением (RL). На этапе SFT мы создаем набор данных из 874 тысяч примеров с тщательной пошаговой валидацией, что обеспечивает прочную основу для развития логических способностей. Последующий этап RL использует набор данных из 74 тысяч примеров в различных областях для дальнейшего улучшения и стабилизации этих способностей, что приводит к более устойчивому и эффективному процессу обучения. Масштабные оценки демонстрируют, что наш подход к обучению не только превосходит сильные базовые модели, но и подчеркивает критическую роль качества данных и дизайна обучения в формировании производительности мультимодального логического вывода. В частности, наш метод демонстрирует улучшение на 11,6% по сравнению с базовой моделью Qwen2.5-VL-7B-Instruct на девяти мультимодальных тестах логического вывода, устанавливая прочную эмпирическую основу для будущих исследований крупномасштабного мультимодального логического вывода. Мы открыли исходные коды, конвейер и данные на https://github.com/EvolvingLMMs-Lab/OpenMMReasoner.