ChatPaper.aiChatPaper

Marco-o1: К открытым моделям рассуждений для решений с открытым результатом

Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions

November 21, 2024
Авторы: Yu Zhao, Huifeng Yin, Bo Zeng, Hao Wang, Tianqi Shi, Chenyang Lyu, Longyue Wang, Weihua Luo, Kaifu Zhang
cs.AI

Аннотация

В настоящее время OpenAI o1 вызвал всплеск интереса к изучению крупных моделей рассуждений (Large Reasoning Models, LRM). Вдохновленный этим движением, Marco-o1 сосредотачивается не только на дисциплинах с четкими ответами, таких как математика, физика и программирование, которые хорошо подходят для обучения с подкреплением (Reinforcement Learning, RL), но также уделяет большее внимание решениям с открытым концом. Мы ставим перед собой вопрос: "Может ли модель o1 эффективно обобщать на более широкие области, где отсутствуют четкие стандарты и награды сложно количественно оценить?" Marco-o1 работает на основе тонкой настройки Chain-of-Thought (CoT), поиска по дереву Монте-Карло (Monte Carlo Tree Search, MCTS), механизмов отражения и инновационных стратегий рассуждений, оптимизированных для решения сложных задач реального мира.
English
Currently OpenAI o1 has sparked a surge of interest in the study of large reasoning models (LRM). Building on this momentum, Marco-o1 not only focuses on disciplines with standard answers, such as mathematics, physics, and coding -- which are well-suited for reinforcement learning (RL) -- but also places greater emphasis on open-ended resolutions. We aim to address the question: "Can the o1 model effectively generalize to broader domains where clear standards are absent and rewards are challenging to quantify?" Marco-o1 is powered by Chain-of-Thought (CoT) fine-tuning, Monte Carlo Tree Search (MCTS), reflection mechanisms, and innovative reasoning strategies -- optimized for complex real-world problem-solving tasks.

Summary

AI-Generated Summary

PDF624November 22, 2024