Marco-01: Rumo a Modelos de Raciocínio Abertos para Soluções de Respostas Abertas
Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions
November 21, 2024
Autores: Yu Zhao, Huifeng Yin, Bo Zeng, Hao Wang, Tianqi Shi, Chenyang Lyu, Longyue Wang, Weihua Luo, Kaifu Zhang
cs.AI
Resumo
Atualmente, o OpenAI o1 tem despertado um aumento de interesse no estudo de grandes modelos de raciocínio (LRM). Aproveitando esse impulso, o Marco-o1 não apenas se concentra em disciplinas com respostas padrão, como matemática, física e codificação - que são adequadas para aprendizado por reforço (RL) - mas também coloca maior ênfase em resoluções abertas. Nosso objetivo é abordar a pergunta: "O modelo o1 pode generalizar efetivamente para domínios mais amplos onde padrões claros estão ausentes e recompensas são desafiadoras de quantificar?" O Marco-o1 é impulsionado pelo ajuste fino da Cadeia de Pensamento (CoT), Busca em Árvore de Monte Carlo (MCTS), mecanismos de reflexão e estratégias de raciocínio inovadoras - otimizadas para tarefas complexas de resolução de problemas do mundo real.
English
Currently OpenAI o1 has sparked a surge of interest in the study of large
reasoning models (LRM). Building on this momentum, Marco-o1 not only focuses on
disciplines with standard answers, such as mathematics, physics, and coding --
which are well-suited for reinforcement learning (RL) -- but also places
greater emphasis on open-ended resolutions. We aim to address the question:
"Can the o1 model effectively generalize to broader domains where clear
standards are absent and rewards are challenging to quantify?" Marco-o1 is
powered by Chain-of-Thought (CoT) fine-tuning, Monte Carlo Tree Search (MCTS),
reflection mechanisms, and innovative reasoning strategies -- optimized for
complex real-world problem-solving tasks.Summary
AI-Generated Summary