ChatPaper.aiChatPaper

Marco-01: Hacia Modelos de Razonamiento Abierto para Soluciones de Preguntas Abiertas

Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions

November 21, 2024
Autores: Yu Zhao, Huifeng Yin, Bo Zeng, Hao Wang, Tianqi Shi, Chenyang Lyu, Longyue Wang, Weihua Luo, Kaifu Zhang
cs.AI

Resumen

Actualmente, OpenAI o1 ha generado un aumento de interés en el estudio de modelos de razonamiento amplios (LRA). Aprovechando este impulso, Marco-o1 no solo se enfoca en disciplinas con respuestas estándar, como matemáticas, física y codificación, que son adecuadas para el aprendizaje por refuerzo (RL), sino que también pone mayor énfasis en resoluciones abiertas. Nuestro objetivo es abordar la pregunta: "¿Puede el modelo o1 generalizar de manera efectiva a dominios más amplios donde no existen estándares claros y las recompensas son difíciles de cuantificar?" Marco-o1 está impulsado por el ajuste fino de Chain-of-Thought (CoT), la Búsqueda de Árbol de Monte Carlo (MCTS), mecanismos de reflexión y estrategias de razonamiento innovadoras, optimizadas para tareas complejas de resolución de problemas del mundo real.
English
Currently OpenAI o1 has sparked a surge of interest in the study of large reasoning models (LRM). Building on this momentum, Marco-o1 not only focuses on disciplines with standard answers, such as mathematics, physics, and coding -- which are well-suited for reinforcement learning (RL) -- but also places greater emphasis on open-ended resolutions. We aim to address the question: "Can the o1 model effectively generalize to broader domains where clear standards are absent and rewards are challenging to quantify?" Marco-o1 is powered by Chain-of-Thought (CoT) fine-tuning, Monte Carlo Tree Search (MCTS), reflection mechanisms, and innovative reasoning strategies -- optimized for complex real-world problem-solving tasks.

Summary

AI-Generated Summary

PDF624November 22, 2024