Un Estudio Comparativo sobre los Patrones de Razonamiento del Modelo o1 de OpenAI

Resumen

Permitir que los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) manejen una gama más amplia de tareas complejas (por ejemplo, codificación, matemáticas) ha atraído gran atención de muchos investigadores. A medida que los LLMs continúan evolucionando, simplemente aumentar el número de parámetros del modelo conlleva mejoras de rendimiento decrecientes y altos costos computacionales. Recientemente, el modelo o1 de OpenAI ha demostrado que las estrategias de inferencia (es decir, métodos de Cómputo en Tiempo de Prueba) también pueden mejorar significativamente las capacidades de razonamiento de los LLMs. Sin embargo, los mecanismos detrás de estos métodos aún no han sido explorados. En nuestro trabajo, para investigar los patrones de razonamiento de o1, comparamos o1 con los métodos existentes de Cómputo en Tiempo de Prueba (BoN, BoN Paso a Paso, Flujo de Trabajo del Agente y Auto-Refinamiento) utilizando el GPT-4o de OpenAI como base en bancos de pruebas de razonamiento general en tres dominios (es decir, matemáticas, codificación, razonamiento del sentido común). Específicamente, primero, nuestros experimentos muestran que el modelo o1 ha logrado el mejor rendimiento en la mayoría de los conjuntos de datos. Segundo, en cuanto a los métodos de búsqueda de respuestas diversas (por ejemplo, BoN), encontramos que la capacidad de los modelos de recompensa y el espacio de búsqueda limitan el límite superior de estos métodos. Tercero, en cuanto a los métodos que dividen el problema en muchos subproblemas, el Flujo de Trabajo del Agente ha logrado un mejor rendimiento que BoN Paso a Paso debido al sistema específico del dominio para planificar mejores procesos de razonamiento. Cuarto, cabe mencionar que hemos resumido seis patrones de razonamiento de o1 y proporcionado un análisis detallado en varios bancos de pruebas de razonamiento.

English

Enabling Large Language Models (LLMs) to handle a wider range of complex tasks (e.g., coding, math) has drawn great attention from many researchers. As LLMs continue to evolve, merely increasing the number of model parameters yields diminishing performance improvements and heavy computational costs. Recently, OpenAI's o1 model has shown that inference strategies (i.e., Test-time Compute methods) can also significantly enhance the reasoning capabilities of LLMs. However, the mechanisms behind these methods are still unexplored. In our work, to investigate the reasoning patterns of o1, we compare o1 with existing Test-time Compute methods (BoN, Step-wise BoN, Agent Workflow, and Self-Refine) by using OpenAI's GPT-4o as a backbone on general reasoning benchmarks in three domains (i.e., math, coding, commonsense reasoning). Specifically, first, our experiments show that the o1 model has achieved the best performance on most datasets. Second, as for the methods of searching diverse responses (e.g., BoN), we find the reward models' capability and the search space both limit the upper boundary of these methods. Third, as for the methods that break the problem into many sub-problems, the Agent Workflow has achieved better performance than Step-wise BoN due to the domain-specific system prompt for planning better reasoning processes. Fourth, it is worth mentioning that we have summarized six reasoning patterns of o1, and provided a detailed analysis on several reasoning benchmarks.

Un Estudio Comparativo sobre los Patrones de Razonamiento del Modelo o1 de OpenAI

A Comparative Study on Reasoning Patterns of OpenAI's o1 Model

Resumen

Support