Une étude comparative sur les schémas de raisonnement du modèle o1 d'OpenAI

papers.abstract

Permettre aux grands modèles de langage (LLMs) de gérer une gamme plus large de tâches complexes (par exemple, le codage, les mathématiques) a attiré l'attention de nombreux chercheurs. Alors que les LLMs continuent d'évoluer, l'augmentation simplement du nombre de paramètres du modèle entraîne des améliorations de performance décroissantes et des coûts computationnels élevés. Récemment, le modèle o1 d'OpenAI a montré que les stratégies d'inférence (c'est-à-dire, les méthodes de calcul au moment du test) peuvent également améliorer significativement les capacités de raisonnement des LLMs. Cependant, les mécanismes derrière ces méthodes restent inexplorés. Dans notre travail, pour étudier les schémas de raisonnement de o1, nous comparons o1 avec des méthodes existantes de calcul au moment du test (BoN, BoN pas à pas, Agent Workflow et Auto-affiner) en utilisant le GPT-4o d'OpenAI comme base sur des bancs d'essai de raisonnement général dans trois domaines (c'est-à-dire, mathématiques, codage, raisonnement de bon sens). Plus précisément, nos expériences montrent que le modèle o1 a obtenu les meilleures performances sur la plupart des ensembles de données. En ce qui concerne les méthodes de recherche de réponses diverses (par exemple, BoN), nous constatons que la capacité des modèles de récompense et l'espace de recherche limitent tous deux la limite supérieure de ces méthodes. En ce qui concerne les méthodes qui décomposent le problème en de nombreux sous-problèmes, l'Agent Workflow a obtenu de meilleures performances que BoN pas à pas en raison de l'invite système spécifique au domaine pour planifier de meilleurs processus de raisonnement. Enfin, il convient de mentionner que nous avons résumé six schémas de raisonnement de o1 et fourni une analyse détaillée sur plusieurs bancs d'essai de raisonnement.

English

Enabling Large Language Models (LLMs) to handle a wider range of complex tasks (e.g., coding, math) has drawn great attention from many researchers. As LLMs continue to evolve, merely increasing the number of model parameters yields diminishing performance improvements and heavy computational costs. Recently, OpenAI's o1 model has shown that inference strategies (i.e., Test-time Compute methods) can also significantly enhance the reasoning capabilities of LLMs. However, the mechanisms behind these methods are still unexplored. In our work, to investigate the reasoning patterns of o1, we compare o1 with existing Test-time Compute methods (BoN, Step-wise BoN, Agent Workflow, and Self-Refine) by using OpenAI's GPT-4o as a backbone on general reasoning benchmarks in three domains (i.e., math, coding, commonsense reasoning). Specifically, first, our experiments show that the o1 model has achieved the best performance on most datasets. Second, as for the methods of searching diverse responses (e.g., BoN), we find the reward models' capability and the search space both limit the upper boundary of these methods. Third, as for the methods that break the problem into many sub-problems, the Agent Workflow has achieved better performance than Step-wise BoN due to the domain-specific system prompt for planning better reasoning processes. Fourth, it is worth mentioning that we have summarized six reasoning patterns of o1, and provided a detailed analysis on several reasoning benchmarks.

Une étude comparative sur les schémas de raisonnement du modèle o1 d'OpenAI

A Comparative Study on Reasoning Patterns of OpenAI's o1 Model

papers.abstract

Support