Une étude comparative sur les schémas de raisonnement du modèle o1 d'OpenAI
A Comparative Study on Reasoning Patterns of OpenAI's o1 Model
October 17, 2024
Auteurs: Siwei Wu, Zhongyuan Peng, Xinrun Du, Tuney Zheng, Minghao Liu, Jialong Wu, Jiachen Ma, Yizhi Li, Jian Yang, Wangchunshu Zhou, Qunshu Lin, Junbo Zhao, Zhaoxiang Zhang, Wenhao Huang, Ge Zhang, Chenghua Lin, J. H. Liu
cs.AI
Résumé
Permettre aux grands modèles de langage (LLMs) de gérer une gamme plus large de tâches complexes (par exemple, le codage, les mathématiques) a attiré l'attention de nombreux chercheurs. Alors que les LLMs continuent d'évoluer, l'augmentation simplement du nombre de paramètres du modèle entraîne des améliorations de performance décroissantes et des coûts computationnels élevés. Récemment, le modèle o1 d'OpenAI a montré que les stratégies d'inférence (c'est-à-dire, les méthodes de calcul au moment du test) peuvent également améliorer significativement les capacités de raisonnement des LLMs. Cependant, les mécanismes derrière ces méthodes restent inexplorés. Dans notre travail, pour étudier les schémas de raisonnement de o1, nous comparons o1 avec des méthodes existantes de calcul au moment du test (BoN, BoN pas à pas, Agent Workflow et Auto-affiner) en utilisant le GPT-4o d'OpenAI comme base sur des bancs d'essai de raisonnement général dans trois domaines (c'est-à-dire, mathématiques, codage, raisonnement de bon sens). Plus précisément, nos expériences montrent que le modèle o1 a obtenu les meilleures performances sur la plupart des ensembles de données. En ce qui concerne les méthodes de recherche de réponses diverses (par exemple, BoN), nous constatons que la capacité des modèles de récompense et l'espace de recherche limitent tous deux la limite supérieure de ces méthodes. En ce qui concerne les méthodes qui décomposent le problème en de nombreux sous-problèmes, l'Agent Workflow a obtenu de meilleures performances que BoN pas à pas en raison de l'invite système spécifique au domaine pour planifier de meilleurs processus de raisonnement. Enfin, il convient de mentionner que nous avons résumé six schémas de raisonnement de o1 et fourni une analyse détaillée sur plusieurs bancs d'essai de raisonnement.
English
Enabling Large Language Models (LLMs) to handle a wider range of complex
tasks (e.g., coding, math) has drawn great attention from many researchers. As
LLMs continue to evolve, merely increasing the number of model parameters
yields diminishing performance improvements and heavy computational costs.
Recently, OpenAI's o1 model has shown that inference strategies (i.e.,
Test-time Compute methods) can also significantly enhance the reasoning
capabilities of LLMs. However, the mechanisms behind these methods are still
unexplored. In our work, to investigate the reasoning patterns of o1, we
compare o1 with existing Test-time Compute methods (BoN, Step-wise BoN, Agent
Workflow, and Self-Refine) by using OpenAI's GPT-4o as a backbone on general
reasoning benchmarks in three domains (i.e., math, coding, commonsense
reasoning). Specifically, first, our experiments show that the o1 model has
achieved the best performance on most datasets. Second, as for the methods of
searching diverse responses (e.g., BoN), we find the reward models' capability
and the search space both limit the upper boundary of these methods. Third, as
for the methods that break the problem into many sub-problems, the Agent
Workflow has achieved better performance than Step-wise BoN due to the
domain-specific system prompt for planning better reasoning processes. Fourth,
it is worth mentioning that we have summarized six reasoning patterns of o1,
and provided a detailed analysis on several reasoning benchmarks.Summary
AI-Generated Summary