ChatPaper.aiChatPaper

Сравнительное исследование образцов рассуждений модели o1 от OpenAI

A Comparative Study on Reasoning Patterns of OpenAI's o1 Model

October 17, 2024
Авторы: Siwei Wu, Zhongyuan Peng, Xinrun Du, Tuney Zheng, Minghao Liu, Jialong Wu, Jiachen Ma, Yizhi Li, Jian Yang, Wangchunshu Zhou, Qunshu Lin, Junbo Zhao, Zhaoxiang Zhang, Wenhao Huang, Ge Zhang, Chenghua Lin, J. H. Liu
cs.AI

Аннотация

Повышение возможностей больших языковых моделей (LLM) для решения более широкого круга сложных задач (например, программирование, математика) привлекло большое внимание многих исследователей. По мере развития LLM увеличение только количества параметров модели приводит к уменьшению улучшений производительности и значительным вычислительным затратам. Недавно модель o1 от OpenAI показала, что стратегии вывода (т.е. методы вычисления во время тестирования) также значительно улучшают способности рассуждения LLM. Однако механизмы этих методов до сих пор остаются неизученными. В нашей работе для изучения образцов рассуждений o1 мы сравниваем o1 с существующими методами вычисления во время тестирования (BoN, пошаговый BoN, рабочий процесс агента и самосовершенствование), используя GPT-4o от OpenAI в качестве основы на общих бенчмарках рассуждений в трех областях (математика, программирование, здравый смысл). В частности, наши эксперименты показывают, что модель o1 достигла лучшей производительности на большинстве наборов данных. Что касается методов поиска разнообразных ответов (например, BoN), мы обнаружили, что способности моделей вознаграждения и пространство поиска оба ограничивают верхнюю границу этих методов. Что касается методов, разбивающих проблему на множество подпроблем, рабочий процесс агента показал лучшую производительность по сравнению с пошаговым BoN благодаря доменно-специфическому системному запросу для планирования лучших процессов рассуждения. Следует отметить, что мы суммировали шесть образцов рассуждений o1 и предоставили подробный анализ нескольких бенчмарков рассуждений.
English
Enabling Large Language Models (LLMs) to handle a wider range of complex tasks (e.g., coding, math) has drawn great attention from many researchers. As LLMs continue to evolve, merely increasing the number of model parameters yields diminishing performance improvements and heavy computational costs. Recently, OpenAI's o1 model has shown that inference strategies (i.e., Test-time Compute methods) can also significantly enhance the reasoning capabilities of LLMs. However, the mechanisms behind these methods are still unexplored. In our work, to investigate the reasoning patterns of o1, we compare o1 with existing Test-time Compute methods (BoN, Step-wise BoN, Agent Workflow, and Self-Refine) by using OpenAI's GPT-4o as a backbone on general reasoning benchmarks in three domains (i.e., math, coding, commonsense reasoning). Specifically, first, our experiments show that the o1 model has achieved the best performance on most datasets. Second, as for the methods of searching diverse responses (e.g., BoN), we find the reward models' capability and the search space both limit the upper boundary of these methods. Third, as for the methods that break the problem into many sub-problems, the Agent Workflow has achieved better performance than Step-wise BoN due to the domain-specific system prompt for planning better reasoning processes. Fourth, it is worth mentioning that we have summarized six reasoning patterns of o1, and provided a detailed analysis on several reasoning benchmarks.

Summary

AI-Generated Summary

PDF192November 16, 2024