Разнообразный вывод и проверка для продвинутого логического рассуждения

Аннотация

Модели рассуждений с большим языковым контекстом (LLMs), такие как OpenAI o1, o3 и DeepSeek R1, достигли значительного прогресса в математике и программировании, однако сталкиваются с трудностями при решении сложных задач, таких как комбинаторные задачи Международной математической олимпиады (IMO), головоломки из набора Abstraction and Reasoning Corpus (ARC) и вопросы из экзамена Humanity's Last Exam (HLE). Мы используем разнообразный подход к выводу, который сочетает несколько моделей и методов на этапе тестирования. Мы обнаружили, что проверка математических и программных задач, а также отбор с отклонением для других задач являются простыми и эффективными методами. Мы автоматически проверяем правильность решений задач IMO с помощью Lean, а головоломки ARC — с помощью кода, и выясняем, что метод best-of-N эффективно отвечает на вопросы HLE. Наш подход повышает точность ответов на комбинаторные задачи IMO с 33,3% до 77,8%, точность ответов на вопросы HLE — с 8% до 37%, а также решает 80% головоломок ARC, которые не смогли решить 948 человек, и 26,5% головоломок ARC, которые не решает модель o3 с высокими вычислительными ресурсами. Симуляции на этапе тестирования, обучение с подкреплением и метаобучение с обратной связью по выводу улучшают обобщение за счет адаптации представлений графа агента и варьирования подсказок, кода и наборов данных. Наш подход надежен, устойчив и масштабируем, и в духе воспроизводимых исследований мы сделаем его общедоступным после публикации.

English

Reasoning LLMs such as OpenAI o1, o3 and DeepSeek R1 have made significant progress in mathematics and coding, yet find challenging advanced tasks such as International Mathematical Olympiad (IMO) combinatorics problems, Abstraction and Reasoning Corpus (ARC) puzzles, and Humanity's Last Exam (HLE) questions. We use a diverse inference approach that combines multiple models and methods at test time. We find that verifying mathematics and code problems, and rejection sampling on other problems is simple and effective. We automatically verify correctness of solutions to IMO problems by Lean, and ARC puzzles by code, and find that best-of-N effectively answers HLE questions. Our approach increases answer accuracy on IMO combinatorics problems from 33.3% to 77.8%, accuracy on HLE questions from 8% to 37%, and solves 80% of ARC puzzles that 948 humans could not and 26.5% of ARC puzzles that o3 high compute does not. Test-time simulations, reinforcement learning, and meta-learning with inference feedback improve generalization by adapting agent graph representations and varying prompts, code, and datasets. Our approach is reliable, robust, and scalable, and in the spirit of reproducible research, we will make it publicly available upon publication.