Разнообразный вывод и проверка для продвинутого логического рассуждения
Diverse Inference and Verification for Advanced Reasoning
February 14, 2025
Авторы: Iddo Drori, Gaston Longhitano, Mao Mao, Seunghwan Hyun, Yuke Zhang, Sungjun Park, Zachary Meeks, Xin-Yu Zhang, Ben Segev, Howard Yong, Nakul Verma, Avi Shporer, Alon Amit, Madeleine Udell
cs.AI
Аннотация
Модели рассуждений с большим языковым контекстом (LLMs), такие как OpenAI o1, o3 и DeepSeek R1, достигли значительного прогресса в математике и программировании, однако сталкиваются с трудностями при решении сложных задач, таких как комбинаторные задачи Международной математической олимпиады (IMO), головоломки из набора Abstraction and Reasoning Corpus (ARC) и вопросы из экзамена Humanity's Last Exam (HLE). Мы используем разнообразный подход к выводу, который сочетает несколько моделей и методов на этапе тестирования. Мы обнаружили, что проверка математических и программных задач, а также отбор с отклонением для других задач являются простыми и эффективными методами. Мы автоматически проверяем правильность решений задач IMO с помощью Lean, а головоломки ARC — с помощью кода, и выясняем, что метод best-of-N эффективно отвечает на вопросы HLE. Наш подход повышает точность ответов на комбинаторные задачи IMO с 33,3% до 77,8%, точность ответов на вопросы HLE — с 8% до 37%, а также решает 80% головоломок ARC, которые не смогли решить 948 человек, и 26,5% головоломок ARC, которые не решает модель o3 с высокими вычислительными ресурсами. Симуляции на этапе тестирования, обучение с подкреплением и метаобучение с обратной связью по выводу улучшают обобщение за счет адаптации представлений графа агента и варьирования подсказок, кода и наборов данных. Наш подход надежен, устойчив и масштабируем, и в духе воспроизводимых исследований мы сделаем его общедоступным после публикации.
English
Reasoning LLMs such as OpenAI o1, o3 and DeepSeek R1 have made significant
progress in mathematics and coding, yet find challenging advanced tasks such as
International Mathematical Olympiad (IMO) combinatorics problems, Abstraction
and Reasoning Corpus (ARC) puzzles, and Humanity's Last Exam (HLE) questions.
We use a diverse inference approach that combines multiple models and methods
at test time. We find that verifying mathematics and code problems, and
rejection sampling on other problems is simple and effective. We automatically
verify correctness of solutions to IMO problems by Lean, and ARC puzzles by
code, and find that best-of-N effectively answers HLE questions. Our approach
increases answer accuracy on IMO combinatorics problems from 33.3% to 77.8%,
accuracy on HLE questions from 8% to 37%, and solves 80% of ARC puzzles that
948 humans could not and 26.5% of ARC puzzles that o3 high compute does not.
Test-time simulations, reinforcement learning, and meta-learning with inference
feedback improve generalization by adapting agent graph representations and
varying prompts, code, and datasets. Our approach is reliable, robust, and
scalable, and in the spirit of reproducible research, we will make it publicly
available upon publication.Summary
AI-Generated Summary