ChatPaper.aiChatPaper

Progrès des généralistes de raisonnement des LLM grâce aux arbres de préférences

Advancing LLM Reasoning Generalists with Preference Trees

April 2, 2024
Auteurs: Lifan Yuan, Ganqu Cui, Hanbin Wang, Ning Ding, Xingyao Wang, Jia Deng, Boji Shan, Huimin Chen, Ruobing Xie, Yankai Lin, Zhenghao Liu, Bowen Zhou, Hao Peng, Zhiyuan Liu, Maosong Sun
cs.AI

Résumé

Nous présentons Eurus, une suite de grands modèles de langage (LLM) optimisés pour le raisonnement. Affinés à partir de Mistral-7B et CodeLlama-70B, les modèles Eurus atteignent des résultats de pointe parmi les modèles open-source sur un ensemble diversifié de benchmarks couvrant les mathématiques, la génération de code et les problèmes de raisonnement logique. Notamment, Eurus-70B surpasse GPT-3.5 Turbo en raisonnement grâce à un benchmarking complet sur 12 tests couvrant cinq tâches, et atteint une précision de 33,3 % en pass@1 sur LeetCode et de 32,6 % sur TheoremQA, deux benchmarks exigeants, surpassant largement les modèles open-source existants avec des marges supérieures à 13,3 %. La performance remarquable d'Eurus peut être principalement attribuée à UltraInteract, notre nouvel ensemble de données d'alignement à grande échelle et de haute qualité, spécifiquement conçu pour les tâches de raisonnement complexe. UltraInteract peut être utilisé à la fois pour l'affinage supervisé et pour l'apprentissage des préférences. Pour chaque instruction, il inclut un arbre de préférences composé de (1) chaînes de raisonnement avec des stratégies de planification diversifiées dans un format unifié, (2) trajectoires d'interaction multi-tours avec l'environnement et la critique, et (3) données par paires pour faciliter l'apprentissage des préférences. UltraInteract nous permet de mener une exploration approfondie de l'apprentissage des préférences pour les tâches de raisonnement. Notre investigation révèle que certains algorithmes bien établis d'apprentissage des préférences peuvent être moins adaptés aux tâches de raisonnement par rapport à leur efficacité dans les conversations générales. Inspirés par cela, nous dérivons un nouvel objectif de modélisation de récompense qui, conjointement avec UltraInteract, conduit à un modèle de récompense robuste.
English
We introduce Eurus, a suite of large language models (LLMs) optimized for reasoning. Finetuned from Mistral-7B and CodeLlama-70B, Eurus models achieve state-of-the-art results among open-source models on a diverse set of benchmarks covering mathematics, code generation, and logical reasoning problems. Notably, Eurus-70B beats GPT-3.5 Turbo in reasoning through a comprehensive benchmarking across 12 tests covering five tasks, and achieves a 33.3% pass@1 accuracy on LeetCode and 32.6% on TheoremQA, two challenging benchmarks, substantially outperforming existing open-source models by margins more than 13.3%. The strong performance of Eurus can be primarily attributed to UltraInteract, our newly-curated large-scale, high-quality alignment dataset specifically designed for complex reasoning tasks. UltraInteract can be used in both supervised fine-tuning and preference learning. For each instruction, it includes a preference tree consisting of (1) reasoning chains with diverse planning strategies in a unified format, (2) multi-turn interaction trajectories with the environment and the critique, and (3) pairwise data to facilitate preference learning. UltraInteract allows us to conduct an in-depth exploration of preference learning for reasoning tasks. Our investigation reveals that some well-established preference learning algorithms may be less suitable for reasoning tasks compared to their effectiveness in general conversations. Inspired by this, we derive a novel reward modeling objective which, together with UltraInteract, leads to a strong reward model.

Summary

AI-Generated Summary

PDF472November 26, 2024