Avançando na Generalização do Raciocínio de LLMs com Árvores de Preferência
Advancing LLM Reasoning Generalists with Preference Trees
April 2, 2024
Autores: Lifan Yuan, Ganqu Cui, Hanbin Wang, Ning Ding, Xingyao Wang, Jia Deng, Boji Shan, Huimin Chen, Ruobing Xie, Yankai Lin, Zhenghao Liu, Bowen Zhou, Hao Peng, Zhiyuan Liu, Maosong Sun
cs.AI
Resumo
Apresentamos o Eurus, um conjunto de modelos de linguagem de grande escala (LLMs) otimizados para raciocínio. Ajustados a partir do Mistral-7B e do CodeLlama-70B, os modelos Eurus alcançam resultados de ponta entre os modelos de código aberto em um conjunto diversificado de benchmarks que abrangem matemática, geração de código e problemas de raciocínio lógico. Notavelmente, o Eurus-70B supera o GPT-3.5 Turbo em raciocínio por meio de uma avaliação abrangente em 12 testes que cobrem cinco tarefas, e atinge uma precisão de 33,3% no pass@1 no LeetCode e 32,6% no TheoremQA, dois benchmarks desafiadores, superando substancialmente os modelos de código aberto existentes com margens superiores a 13,3%. O forte desempenho do Eurus pode ser atribuído principalmente ao UltraInteract, nosso novo conjunto de dados de alinhamento em larga escala e alta qualidade, especificamente projetado para tarefas complexas de raciocínio. O UltraInteract pode ser usado tanto no ajuste fino supervisionado quanto no aprendizado de preferências. Para cada instrução, ele inclui uma árvore de preferências composta por (1) cadeias de raciocínio com diversas estratégias de planejamento em um formato unificado, (2) trajetórias de interação multiturno com o ambiente e a crítica, e (3) dados pareados para facilitar o aprendizado de preferências. O UltraInteract nos permite realizar uma exploração aprofundada do aprendizado de preferências para tarefas de raciocínio. Nossa investigação revela que alguns algoritmos bem estabelecidos de aprendizado de preferências podem ser menos adequados para tarefas de raciocínio em comparação com sua eficácia em conversas gerais. Inspirados por isso, derivamos um novo objetivo de modelagem de recompensa que, junto com o UltraInteract, resulta em um modelo de recompensa robusto.
English
We introduce Eurus, a suite of large language models (LLMs) optimized for
reasoning. Finetuned from Mistral-7B and CodeLlama-70B, Eurus models achieve
state-of-the-art results among open-source models on a diverse set of
benchmarks covering mathematics, code generation, and logical reasoning
problems. Notably, Eurus-70B beats GPT-3.5 Turbo in reasoning through a
comprehensive benchmarking across 12 tests covering five tasks, and achieves a
33.3% pass@1 accuracy on LeetCode and 32.6% on TheoremQA, two challenging
benchmarks, substantially outperforming existing open-source models by margins
more than 13.3%. The strong performance of Eurus can be primarily attributed to
UltraInteract, our newly-curated large-scale, high-quality alignment dataset
specifically designed for complex reasoning tasks. UltraInteract can be used in
both supervised fine-tuning and preference learning. For each instruction, it
includes a preference tree consisting of (1) reasoning chains with diverse
planning strategies in a unified format, (2) multi-turn interaction
trajectories with the environment and the critique, and (3) pairwise data to
facilitate preference learning. UltraInteract allows us to conduct an in-depth
exploration of preference learning for reasoning tasks. Our investigation
reveals that some well-established preference learning algorithms may be less
suitable for reasoning tasks compared to their effectiveness in general
conversations. Inspired by this, we derive a novel reward modeling objective
which, together with UltraInteract, leads to a strong reward model.