Het bevorderen van LLM-redeneergeneralisten met voorkeursbomen
Advancing LLM Reasoning Generalists with Preference Trees
April 2, 2024
Auteurs: Lifan Yuan, Ganqu Cui, Hanbin Wang, Ning Ding, Xingyao Wang, Jia Deng, Boji Shan, Huimin Chen, Ruobing Xie, Yankai Lin, Zhenghao Liu, Bowen Zhou, Hao Peng, Zhiyuan Liu, Maosong Sun
cs.AI
Samenvatting
We introduceren Eurus, een suite van grote taalmodellen (LLMs) die zijn geoptimaliseerd voor redeneren. Gefinetuned vanuit Mistral-7B en CodeLlama-70B, behalen de Eurus-modellen state-of-the-art resultaten onder open-source modellen op een diverse set van benchmarks die wiskunde, codegeneratie en logische redeneerproblemen omvatten. Opmerkelijk is dat Eurus-70B GPT-3.5 Turbo verslaat in redeneren door middel van een uitgebreide benchmarking over 12 tests die vijf taken beslaan, en een nauwkeurigheid van 33,3% pass@1 behaalt op LeetCode en 32,6% op TheoremQA, twee uitdagende benchmarks, waarmee het bestaande open-source modellen aanzienlijk overtreft met marges van meer dan 13,3%. De sterke prestaties van Eurus kunnen voornamelijk worden toegeschreven aan UltraInteract, onze nieuw samengestelde, grootschalige, hoogwaardige alignementdataset die specifiek is ontworpen voor complexe redeneertaken. UltraInteract kan worden gebruikt in zowel supervised finetuning als voorkeursleren. Voor elke instructie bevat het een voorkeursboom die bestaat uit (1) redeneerketens met diverse planningsstrategieën in een uniform formaat, (2) multi-turn interactietrajecten met de omgeving en de kritiek, en (3) paarsgewijze data om voorkeursleren te vergemakkelijken. UltraInteract stelt ons in staat om een diepgaande verkenning uit te voeren van voorkeursleren voor redeneertaken. Ons onderzoek toont aan dat sommige goed ingeburgerde voorkeursleralgoritmen mogelijk minder geschikt zijn voor redeneertaken in vergelijking met hun effectiviteit in algemene gesprekken. Geïnspireerd door dit inzicht, leiden we een nieuw doel af voor beloningsmodellering, dat samen met UltraInteract leidt tot een sterk beloningsmodel.
English
We introduce Eurus, a suite of large language models (LLMs) optimized for
reasoning. Finetuned from Mistral-7B and CodeLlama-70B, Eurus models achieve
state-of-the-art results among open-source models on a diverse set of
benchmarks covering mathematics, code generation, and logical reasoning
problems. Notably, Eurus-70B beats GPT-3.5 Turbo in reasoning through a
comprehensive benchmarking across 12 tests covering five tasks, and achieves a
33.3% pass@1 accuracy on LeetCode and 32.6% on TheoremQA, two challenging
benchmarks, substantially outperforming existing open-source models by margins
more than 13.3%. The strong performance of Eurus can be primarily attributed to
UltraInteract, our newly-curated large-scale, high-quality alignment dataset
specifically designed for complex reasoning tasks. UltraInteract can be used in
both supervised fine-tuning and preference learning. For each instruction, it
includes a preference tree consisting of (1) reasoning chains with diverse
planning strategies in a unified format, (2) multi-turn interaction
trajectories with the environment and the critique, and (3) pairwise data to
facilitate preference learning. UltraInteract allows us to conduct an in-depth
exploration of preference learning for reasoning tasks. Our investigation
reveals that some well-established preference learning algorithms may be less
suitable for reasoning tasks compared to their effectiveness in general
conversations. Inspired by this, we derive a novel reward modeling objective
which, together with UltraInteract, leads to a strong reward model.