Het bevorderen van LLM-redeneergeneralisten met voorkeursbomen

Samenvatting

We introduceren Eurus, een suite van grote taalmodellen (LLMs) die zijn geoptimaliseerd voor redeneren. Gefinetuned vanuit Mistral-7B en CodeLlama-70B, behalen de Eurus-modellen state-of-the-art resultaten onder open-source modellen op een diverse set van benchmarks die wiskunde, codegeneratie en logische redeneerproblemen omvatten. Opmerkelijk is dat Eurus-70B GPT-3.5 Turbo verslaat in redeneren door middel van een uitgebreide benchmarking over 12 tests die vijf taken beslaan, en een nauwkeurigheid van 33,3% pass@1 behaalt op LeetCode en 32,6% op TheoremQA, twee uitdagende benchmarks, waarmee het bestaande open-source modellen aanzienlijk overtreft met marges van meer dan 13,3%. De sterke prestaties van Eurus kunnen voornamelijk worden toegeschreven aan UltraInteract, onze nieuw samengestelde, grootschalige, hoogwaardige alignementdataset die specifiek is ontworpen voor complexe redeneertaken. UltraInteract kan worden gebruikt in zowel supervised finetuning als voorkeursleren. Voor elke instructie bevat het een voorkeursboom die bestaat uit (1) redeneerketens met diverse planningsstrategieën in een uniform formaat, (2) multi-turn interactietrajecten met de omgeving en de kritiek, en (3) paarsgewijze data om voorkeursleren te vergemakkelijken. UltraInteract stelt ons in staat om een diepgaande verkenning uit te voeren van voorkeursleren voor redeneertaken. Ons onderzoek toont aan dat sommige goed ingeburgerde voorkeursleralgoritmen mogelijk minder geschikt zijn voor redeneertaken in vergelijking met hun effectiviteit in algemene gesprekken. Geïnspireerd door dit inzicht, leiden we een nieuw doel af voor beloningsmodellering, dat samen met UltraInteract leidt tot een sterk beloningsmodel.

English

We introduce Eurus, a suite of large language models (LLMs) optimized for reasoning. Finetuned from Mistral-7B and CodeLlama-70B, Eurus models achieve state-of-the-art results among open-source models on a diverse set of benchmarks covering mathematics, code generation, and logical reasoning problems. Notably, Eurus-70B beats GPT-3.5 Turbo in reasoning through a comprehensive benchmarking across 12 tests covering five tasks, and achieves a 33.3% pass@1 accuracy on LeetCode and 32.6% on TheoremQA, two challenging benchmarks, substantially outperforming existing open-source models by margins more than 13.3%. The strong performance of Eurus can be primarily attributed to UltraInteract, our newly-curated large-scale, high-quality alignment dataset specifically designed for complex reasoning tasks. UltraInteract can be used in both supervised fine-tuning and preference learning. For each instruction, it includes a preference tree consisting of (1) reasoning chains with diverse planning strategies in a unified format, (2) multi-turn interaction trajectories with the environment and the critique, and (3) pairwise data to facilitate preference learning. UltraInteract allows us to conduct an in-depth exploration of preference learning for reasoning tasks. Our investigation reveals that some well-established preference learning algorithms may be less suitable for reasoning tasks compared to their effectiveness in general conversations. Inspired by this, we derive a novel reward modeling objective which, together with UltraInteract, leads to a strong reward model.

Het bevorderen van LLM-redeneergeneralisten met voorkeursbomen

Advancing LLM Reasoning Generalists with Preference Trees

Samenvatting

Support