TÜLU 3: Het Verleggen van Grenzen in Post-Training van Open TaalmodelTÜLU 3: Pushing Frontiers in Open Language Model Post-Training
Het post-training van taalmodellen wordt toegepast om gedrag te verfijnen en nieuwe vaardigheden te ontsluiten bij een breed scala aan recente taalmodellen, maar open recepten voor het toepassen van deze technieken blijven achter bij de gepatenteerde versies. De onderliggende trainingsgegevens en recepten voor post-training zijn tegelijkertijd de belangrijkste puzzelstukken en het gedeelte met de minste transparantie. Om deze kloof te overbruggen, introduceren we TÜLU 3, een familie van volledig open state-of-the-art post-getrainde modellen, samen met de bijbehorende gegevens, code en trainingsrecepten, als een uitgebreide gids voor moderne post-training technieken. TÜLU 3, dat voortbouwt op Llama 3.1 basismodellen, behaalt resultaten die de instructieversies van Llama 3.1, Qwen 2.5, Mistral, en zelfs gesloten modellen zoals GPT-4o-mini en Claude 3.5-Haiku overtreffen. De trainingsalgoritmen voor onze modellen omvatten begeleid finetunen (SFT), Directe Voorkeurs Optimalisatie (DPO), en een nieuw methode die we Versterkend Leren met Verifieerbare Beloningen (RLVR) noemen. Met TÜLU 3 introduceren we een multi-taak evaluatieschema voor post-training recepten met ontwikkelings- en ongeziene evaluaties, standaard benchmark implementaties, en aanzienlijke zuivering van bestaande open datasets op genoemde benchmarks. We sluiten af met een analyse en discussie van trainingsmethoden die de prestaties niet betrouwbaar verbeterden. Naast de TÜLU 3 modelgewichten en demo, publiceren we het volledige recept - inclusief datasets voor diverse kernvaardigheden, een robuuste toolkit voor gegevenscuratie en evaluatie, de trainingscode en infrastructuur, en, het belangrijkst, een gedetailleerd rapport voor het reproduceren en verder aanpassen van de TÜLU 3 benadering naar meer domeinen.