ChatPaper.aiChatPaper

UltraIF: Vooruitgang in Instructievolging in het Wild

UltraIF: Advancing Instruction Following from the Wild

February 6, 2025
Auteurs: Kaikai An, Li Sheng, Ganqu Cui, Shuzheng Si, Ning Ding, Yu Cheng, Baobao Chang
cs.AI

Samenvatting

Het volgen van instructies heeft moderne grote taalmodellen (LLM's) nuttige assistenten gemaakt. Echter, de sleutel tot het temmen van LLM's op complexe instructies blijft mysterieus, omdat er grote verschillen zijn tussen modellen die zijn getraind door de open-source gemeenschap en die welke zijn getraind door toonaangevende bedrijven. Om de kloof te overbruggen, stellen wij een eenvoudige en schaalbare aanpak voor genaamd UltraIF voor het bouwen van LLM's die complexe instructies kunnen volgen met open-source gegevens. UltraIF decomposeert eerst gebruikersopdrachten uit de echte wereld in eenvoudigere vragen, beperkingen en bijbehorende evaluatievragen voor de beperkingen. Vervolgens trainen we een UltraComposer om beperking-geassocieerde opdrachten te componeren met evaluatievragen. Deze opdrachtcomponist stelt ons in staat om ingewikkelde instructies te synthetiseren en antwoorden te filteren met evaluatievragen. In ons experiment hebben we voor het eerst met succes LLaMA-3.1-8B-Base afgestemd op zijn instructieversie op 5 instructie-volg benchmarks zonder enige benchmarkinformatie, enkel gebruikmakend van het 8B-model als responsgenerator en evaluator. Het afgestemde model behaalde ook concurrerende scores op andere benchmarks. Bovendien tonen we aan dat UltraIF LLaMA-3.1-8B-Instruct verder kon verbeteren door zelfafstemming, wat bredere toepassingsmogelijkheden voor de methode motiveert. Onze code zal beschikbaar zijn op https://github.com/kkk-an/UltraIF.
English
Instruction-following made modern large language models (LLMs) helpful assistants. However, the key to taming LLMs on complex instructions remains mysterious, for that there are huge gaps between models trained by open-source community and those trained by leading companies. To bridge the gap, we propose a simple and scalable approach UltraIF for building LLMs that can follow complex instructions with open-source data. UltraIF first decomposes real-world user prompts into simpler queries, constraints, and corresponding evaluation questions for the constraints. Then, we train an UltraComposer to compose constraint-associated prompts with evaluation questions. This prompt composer allows us to synthesize complicated instructions as well as filter responses with evaluation questions. In our experiment, for the first time, we successfully align LLaMA-3.1-8B-Base to catch up with its instruct version on 5 instruction-following benchmarks without any benchmark information, using only 8B model as response generator and evaluator. The aligned model also achieved competitive scores on other benchmarks. Moreover, we also show that UltraIF could further improve LLaMA-3.1-8B-Instruct through self-alignment, motivating broader use cases for the method. Our code will be available at https://github.com/kkk-an/UltraIF.

Summary

AI-Generated Summary

PDF232February 7, 2025