TCIA: Een taakgerichte instructie-augmentatiemethode voor instructie-finetuning

Samenvatting

Diverse instructiedata is essentieel voor effectieve instructieafstemming van grote taalmodelen, omdat het het model in staat stelt te generaliseren over verschillende soorten invoer. Het opbouwen van zo'n gediversifieerd instructiedataset is een cruciale stap in dit proces. Bestaande benaderingen maken vaak gebruik van grote taalmodelen om automatisch diverse instructies te verkennen en te genereren, waardoor zowel datadiversiteit als kwaliteit worden gewaarborgd. Ze negeren echter vaak een belangrijke factor in praktische toepassingen: relevantie voor de taak. In de praktijk vereisen slechts enkele real-world toepassingen een echt algemeen model; de meeste profiteren van taakspecifieke kennis die is afgestemd op hun specifieke use case. Daarom is het van vitaal belang om instructie-augmentatiemethoden te ontwikkelen die niet alleen diversiteit behouden, maar ook geoptimaliseerd zijn voor specifieke, real-world scenario's. Wij introduceren daarom Task Centric Instruction Augmentation (TCIA), een raamwerk dat instructies systematisch uitbreidt terwijl zowel diversiteit als taakafstemming behouden blijft. Door instructies weer te geven in een discrete query-beperkingenruimte, creëert TCIA een rijke set taakrelevante instructies en stelt het modellen in staat te generaliseren naar deze taakspecifieke instructies zonder in te leveren op algehele prestaties. Experimenten tonen aan dat TCIA de prestaties van open-source LLM's met gemiddeld 8,7% verbetert over vier real-world, taakspecifieke toepassingen, en in sommige gevallen zelfs leidende closed-source modellen overtreft. Deze verbeteringen gaan niet ten koste van het algemene vermogen om instructies te volgen, waardoor TCIA een schaalbare en efficiënte oplossing is voor het aanpassen van LLM's aan real-world, taakgerichte toepassingen.

English

Diverse instruction data is vital for effective instruction tuning of large language models, as it enables the model to generalize across different types of inputs . Building such diversified instruction dataset is an essential step in this process. Existing approaches often leverage large language models to automatically explore and generate diverse instructions, ensuring both data diversity and quality. However, they tend to overlook an important factor in real-world applications: on-task relevance. In practice, only a few real-world applications require a truly general-purpose model; most benefit from task-specific knowledge tailored to their particular use case. Therefore, it is vital to develop instruction augmentation methods that not only maintain diversity but are also optimized for specific, real-world scenarios. We thus introduce Task Centric Instruction Augmentation (TCIA), a framework that systematically expands instructions while preserving both diversity and task alignment. By representing instructions in a discrete query-constraints space, TCIA creates a rich set of task-relevant instructions and enables models to generalize to these task-specific instructions without sacrificing overall performance. Experiments show that TCIA improves open-source LLMs' performance by an average of 8.7% across four real-world, task-specific applications, and in some cases outperforming leading closed-source models. These improvements do not compromise general instruction-following ability, making TCIA a scalable and efficient solution for adapting LLMs to real-world, task-focused applications.

TCIA: Een taakgerichte instructie-augmentatiemethode voor instructie-finetuning

TCIA: A Task-Centric Instruction Augmentation Method for Instruction Finetuning

Samenvatting

Support