TCIA: Um Método de Aumentação de Instruções Centrado em Tarefas para o Ajuste Fino por Instruções

Resumo

Dados de instrução diversificados são vitais para o ajuste eficaz de instruções em grandes modelos de linguagem, pois permitem que o modelo generalize diferentes tipos de entradas. Construir um conjunto de dados de instruções tão diversificado é um passo essencial nesse processo. As abordagens existentes frequentemente aproveitam grandes modelos de linguagem para explorar e gerar automaticamente instruções diversificadas, garantindo tanto a diversidade quanto a qualidade dos dados. No entanto, elas tendem a negligenciar um fator importante em aplicações do mundo real: a relevância da tarefa. Na prática, apenas algumas aplicações do mundo real exigem um modelo verdadeiramente de propósito geral; a maioria se beneficia de conhecimento específico da tarefa, adaptado ao seu caso de uso particular. Portanto, é crucial desenvolver métodos de aumento de instruções que não apenas mantenham a diversidade, mas também sejam otimizados para cenários específicos do mundo real. Assim, apresentamos o Aumento de Instruções Centrado na Tarefa (Task Centric Instruction Augmentation - TCIA), uma estrutura que expande sistematicamente as instruções enquanto preserva tanto a diversidade quanto o alinhamento com a tarefa. Ao representar as instruções em um espaço discreto de consultas e restrições, o TCIA cria um conjunto rico de instruções relevantes para a tarefa e permite que os modelos generalizem essas instruções específicas sem sacrificar o desempenho geral. Experimentos mostram que o TCIA melhora o desempenho de modelos de linguagem de código aberto em uma média de 8,7% em quatro aplicações específicas do mundo real, e em alguns casos supera modelos líderes de código fechado. Essas melhorias não comprometem a capacidade geral de seguir instruções, tornando o TCIA uma solução escalável e eficiente para adaptar grandes modelos de linguagem a aplicações do mundo real focadas em tarefas.

English

Diverse instruction data is vital for effective instruction tuning of large language models, as it enables the model to generalize across different types of inputs . Building such diversified instruction dataset is an essential step in this process. Existing approaches often leverage large language models to automatically explore and generate diverse instructions, ensuring both data diversity and quality. However, they tend to overlook an important factor in real-world applications: on-task relevance. In practice, only a few real-world applications require a truly general-purpose model; most benefit from task-specific knowledge tailored to their particular use case. Therefore, it is vital to develop instruction augmentation methods that not only maintain diversity but are also optimized for specific, real-world scenarios. We thus introduce Task Centric Instruction Augmentation (TCIA), a framework that systematically expands instructions while preserving both diversity and task alignment. By representing instructions in a discrete query-constraints space, TCIA creates a rich set of task-relevant instructions and enables models to generalize to these task-specific instructions without sacrificing overall performance. Experiments show that TCIA improves open-source LLMs' performance by an average of 8.7% across four real-world, task-specific applications, and in some cases outperforming leading closed-source models. These improvements do not compromise general instruction-following ability, making TCIA a scalable and efficient solution for adapting LLMs to real-world, task-focused applications.

TCIA: Um Método de Aumentação de Instruções Centrado em Tarefas para o Ajuste Fino por Instruções

TCIA: A Task-Centric Instruction Augmentation Method for Instruction Finetuning

Resumo

Support