TCIA: Un Método de Aumentación de Instrucciones Centrado en Tareas para el Ajuste Fino Basado en Instrucciones

Resumen

Los datos de instrucción diversos son cruciales para el ajuste efectivo de instrucciones en modelos de lenguaje grandes, ya que permiten que el modelo generalice a través de diferentes tipos de entradas. Construir un conjunto de datos de instrucciones diversificado es un paso esencial en este proceso. Los enfoques existentes a menudo aprovechan modelos de lenguaje grandes para explorar y generar automáticamente instrucciones diversas, asegurando tanto la diversidad como la calidad de los datos. Sin embargo, tienden a pasar por alto un factor importante en las aplicaciones del mundo real: la relevancia en la tarea. En la práctica, solo unas pocas aplicaciones del mundo real requieren un modelo verdaderamente de propósito general; la mayoría se beneficia de conocimientos específicos de la tarea adaptados a su caso de uso particular. Por lo tanto, es vital desarrollar métodos de aumento de instrucciones que no solo mantengan la diversidad, sino que también estén optimizados para escenarios específicos del mundo real. Así, presentamos el Aumento de Instrucciones Centrado en la Tarea (Task Centric Instruction Augmentation, TCIA), un marco que expande sistemáticamente las instrucciones mientras preserva tanto la diversidad como la alineación con la tarea. Al representar las instrucciones en un espacio discreto de consultas y restricciones, TCIA crea un conjunto rico de instrucciones relevantes para la tarea y permite que los modelos generalicen estas instrucciones específicas sin sacrificar el rendimiento general. Los experimentos muestran que TCIA mejora el rendimiento de los modelos de lenguaje de código abierto en un promedio del 8.7% en cuatro aplicaciones específicas del mundo real, y en algunos casos supera a los modelos líderes de código cerrado. Estas mejoras no comprometen la capacidad general de seguimiento de instrucciones, lo que convierte a TCIA en una solución escalable y eficiente para adaptar modelos de lenguaje a aplicaciones del mundo real centradas en tareas.

English

Diverse instruction data is vital for effective instruction tuning of large language models, as it enables the model to generalize across different types of inputs . Building such diversified instruction dataset is an essential step in this process. Existing approaches often leverage large language models to automatically explore and generate diverse instructions, ensuring both data diversity and quality. However, they tend to overlook an important factor in real-world applications: on-task relevance. In practice, only a few real-world applications require a truly general-purpose model; most benefit from task-specific knowledge tailored to their particular use case. Therefore, it is vital to develop instruction augmentation methods that not only maintain diversity but are also optimized for specific, real-world scenarios. We thus introduce Task Centric Instruction Augmentation (TCIA), a framework that systematically expands instructions while preserving both diversity and task alignment. By representing instructions in a discrete query-constraints space, TCIA creates a rich set of task-relevant instructions and enables models to generalize to these task-specific instructions without sacrificing overall performance. Experiments show that TCIA improves open-source LLMs' performance by an average of 8.7% across four real-world, task-specific applications, and in some cases outperforming leading closed-source models. These improvements do not compromise general instruction-following ability, making TCIA a scalable and efficient solution for adapting LLMs to real-world, task-focused applications.

TCIA: Un Método de Aumentación de Instrucciones Centrado en Tareas para el Ajuste Fino Basado en Instrucciones

TCIA: A Task-Centric Instruction Augmentation Method for Instruction Finetuning

Resumen

Support