TCIA: Un Método de Aumentación de Instrucciones Centrado en Tareas para el Ajuste Fino Basado en Instrucciones
TCIA: A Task-Centric Instruction Augmentation Method for Instruction Finetuning
August 28, 2025
Autores: Simin Ma, Shujian Liu, Jun Tan, Yebowen Hu, Song Wang, Sathish Reddy Indurthi, Sanqiang Zhao, Liwei Wu, Jianbing Han, Kaiqiang Song
cs.AI
Resumen
Los datos de instrucción diversos son cruciales para el ajuste efectivo de instrucciones en modelos de lenguaje grandes, ya que permiten que el modelo generalice a través de diferentes tipos de entradas. Construir un conjunto de datos de instrucciones diversificado es un paso esencial en este proceso. Los enfoques existentes a menudo aprovechan modelos de lenguaje grandes para explorar y generar automáticamente instrucciones diversas, asegurando tanto la diversidad como la calidad de los datos. Sin embargo, tienden a pasar por alto un factor importante en las aplicaciones del mundo real: la relevancia en la tarea. En la práctica, solo unas pocas aplicaciones del mundo real requieren un modelo verdaderamente de propósito general; la mayoría se beneficia de conocimientos específicos de la tarea adaptados a su caso de uso particular. Por lo tanto, es vital desarrollar métodos de aumento de instrucciones que no solo mantengan la diversidad, sino que también estén optimizados para escenarios específicos del mundo real.
Así, presentamos el Aumento de Instrucciones Centrado en la Tarea (Task Centric Instruction Augmentation, TCIA), un marco que expande sistemáticamente las instrucciones mientras preserva tanto la diversidad como la alineación con la tarea. Al representar las instrucciones en un espacio discreto de consultas y restricciones, TCIA crea un conjunto rico de instrucciones relevantes para la tarea y permite que los modelos generalicen estas instrucciones específicas sin sacrificar el rendimiento general. Los experimentos muestran que TCIA mejora el rendimiento de los modelos de lenguaje de código abierto en un promedio del 8.7% en cuatro aplicaciones específicas del mundo real, y en algunos casos supera a los modelos líderes de código cerrado. Estas mejoras no comprometen la capacidad general de seguimiento de instrucciones, lo que convierte a TCIA en una solución escalable y eficiente para adaptar modelos de lenguaje a aplicaciones del mundo real centradas en tareas.
English
Diverse instruction data is vital for effective instruction tuning of large
language models, as it enables the model to generalize across different types
of inputs . Building such diversified instruction dataset is an essential step
in this process. Existing approaches often leverage large language models to
automatically explore and generate diverse instructions, ensuring both data
diversity and quality. However, they tend to overlook an important factor in
real-world applications: on-task relevance. In practice, only a few real-world
applications require a truly general-purpose model; most benefit from
task-specific knowledge tailored to their particular use case. Therefore, it is
vital to develop instruction augmentation methods that not only maintain
diversity but are also optimized for specific, real-world scenarios.
We thus introduce Task Centric Instruction Augmentation (TCIA), a framework
that systematically expands instructions while preserving both diversity and
task alignment. By representing instructions in a discrete query-constraints
space, TCIA creates a rich set of task-relevant instructions and enables models
to generalize to these task-specific instructions without sacrificing overall
performance. Experiments show that TCIA improves open-source LLMs' performance
by an average of 8.7% across four real-world, task-specific applications, and
in some cases outperforming leading closed-source models. These improvements do
not compromise general instruction-following ability, making TCIA a scalable
and efficient solution for adapting LLMs to real-world, task-focused
applications.