ChatPaper.aiChatPaper

La Retrotraducción de Restricciones Mejora el Seguimiento de Instrucciones Complejas por Parte de Modelos de Lenguaje Grandes

Constraint Back-translation Improves Complex Instruction Following of Large Language Models

October 31, 2024
Autores: Yunjia Qi, Hao Peng, Xiaozhi Wang, Bin Xu, Lei Hou, Juanzi Li
cs.AI

Resumen

Los modelos de lenguaje grandes (LLMs) tienen dificultades para seguir instrucciones con restricciones complejas en formato, longitud, etc. Siguiendo la práctica convencional de ajuste de instrucciones, trabajos anteriores realizan un ajuste posterior en pares de instrucción-respuesta complejos generados alimentando instrucciones complejas a LLMs avanzados. Sin embargo, incluso los LLMs avanzados no pueden seguir bien las instrucciones complejas, lo que limita la calidad de los datos generados. En este trabajo, encontramos que los conjuntos de datos existentes contienen inherentemente restricciones complejas implícitas y proponemos una novedosa técnica de generación de datos, la retrotraducción de restricciones. Específicamente, tomamos los pares de instrucción-respuesta de alta calidad en los conjuntos de datos existentes y solo adoptamos LLMs avanzados para agregar restricciones complejas ya cumplidas por las respuestas a las instrucciones, lo que reduce naturalmente los costos y el ruido de los datos. En los experimentos, adoptamos Llama3-70B-Instruct para retrotraducir restricciones y creamos un conjunto de datos de instrucción-respuesta complejo de alta calidad, llamado CRAB. Demostramos que el ajuste posterior en CRAB mejora la capacidad de seguir instrucciones complejas de múltiples LLMs base, evaluados en extensas pruebas de seguimiento de instrucciones. Además, encontramos que la retrotraducción de restricciones también sirve como un útil objetivo de entrenamiento auxiliar en el ajuste posterior. Nuestro código, datos y modelos serán publicados para facilitar la investigación futura.
English
Large language models (LLMs) struggle to follow instructions with complex constraints in format, length, etc. Following the conventional instruction-tuning practice, previous works conduct post-training on complex instruction-response pairs generated by feeding complex instructions to advanced LLMs. However, even advanced LLMs cannot follow complex instructions well, thus limiting the quality of generated data. In this work, we find that existing datasets inherently contain implicit complex constraints and propose a novel data generation technique, constraint back-translation. Specifically, we take the high-quality instruction-response pairs in existing datasets and only adopt advanced LLMs to add complex constraints already met by the responses to the instructions, which naturally reduces costs and data noise. In the experiments, we adopt Llama3-70B-Instruct to back-translate constraints and create a high-quality complex instruction-response dataset, named CRAB. We present that post-training on CRAB improves multiple backbone LLMs' complex instruction-following ability, evaluated on extensive instruction-following benchmarks. We further find that constraint back-translation also serves as a useful auxiliary training objective in post-training. Our code, data, and models will be released to facilitate future research.

Summary

AI-Generated Summary

PDF182November 13, 2024