Alineación Reformateada
Reformatted Alignment
February 19, 2024
Autores: Run-Ze Fan, Xuefeng Li, Haoyang Zou, Junlong Li, Shwai He, Ethan Chern, Jiewen Hu, Pengfei Liu
cs.AI
Resumen
La calidad de los datos de ajuste fino es crucial para alinear los modelos de lenguaje grandes (LLMs) con los valores humanos. Los métodos actuales para mejorar la calidad de los datos son intensivos en mano de obra o propensos a errores fácticos causados por alucinaciones de los LLMs. Este artículo explora cómo elevar la calidad de los datos de instrucción existentes para alinearlos mejor con los valores humanos, introduciendo un enfoque simple y efectivo denominado ReAlign, que reformatea las respuestas de los datos de instrucción en un formato que se alinea mejor con los criterios preestablecidos y la evidencia recopilada. Este enfoque minimiza la anotación humana, las alucinaciones y la dificultad de escalar, manteniéndose ortogonal a las técnicas de alineación existentes. Experimentalmente, ReAlign mejora significativamente la capacidad general de alineación, el razonamiento matemático, la factualidad y la legibilidad de los LLMs.
Alentadoramente, sin introducir datos adicionales ni técnicas avanzadas de entrenamiento, y simplemente reformateando la respuesta, la capacidad de razonamiento matemático de LLaMA-2-13B en GSM8K puede mejorar de un 46.77% a un 56.63% en precisión. Además, un mero 5% de datos ReAlign produce un aumento del 67% en la capacidad general de alineación medida por el conjunto de datos Alpaca. Este trabajo destaca la necesidad de seguir investigando la ciencia y la interpretabilidad mecanística de los LLMs. Hemos hecho público el código y los datos asociados para apoyar estudios futuros en https://github.com/GAIR-NLP/ReAlign.
English
The quality of finetuning data is crucial for aligning large language models
(LLMs) with human values. Current methods to improve data quality are either
labor-intensive or prone to factual errors caused by LLM hallucinations. This
paper explores elevating the quality of existing instruction data to better
align with human values, introducing a simple and effective approach named
ReAlign, which reformats the responses of instruction data into a format that
better aligns with pre-established criteria and the collated evidence. This
approach minimizes human annotation, hallucination, and the difficulty in
scaling, remaining orthogonal to existing alignment techniques. Experimentally,
ReAlign significantly boosts the general alignment ability, math reasoning,
factuality, and readability of the LLMs.
Encouragingly, without introducing any additional data or advanced training
techniques, and merely by reformatting the response, LLaMA-2-13B's mathematical
reasoning ability on GSM8K can be improved from 46.77% to 56.63% in accuracy.
Additionally, a mere 5% of ReAlign data yields a 67% boost in general alignment
ability measured by the Alpaca dataset. This work highlights the need for
further research into the science and mechanistic interpretability of LLMs. We
have made the associated code and data publicly accessible to support future
studies at https://github.com/GAIR-NLP/ReAlign.