Allineamento Riformattato
Reformatted Alignment
February 19, 2024
Autori: Run-Ze Fan, Xuefeng Li, Haoyang Zou, Junlong Li, Shwai He, Ethan Chern, Jiewen Hu, Pengfei Liu
cs.AI
Abstract
La qualità dei dati di fine-tuning è cruciale per allineare i grandi modelli linguistici (LLM) ai valori umani. I metodi attuali per migliorare la qualità dei dati sono o laboriosi o soggetti a errori fattuali causati da allucinazioni degli LLM. Questo articolo esplora come elevare la qualità dei dati di istruzione esistenti per allinearli meglio ai valori umani, introducendo un approccio semplice ed efficace denominato ReAlign, che riformatta le risposte dei dati di istruzione in un formato che si allinea meglio ai criteri predefiniti e alle prove raccolte. Questo approccio minimizza l'annotazione umana, le allucinazioni e le difficoltà di scalabilità, rimanendo ortogonale alle tecniche di allineamento esistenti. Sperimentalmente, ReAlign migliora significativamente la capacità generale di allineamento, il ragionamento matematico, la fattualità e la leggibilità degli LLM.
In modo incoraggiante, senza introdurre dati aggiuntivi o tecniche di addestramento avanzate, e semplicemente riformattando la risposta, la capacità di ragionamento matematico di LLaMA-2-13B su GSM8K può essere migliorata dal 46,77% al 56,63% in termini di accuratezza. Inoltre, un mero 5% di dati ReAlign produce un aumento del 67% nella capacità generale di allineamento misurata dal dataset Alpaca. Questo lavoro sottolinea la necessità di ulteriori ricerche sulla scienza e l'interpretabilità meccanicistica degli LLM. Abbiamo reso pubblicamente accessibili il codice e i dati associati per supportare studi futuri all'indirizzo https://github.com/GAIR-NLP/ReAlign.
English
The quality of finetuning data is crucial for aligning large language models
(LLMs) with human values. Current methods to improve data quality are either
labor-intensive or prone to factual errors caused by LLM hallucinations. This
paper explores elevating the quality of existing instruction data to better
align with human values, introducing a simple and effective approach named
ReAlign, which reformats the responses of instruction data into a format that
better aligns with pre-established criteria and the collated evidence. This
approach minimizes human annotation, hallucination, and the difficulty in
scaling, remaining orthogonal to existing alignment techniques. Experimentally,
ReAlign significantly boosts the general alignment ability, math reasoning,
factuality, and readability of the LLMs.
Encouragingly, without introducing any additional data or advanced training
techniques, and merely by reformatting the response, LLaMA-2-13B's mathematical
reasoning ability on GSM8K can be improved from 46.77% to 56.63% in accuracy.
Additionally, a mere 5% of ReAlign data yields a 67% boost in general alignment
ability measured by the Alpaca dataset. This work highlights the need for
further research into the science and mechanistic interpretability of LLMs. We
have made the associated code and data publicly accessible to support future
studies at https://github.com/GAIR-NLP/ReAlign.