Allineamento Riformattato

Abstract

La qualità dei dati di fine-tuning è cruciale per allineare i grandi modelli linguistici (LLM) ai valori umani. I metodi attuali per migliorare la qualità dei dati sono o laboriosi o soggetti a errori fattuali causati da allucinazioni degli LLM. Questo articolo esplora come elevare la qualità dei dati di istruzione esistenti per allinearli meglio ai valori umani, introducendo un approccio semplice ed efficace denominato ReAlign, che riformatta le risposte dei dati di istruzione in un formato che si allinea meglio ai criteri predefiniti e alle prove raccolte. Questo approccio minimizza l'annotazione umana, le allucinazioni e le difficoltà di scalabilità, rimanendo ortogonale alle tecniche di allineamento esistenti. Sperimentalmente, ReAlign migliora significativamente la capacità generale di allineamento, il ragionamento matematico, la fattualità e la leggibilità degli LLM. In modo incoraggiante, senza introdurre dati aggiuntivi o tecniche di addestramento avanzate, e semplicemente riformattando la risposta, la capacità di ragionamento matematico di LLaMA-2-13B su GSM8K può essere migliorata dal 46,77% al 56,63% in termini di accuratezza. Inoltre, un mero 5% di dati ReAlign produce un aumento del 67% nella capacità generale di allineamento misurata dal dataset Alpaca. Questo lavoro sottolinea la necessità di ulteriori ricerche sulla scienza e l'interpretabilità meccanicistica degli LLM. Abbiamo reso pubblicamente accessibili il codice e i dati associati per supportare studi futuri all'indirizzo https://github.com/GAIR-NLP/ReAlign.

English

The quality of finetuning data is crucial for aligning large language models (LLMs) with human values. Current methods to improve data quality are either labor-intensive or prone to factual errors caused by LLM hallucinations. This paper explores elevating the quality of existing instruction data to better align with human values, introducing a simple and effective approach named ReAlign, which reformats the responses of instruction data into a format that better aligns with pre-established criteria and the collated evidence. This approach minimizes human annotation, hallucination, and the difficulty in scaling, remaining orthogonal to existing alignment techniques. Experimentally, ReAlign significantly boosts the general alignment ability, math reasoning, factuality, and readability of the LLMs. Encouragingly, without introducing any additional data or advanced training techniques, and merely by reformatting the response, LLaMA-2-13B's mathematical reasoning ability on GSM8K can be improved from 46.77% to 56.63% in accuracy. Additionally, a mere 5% of ReAlign data yields a 67% boost in general alignment ability measured by the Alpaca dataset. This work highlights the need for further research into the science and mechanistic interpretability of LLMs. We have made the associated code and data publicly accessible to support future studies at https://github.com/GAIR-NLP/ReAlign.

Allineamento Riformattato

Reformatted Alignment

Abstract

Support