Herformattere Uitlijning
Reformatted Alignment
February 19, 2024
Auteurs: Run-Ze Fan, Xuefeng Li, Haoyang Zou, Junlong Li, Shwai He, Ethan Chern, Jiewen Hu, Pengfei Liu
cs.AI
Samenvatting
De kwaliteit van de fine-tuninggegevens is cruciaal voor het afstemmen van grote taalmodellen (LLM's) op menselijke waarden. Huidige methoden om de gegevenskwaliteit te verbeteren zijn ofwel arbeidsintensief of vatbaar voor feitelijke fouten veroorzaakt door hallucinaties van LLM's. Dit artikel onderzoekt het verhogen van de kwaliteit van bestaande instructiegegevens om beter aan te sluiten bij menselijke waarden, en introduceert een eenvoudige en effectieve aanpak genaamd ReAlign, die de antwoorden van instructiegegevens herformuleert in een formaat dat beter aansluit bij vooraf vastgestelde criteria en het verzamelde bewijs. Deze aanpak minimaliseert menselijke annotatie, hallucinatie en de moeilijkheid bij opschaling, en blijft orthogonaal aan bestaande afstemmingstechnieken. Experimenteel gezien verbetert ReAlign aanzienlijk het algemene afstemmingsvermogen, wiskundig redeneren, feitelijkheid en leesbaarheid van de LLM's.
Bemoedigend genoeg kan, zonder het introduceren van aanvullende gegevens of geavanceerde trainingstechnieken, en slechts door het herformatteren van het antwoord, het wiskundig redeneervermogen van LLaMA-2-13B op GSM8K worden verbeterd van 46,77% naar 56,63% in nauwkeurigheid. Bovendien levert slechts 5% van de ReAlign-gegevens een boost van 67% op in het algemene afstemmingsvermogen, gemeten door de Alpaca-dataset. Dit werk benadrukt de noodzaak van verder onderzoek naar de wetenschap en mechanistische interpreteerbaarheid van LLM's. We hebben de bijbehorende code en gegevens openbaar gemaakt om toekomstige studies te ondersteunen op https://github.com/GAIR-NLP/ReAlign.
English
The quality of finetuning data is crucial for aligning large language models
(LLMs) with human values. Current methods to improve data quality are either
labor-intensive or prone to factual errors caused by LLM hallucinations. This
paper explores elevating the quality of existing instruction data to better
align with human values, introducing a simple and effective approach named
ReAlign, which reformats the responses of instruction data into a format that
better aligns with pre-established criteria and the collated evidence. This
approach minimizes human annotation, hallucination, and the difficulty in
scaling, remaining orthogonal to existing alignment techniques. Experimentally,
ReAlign significantly boosts the general alignment ability, math reasoning,
factuality, and readability of the LLMs.
Encouragingly, without introducing any additional data or advanced training
techniques, and merely by reformatting the response, LLaMA-2-13B's mathematical
reasoning ability on GSM8K can be improved from 46.77% to 56.63% in accuracy.
Additionally, a mere 5% of ReAlign data yields a 67% boost in general alignment
ability measured by the Alpaca dataset. This work highlights the need for
further research into the science and mechanistic interpretability of LLMs. We
have made the associated code and data publicly accessible to support future
studies at https://github.com/GAIR-NLP/ReAlign.