Herformattere Uitlijning

Samenvatting

De kwaliteit van de fine-tuninggegevens is cruciaal voor het afstemmen van grote taalmodellen (LLM's) op menselijke waarden. Huidige methoden om de gegevenskwaliteit te verbeteren zijn ofwel arbeidsintensief of vatbaar voor feitelijke fouten veroorzaakt door hallucinaties van LLM's. Dit artikel onderzoekt het verhogen van de kwaliteit van bestaande instructiegegevens om beter aan te sluiten bij menselijke waarden, en introduceert een eenvoudige en effectieve aanpak genaamd ReAlign, die de antwoorden van instructiegegevens herformuleert in een formaat dat beter aansluit bij vooraf vastgestelde criteria en het verzamelde bewijs. Deze aanpak minimaliseert menselijke annotatie, hallucinatie en de moeilijkheid bij opschaling, en blijft orthogonaal aan bestaande afstemmingstechnieken. Experimenteel gezien verbetert ReAlign aanzienlijk het algemene afstemmingsvermogen, wiskundig redeneren, feitelijkheid en leesbaarheid van de LLM's. Bemoedigend genoeg kan, zonder het introduceren van aanvullende gegevens of geavanceerde trainingstechnieken, en slechts door het herformatteren van het antwoord, het wiskundig redeneervermogen van LLaMA-2-13B op GSM8K worden verbeterd van 46,77% naar 56,63% in nauwkeurigheid. Bovendien levert slechts 5% van de ReAlign-gegevens een boost van 67% op in het algemene afstemmingsvermogen, gemeten door de Alpaca-dataset. Dit werk benadrukt de noodzaak van verder onderzoek naar de wetenschap en mechanistische interpreteerbaarheid van LLM's. We hebben de bijbehorende code en gegevens openbaar gemaakt om toekomstige studies te ondersteunen op https://github.com/GAIR-NLP/ReAlign.

English

The quality of finetuning data is crucial for aligning large language models (LLMs) with human values. Current methods to improve data quality are either labor-intensive or prone to factual errors caused by LLM hallucinations. This paper explores elevating the quality of existing instruction data to better align with human values, introducing a simple and effective approach named ReAlign, which reformats the responses of instruction data into a format that better aligns with pre-established criteria and the collated evidence. This approach minimizes human annotation, hallucination, and the difficulty in scaling, remaining orthogonal to existing alignment techniques. Experimentally, ReAlign significantly boosts the general alignment ability, math reasoning, factuality, and readability of the LLMs. Encouragingly, without introducing any additional data or advanced training techniques, and merely by reformatting the response, LLaMA-2-13B's mathematical reasoning ability on GSM8K can be improved from 46.77% to 56.63% in accuracy. Additionally, a mere 5% of ReAlign data yields a 67% boost in general alignment ability measured by the Alpaca dataset. This work highlights the need for further research into the science and mechanistic interpretability of LLMs. We have made the associated code and data publicly accessible to support future studies at https://github.com/GAIR-NLP/ReAlign.

Herformattere Uitlijning

Reformatted Alignment

Samenvatting

Support