ChatPaper.aiChatPaper

Тонкая настройка языковых моделей для повышения достоверности

Fine-tuning Language Models for Factuality

November 14, 2023
Авторы: Katherine Tian, Eric Mitchell, Huaxiu Yao, Christopher D. Manning, Chelsea Finn
cs.AI

Аннотация

Беглость и креативность крупных предобученных языковых моделей (LLM) привели к их широкому использованию, иногда даже в качестве замены традиционным поисковым системам. Однако языковые модели склонны делать убедительные, но фактически неточные утверждения, часто называемые «галлюцинациями». Эти ошибки могут непреднамеренно распространять дезинформацию или вредно поддерживать заблуждения. Более того, ручная проверка фактов в ответах моделей — это трудоемкий процесс, что делает метки достоверности, созданные человеком, дорогостоящими. В данной работе мы дообучаем языковые модели для повышения их фактической точности без использования человеческих меток, ориентируясь на более открытые сценарии генерации, чем в предыдущих исследованиях. Для этого мы используем два ключевых недавних достижения в области NLP. Во-первых, несколько работ предложили методы оценки фактической точности открытого текста путем измерения его согласованности с внешней базой знаний или просто с использованием оценок уверенности крупной модели. Во-вторых, алгоритм оптимизации прямых предпочтений позволяет легко дообучать языковые модели на целях, отличных от контролируемого подражания, используя ранжирование предпочтений среди возможных ответов модели. Мы показываем, что обучение на автоматически сгенерированных ранжированиях предпочтений по фактической точности, созданных либо с помощью существующих систем поиска, либо нашего нового подхода без использования поиска, значительно улучшает фактическую точность (процент правильных утверждений) модели Llama-2 на непересекающихся темах по сравнению с RLHF или стратегиями декодирования, направленными на повышение точности. На масштабе 7B по сравнению с Llama-2-chat мы наблюдаем снижение частоты фактических ошибок на 58% и 40% при генерации биографий и ответах на медицинские вопросы соответственно.
English
The fluency and creativity of large pre-trained language models (LLMs) have led to their widespread use, sometimes even as a replacement for traditional search engines. Yet language models are prone to making convincing but factually inaccurate claims, often referred to as 'hallucinations.' These errors can inadvertently spread misinformation or harmfully perpetuate misconceptions. Further, manual fact-checking of model responses is a time-consuming process, making human factuality labels expensive to acquire. In this work, we fine-tune language models to be more factual, without human labeling and targeting more open-ended generation settings than past work. We leverage two key recent innovations in NLP to do so. First, several recent works have proposed methods for judging the factuality of open-ended text by measuring consistency with an external knowledge base or simply a large model's confidence scores. Second, the direct preference optimization algorithm enables straightforward fine-tuning of language models on objectives other than supervised imitation, using a preference ranking over possible model responses. We show that learning from automatically generated factuality preference rankings, generated either through existing retrieval systems or our novel retrieval-free approach, significantly improves the factuality (percent of generated claims that are correct) of Llama-2 on held-out topics compared with RLHF or decoding strategies targeted at factuality. At 7B scale, compared to Llama-2-chat, we observe 58% and 40% reduction in factual error rate when generating biographies and answering medical questions, respectively.
PDF302December 15, 2024