HoT : Chaîne de raisonnement mise en évidence pour référencer les faits de soutien à partir des entrées
HoT: Highlighted Chain of Thought for Referencing Supporting Facts from Inputs
March 3, 2025
Auteurs: Tin Nguyen, Logan Bolton, Mohammad Reza Taesiri, Anh Totti Nguyen
cs.AI
Résumé
Un point faible des modèles de langage à grande échelle (LLMs) est leur tendance à produire des déclarations non factuelles, ou hallucinations. Une réponse mêlant des affirmations factuelles et non factuelles représente un défi pour les humains, qui doivent vérifier et fonder leurs décisions de manière précise. Pour résoudre ce problème, nous proposons le Highlighted Chain-of-Thought Prompting (HoT), une technique qui incite les LLMs à générer des réponses avec des balises XML ancrant les faits à ceux fournis dans la requête. Concrètement, face à une question d'entrée, les LLMs reformatent d'abord la question en ajoutant des balises XML mettant en évidence les faits clés, puis génèrent une réponse en surlignant les faits référencés dans l'entrée. Fait intéressant, dans des contextes few-shot, HoT surpasse le chain of thought prompting classique (CoT) sur un large éventail de 17 tâches, allant de l'arithmétique à la compréhension de texte en passant par le raisonnement logique. Lorsque des humains sont chargés de vérifier les réponses des LLMs, les surlignages aident les participants sous contrainte de temps à identifier plus précisément et efficacement quand les LLMs ont raison. Cependant, étonnamment, lorsque les LLMs se trompent, HoT a tendance à faire croire aux utilisateurs que la réponse est correcte.
English
An Achilles heel of Large Language Models (LLMs) is their tendency to
hallucinate non-factual statements. A response mixed of factual and non-factual
statements poses a challenge for humans to verify and accurately base their
decisions on. To combat this problem, we propose Highlighted Chain-of-Thought
Prompting (HoT), a technique for prompting LLMs to generate responses with XML
tags that ground facts to those provided in the query. That is, given an input
question, LLMs would first re-format the question to add XML tags highlighting
key facts, and then, generate a response with highlights over the facts
referenced from the input. Interestingly, in few-shot settings, HoT outperforms
vanilla chain of thought prompting (CoT) on a wide range of 17 tasks from
arithmetic, reading comprehension to logical reasoning. When asking humans to
verify LLM responses, highlights help time-limited participants to more
accurately and efficiently recognize when LLMs are correct. Yet, surprisingly,
when LLMs are wrong, HoTs tend to make users believe that an answer is correct.Summary
AI-Generated Summary