ChatPaper.aiChatPaper

HoT: Cadeia de Pensamento Destacada para Referenciar Fatos de Apoio a partir de Entradas

HoT: Highlighted Chain of Thought for Referencing Supporting Facts from Inputs

March 3, 2025
Autores: Tin Nguyen, Logan Bolton, Mohammad Reza Taesiri, Anh Totti Nguyen
cs.AI

Resumo

Um ponto fraco dos Modelos de Linguagem de Grande Escala (LLMs) é sua tendência a alucinar declarações não factuais. Uma resposta que mistura afirmações factuais e não factuais representa um desafio para os humanos verificarem e basearem suas decisões com precisão. Para combater esse problema, propomos o Highlighted Chain-of-Thought Prompting (HoT), uma técnica para solicitar que LLMs gerem respostas com tags XML que fundamentam os fatos naqueles fornecidos na consulta. Ou seja, dada uma pergunta de entrada, os LLMs primeiro reformatariam a questão para adicionar tags XML destacando os fatos-chave e, em seguida, gerariam uma resposta com destaques sobre os fatos referenciados na entrada. Curiosamente, em configurações de poucos exemplos (few-shot), o HoT supera o prompting de cadeia de pensamento tradicional (CoT) em uma ampla gama de 17 tarefas, desde aritmética e compreensão de leitura até raciocínio lógico. Ao pedir que humanos verifiquem as respostas dos LLMs, os destaques ajudam participantes com tempo limitado a reconhecer com mais precisão e eficiência quando os LLMs estão corretos. No entanto, surpreendentemente, quando os LLMs estão errados, o HoT tende a fazer os usuários acreditarem que a resposta está correta.
English
An Achilles heel of Large Language Models (LLMs) is their tendency to hallucinate non-factual statements. A response mixed of factual and non-factual statements poses a challenge for humans to verify and accurately base their decisions on. To combat this problem, we propose Highlighted Chain-of-Thought Prompting (HoT), a technique for prompting LLMs to generate responses with XML tags that ground facts to those provided in the query. That is, given an input question, LLMs would first re-format the question to add XML tags highlighting key facts, and then, generate a response with highlights over the facts referenced from the input. Interestingly, in few-shot settings, HoT outperforms vanilla chain of thought prompting (CoT) on a wide range of 17 tasks from arithmetic, reading comprehension to logical reasoning. When asking humans to verify LLM responses, highlights help time-limited participants to more accurately and efficiently recognize when LLMs are correct. Yet, surprisingly, when LLMs are wrong, HoTs tend to make users believe that an answer is correct.

Summary

AI-Generated Summary

PDF485March 6, 2025