ChatPaper.aiChatPaper

HoT: 입력에서 지원 사실을 참조하기 위한 강조된 사고 연쇄

HoT: Highlighted Chain of Thought for Referencing Supporting Facts from Inputs

March 3, 2025
저자: Tin Nguyen, Logan Bolton, Mohammad Reza Taesiri, Anh Totti Nguyen
cs.AI

초록

대형 언어 모델(LLMs)의 치명적인 약점은 비사실적 진술을 생성하는 경향입니다. 사실과 비사실적 진술이 혼합된 응답은 인간이 이를 검증하고 정확한 결정을 내리는 데 어려움을 줍니다. 이 문제를 해결하기 위해, 우리는 Highlighted Chain-of-Thought Prompting(HoT) 기법을 제안합니다. 이는 LLM이 쿼리에 제공된 사실을 기반으로 XML 태그가 포함된 응답을 생성하도록 유도하는 기술입니다. 즉, 입력 질문이 주어지면 LLM은 먼저 주요 사실을 강조하는 XML 태그를 추가하여 질문을 재구성한 후, 입력에서 참조된 사실을 강조한 응답을 생성합니다. 흥미롭게도, 소수 샷(few-shot) 설정에서 HoT는 산술, 독해, 논리적 추론 등 17가지 다양한 작업에서 기본적인 사고 연쇄(CoT) 프롬프팅을 능가합니다. 인간이 LLM의 응답을 검증할 때, 강조 표시는 시간이 제한된 참가자들이 LLM이 정확한 경우를 더 정확하고 효율적으로 인식하도록 돕습니다. 그러나 놀랍게도, LLM이 틀렸을 때 HoT는 사용자들이 답이 정확하다고 믿게 만드는 경향이 있습니다.
English
An Achilles heel of Large Language Models (LLMs) is their tendency to hallucinate non-factual statements. A response mixed of factual and non-factual statements poses a challenge for humans to verify and accurately base their decisions on. To combat this problem, we propose Highlighted Chain-of-Thought Prompting (HoT), a technique for prompting LLMs to generate responses with XML tags that ground facts to those provided in the query. That is, given an input question, LLMs would first re-format the question to add XML tags highlighting key facts, and then, generate a response with highlights over the facts referenced from the input. Interestingly, in few-shot settings, HoT outperforms vanilla chain of thought prompting (CoT) on a wide range of 17 tasks from arithmetic, reading comprehension to logical reasoning. When asking humans to verify LLM responses, highlights help time-limited participants to more accurately and efficiently recognize when LLMs are correct. Yet, surprisingly, when LLMs are wrong, HoTs tend to make users believe that an answer is correct.

Summary

AI-Generated Summary

PDF485March 6, 2025