ChatPaper.aiChatPaper

System 2 Attention (ist etwas, das Sie vielleicht auch benötigen)

System 2 Attention (is something you might need too)

November 20, 2023
Autoren: Jason Weston, Sainbayar Sukhbaatar
cs.AI

Zusammenfassung

Soft Attention in Transformer-basierten Large Language Models (LLMs) ist anfällig dafür, irrelevante Informationen aus dem Kontext in ihre latenten Repräsentationen einzubeziehen, was sich negativ auf die Generierung des nächsten Tokens auswirkt. Um diese Probleme zu beheben, führen wir System 2 Attention (S2A) ein, das die Fähigkeit von LLMs nutzt, in natürlicher Sprache zu schlussfolgern und Anweisungen zu befolgen, um zu entscheiden, worauf geachtet werden soll. S2A regeneriert den Eingabekontext, sodass nur die relevanten Teile enthalten sind, bevor es den regenerierten Kontext berücksichtigt, um die endgültige Antwort zu erzeugen. In Experimenten übertrifft S2A standardmäßige auf Attention basierende LLMs bei drei Aufgaben, die Meinungen oder irrelevante Informationen enthalten: Frage-Antwort-Systeme, mathematische Textaufgaben und langformige Textgenerierung. Dabei erhöht S2A die Faktentreue und Objektivität und verringert die Sykophantie.
English
Soft attention in Transformer-based Large Language Models (LLMs) is susceptible to incorporating irrelevant information from the context into its latent representations, which adversely affects next token generations. To help rectify these issues, we introduce System 2 Attention (S2A), which leverages the ability of LLMs to reason in natural language and follow instructions in order to decide what to attend to. S2A regenerates the input context to only include the relevant portions, before attending to the regenerated context to elicit the final response. In experiments, S2A outperforms standard attention-based LLMs on three tasks containing opinion or irrelevant information, QA, math word problems and longform generation, where S2A increases factuality and objectivity, and decreases sycophancy.
PDF432December 15, 2024