System 2 Attention (potrebbe essere qualcosa di cui hai bisogno anche tu)
System 2 Attention (is something you might need too)
November 20, 2023
Autori: Jason Weston, Sainbayar Sukhbaatar
cs.AI
Abstract
L'attenzione soft nei modelli linguistici di grandi dimensioni (LLM) basati su Transformer è suscettibile di incorporare informazioni irrilevanti dal contesto nelle sue rappresentazioni latenti, il che influisce negativamente sulla generazione dei token successivi. Per contribuire a risolvere questi problemi, introduciamo System 2 Attention (S2A), che sfrutta la capacità degli LLM di ragionare in linguaggio naturale e seguire istruzioni per decidere a cosa prestare attenzione. S2A rigenera il contesto di input includendo solo le porzioni rilevanti, prima di prestare attenzione al contesto rigenerato per ottenere la risposta finale. Negli esperimenti, S2A supera gli LLM basati su attenzione standard in tre compiti che contengono opinioni o informazioni irrilevanti: domande e risposte, problemi di matematica verbale e generazione di testi lunghi, dove S2A aumenta la fattualità e l'oggettività e riduce la sottomissione acritica.
English
Soft attention in Transformer-based Large Language Models (LLMs) is
susceptible to incorporating irrelevant information from the context into its
latent representations, which adversely affects next token generations. To help
rectify these issues, we introduce System 2 Attention (S2A), which leverages
the ability of LLMs to reason in natural language and follow instructions in
order to decide what to attend to. S2A regenerates the input context to only
include the relevant portions, before attending to the regenerated context to
elicit the final response. In experiments, S2A outperforms standard
attention-based LLMs on three tasks containing opinion or irrelevant
information, QA, math word problems and longform generation, where S2A
increases factuality and objectivity, and decreases sycophancy.