System 2 Aandacht (iets wat jij misschien ook nodig hebt)
System 2 Attention (is something you might need too)
November 20, 2023
Auteurs: Jason Weston, Sainbayar Sukhbaatar
cs.AI
Samenvatting
Soft attention in Transformer-gebaseerde Large Language Models (LLMs) is gevoelig voor het opnemen van irrelevante informatie uit de context in zijn latente representaties, wat een negatieve invloed heeft op de generatie van volgende tokens. Om deze problemen te verhelpen, introduceren we System 2 Attention (S2A), dat gebruikmaakt van het vermogen van LLMs om in natuurlijke taal te redeneren en instructies op te volgen om te bepalen waarop aandacht moet worden gericht. S2A regenereert de invoercontext om alleen de relevante delen te bevatten, voordat het aandacht besteedt aan de geregenereerde context om het uiteindelijke antwoord te genereren. In experimenten presteert S2A beter dan standaard attention-gebaseerde LLMs bij drie taken die meningen of irrelevante informatie bevatten, zoals vraag-antwoord, wiskundige woordproblemen en langere tekstgeneratie, waarbij S2A de feitelijkheid en objectiviteit verhoogt en sycophantie vermindert.
English
Soft attention in Transformer-based Large Language Models (LLMs) is
susceptible to incorporating irrelevant information from the context into its
latent representations, which adversely affects next token generations. To help
rectify these issues, we introduce System 2 Attention (S2A), which leverages
the ability of LLMs to reason in natural language and follow instructions in
order to decide what to attend to. S2A regenerates the input context to only
include the relevant portions, before attending to the regenerated context to
elicit the final response. In experiments, S2A outperforms standard
attention-based LLMs on three tasks containing opinion or irrelevant
information, QA, math word problems and longform generation, where S2A
increases factuality and objectivity, and decreases sycophancy.