Atención de Sistema 2 (es algo que tú también podrías necesitar)
System 2 Attention (is something you might need too)
November 20, 2023
Autores: Jason Weston, Sainbayar Sukhbaatar
cs.AI
Resumen
La atención suave en los modelos de lenguaje de gran escala (LLMs) basados en Transformers es propensa a incorporar información irrelevante del contexto en sus representaciones latentes, lo que afecta negativamente la generación de los siguientes tokens. Para ayudar a corregir estos problemas, presentamos System 2 Attention (S2A), que aprovecha la capacidad de los LLMs para razonar en lenguaje natural y seguir instrucciones con el fin de decidir a qué prestar atención. S2A regenera el contexto de entrada para incluir únicamente las porciones relevantes, antes de atender al contexto regenerado para obtener la respuesta final. En experimentos, S2A supera a los LLMs basados en atención estándar en tres tareas que contienen opiniones o información irrelevante: preguntas y respuestas, problemas de matemáticas verbales y generación de texto extenso, donde S2A aumenta la factualidad y la objetividad, y reduce la adulación.
English
Soft attention in Transformer-based Large Language Models (LLMs) is
susceptible to incorporating irrelevant information from the context into its
latent representations, which adversely affects next token generations. To help
rectify these issues, we introduce System 2 Attention (S2A), which leverages
the ability of LLMs to reason in natural language and follow instructions in
order to decide what to attend to. S2A regenerates the input context to only
include the relevant portions, before attending to the regenerated context to
elicit the final response. In experiments, S2A outperforms standard
attention-based LLMs on three tasks containing opinion or irrelevant
information, QA, math word problems and longform generation, where S2A
increases factuality and objectivity, and decreases sycophancy.