Sistema 2 de Atenção (é algo que você também pode precisar)
System 2 Attention (is something you might need too)
November 20, 2023
Autores: Jason Weston, Sainbayar Sukhbaatar
cs.AI
Resumo
A atenção suave em modelos de linguagem de grande escala (LLMs) baseados em Transformers é suscetível a incorporar informações irrelevantes do contexto em suas representações latentes, o que afeta negativamente a geração dos próximos tokens. Para ajudar a corrigir esses problemas, introduzimos o Sistema 2 de Atenção (S2A), que aproveita a capacidade dos LLMs de raciocinar em linguagem natural e seguir instruções para decidir a que prestar atenção. O S2A regenera o contexto de entrada para incluir apenas as partes relevantes, antes de atender ao contexto regenerado para eliciar a resposta final. Em experimentos, o S2A supera os LLMs baseados em atenção padrão em três tarefas que contêm opiniões ou informações irrelevantes: perguntas e respostas (QA), problemas de matemática em linguagem natural e geração de textos longos, onde o S2A aumenta a factualidade e a objetividade e reduz a siconia.
English
Soft attention in Transformer-based Large Language Models (LLMs) is
susceptible to incorporating irrelevant information from the context into its
latent representations, which adversely affects next token generations. To help
rectify these issues, we introduce System 2 Attention (S2A), which leverages
the ability of LLMs to reason in natural language and follow instructions in
order to decide what to attend to. S2A regenerates the input context to only
include the relevant portions, before attending to the regenerated context to
elicit the final response. In experiments, S2A outperforms standard
attention-based LLMs on three tasks containing opinion or irrelevant
information, QA, math word problems and longform generation, where S2A
increases factuality and objectivity, and decreases sycophancy.