ChatPaper.aiChatPaper

Система 2 Внимания (это может понадобиться и вам)

System 2 Attention (is something you might need too)

November 20, 2023
Авторы: Jason Weston, Sainbayar Sukhbaatar
cs.AI

Аннотация

Мягкое внимание в трансформаторных моделях больших языковых моделей (LLM) склонно включать нерелевантную информацию из контекста в свои латентные представления, что негативно влияет на генерацию следующих токенов. Для устранения этих проблем мы представляем подход System 2 Attention (S2A), который использует способность LLM к рассуждению на естественном языке и следованию инструкциям для определения того, на что следует обращать внимание. S2A пересоздает входной контекст, оставляя только релевантные части, а затем применяет внимание к пересозданному контексту для получения финального ответа. В экспериментах S2A превосходит стандартные модели с вниманием на трех задачах, содержащих мнения или нерелевантную информацию: вопросы и ответы, математические текстовые задачи и длинная генерация, где S2A повышает фактическую точность и объективность, а также снижает склонность к угодливости.
English
Soft attention in Transformer-based Large Language Models (LLMs) is susceptible to incorporating irrelevant information from the context into its latent representations, which adversely affects next token generations. To help rectify these issues, we introduce System 2 Attention (S2A), which leverages the ability of LLMs to reason in natural language and follow instructions in order to decide what to attend to. S2A regenerates the input context to only include the relevant portions, before attending to the regenerated context to elicit the final response. In experiments, S2A outperforms standard attention-based LLMs on three tasks containing opinion or irrelevant information, QA, math word problems and longform generation, where S2A increases factuality and objectivity, and decreases sycophancy.
PDF432December 15, 2024