System 2 Attention(이것은 당신에게도 필요할 수 있습니다)
System 2 Attention (is something you might need too)
November 20, 2023
저자: Jason Weston, Sainbayar Sukhbaatar
cs.AI
초록
트랜스포머 기반 대형 언어 모델(LLM)의 소프트 어텐션은 문맥에서 관련 없는 정보를 잠재 표현에 포함시키기 쉬워, 다음 토큰 생성에 부정적인 영향을 미칩니다. 이러한 문제를 해결하기 위해, 우리는 LLM의 자연어 추론 능력과 지시를 따르는 능력을 활용하여 주의를 기울일 대상을 결정하는 System 2 Attention(S2A)을 제안합니다. S2A는 최종 응답을 도출하기 전에 관련된 부분만 포함하도록 입력 문맥을 재생성한 후, 재생성된 문맥에 주의를 기울입니다. 실험에서 S2A는 의견이나 관련 없는 정보가 포함된 세 가지 작업(질의응답, 수학 단어 문제, 장문 생성)에서 표준 어텐션 기반 LLM을 능가하며, 사실성과 객관성을 높이고 아첨을 줄이는 것으로 나타났습니다.
English
Soft attention in Transformer-based Large Language Models (LLMs) is
susceptible to incorporating irrelevant information from the context into its
latent representations, which adversely affects next token generations. To help
rectify these issues, we introduce System 2 Attention (S2A), which leverages
the ability of LLMs to reason in natural language and follow instructions in
order to decide what to attend to. S2A regenerates the input context to only
include the relevant portions, before attending to the regenerated context to
elicit the final response. In experiments, S2A outperforms standard
attention-based LLMs on three tasks containing opinion or irrelevant
information, QA, math word problems and longform generation, where S2A
increases factuality and objectivity, and decreases sycophancy.