反復的なグラフアラインメント
Iterative Graph Alignment
August 29, 2024
著者: Fangyuan Yu, Hardeep Singh Arora, Matt Johnson
cs.AI
要旨
多様なナラティブを圧縮することで、LLMは単なる記憶だけでなく、一般化可能な因果関係を捉えることによって知能を実現しています。しかしながら、十分なトレーニングデータの多様性が欠如することにより、局所的な「表現ギャップ」に苦しんでおり、特に厳密な規則への整合性が求められるタスクにおいては、実世界での有用性が制限されています。重い人間の注釈に依存する従来の整合性手法は非効率でスケーラビリティに欠けます。最近の自己整合技術も不十分であり、しばしば自己選択に基づくプロンプティングや記憶に基づく学習に依存しています。これらの問題に対処するために、アノテーション不要のルールベースの整合アルゴリズムであるIterative Graph Alignment (IGA)を導入します。教師モデル(VLM)は、Iterative Graph Prompting (IGP)を用いて論理グラフと参照回答を作成します。生徒モデル(LLM)は、これらの参照と自身の回答を整合させようと試みることで、局所的な知識ギャップを特定し、ヘルパーモデルと協力して多様な回答を生成します。これらの整合した回答は、反復教師付き微調整(SFT)に使用されます。5つのルールベースのシナリオを対象とした評価により、IGPの有効性が示され、Claude Sonnet 3.5では73.12\%の整合性向上が実現され、Llama3-8B-Instructでは86.20\%の改善が達成され、ルールベースの整合性においてClaude Sonnet 3.5を上回りました。
English
By compressing diverse narratives, LLMs go beyond memorization, achieving
intelligence by capturing generalizable causal relationships. However, they
suffer from local 'representation gaps' due to insufficient training data
diversity, limiting their real-world utility, especially in tasks requiring
strict alignment to rules. Traditional alignment methods relying on heavy human
annotations are inefficient and unscalable. Recent self-alignment techniques
also fall short, as they often depend on self-selection based prompting and
memorization-based learning. To address these issues, we introduce Iterative
Graph Alignment (IGA), an annotation-free rule-based alignment algorithm. A
teacher model (VLM) employs Iterative Graph Prompting (IGP) to create logical
graphs and reference answers. The student model (LLM) identifies local
knowledge gaps by attempting to align its responses with these references,
collaborating with helper models to generate diverse answers. These aligned
responses are then used for iterative supervised fine-tuning (SFT). Our
evaluations across five rule-based scenarios demonstrate IGP's effectiveness,
with a 73.12\% alignment improvement in Claude Sonnet 3.5, and
Llama3-8B-Instruct achieving an 86.20\% improvement, outperforming Claude
Sonnet 3.5 in rule-based alignment.Summary
AI-Generated Summary