Allineamento Grafico Iterativo
Iterative Graph Alignment
August 29, 2024
Autori: Fangyuan Yu, Hardeep Singh Arora, Matt Johnson
cs.AI
Abstract
Comprimendo diverse narrazioni, i LLM vanno oltre la memorizzazione, raggiungendo l'intelligenza catturando relazioni causali generalizzabili. Tuttavia, essi soffrono di 'lacune di rappresentazione' locali a causa della scarsa diversità dei dati di addestramento, limitando la loro utilità nel mondo reale, specialmente in compiti che richiedono un allineamento rigoroso alle regole. I metodi tradizionali di allineamento che si basano pesantemente su annotazioni umane sono inefficienti e non scalabili. Le recenti tecniche di auto-allineamento non sono sufficienti, poiché spesso dipendono da prompt basati sull'auto-selezione e sull'apprendimento basato sulla memorizzazione. Per affrontare questi problemi, introduciamo l'Allineamento Grafico Iterativo (IGA), un algoritmo di allineamento basato su regole senza annotazioni. Un modello insegnante (VLM) utilizza il Prompting Grafico Iterativo (IGP) per creare grafi logici e risposte di riferimento. Il modello studente (LLM) identifica lacune di conoscenza locali cercando di allineare le sue risposte con questi riferimenti, collaborando con modelli di supporto per generare risposte diverse. Queste risposte allineate vengono poi utilizzate per il fine-tuning supervisionato iterativo (SFT). Le nostre valutazioni su cinque scenari basati su regole dimostrano l'efficacia di IGP, con un miglioramento dell'allineamento del 73,12\% in Claude Sonnet 3.5 e un miglioramento dell'86,20\% in Llama3-8B-Instruct, superando Claude Sonnet 3.5 nell'allineamento basato su regole.
English
By compressing diverse narratives, LLMs go beyond memorization, achieving
intelligence by capturing generalizable causal relationships. However, they
suffer from local 'representation gaps' due to insufficient training data
diversity, limiting their real-world utility, especially in tasks requiring
strict alignment to rules. Traditional alignment methods relying on heavy human
annotations are inefficient and unscalable. Recent self-alignment techniques
also fall short, as they often depend on self-selection based prompting and
memorization-based learning. To address these issues, we introduce Iterative
Graph Alignment (IGA), an annotation-free rule-based alignment algorithm. A
teacher model (VLM) employs Iterative Graph Prompting (IGP) to create logical
graphs and reference answers. The student model (LLM) identifies local
knowledge gaps by attempting to align its responses with these references,
collaborating with helper models to generate diverse answers. These aligned
responses are then used for iterative supervised fine-tuning (SFT). Our
evaluations across five rule-based scenarios demonstrate IGP's effectiveness,
with a 73.12\% alignment improvement in Claude Sonnet 3.5, and
Llama3-8B-Instruct achieving an 86.20\% improvement, outperforming Claude
Sonnet 3.5 in rule-based alignment.