Alinhamento de Gráfico Iterativo
Iterative Graph Alignment
August 29, 2024
Autores: Fangyuan Yu, Hardeep Singh Arora, Matt Johnson
cs.AI
Resumo
Ao comprimir narrativas diversas, os LLMs vão além da memorização, alcançando inteligência ao capturar relações causais generalizáveis. No entanto, eles sofrem com 'lacunas de representação' locais devido à diversidade insuficiente nos dados de treinamento, limitando sua utilidade no mundo real, especialmente em tarefas que exigem alinhamento estrito com regras. Métodos tradicionais de alinhamento que dependem de anotações humanas extensas são ineficientes e não escaláveis. Técnicas recentes de autoalinhamento também deixam a desejar, pois frequentemente dependem de seleção própria com base em estímulos e aprendizado baseado em memorização. Para lidar com esses problemas, apresentamos o Alinhamento Gráfico Iterativo (IGA), um algoritmo de alinhamento baseado em regras sem necessidade de anotações. Um modelo professor (VLM) emprega o Estímulo Gráfico Iterativo (IGP) para criar grafos lógicos e respostas de referência. O modelo aluno (LLM) identifica lacunas locais de conhecimento ao tentar alinhar suas respostas com essas referências, colaborando com modelos auxiliares para gerar respostas diversas. Essas respostas alinhadas são então usadas para um ajuste fino supervisionado iterativo (SFT). Nossas avaliações em cinco cenários baseados em regras demonstram a eficácia do IGP, com uma melhoria de 73,12% no alinhamento em Claude Sonnet 3.5, e Llama3-8B-Instruct alcançando uma melhoria de 86,20%, superando Claude Sonnet 3.5 no alinhamento baseado em regras.
English
By compressing diverse narratives, LLMs go beyond memorization, achieving
intelligence by capturing generalizable causal relationships. However, they
suffer from local 'representation gaps' due to insufficient training data
diversity, limiting their real-world utility, especially in tasks requiring
strict alignment to rules. Traditional alignment methods relying on heavy human
annotations are inefficient and unscalable. Recent self-alignment techniques
also fall short, as they often depend on self-selection based prompting and
memorization-based learning. To address these issues, we introduce Iterative
Graph Alignment (IGA), an annotation-free rule-based alignment algorithm. A
teacher model (VLM) employs Iterative Graph Prompting (IGP) to create logical
graphs and reference answers. The student model (LLM) identifies local
knowledge gaps by attempting to align its responses with these references,
collaborating with helper models to generate diverse answers. These aligned
responses are then used for iterative supervised fine-tuning (SFT). Our
evaluations across five rule-based scenarios demonstrate IGP's effectiveness,
with a 73.12\% alignment improvement in Claude Sonnet 3.5, and
Llama3-8B-Instruct achieving an 86.20\% improvement, outperforming Claude
Sonnet 3.5 in rule-based alignment.Summary
AI-Generated Summary