Alineación Gráfica Iterativa
Iterative Graph Alignment
August 29, 2024
Autores: Fangyuan Yu, Hardeep Singh Arora, Matt Johnson
cs.AI
Resumen
Al comprimir diversas narrativas, los LLM van más allá de la memorización, logrando inteligencia al capturar relaciones causales generalizables. Sin embargo, sufren de 'brechas de representación' locales debido a la falta de diversidad en los datos de entrenamiento, lo que limita su utilidad en el mundo real, especialmente en tareas que requieren un estricto alineamiento a reglas. Los métodos tradicionales de alineamiento que dependen en gran medida de anotaciones humanas son ineficientes y no escalables. Las técnicas recientes de autoalineamiento también quedan cortas, ya que a menudo dependen de la auto-selección basada en estímulos y el aprendizaje basado en memorización. Para abordar estos problemas, presentamos el Alineamiento Gráfico Iterativo (IGA), un algoritmo de alineamiento basado en reglas sin necesidad de anotaciones. Un modelo maestro (VLM) emplea el Estímulo Gráfico Iterativo (IGP) para crear grafos lógicos y respuestas de referencia. El modelo estudiante (LLM) identifica brechas de conocimiento locales al intentar alinear sus respuestas con estas referencias, colaborando con modelos auxiliares para generar respuestas diversas. Estas respuestas alineadas se utilizan luego para un ajuste fino supervisado iterativo (SFT). Nuestras evaluaciones en cinco escenarios basados en reglas demuestran la efectividad de IGP, con una mejora del 73.12\% en el alineamiento en Claude Sonnet 3.5, y Llama3-8B-Instruct logrando una mejora del 86.20%, superando a Claude Sonnet 3.5 en el alineamiento basado en reglas.
English
By compressing diverse narratives, LLMs go beyond memorization, achieving
intelligence by capturing generalizable causal relationships. However, they
suffer from local 'representation gaps' due to insufficient training data
diversity, limiting their real-world utility, especially in tasks requiring
strict alignment to rules. Traditional alignment methods relying on heavy human
annotations are inefficient and unscalable. Recent self-alignment techniques
also fall short, as they often depend on self-selection based prompting and
memorization-based learning. To address these issues, we introduce Iterative
Graph Alignment (IGA), an annotation-free rule-based alignment algorithm. A
teacher model (VLM) employs Iterative Graph Prompting (IGP) to create logical
graphs and reference answers. The student model (LLM) identifies local
knowledge gaps by attempting to align its responses with these references,
collaborating with helper models to generate diverse answers. These aligned
responses are then used for iterative supervised fine-tuning (SFT). Our
evaluations across five rule-based scenarios demonstrate IGP's effectiveness,
with a 73.12\% alignment improvement in Claude Sonnet 3.5, and
Llama3-8B-Instruct achieving an 86.20\% improvement, outperforming Claude
Sonnet 3.5 in rule-based alignment.Summary
AI-Generated Summary