ChatPaper.aiChatPaper

Condor: Melhorar o Alinhamento LLM com Síntese de Dados Orientada por Conhecimento e Refinamento

Condor: Enhance LLM Alignment with Knowledge-Driven Data Synthesis and Refinement

January 21, 2025
Autores: Maosong Cao, Taolin Zhang, Mo Li, Chuyu Zhang, Yunxin Liu, Haodong Duan, Songyang Zhang, Kai Chen
cs.AI

Resumo

A qualidade dos dados de Ajuste Fino Supervisionado (SFT) desempenha um papel crítico na melhoria das capacidades de conversação de Modelos de Linguagem Grandes (LLMs). No entanto, à medida que os LLMs se tornam mais avançados, a disponibilidade de dados de SFT de alta qualidade anotados por humanos tornou-se um gargalo significativo, exigindo uma maior dependência de dados de treinamento sintéticos. Neste trabalho, apresentamos o Condor, um novo framework de geração de dados sintéticos em duas etapas que incorpora a Árvore de Conhecimento Mundial e o Refinamento de Auto-Reflexão para produzir dados de SFT de alta qualidade em escala. Nossos resultados experimentais demonstram que um modelo base ajustado fino em apenas 20 mil amostras geradas pelo Condor alcança desempenho superior em comparação com seus equivalentes. A etapa adicional de refinamento no Condor ainda possibilita auto aprimoramento iterativo para LLMs em várias escalas (até 72B), validando a eficácia de nossa abordagem. Além disso, nossa investigação sobre a escalabilidade de dados sintéticos no pós-treinamento revela um potencial substancial e inexplorado para melhorias de desempenho, abrindo caminhos promissores para pesquisas futuras.
English
The quality of Supervised Fine-Tuning (SFT) data plays a critical role in enhancing the conversational capabilities of Large Language Models (LLMs). However, as LLMs become more advanced, the availability of high-quality human-annotated SFT data has become a significant bottleneck, necessitating a greater reliance on synthetic training data. In this work, we introduce Condor, a novel two-stage synthetic data generation framework that incorporates World Knowledge Tree and Self-Reflection Refinement to produce high-quality SFT data at scale. Our experimental results demonstrate that a base model fine-tuned on only 20K Condor-generated samples achieves superior performance compared to counterparts. The additional refinement stage in Condor further enables iterative self-improvement for LLMs at various scales (up to 72B), validating the effectiveness of our approach. Furthermore, our investigation into the scaling for synthetic data in post-training reveals substantial unexplored potential for performance improvements, opening promising avenues for future research.

Summary

AI-Generated Summary

PDF142January 22, 2025