Condor : Améliorer l'alignement LLM avec la synthèse et le raffinement des données basés sur la connaissance.
Condor: Enhance LLM Alignment with Knowledge-Driven Data Synthesis and Refinement
January 21, 2025
Auteurs: Maosong Cao, Taolin Zhang, Mo Li, Chuyu Zhang, Yunxin Liu, Haodong Duan, Songyang Zhang, Kai Chen
cs.AI
Résumé
La qualité des données de Fine-Tuning Supervisé (FTS) joue un rôle crucial dans l'amélioration des capacités conversationnelles des Grands Modèles de Langage (GML). Cependant, à mesure que les GML deviennent plus avancés, la disponibilité de données de FTS de haute qualité annotées par des humains est devenue un goulot d'étranglement significatif, nécessitant une plus grande dépendance à l'égard de données d'entraînement synthétiques. Dans ce travail, nous présentons Condor, un nouveau cadre de génération de données synthétiques en deux étapes qui intègre l'Arbre de Connaissances Mondial et le Raffinement par Auto-Réflexion pour produire des données de FTS de haute qualité à grande échelle. Nos résultats expérimentaux démontrent qu'un modèle de base affiné sur seulement 20 000 échantillons générés par Condor atteint des performances supérieures par rapport à ses homologues. L'étape de raffinement supplémentaire dans Condor permet en outre une auto-amélioration itérative des GML à différentes échelles (jusqu'à 72 milliards), validant l'efficacité de notre approche. De plus, notre étude sur la mise à l'échelle des données synthétiques en post-entraînement révèle un potentiel substantiel non exploré pour des améliorations de performances, ouvrant des perspectives prometteuses pour la recherche future.
English
The quality of Supervised Fine-Tuning (SFT) data plays a critical role in
enhancing the conversational capabilities of Large Language Models (LLMs).
However, as LLMs become more advanced, the availability of high-quality
human-annotated SFT data has become a significant bottleneck, necessitating a
greater reliance on synthetic training data. In this work, we introduce Condor,
a novel two-stage synthetic data generation framework that incorporates World
Knowledge Tree and Self-Reflection Refinement to produce high-quality SFT data
at scale. Our experimental results demonstrate that a base model fine-tuned on
only 20K Condor-generated samples achieves superior performance compared to
counterparts. The additional refinement stage in Condor further enables
iterative self-improvement for LLMs at various scales (up to 72B), validating
the effectiveness of our approach. Furthermore, our investigation into the
scaling for synthetic data in post-training reveals substantial unexplored
potential for performance improvements, opening promising avenues for future
research.Summary
AI-Generated Summary