Synthèse de données spécifiques au domaine pour les LLMs via l'apprentissage de représentation minimale suffisante

Résumé

Les grands modèles de langage ont démontré des progrès remarquables dans les capacités à usage général et peuvent atteindre de bonnes performances dans des domaines spécifiques grâce à un ajustement fin sur des données propres au domaine. Cependant, l'acquisition de données de haute qualité pour les domaines cibles reste un défi majeur. Les approches existantes de synthèse de données suivent un paradigme déductif, reposant fortement sur des descriptions explicites du domaine exprimées en langage naturel et sur une ingénierie minutieuse des consignes, ce qui limite leur applicabilité dans des scénarios réels où les domaines sont difficiles à décrire ou à formuler formellement. Dans ce travail, nous abordons le problème peu exploré de la synthèse de données spécifiques à un domaine via un paradigme inductif, où le domaine cible est défini uniquement par un ensemble d'exemples de référence, en particulier lorsque les caractéristiques du domaine sont difficiles à exprimer en langage naturel. Nous proposons une nouvelle architecture, DOMINO, qui apprend une représentation minimale suffisante du domaine à partir d'échantillons de référence et l'exploite pour guider la génération de données synthétiques alignées sur le domaine. DOMINO intègre un ajustement des consignes avec un objectif de désintrication contrastive afin de séparer les motifs propres au domaine du bruit spécifique aux échantillons, atténuant le surapprentissage tout en conservant les caractéristiques centrales du domaine. Théoriquement, nous prouvons que DOMINO étend le support de la distribution des données synthétiques, garantissant une plus grande diversité. Empiriquement, sur des bancs d'essai de codage exigeants où les définitions de domaine sont implicites, l'ajustement fin sur les données synthétisées par DOMINO améliore la précision Pass@1 jusqu'à 4,63% par rapport à des architectures de base solides ajustées par instructions, démontrant ainsi son efficacité et sa robustesse. Ce travail établit un nouveau paradigme pour la synthèse de données spécifiques à un domaine, permettant une adaptation de domaine pratique et évolutive sans conception manuelle de consignes ni spécifications de domaine en langage naturel.

English

Large Language Models have demonstrated remarkable progress in general-purpose capabilities and can achieve strong performance in specific domains through fine-tuning on domain-specific data. However, acquiring high-quality data for target domains remains a significant challenge. Existing data synthesis approaches follow a deductive paradigm, heavily relying on explicit domain descriptions expressed in natural language and careful prompt engineering, limiting their applicability in real-world scenarios where domains are difficult to describe or formally articulate. In this work, we tackle the underexplored problem of domain-specific data synthesis through an inductive paradigm, where the target domain is defined only through a set of reference examples, particularly when domain characteristics are difficult to articulate in natural language. We propose a novel framework, DOMINO, that learns a minimal sufficient domain representation from reference samples and leverages it to guide the generation of domain-aligned synthetic data. DOMINO integrates prompt tuning with a contrastive disentanglement objective to separate domain-level patterns from sample-specific noise, mitigating overfitting while preserving core domain characteristics. Theoretically, we prove that DOMINO expands the support of the synthetic data distribution, ensuring greater diversity. Empirically, on challenging coding benchmarks where domain definitions are implicit, fine-tuning on data synthesized by DOMINO improves Pass@1 accuracy by up to 4.63\% over strong, instruction-tuned backbones, demonstrating its effectiveness and robustness. This work establishes a new paradigm for domain-specific data synthesis, enabling practical and scalable domain adaptation without manual prompt design or natural language domain specifications.