Domeinspecifieke datasynthese voor LLM's via minimaal toereikend representatieleren

Samenvatting

Grote taalmodellen hebben opmerkelijke vooruitgang geboekt in algemene toepassingsmogelijkheden en kunnen sterke prestaties leveren in specifieke domeinen door middel van fijnafstemming op domeinspecifieke gegevens. Het verkrijgen van hoogwaardige gegevens voor doeldomeinen blijft echter een aanzienlijke uitdaging. Bestaande methoden voor gegevenssynthese volgen een deductief paradigma en zijn sterk afhankelijk van expliciete domeinbeschrijvingen in natuurlijke taal en zorgvuldige prompt-engineering, wat hun toepasbaarheid beperkt in praktijkscenario's waar domeinen moeilijk te beschrijven of formeel te formuleren zijn. In dit werk pakken we het onderbelichte probleem van domeinspecifieke gegevenssynthese aan via een inductief paradigma, waarbij het doeldomein alleen wordt gedefinieerd door een reeks referentievoorbeelden, met name wanneer domeinkenmerken moeilijk in natuurlijke taal te verwoorden zijn. We stellen een nieuw raamwerk voor, DOMINO, dat een minimaal voldoende domeinrepresentatie leert uit referentiesteekproeven en deze gebruikt om de generatie van domein-afgestemde synthetische gegevens te sturen. DOMINO integreert prompt-afstemming met een contrastieve ontwarringsdoelstelling om domeinpatronen te scheiden van monsterspecifieke ruis, waardoor overfitting wordt beperkt terwijl de kernkenmerken van het domein behouden blijven. Theoretisch bewijzen we dat DOMINO de ondersteuning van de synthetische gegevensverdeling uitbreidt, wat zorgt voor een grotere diversiteit. Empirisch, op uitdagende codeerbenchmarks waar domeindefinities impliciet zijn, verbetert fijnafstemming op door DOMINO gesynthetiseerde gegevens de Pass@1-nauwkeurigheid met tot 4,63% in vergelijking met sterke, instructie-afgestemde basislijnen, wat de effectiviteit en robuustheid ervan aantoont. Dit werk vestigt een nieuw paradigma voor domeinspecifieke gegevenssynthese, waardoor praktische en schaalbare domeinaanpassing mogelijk wordt zonder handmatig promptontwerp of domeinspecificaties in natuurlijke taal.

English

Large Language Models have demonstrated remarkable progress in general-purpose capabilities and can achieve strong performance in specific domains through fine-tuning on domain-specific data. However, acquiring high-quality data for target domains remains a significant challenge. Existing data synthesis approaches follow a deductive paradigm, heavily relying on explicit domain descriptions expressed in natural language and careful prompt engineering, limiting their applicability in real-world scenarios where domains are difficult to describe or formally articulate. In this work, we tackle the underexplored problem of domain-specific data synthesis through an inductive paradigm, where the target domain is defined only through a set of reference examples, particularly when domain characteristics are difficult to articulate in natural language. We propose a novel framework, DOMINO, that learns a minimal sufficient domain representation from reference samples and leverages it to guide the generation of domain-aligned synthetic data. DOMINO integrates prompt tuning with a contrastive disentanglement objective to separate domain-level patterns from sample-specific noise, mitigating overfitting while preserving core domain characteristics. Theoretically, we prove that DOMINO expands the support of the synthetic data distribution, ensuring greater diversity. Empirically, on challenging coding benchmarks where domain definitions are implicit, fine-tuning on data synthesized by DOMINO improves Pass@1 accuracy by up to 4.63\% over strong, instruction-tuned backbones, demonstrating its effectiveness and robustness. This work establishes a new paradigm for domain-specific data synthesis, enabling practical and scalable domain adaptation without manual prompt design or natural language domain specifications.