Domänenspezifische Datensynthese für LLMs mittels Lernen minimal suffizienter Repräsentationen

Zusammenfassung

Große Sprachmodelle haben bemerkenswerte Fortschritte bei allgemeinen Fähigkeiten gezeigt und können durch Feinabstimmung auf domänenspezifischen Daten auch in spezifischen Bereichen eine hohe Leistung erzielen. Allerdings bleibt die Beschaffung hochwertiger Daten für Zieldomänen eine erhebliche Herausforderung. Bisherige Methoden zur Datensynthese folgen einem deduktiven Paradigma und sind stark auf explizite Domänenbeschreibungen in natürlicher Sprache sowie sorgfältiges Prompt-Engineering angewiesen, was ihre Anwendbarkeit in realen Szenarien einschränkt, in denen Domänen schwer zu beschreiben oder formal zu artikulieren sind. In dieser Arbeit befassen wir uns mit dem bislang wenig erforschten Problem der domänenspezifischen Datensynthese mittels eines induktiven Paradigmas, bei dem die Zieldomäne nur durch eine Reihe von Referenzbeispielen definiert wird – insbesondere dann, wenn sich Domänenmerkmale nur schwer in natürlicher Sprache ausdrücken lassen. Wir schlagen ein neuartiges Framework namens DOMINO vor, das aus Referenzbeispielen eine minimal hinreichende Domänenrepräsentation lernt und diese nutzt, um die Erzeugung domänenkonformer synthetischer Daten zu steuern. DOMINO integriert Prompt-Tuning mit einem kontrastiven Disentanglement-Ziel, um domänenbezogene Muster von probenspezifischem Rauschen zu trennen, wodurch Overfitting abgeschwächt und gleichzeitig die Kernmerkmale der Domäne bewahrt werden. Theoretisch beweisen wir, dass DOMINO den Träger der synthetischen Datenverteilung erweitert und so eine größere Diversität sicherstellt. Empirisch verbessert die Feinabstimmung auf von DOMINO synthetisierten Daten bei anspruchsvollen Code-Benchmarks, in denen Domänendefinitionen implizit sind, die Pass@1-Genauigkeit um bis zu 4,63 % gegenüber starken, instruktionsabgestimmten Backbones, was die Effektivität und Robustheit des Ansatzes belegt. Diese Arbeit etabliert ein neues Paradigma für domänenspezifische Datensynthese, das eine praktische und skalierbare Domänenanpassung ohne manuelles Prompt-Design oder natürliche Sprachspezifikationen der Domäne ermöglicht.

English

Large Language Models have demonstrated remarkable progress in general-purpose capabilities and can achieve strong performance in specific domains through fine-tuning on domain-specific data. However, acquiring high-quality data for target domains remains a significant challenge. Existing data synthesis approaches follow a deductive paradigm, heavily relying on explicit domain descriptions expressed in natural language and careful prompt engineering, limiting their applicability in real-world scenarios where domains are difficult to describe or formally articulate. In this work, we tackle the underexplored problem of domain-specific data synthesis through an inductive paradigm, where the target domain is defined only through a set of reference examples, particularly when domain characteristics are difficult to articulate in natural language. We propose a novel framework, DOMINO, that learns a minimal sufficient domain representation from reference samples and leverages it to guide the generation of domain-aligned synthetic data. DOMINO integrates prompt tuning with a contrastive disentanglement objective to separate domain-level patterns from sample-specific noise, mitigating overfitting while preserving core domain characteristics. Theoretically, we prove that DOMINO expands the support of the synthetic data distribution, ensuring greater diversity. Empirically, on challenging coding benchmarks where domain definitions are implicit, fine-tuning on data synthesized by DOMINO improves Pass@1 accuracy by up to 4.63\% over strong, instruction-tuned backbones, demonstrating its effectiveness and robustness. This work establishes a new paradigm for domain-specific data synthesis, enabling practical and scalable domain adaptation without manual prompt design or natural language domain specifications.