Синтез доменно-специфичных данных для больших языковых моделей посредством обучения минимально достаточным представлениям

Аннотация

Большие языковые модели продемонстрировали значительный прогресс в универсальных возможностях и могут достигать высокой производительности в конкретных областях путем дообучения на специализированных данных. Однако получение высококачественных данных для целевых доменов остается серьезной проблемой. Существующие подходы к синтезу данных следуют дедуктивной парадигме, сильно полагаясь на явные описания доменов, выраженные на естественном языке, и тщательную разработку промптов, что ограничивает их применимость в реальных сценариях, где домены трудно описать или формально сформулировать. В данной работе мы рассматриваем малоисследованную проблему синтеза доменно-специфичных данных с использованием индуктивной парадигмы, где целевой домен определяется только через набор эталонных примеров, особенно когда характеристики домена трудно сформулировать на естественном языке. Мы предлагаем новую структуру, DOMINO, которая изучает минимальное достаточное представление домена на основе эталонных образцов и использует его для управления генерацией доменно-согласованных синтетических данных. DOMINO объединяет настройку промптов с контрастивной целью разделения для отделения закономерностей уровня домена от шума, специфичного для выборки, смягчая переобучение при сохранении ключевых характеристик домена. Теоретически мы доказываем, что DOMINO расширяет носитель распределения синтетических данных, обеспечивая большее разнообразие. Эмпирически, на сложных бенчмарках по программированию, где определения доменов неявны, дообучение на данных, синтезированных DOMINO, улучшает точность Pass@1 до 4,63% по сравнению с сильными базовыми моделями, настроенными на инструкции, демонстрируя свою эффективность и надежность. Эта работа устанавливает новую парадигму для синтеза доменно-специфичных данных, обеспечивая практическую и масштабируемую адаптацию к домену без ручного проектирования промптов или спецификаций домена на естественном языке.

English

Large Language Models have demonstrated remarkable progress in general-purpose capabilities and can achieve strong performance in specific domains through fine-tuning on domain-specific data. However, acquiring high-quality data for target domains remains a significant challenge. Existing data synthesis approaches follow a deductive paradigm, heavily relying on explicit domain descriptions expressed in natural language and careful prompt engineering, limiting their applicability in real-world scenarios where domains are difficult to describe or formally articulate. In this work, we tackle the underexplored problem of domain-specific data synthesis through an inductive paradigm, where the target domain is defined only through a set of reference examples, particularly when domain characteristics are difficult to articulate in natural language. We propose a novel framework, DOMINO, that learns a minimal sufficient domain representation from reference samples and leverages it to guide the generation of domain-aligned synthetic data. DOMINO integrates prompt tuning with a contrastive disentanglement objective to separate domain-level patterns from sample-specific noise, mitigating overfitting while preserving core domain characteristics. Theoretically, we prove that DOMINO expands the support of the synthetic data distribution, ensuring greater diversity. Empirically, on challenging coding benchmarks where domain definitions are implicit, fine-tuning on data synthesized by DOMINO improves Pass@1 accuracy by up to 4.63\% over strong, instruction-tuned backbones, demonstrating its effectiveness and robustness. This work establishes a new paradigm for domain-specific data synthesis, enabling practical and scalable domain adaptation without manual prompt design or natural language domain specifications.