Síntese de Dados Específicos de Domínio para LLMs via Aprendizado de Representação Suficiente Mínima

Resumo

Modelos de Linguagem de Grande Escala demonstraram progressos notáveis em capacidades de uso geral e podem alcançar desempenho robusto em domínios específicos por meio de ajuste fino em dados específicos do domínio. No entanto, a aquisição de dados de alta qualidade para domínios-alvo continua sendo um desafio significativo. As abordagens existentes de síntese de dados seguem um paradigma dedutivo, dependendo fortemente de descrições explícitas de domínio expressas em linguagem natural e de engenharia cuidadosa de prompts, o que limita sua aplicabilidade em cenários do mundo real onde os domínios são difíceis de descrever ou articular formalmente. Neste trabalho, abordamos o problema pouco explorado da síntese de dados específicos de domínio por meio de um paradigma indutivo, onde o domínio alvo é definido apenas por um conjunto de exemplos de referência, particularmente quando as características do domínio são difíceis de articular em linguagem natural. Propomos uma nova estrutura, DOMINO, que aprende uma representação mínima suficiente do domínio a partir de amostras de referência e a utiliza para guiar a geração de dados sintéticos alinhados ao domínio. O DOMINO integra o ajuste de prompts com um objetivo de desentrelaçamento contrastivo para separar padrões em nível de domínio do ruído específico de amostras, mitigando o sobreajuste enquanto preserva as características centrais do domínio. Teoricamente, provamos que o DOMINO expande o suporte da distribuição de dados sintéticos, garantindo maior diversidade. Empiricamente, em benchmarks desafiadores de codificação onde as definições de domínio são implícitas, o ajuste fino nos dados sintetizados pelo DOMINO melhora a precisão Pass@1 em até 4,63% em relação a backbones robustos ajustados por instruções, demonstrando sua eficácia e robustez. Este trabalho estabelece um novo paradigma para síntese de dados específicos de domínio, possibilitando adaptação prática e escalável de domínio sem design manual de prompts ou especificações de domínio em linguagem natural.

English

Large Language Models have demonstrated remarkable progress in general-purpose capabilities and can achieve strong performance in specific domains through fine-tuning on domain-specific data. However, acquiring high-quality data for target domains remains a significant challenge. Existing data synthesis approaches follow a deductive paradigm, heavily relying on explicit domain descriptions expressed in natural language and careful prompt engineering, limiting their applicability in real-world scenarios where domains are difficult to describe or formally articulate. In this work, we tackle the underexplored problem of domain-specific data synthesis through an inductive paradigm, where the target domain is defined only through a set of reference examples, particularly when domain characteristics are difficult to articulate in natural language. We propose a novel framework, DOMINO, that learns a minimal sufficient domain representation from reference samples and leverages it to guide the generation of domain-aligned synthetic data. DOMINO integrates prompt tuning with a contrastive disentanglement objective to separate domain-level patterns from sample-specific noise, mitigating overfitting while preserving core domain characteristics. Theoretically, we prove that DOMINO expands the support of the synthetic data distribution, ensuring greater diversity. Empirically, on challenging coding benchmarks where domain definitions are implicit, fine-tuning on data synthesized by DOMINO improves Pass@1 accuracy by up to 4.63\% over strong, instruction-tuned backbones, demonstrating its effectiveness and robustness. This work establishes a new paradigm for domain-specific data synthesis, enabling practical and scalable domain adaptation without manual prompt design or natural language domain specifications.