Síntesis de Datos Específicos del Dominio para LLMs mediante Aprendizaje de Representación Suficiente Mínima

Resumen

Los Modelos de Lenguaje de Gran Escala han demostrado un progreso notable en capacidades de propósito general y pueden alcanzar un rendimiento sólido en dominios específicos mediante el ajuste fino con datos propios del dominio. Sin embargo, adquirir datos de alta calidad para los dominios objetivo sigue siendo un desafío significativo. Los enfoques existentes de síntesis de datos siguen un paradigma deductivo, dependiendo en gran medida de descripciones explícitas del dominio expresadas en lenguaje natural y de una cuidadosa ingeniería de instrucciones, lo que limita su aplicabilidad en escenarios del mundo real donde los dominios son difíciles de describir o articular formalmente. En este trabajo, abordamos el problema poco explorado de la síntesis de datos específicos de un dominio mediante un paradigma inductivo, donde el dominio objetivo se define únicamente a través de un conjunto de ejemplos de referencia, particularmente cuando las características del dominio son difíciles de expresar en lenguaje natural. Proponemos un marco novedoso, DOMINO, que aprende una representación mínima suficiente del dominio a partir de muestras de referencia y la utiliza para guiar la generación de datos sintéticos alineados con el dominio. DOMINO integra el ajuste de instrucciones con un objetivo de desenredo contrastivo para separar los patrones a nivel de dominio del ruido específico de las muestras, mitigando el sobreajuste mientras preserva las características centrales del dominio. Teóricamente, demostramos que DOMINO expande el soporte de la distribución de datos sintéticos, asegurando una mayor diversidad. Empíricamente, en desafiantes referencias de codificación donde las definiciones de dominio son implícitas, el ajuste fino con datos sintetizados por DOMINO mejora la precisión de Pass@1 hasta en un 4,63% en comparación con modelos base fuertes ajustados con instrucciones, demostrando su efectividad y robustez. Este trabajo establece un nuevo paradigma para la síntesis de datos específicos de dominio, permitiendo una adaptación práctica y escalable a dominios sin necesidad de diseño manual de instrucciones ni especificaciones del dominio en lenguaje natural.

English

Large Language Models have demonstrated remarkable progress in general-purpose capabilities and can achieve strong performance in specific domains through fine-tuning on domain-specific data. However, acquiring high-quality data for target domains remains a significant challenge. Existing data synthesis approaches follow a deductive paradigm, heavily relying on explicit domain descriptions expressed in natural language and careful prompt engineering, limiting their applicability in real-world scenarios where domains are difficult to describe or formally articulate. In this work, we tackle the underexplored problem of domain-specific data synthesis through an inductive paradigm, where the target domain is defined only through a set of reference examples, particularly when domain characteristics are difficult to articulate in natural language. We propose a novel framework, DOMINO, that learns a minimal sufficient domain representation from reference samples and leverages it to guide the generation of domain-aligned synthetic data. DOMINO integrates prompt tuning with a contrastive disentanglement objective to separate domain-level patterns from sample-specific noise, mitigating overfitting while preserving core domain characteristics. Theoretically, we prove that DOMINO expands the support of the synthetic data distribution, ensuring greater diversity. Empirically, on challenging coding benchmarks where domain definitions are implicit, fine-tuning on data synthesized by DOMINO improves Pass@1 accuracy by up to 4.63\% over strong, instruction-tuned backbones, demonstrating its effectiveness and robustness. This work establishes a new paradigm for domain-specific data synthesis, enabling practical and scalable domain adaptation without manual prompt design or natural language domain specifications.