Tabby: Síntesis de Datos Tabulares con Modelos de Lenguaje

Resumen

Si bien los avances en los modelos de lenguaje de gran escala (LLMs) han mejorado significativamente la calidad de los datos de texto sintéticos en los últimos años, la síntesis de datos tabulares ha recibido relativamente menos atención. Abordamos esta disparidad con Tabby, una modificación simple pero poderosa aplicada después del entrenamiento a la arquitectura estándar del modelo de lenguaje Transformer, permitiendo su uso para la síntesis de conjuntos de datos tabulares. Tabby permite la representación de diferencias entre columnas utilizando una Mezcla de Expertos con Compuertas (Gated Mixture-of-Experts), con conjuntos de parámetros específicos para cada columna. Empíricamente, Tabby produce una calidad de datos cercana o igual a la de los datos reales. Al combinar nuestra novedosa técnica de entrenamiento de tablas con LLM, Plain, con Tabby, observamos una mejora de hasta un 44% en la calidad en comparación con métodos anteriores. También demostramos que Tabby se extiende más allá de las tablas a datos estructurados más generales, alcanzando paridad con los datos reales en un conjunto de datos JSON anidado.

English

While advances in large language models (LLMs) have greatly improved the quality of synthetic text data in recent years, synthesizing tabular data has received relatively less attention. We address this disparity with Tabby, a simple but powerful post-training modification to the standard Transformer language model architecture, enabling its use for tabular dataset synthesis. Tabby enables the representation of differences across columns using Gated Mixture-of-Experts, with column-specific sets of parameters. Empirically, Tabby results in data quality near or equal to that of real data. By pairing our novel LLM table training technique, Plain, with Tabby, we observe up to a 44% improvement in quality over previous methods. We also show that Tabby extends beyond tables to more general structured data, reaching parity with real data on a nested JSON dataset as well.

Tabby: Síntesis de Datos Tabulares con Modelos de Lenguaje

Tabby: Tabular Data Synthesis with Language Models

Resumen

Support