Tabby: Síntesis de Datos Tabulares con Modelos de Lenguaje
Tabby: Tabular Data Synthesis with Language Models
March 4, 2025
Autores: Sonia Cromp, Satya Sai Srinath Namburi GNVV, Mohammed Alkhudhayri, Catherine Cao, Samuel Guo, Nicholas Roberts, Frederic Sala
cs.AI
Resumen
Si bien los avances en los modelos de lenguaje de gran escala (LLMs) han mejorado significativamente la calidad de los datos de texto sintéticos en los últimos años, la síntesis de datos tabulares ha recibido relativamente menos atención. Abordamos esta disparidad con Tabby, una modificación simple pero poderosa aplicada después del entrenamiento a la arquitectura estándar del modelo de lenguaje Transformer, permitiendo su uso para la síntesis de conjuntos de datos tabulares. Tabby permite la representación de diferencias entre columnas utilizando una Mezcla de Expertos con Compuertas (Gated Mixture-of-Experts), con conjuntos de parámetros específicos para cada columna. Empíricamente, Tabby produce una calidad de datos cercana o igual a la de los datos reales. Al combinar nuestra novedosa técnica de entrenamiento de tablas con LLM, Plain, con Tabby, observamos una mejora de hasta un 44% en la calidad en comparación con métodos anteriores. También demostramos que Tabby se extiende más allá de las tablas a datos estructurados más generales, alcanzando paridad con los datos reales en un conjunto de datos JSON anidado.
English
While advances in large language models (LLMs) have greatly improved the
quality of synthetic text data in recent years, synthesizing tabular data has
received relatively less attention. We address this disparity with Tabby, a
simple but powerful post-training modification to the standard Transformer
language model architecture, enabling its use for tabular dataset synthesis.
Tabby enables the representation of differences across columns using Gated
Mixture-of-Experts, with column-specific sets of parameters. Empirically, Tabby
results in data quality near or equal to that of real data. By pairing our
novel LLM table training technique, Plain, with Tabby, we observe up to a 44%
improvement in quality over previous methods. We also show that Tabby extends
beyond tables to more general structured data, reaching parity with real data
on a nested JSON dataset as well.Summary
AI-Generated Summary