Tabby: Synthese von Tabellendaten mit Sprachmodellen
Tabby: Tabular Data Synthesis with Language Models
March 4, 2025
Autoren: Sonia Cromp, Satya Sai Srinath Namburi GNVV, Mohammed Alkhudhayri, Catherine Cao, Samuel Guo, Nicholas Roberts, Frederic Sala
cs.AI
Zusammenfassung
Während Fortschritte bei großen Sprachmodellen (LLMs) die Qualität synthetischer Textdaten in den letzten Jahren erheblich verbessert haben, wurde die Synthese von tabellarischen Daten vergleichsweise weniger beachtet. Wir gehen auf diese Diskrepanz mit Tabby ein, einer einfachen, aber leistungsstarken Nachschulungsmodifikation der standardmäßigen Transformer-Sprachmodellarchitektur, die deren Einsatz für die Synthese von Tabellendatensätzen ermöglicht. Tabby ermöglicht die Darstellung von Unterschieden zwischen Spalten mithilfe von Gated Mixture-of-Experts mit spaltenspezifischen Parametersätzen. Empirisch erzielt Tabby eine Datenqualität, die nahezu oder gleich der von echten Daten ist. Durch die Kombination unserer neuartigen LLM-Tabellentrainingsmethode, Plain, mit Tabby beobachten wir eine Verbesserung der Qualität von bis zu 44 % gegenüber früheren Methoden. Wir zeigen auch, dass Tabby über Tabellen hinaus auf allgemeiner strukturierte Daten erweitert werden kann und auf einem verschachtelten JSON-Datensatz ebenfalls eine Parität mit echten Daten erreicht.
English
While advances in large language models (LLMs) have greatly improved the
quality of synthetic text data in recent years, synthesizing tabular data has
received relatively less attention. We address this disparity with Tabby, a
simple but powerful post-training modification to the standard Transformer
language model architecture, enabling its use for tabular dataset synthesis.
Tabby enables the representation of differences across columns using Gated
Mixture-of-Experts, with column-specific sets of parameters. Empirically, Tabby
results in data quality near or equal to that of real data. By pairing our
novel LLM table training technique, Plain, with Tabby, we observe up to a 44%
improvement in quality over previous methods. We also show that Tabby extends
beyond tables to more general structured data, reaching parity with real data
on a nested JSON dataset as well.Summary
AI-Generated Summary