ChatPaper.aiChatPaper

Tabby: Synthese von Tabellendaten mit Sprachmodellen

Tabby: Tabular Data Synthesis with Language Models

March 4, 2025
Autoren: Sonia Cromp, Satya Sai Srinath Namburi GNVV, Mohammed Alkhudhayri, Catherine Cao, Samuel Guo, Nicholas Roberts, Frederic Sala
cs.AI

Zusammenfassung

Während Fortschritte bei großen Sprachmodellen (LLMs) die Qualität synthetischer Textdaten in den letzten Jahren erheblich verbessert haben, wurde die Synthese von tabellarischen Daten vergleichsweise weniger beachtet. Wir gehen auf diese Diskrepanz mit Tabby ein, einer einfachen, aber leistungsstarken Nachschulungsmodifikation der standardmäßigen Transformer-Sprachmodellarchitektur, die deren Einsatz für die Synthese von Tabellendatensätzen ermöglicht. Tabby ermöglicht die Darstellung von Unterschieden zwischen Spalten mithilfe von Gated Mixture-of-Experts mit spaltenspezifischen Parametersätzen. Empirisch erzielt Tabby eine Datenqualität, die nahezu oder gleich der von echten Daten ist. Durch die Kombination unserer neuartigen LLM-Tabellentrainingsmethode, Plain, mit Tabby beobachten wir eine Verbesserung der Qualität von bis zu 44 % gegenüber früheren Methoden. Wir zeigen auch, dass Tabby über Tabellen hinaus auf allgemeiner strukturierte Daten erweitert werden kann und auf einem verschachtelten JSON-Datensatz ebenfalls eine Parität mit echten Daten erreicht.
English
While advances in large language models (LLMs) have greatly improved the quality of synthetic text data in recent years, synthesizing tabular data has received relatively less attention. We address this disparity with Tabby, a simple but powerful post-training modification to the standard Transformer language model architecture, enabling its use for tabular dataset synthesis. Tabby enables the representation of differences across columns using Gated Mixture-of-Experts, with column-specific sets of parameters. Empirically, Tabby results in data quality near or equal to that of real data. By pairing our novel LLM table training technique, Plain, with Tabby, we observe up to a 44% improvement in quality over previous methods. We also show that Tabby extends beyond tables to more general structured data, reaching parity with real data on a nested JSON dataset as well.

Summary

AI-Generated Summary

PDF42March 5, 2025