弱いLLMと強いLLMからText-to-SQLデータを合成する
Synthesizing Text-to-SQL Data from Weak and Strong LLMs
August 6, 2024
著者: Jiaxi Yang, Binyuan Hui, Min Yang, Jian Yang, Junyang Lin, Chang Zhou
cs.AI
要旨
オープンソースとクローズドソースの大規模言語モデル(LLM)間の性能差は、テキストからSQLへの変換タスクにおいて依然として課題となっている。本論文では、より強力なモデル(強モデル)によって生成されたデータと、小さく、十分に調整されていないモデル(弱モデル)によって生成されたエラー情報データを組み合わせた合成データアプローチを提案する。この手法は、テキストからSQLモデルのドメイン汎化を向上させるだけでなく、選好学習を通じたエラーデータの監視の可能性を探るものである。さらに、オープンソースLLMに対する指示チューニングに合成データアプローチを適用し、特化したテキストからSQLモデルであるSENSEを開発した。SENSEの有効性は、SPIDERおよびBIRDベンチマークにおいて最先端の結果を示すことで実証され、オープンソースモデルとクローズドソースモデルによってプロンプトされた手法との性能差を埋めることに成功した。
English
The capability gap between open-source and closed-source large language
models (LLMs) remains a challenge in text-to-SQL tasks. In this paper, we
introduce a synthetic data approach that combines data produced by larger, more
powerful models (strong models) with error information data generated by
smaller, not well-aligned models (weak models). The method not only enhances
the domain generalization of text-to-SQL models but also explores the potential
of error data supervision through preference learning. Furthermore, we employ
the synthetic data approach for instruction tuning on open-source LLMs,
resulting SENSE, a specialized text-to-SQL model. The effectiveness of SENSE is
demonstrated through state-of-the-art results on the SPIDER and BIRD
benchmarks, bridging the performance gap between open-source models and methods
prompted by closed-source models.Summary
AI-Generated Summary