ChatPaper.aiChatPaper

Sintetizando datos de Texto-a-SQL de LLMs Débiles y Fuertes

Synthesizing Text-to-SQL Data from Weak and Strong LLMs

August 6, 2024
Autores: Jiaxi Yang, Binyuan Hui, Min Yang, Jian Yang, Junyang Lin, Chang Zhou
cs.AI

Resumen

La brecha de capacidad entre modelos de lenguaje grandes (LLMs) de código abierto y de código cerrado sigue siendo un desafío en tareas de texto a SQL. En este documento, presentamos un enfoque de datos sintéticos que combina datos producidos por modelos más grandes y potentes (modelos fuertes) con datos de información de error generados por modelos más pequeños y no bien alineados (modelos débiles). El método no solo mejora la generalización de dominio de los modelos de texto a SQL, sino que también explora el potencial de la supervisión de datos de error a través del aprendizaje de preferencias. Además, empleamos el enfoque de datos sintéticos para ajustar instrucciones en LLMs de código abierto, lo que resulta en SENSE, un modelo especializado de texto a SQL. La efectividad de SENSE se demuestra a través de resultados de vanguardia en los benchmarks SPIDER y BIRD, reduciendo la brecha de rendimiento entre modelos de código abierto y métodos impulsados por modelos de código cerrado.
English
The capability gap between open-source and closed-source large language models (LLMs) remains a challenge in text-to-SQL tasks. In this paper, we introduce a synthetic data approach that combines data produced by larger, more powerful models (strong models) with error information data generated by smaller, not well-aligned models (weak models). The method not only enhances the domain generalization of text-to-SQL models but also explores the potential of error data supervision through preference learning. Furthermore, we employ the synthetic data approach for instruction tuning on open-source LLMs, resulting SENSE, a specialized text-to-SQL model. The effectiveness of SENSE is demonstrated through state-of-the-art results on the SPIDER and BIRD benchmarks, bridging the performance gap between open-source models and methods prompted by closed-source models.

Summary

AI-Generated Summary

PDF112November 28, 2024