ChatPaper.aiChatPaper

Automatisation de la Synthèse de Code pour les Fonctions Base de Données Natives avec les LLM

Automating Database-Native Function Code Synthesis with LLMs

April 2, 2026
Auteurs: Wei Zhou, Xuanhe Zhou, Qikang He, Guoliang Li, Bingsheng He, Quanqing Xu, Fan Wu
cs.AI

Résumé

Les systèmes de bases de données intègrent un nombre croissant de fonctions dans leurs noyaux (fonctions natives de base de données) pour des scénarios tels que la prise en charge de nouvelles applications et la migration métier. Cette croissance génère une demande urgente de synthèse automatique de fonctions natives de bases de données. Bien que les récents progrès en génération de code basée sur les LLM (par exemple, Claude Code) soient prometteurs, ils sont trop génériques pour le développement spécifique aux bases de données. Ils produisent souvent des hallucinations ou négligent un contexte critique car la synthèse de fonctions de base de données est intrinsèquement complexe et sujette aux erreurs, où la synthèse d'une seule fonction peut impliquer l'enregistrement de multiples unités fonctionnelles, la liaison de références internes et l'implémentation correcte de la logique. Pour cela, nous proposons DBCooker, un système basé sur les LLM pour synthétiser automatiquement des fonctions natives de bases de données. Il se compose de trois composants. Premièrement, le module de caractérisation des fonctions agrège des déclarations multi-sources, identifie les unités fonctionnelles nécessitant un codage spécialisé et trace les dépendances inter-unités. Deuxièmement, nous concevons des opérations pour relever les principaux défis de synthèse : (1) un générateur de plans de codage basé sur du pseudo-code qui construit des squelettes d'implémentation structurés en identifiant les éléments clés tels que les fonctions référencées réutilisables ; (2) un modèle hybride de remplissage de trous guidé par des probabilités a priori et la conscience des composants pour intégrer la logique centrale avec des routines réutilisables ; et (3) une validation progressive à trois niveaux, incluant la vérification syntaxique, la conformité aux standards et la vérification sémantique guidée par LLM. Enfin, une stratégie d'orchestration adaptative unifie ces opérations avec des outils existants et les enchaîne dynamiquement via l'historique d'orchestration de fonctions similaires. Les résultats montrent que DBCooker surpasse les autres méthodes sur SQLite, PostgreSQL et DuckDB (précision supérieure de 34,55 % en moyenne), et peut synthétiser de nouvelles fonctions absentes de la dernière version de SQLite (v3.50).
English
Database systems incorporate an ever-growing number of functions in their kernels (a.k.a., database native functions) for scenarios like new application support and business migration. This growth causes an urgent demand for automatic database native function synthesis. While recent advances in LLM-based code generation (e.g., Claude Code) show promise, they are too generic for database-specific development. They often hallucinate or overlook critical context because database function synthesis is inherently complex and error-prone, where synthesizing a single function may involve registering multiple function units, linking internal references, and implementing logic correctly. To this end, we propose DBCooker, an LLM-based system for automatically synthesizing database native functions. It consists of three components. First, the function characterization module aggregates multi-source declarations, identifies function units that require specialized coding, and traces cross-unit dependencies. Second, we design operations to address the main synthesis challenges: (1) a pseudo-code-based coding plan generator that constructs structured implementation skeletons by identifying key elements such as reusable referenced functions; (2) a hybrid fill-in-the-blank model guided by probabilistic priors and component awareness to integrate core logic with reusable routines; and (3) three-level progressive validation, including syntax checking, standards compliance, and LLM-guided semantic verification. Finally, an adaptive orchestration strategy unifies these operations with existing tools and dynamically sequences them via the orchestration history of similar functions. Results show that DBCooker outperforms other methods on SQLite, PostgreSQL, and DuckDB (34.55% higher accuracy on average), and can synthesize new functions absent in the latest SQLite (v3.50).
PDF92April 11, 2026