PIPE-Cypher : Génération automatique de benchmarks d'entreprise pour les systèmes de texte vers Cypher

Résumé

Les graphes de propriétés d'entreprise varient considérablement dans leur structure de schéma, leur terminologie interne, leurs hypothèses de domaine, leurs contraintes de gouvernance et leurs schémas d'interaction utilisateur. Un benchmark Text2Cypher pertinent pour le déploiement reflète donc les questions que les utilisateurs et les agents posent réellement à ce graphe. Créer un tel benchmark est difficile car les schémas et les valeurs sont uniques, et la structure du graphe évolue dans le temps. Chaque paire NL-requête doit également être exécutable, utiliser des entités réelles du graphe, préserver la diversité et rester équilibrée entre les types de requêtes et les niveaux de difficulté. Nous présentons PIPE-Cypher, un pipeline local de génération de benchmarks qui transforme un graphe de propriétés en direct et des requêtes seed optionnelles issues de questions clients, de journaux d'analyse ou d'appels d'outils agents en benchmarks équilibrés NL-vers-Cypher. PIPE-Cypher combine le profilage de schéma, l'ancrage par requête inverse, la génération sous contraintes, la gouvernance Cypher déterministe, la validation par exécution, la rédaction, les contrôles de diversité et un juge LLM local calibré. En utilisant la génération et l'évaluation locales avec Qwen3.5-9B, PIPE-Cypher exporte 3 000 exemples acceptés de FinBench/SNB, réalise trois suites d'ablation auditées, calibre le comportement du juge avec des étiquettes humaines et évalue 11 modèles locaux en aval. Le benchmark résultant est délibérément discriminant : le transfert zero-shot est faible, tandis qu'un contrôle few-shot montre que des banques d'exemples spécifiques au schéma peuvent aider les familles de modèles compatibles. Ensemble, PIPE-Cypher fait de l'évaluation Text2Cypher un processus reproductible qui évolue avec le graphe, ses utilisateurs et ses charges de travail cibles.

English

Enterprise property graphs vary widely in schema structure, internal terminology, domain assumptions, governance constraints, and user interaction patterns. A deployment-relevant Text2Cypher benchmark therefore reflects the questions users and agents actually ask of that graph. Creating such a benchmark is difficult because schemas and values are unique, and graph structure changes over time. Each NL-query pair must also be executable, use real graph entities, preserve diversity, and remain balanced across query types and difficulty levels. We present PIPE-Cypher, a local benchmark-generation pipeline that turns a live property graph and optional seed queries from customer questions, analyst logs, or agent tool calls into balanced NL-to-Cypher benchmarks. PIPE-Cypher combines schema profiling, reverse-query grounding, constrained generation, deterministic Cypher governance, execution validation, redaction, diversity controls, and a calibrated local LLM judge. Using local Qwen3.5-9B generation and judging, PIPE-Cypher exports 3,000 accepted FinBench/SNB examples, completes three audited ablation suites, calibrates judge behavior with human labels, and evaluates 11 local downstream models. The resulting benchmark is deliberately discriminative: zero-shot transfer is weak, while a few-shot control shows that schema-specific example banks can help compatible model families. Together, PIPE-Cypher makes Text2Cypher benchmarking a repeatable process that evolves with the graph, its users, and its target workloads.