PIPE-Cypher: Automatische Generierung von Enterprise-Benchmarks für Text-to-Cypher-Systeme

Zusammenfassung

Unternehmenseigenschaftsgraphen unterscheiden sich erheblich in ihrer Schemastruktur, internen Terminologie, Domänenannahmen, Governance-Einschränkungen und Benutzerinteraktionsmustern. Ein einsatzrelevanter Text2Cypher-Benchmark spiegelt daher die Fragen wider, die Benutzer und Agenten tatsächlich an diesen Graphen stellen. Die Erstellung eines solchen Benchmarks ist schwierig, da Schemata und Werte einzigartig sind und sich die Graphstruktur im Laufe der Zeit ändert. Jedes NL-Abfrage-Paar muss zudem ausführbar sein, reale Graphenentitäten verwenden, Diversität bewahren und über Abfragetypen und Schwierigkeitsgrade hinweg ausgewogen bleiben. Wir stellen PIPE-Cypher vor, eine lokale Benchmark-Erstellungspipeline, die einen Live-Eigenschaftsgraphen und optionale Startabfragen aus Kundenfragen, Analystenlogs oder Agenten-Toolaufrufen in ausgewogene NL-zu-Cypher-Benchmarks umwandelt. PIPE-Cypher kombiniert Schema-Profiling, Reverse-Query-Grounding, eingeschränkte Generierung, deterministische Cypher-Governance, Ausführungsvalidierung, Schwärzung, Diversitätskontrollen und einen kalibrierten lokalen LLM-Richter. Mit lokaler Qwen3.5-9B-Generierung und -Bewertung exportiert PIPE-Cypher 3.000 akzeptierte FinBench/SNB-Beispiele, führt drei geprüfte Ablationsstudien durch, kalibriert das Richterverhalten mit menschlichen Labels und bewertet 11 lokale Downstream-Modelle. Der resultierende Benchmark ist bewusst diskriminierend: Zero-Shot-Transfer ist schwach, während eine Few-Shot-Kontrolle zeigt, dass schemaspezifische Beispielsammlungen kompatiblen Modellfamilien helfen können. Insgesamt macht PIPE-Cypher das Text2Cypher-Benchmarking zu einem wiederholbaren Prozess, der sich mit dem Graphen, seinen Benutzern und seinen Zielworkloads weiterentwickelt.

English

Enterprise property graphs vary widely in schema structure, internal terminology, domain assumptions, governance constraints, and user interaction patterns. A deployment-relevant Text2Cypher benchmark therefore reflects the questions users and agents actually ask of that graph. Creating such a benchmark is difficult because schemas and values are unique, and graph structure changes over time. Each NL-query pair must also be executable, use real graph entities, preserve diversity, and remain balanced across query types and difficulty levels. We present PIPE-Cypher, a local benchmark-generation pipeline that turns a live property graph and optional seed queries from customer questions, analyst logs, or agent tool calls into balanced NL-to-Cypher benchmarks. PIPE-Cypher combines schema profiling, reverse-query grounding, constrained generation, deterministic Cypher governance, execution validation, redaction, diversity controls, and a calibrated local LLM judge. Using local Qwen3.5-9B generation and judging, PIPE-Cypher exports 3,000 accepted FinBench/SNB examples, completes three audited ablation suites, calibrates judge behavior with human labels, and evaluates 11 local downstream models. The resulting benchmark is deliberately discriminative: zero-shot transfer is weak, while a few-shot control shows that schema-specific example banks can help compatible model families. Together, PIPE-Cypher makes Text2Cypher benchmarking a repeatable process that evolves with the graph, its users, and its target workloads.