PIPE-Cypher: Generación Automática de Benchmarks Empresariales para Sistemas de Texto a Cypher

Resumen

Los grafos de propiedades empresariales varían ampliamente en estructura de esquema, terminología interna, supuestos de dominio, restricciones de gobernanza y patrones de interacción de usuario. Por lo tanto, un benchmark Text2Cypher relevante para el despliegue refleja las preguntas que los usuarios y agentes realmente formulan a ese grafo. Crear dicho benchmark es difícil porque los esquemas y valores son únicos, y la estructura del grafo cambia con el tiempo. Cada par NL-consulta también debe ser ejecutable, utilizar entidades reales del grafo, preservar la diversidad y mantenerse equilibrado entre tipos de consulta y niveles de dificultad. Presentamos PIPE-Cypher, una tubería local de generación de benchmarks que convierte un grafo de propiedades activo y consultas semilla opcionales (procedentes de preguntas de clientes, registros de analistas o llamadas a herramientas de agentes) en benchmarks equilibrados de NL a Cypher. PIPE-Cypher combina perfilado de esquemas, fundamentación de consultas inversas, generación restringida, gobernanza determinista de Cypher, validación de ejecución, redacción, controles de diversidad y un juez local calibrado basado en LLM. Utilizando generación y evaluación local con Qwen3.5-9B, PIPE-Cypher exporta 3.000 ejemplos aceptados de FinBench/SNB, completa tres suites de ablación auditadas, calibra el comportamiento del juez con etiquetas humanas y evalúa 11 modelos locales posteriores. El benchmark resultante es deliberadamente discriminativo: la transferencia en modo cero disparo es débil, mientras que un control con pocos ejemplos muestra que los bancos de ejemplos específicos del esquema pueden ayudar a familias de modelos compatibles. En conjunto, PIPE-Cypher convierte el benchmarking Text2Cypher en un proceso repetible que evoluciona con el grafo, sus usuarios y sus cargas de trabajo objetivo.

English

Enterprise property graphs vary widely in schema structure, internal terminology, domain assumptions, governance constraints, and user interaction patterns. A deployment-relevant Text2Cypher benchmark therefore reflects the questions users and agents actually ask of that graph. Creating such a benchmark is difficult because schemas and values are unique, and graph structure changes over time. Each NL-query pair must also be executable, use real graph entities, preserve diversity, and remain balanced across query types and difficulty levels. We present PIPE-Cypher, a local benchmark-generation pipeline that turns a live property graph and optional seed queries from customer questions, analyst logs, or agent tool calls into balanced NL-to-Cypher benchmarks. PIPE-Cypher combines schema profiling, reverse-query grounding, constrained generation, deterministic Cypher governance, execution validation, redaction, diversity controls, and a calibrated local LLM judge. Using local Qwen3.5-9B generation and judging, PIPE-Cypher exports 3,000 accepted FinBench/SNB examples, completes three audited ablation suites, calibrates judge behavior with human labels, and evaluates 11 local downstream models. The resulting benchmark is deliberately discriminative: zero-shot transfer is weak, while a few-shot control shows that schema-specific example banks can help compatible model families. Together, PIPE-Cypher makes Text2Cypher benchmarking a repeatable process that evolves with the graph, its users, and its target workloads.