PIPE-Cypher: Geração Automática de Benchmarks Empresariais para Sistemas Texto-para-Cypher

Resumo

Os grafos de propriedades empresariais variam amplamente em estrutura de esquema, terminologia interna, suposições de domínio, restrições de governança e padrões de interação do usuário. Um benchmark Text2Cypher relevante para implantação reflete, portanto, as perguntas que usuários e agentes realmente fazem a esse grafo. Criar tal benchmark é difícil porque esquemas e valores são únicos, e a estrutura do grafo muda ao longo do tempo. Cada par consulta-linguagem natural também deve ser executável, usar entidades reais do grafo, preservar diversidade e manter equilíbrio entre tipos de consulta e níveis de dificuldade. Apresentamos o PIPE-Cypher, um pipeline local de geração de benchmarks que transforma um grafo de propriedades ativo e consultas semente opcionais — provenientes de perguntas de clientes, logs de analistas ou chamadas de ferramentas de agentes — em benchmarks balanceados de NL para Cypher. O PIPE-Cypher combina perfilamento de esquema, fundamentação reversa de consultas, geração restrita, governança determinística de Cypher, validação de execução, ocultação, controles de diversidade e um juiz LLM local calibrado. Utilizando geração e julgamento locais com Qwen3.5-9B, o PIPE-Cypher exporta 3.000 exemplos aceitos do FinBench/SNB, completa três conjuntos de ablação auditados, calibra o comportamento do juiz com rótulos humanos e avalia 11 modelos downstream locais. O benchmark resultante é deliberadamente discriminativo: a transferência zero-shot é fraca, enquanto um controle few-shot mostra que bancos de exemplos específicos de esquema podem ajudar famílias de modelos compatíveis. Juntos, o PIPE-Cypher torna a avaliação de Text2Cypher um processo repetível que evolui com o grafo, seus usuários e suas cargas de trabalho alvo.

English

Enterprise property graphs vary widely in schema structure, internal terminology, domain assumptions, governance constraints, and user interaction patterns. A deployment-relevant Text2Cypher benchmark therefore reflects the questions users and agents actually ask of that graph. Creating such a benchmark is difficult because schemas and values are unique, and graph structure changes over time. Each NL-query pair must also be executable, use real graph entities, preserve diversity, and remain balanced across query types and difficulty levels. We present PIPE-Cypher, a local benchmark-generation pipeline that turns a live property graph and optional seed queries from customer questions, analyst logs, or agent tool calls into balanced NL-to-Cypher benchmarks. PIPE-Cypher combines schema profiling, reverse-query grounding, constrained generation, deterministic Cypher governance, execution validation, redaction, diversity controls, and a calibrated local LLM judge. Using local Qwen3.5-9B generation and judging, PIPE-Cypher exports 3,000 accepted FinBench/SNB examples, completes three audited ablation suites, calibrates judge behavior with human labels, and evaluates 11 local downstream models. The resulting benchmark is deliberately discriminative: zero-shot transfer is weak, while a few-shot control shows that schema-specific example banks can help compatible model families. Together, PIPE-Cypher makes Text2Cypher benchmarking a repeatable process that evolves with the graph, its users, and its target workloads.