Compilador de Consultas Neuro-Simbólico
Neuro-Symbolic Query Compiler
May 17, 2025
Autores: Yuyao Zhang, Zhicheng Dou, Xiaoxi Li, Jiajie Jin, Yongkang Wu, Zhonghua Li, Qi Ye, Ji-Rong Wen
cs.AI
Resumo
O reconhecimento preciso da intenção de busca em sistemas de Geração Aumentada por Recuperação (RAG) continua sendo um objetivo desafiador, especialmente sob restrições de recursos e para consultas complexas com estruturas aninhadas e dependências. Este artigo apresenta o QCompiler, um framework neuro-simbólico inspirado em regras gramaticais linguísticas e no design de compiladores, para preencher essa lacuna. Ele projeta teoricamente uma gramática Backus-Naur Form (BNF) mínima, porém suficiente, G[q] para formalizar consultas complexas. Diferente de métodos anteriores, essa gramática mantém a completude enquanto minimiza a redundância. Com base nisso, o QCompiler inclui um Tradutor de Expressões de Consulta, um Analisador Sintático Léxico e um Processador de Descida Recursiva para compilar consultas em Árvores Sintáticas Abstratas (ASTs) para execução. A atomicidade das subconsultas nos nós folha garante uma recuperação de documentos e geração de respostas mais precisas, melhorando significativamente a capacidade do sistema RAG de lidar com consultas complexas.
English
Precise recognition of search intent in Retrieval-Augmented Generation (RAG)
systems remains a challenging goal, especially under resource constraints and
for complex queries with nested structures and dependencies. This paper
presents QCompiler, a neuro-symbolic framework inspired by linguistic grammar
rules and compiler design, to bridge this gap. It theoretically designs a
minimal yet sufficient Backus-Naur Form (BNF) grammar G[q] to formalize
complex queries. Unlike previous methods, this grammar maintains completeness
while minimizing redundancy. Based on this, QCompiler includes a Query
Expression Translator, a Lexical Syntax Parser, and a Recursive Descent
Processor to compile queries into Abstract Syntax Trees (ASTs) for execution.
The atomicity of the sub-queries in the leaf nodes ensures more precise
document retrieval and response generation, significantly improving the RAG
system's ability to address complex queries.