ReSyn: Um Framework Generalizado para Síntese Recursiva de Expressões Regulares
ReSyn: A Generalized Recursive Regular Expression Synthesis Framework
June 13, 2026
Autores: Seongmin Kim, Hyunjoon Cheon, Su-Hyeon Kim, Yo-Sub Han, Sang-Ki Ko
cs.AI
Resumo
Os sistemas existentes de Programação por Exemplo (PBE) frequentemente dependem de benchmarks simplificados que não capturam a alta complexidade estrutural de expressões regulares do mundo real, como aninhamentos mais profundos e uso frequente de operações de união. Para superar a consequente queda de desempenho, propomos o ReSyn, uma estrutura de dividir para conquistar agnóstica em relação ao sintetizador, que decompõe problemas complexos de síntese em subproblemas gerenciáveis. Também introduzimos o Set2Regex, um sintetizador eficiente em termos de parâmetros que captura a invariância de permutação dos exemplos. Resultados experimentais demonstram que o ReSyn aumenta significativamente a acurácia em diversos sintetizadores, e sua combinação com o Set2Regex estabelece um novo estado da arte em um benchmark desafiador do mundo real. O código-fonte completo, conjuntos de dados e checkpoints de modelos pré-treinados estão disponíveis publicamente em https://github.com/mrseongminkim/ReSyn.
English
Existing Programming-By-Example (PBE) systems often rely on simplified benchmarks that fail to capture the high structural complexity of real-world regexes, such as deeper nesting and frequent use of union operations. To overcome the resulting performance drop, we propose ReSyn, a synthesizer-agnostic divide-and-conquer framework that decomposes complex synthesis problem into manageable sub-problems. We also introduce Set2Regex, a parameter-efficient synthesizer capturing the permutation invariance of examples. Experimental results demonstrate that ReSyn significantly boosts accuracy across various synthesizers, and its combination with Set2Regex establishes a new state-of-the-art on challenging real-world benchmark. The complete source code, datasets, and pre-trained model checkpoints are publicly available at https://github.com/mrseongminkim/ReSyn.