ChatPaper.aiChatPaper

ReSyn: Un Marco Generalizado de Síntesis de Expresiones Regulares Recursivas

ReSyn: A Generalized Recursive Regular Expression Synthesis Framework

June 13, 2026
Autores: Seongmin Kim, Hyunjoon Cheon, Su-Hyeon Kim, Yo-Sub Han, Sang-Ki Ko
cs.AI

Resumen

Los sistemas existentes de Programación por Ejemplo (PBE) a menudo se basan en benchmarks simplificados que no logran capturar la alta complejidad estructural de las expresiones regulares reales, como un anidamiento más profundo y el uso frecuente de operaciones de unión. Para superar la consiguiente caída en el rendimiento, proponemos ReSyn, un marco de divide y vencerás independiente del sintetizador que descompone problemas complejos de síntesis en subproblemas manejables. También presentamos Set2Regex, un sintetizador eficiente en parámetros que captura la invarianza de permutación de los ejemplos. Los resultados experimentales demuestran que ReSyn mejora significativamente la precisión en varios sintetizadores, y su combinación con Set2Regex establece un nuevo estado del arte en benchmarks reales desafiantes. El código fuente completo, los conjuntos de datos y los puntos de control del modelo preentrenado están disponibles públicamente en https://github.com/mrseongminkim/ReSyn.
English
Existing Programming-By-Example (PBE) systems often rely on simplified benchmarks that fail to capture the high structural complexity of real-world regexes, such as deeper nesting and frequent use of union operations. To overcome the resulting performance drop, we propose ReSyn, a synthesizer-agnostic divide-and-conquer framework that decomposes complex synthesis problem into manageable sub-problems. We also introduce Set2Regex, a parameter-efficient synthesizer capturing the permutation invariance of examples. Experimental results demonstrate that ReSyn significantly boosts accuracy across various synthesizers, and its combination with Set2Regex establishes a new state-of-the-art on challenging real-world benchmark. The complete source code, datasets, and pre-trained model checkpoints are publicly available at https://github.com/mrseongminkim/ReSyn.