ReSyn: Ein verallgemeinertes rekursives Framework zur Synthese regulärer Ausdrücke
ReSyn: A Generalized Recursive Regular Expression Synthesis Framework
June 13, 2026
Autoren: Seongmin Kim, Hyunjoon Cheon, Su-Hyeon Kim, Yo-Sub Han, Sang-Ki Ko
cs.AI
Zusammenfassung
Bestehende PBE-Systeme (Programming-by-Example) basieren oft auf vereinfachten Benchmarks, die die hohe strukturelle Komplexität realer regulärer Ausdrücke – wie tiefere Verschachtelung und häufige Verwendung von Vereinigungsoperationen – nicht erfassen. Um den daraus resultierenden Leistungsabfall zu überwinden, schlagen wir ReSyn vor, ein synthesizer-unabhängiges Divide-and-Conquer-Rahmenwerk, das komplexe Syntheseprobleme in handhabbare Teilprobleme zerlegt. Wir führen außerdem Set2Regex ein, einen parametereffizienten Synthesizer, der die Permutationsinvarianz von Beispielen nutzt. Die experimentellen Ergebnisse zeigen, dass ReSyn die Genauigkeit verschiedener Synthesizer erheblich steigert und seine Kombination mit Set2Regex einen neuen State-of-the-Art auf anspruchsvollen realen Benchmarks etabliert. Der vollständige Quellcode, die Datensätze und die vortrainierten Modell-Checkpoints sind öffentlich unter https://github.com/mrseongminkim/ReSyn verfügbar.
English
Existing Programming-By-Example (PBE) systems often rely on simplified benchmarks that fail to capture the high structural complexity of real-world regexes, such as deeper nesting and frequent use of union operations. To overcome the resulting performance drop, we propose ReSyn, a synthesizer-agnostic divide-and-conquer framework that decomposes complex synthesis problem into manageable sub-problems. We also introduce Set2Regex, a parameter-efficient synthesizer capturing the permutation invariance of examples. Experimental results demonstrate that ReSyn significantly boosts accuracy across various synthesizers, and its combination with Set2Regex establishes a new state-of-the-art on challenging real-world benchmark. The complete source code, datasets, and pre-trained model checkpoints are publicly available at https://github.com/mrseongminkim/ReSyn.