ReSyn: 汎用的な再帰的正規表現合成フレームワーク
ReSyn: A Generalized Recursive Regular Expression Synthesis Framework
June 13, 2026
著者: Seongmin Kim, Hyunjoon Cheon, Su-Hyeon Kim, Yo-Sub Han, Sang-Ki Ko
cs.AI
要旨
既存のProgramming-By-Example(PBE)システムは、複雑な入れ子構造や和集合演算の頻繁な使用など、現実世界の正規表現が持つ高い構造的複雑性を捉えきれていない単純化されたベンチマークに依存することが多い。この結果生じる性能低下を克服するため、我々はReSynを提案する。ReSynは、合成器に依存しない分割統治フレームワークであり、複雑な合成問題を管理可能な部分問題に分解する。また、例の置換不変性を捉えるパラメータ効率的な合成器Set2Regexを導入する。実験結果は、ReSynが様々な合成器にわたって精度を大幅に向上させること、そしてSet2Regexとの組み合わせにより、困難な現実世界ベンチマークにおいて新たな最先端を達成することを示している。完全なソースコード、データセット、および事前学習済みモデルのチェックポイントは、https://github.com/mrseongminkim/ReSyn で公開されている。
English
Existing Programming-By-Example (PBE) systems often rely on simplified benchmarks that fail to capture the high structural complexity of real-world regexes, such as deeper nesting and frequent use of union operations. To overcome the resulting performance drop, we propose ReSyn, a synthesizer-agnostic divide-and-conquer framework that decomposes complex synthesis problem into manageable sub-problems. We also introduce Set2Regex, a parameter-efficient synthesizer capturing the permutation invariance of examples. Experimental results demonstrate that ReSyn significantly boosts accuracy across various synthesizers, and its combination with Set2Regex establishes a new state-of-the-art on challenging real-world benchmark. The complete source code, datasets, and pre-trained model checkpoints are publicly available at https://github.com/mrseongminkim/ReSyn.