ChatPaper.aiChatPaper

ReSyn: 일반화된 재귀적 정규 표현식 합성 프레임워크

ReSyn: A Generalized Recursive Regular Expression Synthesis Framework

June 13, 2026
저자: Seongmin Kim, Hyunjoon Cheon, Su-Hyeon Kim, Yo-Sub Han, Sang-Ki Ko
cs.AI

초록

기존의 예제 기반 프로그래밍(PBE) 시스템은 깊은 중첩과 잦은 합집합 연산 등 실제 정규식의 높은 구조적 복잡성을 포착하지 못하는 단순화된 벤치마크에 의존하는 경우가 많다. 이로 인해 발생하는 성능 저하를 극복하기 위해, 우리는 복잡한 합성 문제를 관리 가능한 하위 문제로 분해하는 합성기-비의존적 분할 정복 프레임워크인 ReSyn을 제안한다. 또한, 예제의 순열 불변성을 포착하는 매개변수 효율적인 합성기인 Set2Regex를 도입한다. 실험 결과는 ReSyn이 다양한 합성기 전반에서 정확도를 크게 향상시키며, Set2Regex와의 결합이 까다로운 실제 벤치마크에서 새로운 최첨단 성능을 확립함을 보여준다. 전체 소스 코드, 데이터셋, 사전 훈련된 모델 체크포인트는 https://github.com/mrseongminkim/ReSyn에서 공개적으로 이용 가능하다.
English
Existing Programming-By-Example (PBE) systems often rely on simplified benchmarks that fail to capture the high structural complexity of real-world regexes, such as deeper nesting and frequent use of union operations. To overcome the resulting performance drop, we propose ReSyn, a synthesizer-agnostic divide-and-conquer framework that decomposes complex synthesis problem into manageable sub-problems. We also introduce Set2Regex, a parameter-efficient synthesizer capturing the permutation invariance of examples. Experimental results demonstrate that ReSyn significantly boosts accuracy across various synthesizers, and its combination with Set2Regex establishes a new state-of-the-art on challenging real-world benchmark. The complete source code, datasets, and pre-trained model checkpoints are publicly available at https://github.com/mrseongminkim/ReSyn.