ChatPaper.aiChatPaper

ReSyn : un cadre généralisé pour la synthèse récursive d'expressions régulières

ReSyn: A Generalized Recursive Regular Expression Synthesis Framework

June 13, 2026
Auteurs: Seongmin Kim, Hyunjoon Cheon, Su-Hyeon Kim, Yo-Sub Han, Sang-Ki Ko
cs.AI

Résumé

Les systèmes existants de programmation par l'exemple (PBE) reposent souvent sur des bancs d'essai simplifiés qui ne parviennent pas à capturer la grande complexité structurelle des expressions régulières réelles, telles que des imbrications plus profondes et une utilisation fréquente d'opérations d'union. Pour surmonter la baisse de performance qui en résulte, nous proposons ReSyn, un cadre de division et de conquête indépendant du synthétiseur, qui décompose un problème de synthèse complexe en sous-problèmes gérables. Nous introduisons également Set2Regex, un synthétiseur à paramètres efficaces qui capture l'invariance par permutation des exemples. Les résultats expérimentaux montrent que ReSyn améliore considérablement la précision de divers synthétiseurs, et sa combinaison avec Set2Regex établit un nouvel état de l'art sur un banc d'essai réel exigeant. Le code source complet, les jeux de données et les points de contrôle de modèles pré-entraînés sont accessibles au public à l'adresse https://github.com/mrseongminkim/ReSyn.
English
Existing Programming-By-Example (PBE) systems often rely on simplified benchmarks that fail to capture the high structural complexity of real-world regexes, such as deeper nesting and frequent use of union operations. To overcome the resulting performance drop, we propose ReSyn, a synthesizer-agnostic divide-and-conquer framework that decomposes complex synthesis problem into manageable sub-problems. We also introduce Set2Regex, a parameter-efficient synthesizer capturing the permutation invariance of examples. Experimental results demonstrate that ReSyn significantly boosts accuracy across various synthesizers, and its combination with Set2Regex establishes a new state-of-the-art on challenging real-world benchmark. The complete source code, datasets, and pre-trained model checkpoints are publicly available at https://github.com/mrseongminkim/ReSyn.