ChatPaper.aiChatPaper

EvoSyn : Synthèse de données évolutives généralisables pour un apprentissage vérifiable

EvoSyn: Generalizable Evolutionary Data Synthesis for Verifiable Learning

October 20, 2025
papers.authors: He Du, Bowen Li, Aijun Yang, Siyang He, Qipeng Guo, Dacheng Tao
cs.AI

papers.abstract

Les données fiables et vérifiables sont devenues un facteur clé des gains de capacités dans les modèles de langage modernes, permettant un apprentissage par renforcement stable avec des récompenses vérifiables et une distillation efficace qui transfère les compétences à travers les tâches mathématiques, de codage et agentielles. Cependant, la construction de données synthétiques vérifiables et généralisables reste difficile en raison de la génération sujette à des hallucinations, et des artefacts de vérification faibles ou triviaux qui ne parviennent pas à distinguer les solutions solides des solutions faibles. Les approches existantes reposent souvent sur des heuristiques spécifiques à la tâche ou des filtres post-hoc qui ne se transfèrent pas entre les domaines et manquent d'un évaluateur universel et fondé sur des principes de la vérifiabilité. Dans ce travail, nous introduisons un cadre de synthèse de données évolutif, indépendant de la tâche, guidé par des stratégies et vérifiable par exécution qui, à partir d'une supervision minimale initiale, synthétise conjointement des problèmes, des solutions candidates diversifiées et des artefacts de vérification, et découvre itérativement des stratégies via un évaluateur basé sur la cohérence qui impose un accord entre les vérifications annotées par l'homme et celles induites par la stratégie. Ce pipeline transforme le filtrage en une synthèse fondée sur des principes : il assemble de manière fiable des instances d'entraînement cohérentes et vérifiables et généralise sans règles spécifiques au domaine. Nos expériences démontrent l'efficacité de l'approche proposée sous les paradigmes d'entraînement RLVR et de distillation de modèles. Les résultats montrent que l'entraînement avec nos données synthétisées apporte des améliorations significatives sur les tâches LiveCodeBench et AgentBench-OS, mettant en évidence la robuste généralisation de notre cadre.
English
Reliable verifiable data has become a key driver of capability gains in modern language models, enabling stable reinforcement learning with verifiable rewards and effective distillation that transfers competence across math, coding, and agentic tasks. Yet constructing generalizable synthetic verifiable data remains difficult due to hallucination-prone generation, and weak or trivial verification artifacts that fail to separate strong from weak solutions. Existing approaches often rely on task-specific heuristics or post-hoc filters that do not transfer across domains and lack a principled, universal evaluator of verifiability. In this work, we introduce an evolutionary, task-agnostic, strategy-guided, executably-checkable data synthesis framework that, from minimal seed supervision, jointly synthesizes problems, diverse candidate solutions, and verification artifacts, and iteratively discovers strategies via a consistency-based evaluator that enforces agreement between human-annotated and strategy-induced checks. This pipeline upgrades filtering into principled synthesis: it reliably assembles coherent, verifiable training instances and generalizes without domain-specific rules. Our experiments demonstrate the effectiveness of the proposed approach under both RLVR and model distillation training paradigms. The results show that training with our synthesized data yields significant improvements on both the LiveCodeBench and AgentBench-OS tasks, highlighting the robust generalization of our framework.
PDF02October 22, 2025