EvoSyn: 検証可能な学習のための汎用的進化的データ合成
EvoSyn: Generalizable Evolutionary Data Synthesis for Verifiable Learning
October 20, 2025
著者: He Du, Bowen Li, Aijun Yang, Siyang He, Qipeng Guo, Dacheng Tao
cs.AI
要旨
信頼性が検証可能なデータは、現代の言語モデルにおける能力向上の主要な推進力となっており、検証可能な報酬を用いた安定した強化学習や、数学、コーディング、エージェントタスクにわたる能力を効果的に蒸留することを可能にしている。しかし、一般化可能な合成検証データの構築は、幻覚を起こしやすい生成や、強力な解決策と弱い解決策を区別できない脆弱または些細な検証アーティファクトのため、依然として困難である。既存のアプローチは、ドメイン間で転移しないタスク固有のヒューリスティックや事後フィルタに依存することが多く、検証可能性を評価する原則的で普遍的な評価器を欠いている。本研究では、最小限のシード監視から、問題、多様な候補解決策、および検証アーティファクトを共同で合成し、人間が注釈を付けたチェックと戦略誘導チェックの間の一致を強制する一貫性ベースの評価器を通じて戦略を反復的に発見する、進化的でタスクに依存しない、戦略誘導型の実行可能チェック可能なデータ合成フレームワークを導入する。このパイプラインは、フィルタリングを原則的な合成にアップグレードし、一貫性があり検証可能なトレーニングインスタンスを信頼性高く組み立て、ドメイン固有のルールなしに一般化する。我々の実験は、提案されたアプローチがRLVRおよびモデル蒸留トレーニングパラダイムの両方において有効であることを示している。結果は、我々の合成データを用いたトレーニングが、LiveCodeBenchおよびAgentBench-OSタスクの両方で大幅な改善をもたらすことを示しており、本フレームワークの堅牢な一般化能力を強調している。
English
Reliable verifiable data has become a key driver of capability gains in
modern language models, enabling stable reinforcement learning with verifiable
rewards and effective distillation that transfers competence across math,
coding, and agentic tasks. Yet constructing generalizable synthetic verifiable
data remains difficult due to hallucination-prone generation, and weak or
trivial verification artifacts that fail to separate strong from weak
solutions. Existing approaches often rely on task-specific heuristics or
post-hoc filters that do not transfer across domains and lack a principled,
universal evaluator of verifiability. In this work, we introduce an
evolutionary, task-agnostic, strategy-guided, executably-checkable data
synthesis framework that, from minimal seed supervision, jointly synthesizes
problems, diverse candidate solutions, and verification artifacts, and
iteratively discovers strategies via a consistency-based evaluator that
enforces agreement between human-annotated and strategy-induced checks. This
pipeline upgrades filtering into principled synthesis: it reliably assembles
coherent, verifiable training instances and generalizes without domain-specific
rules. Our experiments demonstrate the effectiveness of the proposed approach
under both RLVR and model distillation training paradigms. The results show
that training with our synthesized data yields significant improvements on both
the LiveCodeBench and AgentBench-OS tasks, highlighting the robust
generalization of our framework.