ChatPaper.aiChatPaper

EvoSyn: 検証可能な学習のための汎用的進化的データ合成

EvoSyn: Generalizable Evolutionary Data Synthesis for Verifiable Learning

October 20, 2025
著者: He Du, Bowen Li, Aijun Yang, Siyang He, Qipeng Guo, Dacheng Tao
cs.AI

要旨

信頼性が検証可能なデータは、現代の言語モデルにおける能力向上の主要な推進力となっており、検証可能な報酬を用いた安定した強化学習や、数学、コーディング、エージェントタスクにわたる能力を効果的に蒸留することを可能にしている。しかし、一般化可能な合成検証データの構築は、幻覚を起こしやすい生成や、強力な解決策と弱い解決策を区別できない脆弱または些細な検証アーティファクトのため、依然として困難である。既存のアプローチは、ドメイン間で転移しないタスク固有のヒューリスティックや事後フィルタに依存することが多く、検証可能性を評価する原則的で普遍的な評価器を欠いている。本研究では、最小限のシード監視から、問題、多様な候補解決策、および検証アーティファクトを共同で合成し、人間が注釈を付けたチェックと戦略誘導チェックの間の一致を強制する一貫性ベースの評価器を通じて戦略を反復的に発見する、進化的でタスクに依存しない、戦略誘導型の実行可能チェック可能なデータ合成フレームワークを導入する。このパイプラインは、フィルタリングを原則的な合成にアップグレードし、一貫性があり検証可能なトレーニングインスタンスを信頼性高く組み立て、ドメイン固有のルールなしに一般化する。我々の実験は、提案されたアプローチがRLVRおよびモデル蒸留トレーニングパラダイムの両方において有効であることを示している。結果は、我々の合成データを用いたトレーニングが、LiveCodeBenchおよびAgentBench-OSタスクの両方で大幅な改善をもたらすことを示しており、本フレームワークの堅牢な一般化能力を強調している。
English
Reliable verifiable data has become a key driver of capability gains in modern language models, enabling stable reinforcement learning with verifiable rewards and effective distillation that transfers competence across math, coding, and agentic tasks. Yet constructing generalizable synthetic verifiable data remains difficult due to hallucination-prone generation, and weak or trivial verification artifacts that fail to separate strong from weak solutions. Existing approaches often rely on task-specific heuristics or post-hoc filters that do not transfer across domains and lack a principled, universal evaluator of verifiability. In this work, we introduce an evolutionary, task-agnostic, strategy-guided, executably-checkable data synthesis framework that, from minimal seed supervision, jointly synthesizes problems, diverse candidate solutions, and verification artifacts, and iteratively discovers strategies via a consistency-based evaluator that enforces agreement between human-annotated and strategy-induced checks. This pipeline upgrades filtering into principled synthesis: it reliably assembles coherent, verifiable training instances and generalizes without domain-specific rules. Our experiments demonstrate the effectiveness of the proposed approach under both RLVR and model distillation training paradigms. The results show that training with our synthesized data yields significant improvements on both the LiveCodeBench and AgentBench-OS tasks, highlighting the robust generalization of our framework.
PDF02October 22, 2025