ChatPaper.aiChatPaper

EvoSyn: 검증 가능한 학습을 위한 일반화 가능한 진화적 데이터 합성

EvoSyn: Generalizable Evolutionary Data Synthesis for Verifiable Learning

October 20, 2025
저자: He Du, Bowen Li, Aijun Yang, Siyang He, Qipeng Guo, Dacheng Tao
cs.AI

초록

신뢰할 수 있고 검증 가능한 데이터는 현대 언어 모델의 능력 향상을 위한 핵심 동인으로 자리 잡았으며, 검증 가능한 보상을 통한 안정적인 강화 학습과 수학, 코딩, 에이전트 작업 간의 역량 전달을 가능하게 하는 효과적인 지식 증류를 가능케 합니다. 그러나 일반화 가능한 합성 검증 데이터를 구축하는 것은 환각(halucination)이 발생하기 쉬운 생성 과정과 강력한 솔루션과 약한 솔루션을 구분하지 못하는 취약하거나 사소한 검증 아티팩트로 인해 여전히 어려운 과제입니다. 기존의 접근 방식은 종종 도메인 간에 전달되지 않는 작업별 휴리스틱이나 사후 필터에 의존하며, 검증 가능성을 평가할 수 있는 원칙적이고 보편적인 평가자가 부족합니다. 본 연구에서는 최소한의 시드 감독으로부터 문제, 다양한 후보 솔루션, 검증 아티팩트를 공동으로 합성하고, 인간 주석과 전략 유도 검사 간의 일관성을 강제하는 일관성 기반 평가자를 통해 전략을 반복적으로 발견하는 진화적, 작업-불가지론적, 전략-지도적, 실행 가능한 검사 데이터 합성 프레임워크를 소개합니다. 이 파이프라인은 필터링을 원칙적인 합성으로 업그레이드합니다: 이는 일관적이고 검증 가능한 훈련 인스턴스를 신뢰성 있게 조립하며 도메인별 규칙 없이 일반화합니다. 우리의 실험은 제안된 접근 방식이 RLVR 및 모델 증류 훈련 패러다임 하에서 효과적임을 입증합니다. 결과는 우리가 합성한 데이터로 훈련한 모델이 LiveCodeBench 및 AgentBench-OS 작업에서 상당한 개선을 보여주며, 우리 프레임워크의 강력한 일반화 능력을 강조합니다.
English
Reliable verifiable data has become a key driver of capability gains in modern language models, enabling stable reinforcement learning with verifiable rewards and effective distillation that transfers competence across math, coding, and agentic tasks. Yet constructing generalizable synthetic verifiable data remains difficult due to hallucination-prone generation, and weak or trivial verification artifacts that fail to separate strong from weak solutions. Existing approaches often rely on task-specific heuristics or post-hoc filters that do not transfer across domains and lack a principled, universal evaluator of verifiability. In this work, we introduce an evolutionary, task-agnostic, strategy-guided, executably-checkable data synthesis framework that, from minimal seed supervision, jointly synthesizes problems, diverse candidate solutions, and verification artifacts, and iteratively discovers strategies via a consistency-based evaluator that enforces agreement between human-annotated and strategy-induced checks. This pipeline upgrades filtering into principled synthesis: it reliably assembles coherent, verifiable training instances and generalizes without domain-specific rules. Our experiments demonstrate the effectiveness of the proposed approach under both RLVR and model distillation training paradigms. The results show that training with our synthesized data yields significant improvements on both the LiveCodeBench and AgentBench-OS tasks, highlighting the robust generalization of our framework.
PDF02October 22, 2025