ChatPaper.aiChatPaper

Solvita: 에이전틱 진화를 통한 경쟁 프로그래밍용 대규모 언어 모델 향상

Solvita: Enhancing Large Language Models for Competitive Programming via Agentic Evolution

May 14, 2026
저자: Han Li, Jinyu Tian, Rili Feng, Yuqiao Du, Chong Zheng, Chenyu Wang, Chenchen Liu, Shihao Li, Xinping Lei, Yifan Yao, Weihao Xie, Letian Zhu, Jiaheng Liu
cs.AI

초록

대규모 언어 모델(LLM)은 여전히 어려운 경쟁적 프로그래밍에서 요구되는 엄격한 추론 능력에 어려움을 겪고 있다. 최근의 다중 에이전트 프레임워크는 이러한 신뢰성 격차를 해소하려 시도하지만, 근본적으로 상태 비저장(stateless) 방식을 유지한다. 즉, 정적 검색에 의존하며 이전 작업에서 얻은 귀중한 문제 해결 및 디버깅 경험을 폐기한다. 이 문제를 해결하기 위해, 우리는 기본 LLM의 가중치 업데이트 없이도 연속 학습을 가능하게 하는 에이전트 기반 진화 프레임워크인 Solvita를 제안한다. Solvita는 문제 해결을 네 가지 특화된 에이전트(Planner, Solver, Oracle, Hacker)가 수행하는 전략 선택, 프로그램 합성, 인증된 감독, 표적 해킹의 폐루프 시스템으로 재구성한다. 핵심적으로, 각 에이전트는 학습 가능한 그래프 구조의 지식 네트워크와 연결된다. 시스템이 작동함에 따라 통과/실패 판정, 테스트 인증 품질, Hacker가 발견한 적대적 취약점과 같은 결과 신호는 이러한 네트워크 가중치에 대한 강화 학습 업데이트로 변환된다. 이를 통해 에이전트는 과거의 성공과 실패를 바탕으로 향후 쿼리를 동적으로 라우팅할 수 있으며, 시간이 지남에 따라 전이 가능한 추론 경험을 효과적으로 축적한다. CodeContests, APPS, AetherCode 및 실시간 Codeforces 라운드에서 평가된 Solvita는 코드 생성 에이전트 중 새로운 최첨단 성능을 수립하며, 기존 다중 에이전트 파이프라인을 능가하고 단일 패스 기준선의 정확도를 거의 두 배로 향상시켰다.
English
Large language models (LLMs) still struggle with the rigorous reasoning demands of hard competitive programming. While recent multi-agent frameworks attempt to bridge this reliability gap, they remain fundamentally stateless: they rely on static retrieval and discard the valuable problem-solving and debugging experience gained from previous tasks. To address this, we present Solvita, an agentic evolution framework that enables continuous learning without requiring weight updates to the underlying LLM. Solvita reorganizes problem-solving into a closed-loop system of strategy selection, program synthesis, certified supervision, and targeted hacking, executed by four specialized agents: Planner, Solver, Oracle, and Hacker. Crucially, each agent is paired with a trainable, graph-structured knowledge network. As the system operates, outcome signals, such as pass/fail verdicts, test certification quality, and adversarial vulnerabilities discovered by the Hacker, are recast as reinforcement learning updates to these network weights. This allows the agents to dynamically route future queries based on past successes and failures, effectively accumulating transferable reasoning experience over time. Evaluated across CodeContests, APPS, AetherCode, and live Codeforces rounds, Solvita establishes a new state-of-the-art among code-generation agents, outperforming existing multi-agent pipelines and nearly doubling the accuracy of single-pass baselines.