Solvita: Het verbeteren van grote taalmodellen voor competitief programmeren via agentische evolutie

Samenvatting

Grote taalmodellen (LLM's) hebben nog steeds moeite met de strenge redeneerveristen van moeilijk competitief programmeren. Hoewel recente multi-agent frameworks proberen deze betrouwbaarheidskloof te overbruggen, blijven ze fundamenteel staatloos: ze vertrouwen op statische retrieval en verwaarlozen de waardevolle probleemoplossings- en debugervaring die is opgedaan bij eerdere taken. Om dit aan te pakken presenteren we Solvita, een agentisch evolutieraamwerk dat continu leren mogelijk maakt zonder gewichtsupdates aan het onderliggende LLM te vereisen. Solvita herstructureert probleemoplossing in een gesloten-lussysteem van strategie selectie, programmasynthese, gecertificeerde supervisie en gericht hacken, uitgevoerd door vier gespecialiseerde agenten: Planner, Oplosser, Oracle en Hacker. Cruciaal is dat elke agent is gekoppeld aan een trainbaar, grafisch gestructureerd kennissnetwerk. Naarmate het systeem werkt, worden uitkomstsignalen, zoals pass/fail oordelen, de kwaliteit van testcertificering en adversariële kwetsbaarheden ontdekt door de Hacker, omgezet in reinforcement learning-updates van deze netwerkgewichten. Hierdoor kunnen de agenten toekomstige queries dynamisch routeren op basis van eerdere successen en mislukkingen, waardoor ze effectief overdraagbare redeneerervaring in de loop van de tijd accumuleren. Geëvalueerd op CodeContests, APPS, AetherCode en live Codeforces-rondes, vestigt Solvita een nieuwe state-of-the-art voor codegeneratie-agenten, beter presterend dan bestaande multi-agent pipelines en bijna de nauwkeurigheid van single-pass basislijnen verdubbelend.

English

Large language models (LLMs) still struggle with the rigorous reasoning demands of hard competitive programming. While recent multi-agent frameworks attempt to bridge this reliability gap, they remain fundamentally stateless: they rely on static retrieval and discard the valuable problem-solving and debugging experience gained from previous tasks. To address this, we present Solvita, an agentic evolution framework that enables continuous learning without requiring weight updates to the underlying LLM. Solvita reorganizes problem-solving into a closed-loop system of strategy selection, program synthesis, certified supervision, and targeted hacking, executed by four specialized agents: Planner, Solver, Oracle, and Hacker. Crucially, each agent is paired with a trainable, graph-structured knowledge network. As the system operates, outcome signals, such as pass/fail verdicts, test certification quality, and adversarial vulnerabilities discovered by the Hacker, are recast as reinforcement learning updates to these network weights. This allows the agents to dynamically route future queries based on past successes and failures, effectively accumulating transferable reasoning experience over time. Evaluated across CodeContests, APPS, AetherCode, and live Codeforces rounds, Solvita establishes a new state-of-the-art among code-generation agents, outperforming existing multi-agent pipelines and nearly doubling the accuracy of single-pass baselines.