Solvita: Verbesserung großer Sprachmodelle für Competitive Programming durch agentische Evolution
Solvita: Enhancing Large Language Models for Competitive Programming via Agentic Evolution
May 14, 2026
Autoren: Han Li, Jinyu Tian, Rili Feng, Yuqiao Du, Chong Zheng, Chenyu Wang, Chenchen Liu, Shihao Li, Xinping Lei, Yifan Yao, Weihao Xie, Letian Zhu, Jiaheng Liu
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben weiterhin Schwierigkeiten mit den strengen logischen Anforderungen anspruchsvoller Wettbewerbsprogrammierung. Während neuere Multi-Agenten-Frameworks versuchen, diese Zuverlässigkeitslücke zu schließen, bleiben sie grundsätzlich zustandslos: Sie stützen sich auf statischen Abruf und verwerfen die wertvollen Problemlösungs- und Debugging-Erfahrungen aus vorherigen Aufgaben. Um dies zu adressieren, stellen wir Solvita vor, einen agentischen Evolutionsrahmen, der kontinuierliches Lernen ermöglicht, ohne dass Gewichtsaktualisierungen am zugrunde liegenden LLM erforderlich sind. Solvita reorganisiert die Problemlösung in ein geschlossenes System aus Strategieauswahl, Programmsynthese, zertifizierter Überwachung und gezieltem Hacking, das von vier spezialisierten Agenten ausgeführt wird: Planner, Solver, Oracle und Hacker. Entscheidend ist, dass jeder Agent mit einem trainierbaren, graphstrukturierten Wissensnetzwerk gekoppelt ist. Während das System arbeitet, werden Ergebnissignale – wie Bestanden/Nicht bestanden-Urteile, die Qualität der Testzertifizierung und durch den Hacker entdeckte adversarial Schwachstellen – als Aktualisierungen des bestärkenden Lernens auf diese Netzwerkgewichte umgesetzt. Dadurch können die Agenten zukünftige Abfragen basierend auf vergangenen Erfolgen und Misserfolgen dynamisch routen und so im Laufe der Zeit übertragbare Überlegungserfahrungen ansammeln. Bewertet auf CodeContests, APPS, AetherCode und Live-Codeforces-Runden setzt Solvita einen neuen Stand der Technik für Code-generierende Agenten, übertrifft bestehende Multi-Agenten-Pipelines und verdoppelt nahezu die Genauigkeit von Single-Pass-Baselines.
English
Large language models (LLMs) still struggle with the rigorous reasoning demands of hard competitive programming. While recent multi-agent frameworks attempt to bridge this reliability gap, they remain fundamentally stateless: they rely on static retrieval and discard the valuable problem-solving and debugging experience gained from previous tasks. To address this, we present Solvita, an agentic evolution framework that enables continuous learning without requiring weight updates to the underlying LLM. Solvita reorganizes problem-solving into a closed-loop system of strategy selection, program synthesis, certified supervision, and targeted hacking, executed by four specialized agents: Planner, Solver, Oracle, and Hacker. Crucially, each agent is paired with a trainable, graph-structured knowledge network. As the system operates, outcome signals, such as pass/fail verdicts, test certification quality, and adversarial vulnerabilities discovered by the Hacker, are recast as reinforcement learning updates to these network weights. This allows the agents to dynamically route future queries based on past successes and failures, effectively accumulating transferable reasoning experience over time. Evaluated across CodeContests, APPS, AetherCode, and live Codeforces rounds, Solvita establishes a new state-of-the-art among code-generation agents, outperforming existing multi-agent pipelines and nearly doubling the accuracy of single-pass baselines.