Solvita : Amélioration des grands modèles de langage pour la programmation compétitive par évolution agentique

Résumé

Les modèles de langage de grande taille (LLMs) peinent encore face aux exigences de raisonnement rigoureux des problèmes de programmation compétitive difficile. Bien que des cadres multi-agents récents tentent de combler ce fossé de fiabilité, ils restent fondamentalement sans état : ils s'appuient sur une récupération statique et négligent l'expérience précieuse de résolution de problèmes et de débogage acquise lors de tâches antérieures. Pour y remédier, nous présentons Solvita, un cadre d'évolution agentique qui permet un apprentissage continu sans nécessiter de mise à jour des poids du LLM sous-jacent. Solvita réorganise la résolution de problèmes en un système en boucle fermée comprenant la sélection de stratégies, la synthèse de programmes, la supervision certifiée et le ciblage de vulnérabilités, exécuté par quatre agents spécialisés : Planificateur, Solveur, Oracle et Pirate. Fondamentalement, chaque agent est associé à un réseau de connaissances structuré en graphe et entraînable. À mesure que le système fonctionne, les signaux de résultat, tels que les verdicts de succès/échec, la qualité de la certification des tests et les vulnérabilités adverses découvertes par le Pirate, sont reformulés en mises à jour d'apprentissage par renforcement de ces poids de réseau. Cela permet aux agents d'orienter dynamiquement les requêtes futures en fonction des succès et échecs passés, accumulant ainsi efficacement une expérience de raisonnement transférable au fil du temps. Évalué sur CodeContests, APPS, AetherCode et des tours live de Codeforces, Solvita établit un nouvel état de l'art parmi les agents de génération de code, surpassant les pipelines multi-agents existants et doublant presque la précision des références à passage unique.

English

Large language models (LLMs) still struggle with the rigorous reasoning demands of hard competitive programming. While recent multi-agent frameworks attempt to bridge this reliability gap, they remain fundamentally stateless: they rely on static retrieval and discard the valuable problem-solving and debugging experience gained from previous tasks. To address this, we present Solvita, an agentic evolution framework that enables continuous learning without requiring weight updates to the underlying LLM. Solvita reorganizes problem-solving into a closed-loop system of strategy selection, program synthesis, certified supervision, and targeted hacking, executed by four specialized agents: Planner, Solver, Oracle, and Hacker. Crucially, each agent is paired with a trainable, graph-structured knowledge network. As the system operates, outcome signals, such as pass/fail verdicts, test certification quality, and adversarial vulnerabilities discovered by the Hacker, are recast as reinforcement learning updates to these network weights. This allows the agents to dynamically route future queries based on past successes and failures, effectively accumulating transferable reasoning experience over time. Evaluated across CodeContests, APPS, AetherCode, and live Codeforces rounds, Solvita establishes a new state-of-the-art among code-generation agents, outperforming existing multi-agent pipelines and nearly doubling the accuracy of single-pass baselines.