Solvita: Mejorando los modelos de lenguaje grandes para la programación competitiva mediante evolución agéntica

Resumen

Los modelos de lenguaje grandes (LLMs) aún enfrentan dificultades con las exigencias de razonamiento riguroso que impone la programación competitiva compleja. Si bien los marcos multiagente recientes intentan cerrar esta brecha de fiabilidad, siguen siendo fundamentalmente sin estado: dependen de la recuperación estática y descartan la valiosa experiencia de resolución de problemas y depuración adquirida en tareas anteriores. Para abordar esto, presentamos Solvita, un marco de evolución agentivo que permite el aprendizaje continuo sin requerir actualizaciones de pesos en el LLM subyacente. Solvita reorganiza la resolución de problemas en un sistema de bucle cerrado que integra selección de estrategias, síntesis de programas, supervisión certificada y corrección dirigida, ejecutado por cuatro agentes especializados: Planificador, Solucionador, Oráculo y Hacker. De manera crucial, cada agente está emparejado con una red de conocimiento entrenable y estructurada en grafos. A medida que el sistema opera, las señales de resultado —como veredictos de aprobado/fallo, calidad de la certificación de pruebas y vulnerabilidades adversariales descubiertas por el Hacker— se reformulan como actualizaciones de aprendizaje por refuerzo sobre estos pesos de la red. Esto permite a los agentes enrutar dinámicamente consultas futuras basándose en éxitos y fracasos pasados, acumulando efectivamente experiencia de razonamiento transferible a lo largo del tiempo. Evaluado en CodeContests, APPS, AetherCode y rondas en vivo de Codeforces, Solvita establece un nuevo estado del arte entre los agentes generadores de código, superando a los pipelines multiagente existentes y casi duplicando la precisión de las líneas base de un solo paso.

English

Large language models (LLMs) still struggle with the rigorous reasoning demands of hard competitive programming. While recent multi-agent frameworks attempt to bridge this reliability gap, they remain fundamentally stateless: they rely on static retrieval and discard the valuable problem-solving and debugging experience gained from previous tasks. To address this, we present Solvita, an agentic evolution framework that enables continuous learning without requiring weight updates to the underlying LLM. Solvita reorganizes problem-solving into a closed-loop system of strategy selection, program synthesis, certified supervision, and targeted hacking, executed by four specialized agents: Planner, Solver, Oracle, and Hacker. Crucially, each agent is paired with a trainable, graph-structured knowledge network. As the system operates, outcome signals, such as pass/fail verdicts, test certification quality, and adversarial vulnerabilities discovered by the Hacker, are recast as reinforcement learning updates to these network weights. This allows the agents to dynamically route future queries based on past successes and failures, effectively accumulating transferable reasoning experience over time. Evaluated across CodeContests, APPS, AetherCode, and live Codeforces rounds, Solvita establishes a new state-of-the-art among code-generation agents, outperforming existing multi-agent pipelines and nearly doubling the accuracy of single-pass baselines.