Solvita: Aprimorando Modelos de Linguagem de Grande Porte para Programação Competitiva via Evolução Agêntica

Resumo

Grandes modelos de linguagem (LLMs) ainda enfrentam dificuldades com as exigências rigorosas de raciocínio da programação competitiva de alto nível. Embora frameworks multiagentes recentes tentem superar essa lacuna de confiabilidade, eles permanecem fundamentalmente sem estado: dependem de recuperação estática e descartam a valiosa experiência de resolução de problemas e depuração obtida em tarefas anteriores. Para lidar com isso, apresentamos o Solvita, um framework de evolução agentiva que possibilita aprendizado contínuo sem exigir atualizações de peso no LLM subjacente. O Solvita reorganiza a resolução de problemas em um sistema de ciclo fechado composto por seleção de estratégia, síntese de programas, supervisão certificada e hacking direcionado, executado por quatro agentes especializados: Planejador, Solucionador, Oráculo e Hacker. Crucialmente, cada agente é emparelhado com uma rede de conhecimento estruturada em grafo e treinável. Conforme o sistema opera, sinais de resultado — como vereditos de aprovação/reprovação, qualidade da certificação de testes e vulnerabilidades adversárias descobertas pelo Hacker — são reformulados como atualizações de aprendizado por reforço nesses pesos da rede. Isso permite que os agentes roteiem dinamicamente consultas futuras com base em sucessos e falhas passados, acumulando efetivamente experiência de raciocínio transferível ao longo do tempo. Avaliado nos conjuntos CodeContests, APPS, AetherCode e em rodadas ao vivo do Codeforces, o Solvita estabelece um novo estado da arte entre agentes de geração de código, superando pipelines multiagentes existentes e quase dobrando a precisão de linhas de base de passagem única.

English

Large language models (LLMs) still struggle with the rigorous reasoning demands of hard competitive programming. While recent multi-agent frameworks attempt to bridge this reliability gap, they remain fundamentally stateless: they rely on static retrieval and discard the valuable problem-solving and debugging experience gained from previous tasks. To address this, we present Solvita, an agentic evolution framework that enables continuous learning without requiring weight updates to the underlying LLM. Solvita reorganizes problem-solving into a closed-loop system of strategy selection, program synthesis, certified supervision, and targeted hacking, executed by four specialized agents: Planner, Solver, Oracle, and Hacker. Crucially, each agent is paired with a trainable, graph-structured knowledge network. As the system operates, outcome signals, such as pass/fail verdicts, test certification quality, and adversarial vulnerabilities discovered by the Hacker, are recast as reinforcement learning updates to these network weights. This allows the agents to dynamically route future queries based on past successes and failures, effectively accumulating transferable reasoning experience over time. Evaluated across CodeContests, APPS, AetherCode, and live Codeforces rounds, Solvita establishes a new state-of-the-art among code-generation agents, outperforming existing multi-agent pipelines and nearly doubling the accuracy of single-pass baselines.