Solvita: улучшение больших языковых моделей для спортивного программирования с помощью агентной эволюции

Аннотация

Большие языковые модели (LLM) по-прежнему испытывают трудности с решением задач, требующих строгих рассуждений, в условиях сложных соревнований по программированию. Хотя недавние мультиагентные фреймворки пытаются устранить этот пробел в надежности, они остаются по сути апамятными, т.е. без сохранения состояния: они полагаются на статический поиск и теряют ценный опыт решения задач и отладки, полученный при выполнении предыдущих заданий. Для решения этой проблемы мы предлагаем Solvita — агентную эволюционную систему, обеспечивающую непрерывное обучение без необходимости обновления весов базовой LLM. Solvita перестраивает процесс решения задач в замкнутую систему, состоящую из выбора стратегии, синтеза программы, сертифицированного обучения и целенаправленного поиска уязвимостей, выполняемых четырьмя специализированными агентами: Планировщиком, Решателем, Оракулом и Хакером. Ключевая особенность заключается в том, что каждый агент снабжен обучаемой графовой сетью знаний. По мере работы системы сигналы о результатах, такие как вердикты "пройдено/не пройдено", качество сертификации тестов и уязвимости, обнаруженные Хакером в ходе состязательных атак, преобразуются в обновления весов этой сети по принципу обучения с подкреплением. Это позволяет агентам динамически направлять будущие запросы, опираясь на прошлые успехи и неудачи, тем самым накапливая переносимый опыт рассуждений с течением времени. В ходе оценки на наборах данных CodeContests, APPS, AetherCode и в живых раундах Codeforces система Solvita устанавливает новый передовой уровень среди агентов генерации кода, превосходя существующие мультиагентные конвейеры и почти вдвое повышая точность по сравнению с базовыми моделями однопроходного вывода.

English

Large language models (LLMs) still struggle with the rigorous reasoning demands of hard competitive programming. While recent multi-agent frameworks attempt to bridge this reliability gap, they remain fundamentally stateless: they rely on static retrieval and discard the valuable problem-solving and debugging experience gained from previous tasks. To address this, we present Solvita, an agentic evolution framework that enables continuous learning without requiring weight updates to the underlying LLM. Solvita reorganizes problem-solving into a closed-loop system of strategy selection, program synthesis, certified supervision, and targeted hacking, executed by four specialized agents: Planner, Solver, Oracle, and Hacker. Crucially, each agent is paired with a trainable, graph-structured knowledge network. As the system operates, outcome signals, such as pass/fail verdicts, test certification quality, and adversarial vulnerabilities discovered by the Hacker, are recast as reinforcement learning updates to these network weights. This allows the agents to dynamically route future queries based on past successes and failures, effectively accumulating transferable reasoning experience over time. Evaluated across CodeContests, APPS, AetherCode, and live Codeforces rounds, Solvita establishes a new state-of-the-art among code-generation agents, outperforming existing multi-agent pipelines and nearly doubling the accuracy of single-pass baselines.