ALE-Bench: Um Benchmark para Engenharia de Algoritmos Orientada a Objetivos de Longo Prazo
ALE-Bench: A Benchmark for Long-Horizon Objective-Driven Algorithm Engineering
June 10, 2025
Autores: Yuki Imajuku, Kohki Horie, Yoichi Iwata, Kensho Aoki, Naohiro Takahashi, Takuya Akiba
cs.AI
Resumo
Quão bem os sistemas de IA se saem na engenharia de algoritmos para problemas difíceis de otimização em domínios como roteamento de entregas, escalonamento de equipes, planejamento de produção em fábricas e balanceamento de redes elétricas? Apresentamos o ALE-Bench, um novo benchmark para avaliar sistemas de IA em competições de programação algorítmica baseadas em pontuação. Inspirado em tarefas reais dos AtCoder Heuristic Contests, o ALE-Bench apresenta problemas de otimização que são computacionalmente complexos e não possuem soluções exatas conhecidas. Diferente de benchmarks de codificação de curta duração e com avaliação binária (aprovado/reprovado), o ALE-Bench incentiva o refinamento iterativo de soluções em horizontes temporais longos. Nossa estrutura de software suporta arquiteturas de agentes interativos que aproveitam feedback de testes e visualizações. Nossa avaliação de modelos de linguagem de última geração (LLMs) revelou que, embora demonstrem alto desempenho em problemas específicos, ainda há uma lacuna significativa em comparação com humanos em termos de consistência entre problemas e capacidades de resolução de problemas de longo prazo. Isso destaca a necessidade desse benchmark para impulsionar avanços futuros em IA.
English
How well do AI systems perform in algorithm engineering for hard optimization
problems in domains such as package-delivery routing, crew scheduling, factory
production planning, and power-grid balancing? We introduce ALE-Bench, a new
benchmark for evaluating AI systems on score-based algorithmic programming
contests. Drawing on real tasks from the AtCoder Heuristic Contests, ALE-Bench
presents optimization problems that are computationally hard and admit no known
exact solution. Unlike short-duration, pass/fail coding benchmarks, ALE-Bench
encourages iterative solution refinement over long time horizons. Our software
framework supports interactive agent architectures that leverage test-run
feedback and visualizations. Our evaluation of frontier LLMs revealed that
while they demonstrate high performance on specific problems, a notable gap
remains compared to humans in terms of consistency across problems and
long-horizon problem-solving capabilities. This highlights the need for this
benchmark to foster future AI advancements.