ChatPaper.aiChatPaper

ALE-Bench: Um Benchmark para Engenharia de Algoritmos Orientada a Objetivos de Longo Prazo

ALE-Bench: A Benchmark for Long-Horizon Objective-Driven Algorithm Engineering

June 10, 2025
Autores: Yuki Imajuku, Kohki Horie, Yoichi Iwata, Kensho Aoki, Naohiro Takahashi, Takuya Akiba
cs.AI

Resumo

Quão bem os sistemas de IA se saem na engenharia de algoritmos para problemas difíceis de otimização em domínios como roteamento de entregas, escalonamento de equipes, planejamento de produção em fábricas e balanceamento de redes elétricas? Apresentamos o ALE-Bench, um novo benchmark para avaliar sistemas de IA em competições de programação algorítmica baseadas em pontuação. Inspirado em tarefas reais dos AtCoder Heuristic Contests, o ALE-Bench apresenta problemas de otimização que são computacionalmente complexos e não possuem soluções exatas conhecidas. Diferente de benchmarks de codificação de curta duração e com avaliação binária (aprovado/reprovado), o ALE-Bench incentiva o refinamento iterativo de soluções em horizontes temporais longos. Nossa estrutura de software suporta arquiteturas de agentes interativos que aproveitam feedback de testes e visualizações. Nossa avaliação de modelos de linguagem de última geração (LLMs) revelou que, embora demonstrem alto desempenho em problemas específicos, ainda há uma lacuna significativa em comparação com humanos em termos de consistência entre problemas e capacidades de resolução de problemas de longo prazo. Isso destaca a necessidade desse benchmark para impulsionar avanços futuros em IA.
English
How well do AI systems perform in algorithm engineering for hard optimization problems in domains such as package-delivery routing, crew scheduling, factory production planning, and power-grid balancing? We introduce ALE-Bench, a new benchmark for evaluating AI systems on score-based algorithmic programming contests. Drawing on real tasks from the AtCoder Heuristic Contests, ALE-Bench presents optimization problems that are computationally hard and admit no known exact solution. Unlike short-duration, pass/fail coding benchmarks, ALE-Bench encourages iterative solution refinement over long time horizons. Our software framework supports interactive agent architectures that leverage test-run feedback and visualizations. Our evaluation of frontier LLMs revealed that while they demonstrate high performance on specific problems, a notable gap remains compared to humans in terms of consistency across problems and long-horizon problem-solving capabilities. This highlights the need for this benchmark to foster future AI advancements.
PDF72June 17, 2025