ALE-Bench: Un punto de referencia para la ingeniería de algoritmos orientada a objetivos de largo plazo
ALE-Bench: A Benchmark for Long-Horizon Objective-Driven Algorithm Engineering
June 10, 2025
Autores: Yuki Imajuku, Kohki Horie, Yoichi Iwata, Kensho Aoki, Naohiro Takahashi, Takuya Akiba
cs.AI
Resumen
¿Qué tan bien se desempeñan los sistemas de IA en la ingeniería de algoritmos para problemas de optimización complejos en dominios como la planificación de rutas de entrega de paquetes, la programación de tripulaciones, la planificación de producción en fábricas y el equilibrio de redes eléctricas? Presentamos ALE-Bench, un nuevo punto de referencia para evaluar sistemas de IA en concursos de programación algorítmica basados en puntuación. Basado en tareas reales de los AtCoder Heuristic Contests, ALE-Bench presenta problemas de optimización que son computacionalmente complejos y no admiten soluciones exactas conocidas. A diferencia de los puntos de referencia de codificación de corta duración y de aprobado/reprobado, ALE-Bench fomenta el refinamiento iterativo de soluciones en horizontes temporales prolongados. Nuestro marco de software admite arquitecturas de agentes interactivos que aprovechan la retroalimentación de pruebas de ejecución y visualizaciones. Nuestra evaluación de modelos de lenguaje de última generación (LLMs) reveló que, aunque muestran un alto rendimiento en problemas específicos, persiste una brecha notable en comparación con los humanos en términos de consistencia entre problemas y capacidades de resolución de problemas a largo plazo. Esto subraya la necesidad de este punto de referencia para impulsar futuros avances en IA.
English
How well do AI systems perform in algorithm engineering for hard optimization
problems in domains such as package-delivery routing, crew scheduling, factory
production planning, and power-grid balancing? We introduce ALE-Bench, a new
benchmark for evaluating AI systems on score-based algorithmic programming
contests. Drawing on real tasks from the AtCoder Heuristic Contests, ALE-Bench
presents optimization problems that are computationally hard and admit no known
exact solution. Unlike short-duration, pass/fail coding benchmarks, ALE-Bench
encourages iterative solution refinement over long time horizons. Our software
framework supports interactive agent architectures that leverage test-run
feedback and visualizations. Our evaluation of frontier LLMs revealed that
while they demonstrate high performance on specific problems, a notable gap
remains compared to humans in terms of consistency across problems and
long-horizon problem-solving capabilities. This highlights the need for this
benchmark to foster future AI advancements.