ALE-Bench : Un benchmark pour l'ingénierie algorithmique orientée objectif à long terme
ALE-Bench: A Benchmark for Long-Horizon Objective-Driven Algorithm Engineering
June 10, 2025
papers.authors: Yuki Imajuku, Kohki Horie, Yoichi Iwata, Kensho Aoki, Naohiro Takahashi, Takuya Akiba
cs.AI
papers.abstract
Dans quelle mesure les systèmes d'IA performent-ils en ingénierie algorithmique pour des problèmes d'optimisation complexes dans des domaines tels que le routage de livraisons de colis, la planification des équipages, la planification de la production en usine et l'équilibrage des réseaux électriques ? Nous présentons ALE-Bench, un nouveau benchmark pour évaluer les systèmes d'IA sur des concours de programmation algorithmique basés sur des scores. S'appuyant sur des tâches réelles issues des AtCoder Heuristic Contests, ALE-Bench propose des problèmes d'optimisation qui sont computationnellement difficiles et n'admettent aucune solution exacte connue. Contrairement aux benchmarks de codage de courte durée avec une évaluation binaire (réussi/échoué), ALE-Bench encourage un affinement itératif des solutions sur de longues périodes. Notre cadre logiciel prend en charge des architectures d'agents interactifs qui exploitent les retours d'exécution de tests et les visualisations. Notre évaluation des modèles de langage de pointe (LLM) a révélé que, bien qu'ils démontrent des performances élevées sur des problèmes spécifiques, un écart notable persiste par rapport aux humains en termes de cohérence entre les problèmes et de capacités de résolution de problèmes sur le long terme. Cela souligne la nécessité de ce benchmark pour stimuler les avancées futures de l'IA.
English
How well do AI systems perform in algorithm engineering for hard optimization
problems in domains such as package-delivery routing, crew scheduling, factory
production planning, and power-grid balancing? We introduce ALE-Bench, a new
benchmark for evaluating AI systems on score-based algorithmic programming
contests. Drawing on real tasks from the AtCoder Heuristic Contests, ALE-Bench
presents optimization problems that are computationally hard and admit no known
exact solution. Unlike short-duration, pass/fail coding benchmarks, ALE-Bench
encourages iterative solution refinement over long time horizons. Our software
framework supports interactive agent architectures that leverage test-run
feedback and visualizations. Our evaluation of frontier LLMs revealed that
while they demonstrate high performance on specific problems, a notable gap
remains compared to humans in terms of consistency across problems and
long-horizon problem-solving capabilities. This highlights the need for this
benchmark to foster future AI advancements.