ALE-Bench : Un benchmark pour l'ingénierie algorithmique orientée objectif à long terme

papers.abstract

Dans quelle mesure les systèmes d'IA performent-ils en ingénierie algorithmique pour des problèmes d'optimisation complexes dans des domaines tels que le routage de livraisons de colis, la planification des équipages, la planification de la production en usine et l'équilibrage des réseaux électriques ? Nous présentons ALE-Bench, un nouveau benchmark pour évaluer les systèmes d'IA sur des concours de programmation algorithmique basés sur des scores. S'appuyant sur des tâches réelles issues des AtCoder Heuristic Contests, ALE-Bench propose des problèmes d'optimisation qui sont computationnellement difficiles et n'admettent aucune solution exacte connue. Contrairement aux benchmarks de codage de courte durée avec une évaluation binaire (réussi/échoué), ALE-Bench encourage un affinement itératif des solutions sur de longues périodes. Notre cadre logiciel prend en charge des architectures d'agents interactifs qui exploitent les retours d'exécution de tests et les visualisations. Notre évaluation des modèles de langage de pointe (LLM) a révélé que, bien qu'ils démontrent des performances élevées sur des problèmes spécifiques, un écart notable persiste par rapport aux humains en termes de cohérence entre les problèmes et de capacités de résolution de problèmes sur le long terme. Cela souligne la nécessité de ce benchmark pour stimuler les avancées futures de l'IA.

English

How well do AI systems perform in algorithm engineering for hard optimization problems in domains such as package-delivery routing, crew scheduling, factory production planning, and power-grid balancing? We introduce ALE-Bench, a new benchmark for evaluating AI systems on score-based algorithmic programming contests. Drawing on real tasks from the AtCoder Heuristic Contests, ALE-Bench presents optimization problems that are computationally hard and admit no known exact solution. Unlike short-duration, pass/fail coding benchmarks, ALE-Bench encourages iterative solution refinement over long time horizons. Our software framework supports interactive agent architectures that leverage test-run feedback and visualizations. Our evaluation of frontier LLMs revealed that while they demonstrate high performance on specific problems, a notable gap remains compared to humans in terms of consistency across problems and long-horizon problem-solving capabilities. This highlights the need for this benchmark to foster future AI advancements.

ALE-Bench : Un benchmark pour l'ingénierie algorithmique orientée objectif à long terme

ALE-Bench: A Benchmark for Long-Horizon Objective-Driven Algorithm Engineering

papers.abstract

Support