ISO-Bench: Kunnen Codeer-Agents Real-World Inferentiewerkbelastingen Optimaliseren?

Samenvatting

Wij introduceren ISO-Bench, een benchmark voor codeer-agents om hun capaciteiten te testen op real-world optimalisatietaken voor inference. Deze taken zijn afkomstig uit vLLM en SGLang, twee van de populairste LLM-servingframeworks. Elke taak voorziet een agent van een codebase en een beschrijving van een knelpunt, waarbij de agent een optimalisatiepatch moet produceren die wordt geëvalueerd tegenover expert-oplossingen van mensen. Wij selecteerden 54 taken uit samengevoegde pull-requests met meetbare prestatieverbeteringen. Terwijl bestaande benchmarks zwaar leunen op runtime-gebaseerde metrieken, kunnen dergelijke benaderingen worden gemanipuleerd om tests te doorstaan zonder de werkelijke intentie van de codewijzigingen te vatten. Daarom combineren wij zowel harde (op uitvoering gebaseerde) als zachte (op LLM gebaseerde) metrieken om aan te tonen dat beide noodzakelijk zijn voor een complete evaluatie. Bij het evalueren van zowel closed-source als open-source codeer-agents, stellen wij vast dat geen enkele agent dominant is across codebases. Verrassend genoeg identificeren agents vaak de correcte knelpunten, maar slagen zij er niet in werkende oplossingen uit te voeren. Wij tonen ook aan dat agents met identieke onderliggende modellen aanzienlijk verschillen, wat suggereert dat de scaffolding even belangrijk is als het model zelf.

English

We introduce ISO-Bench, a benchmark for coding agents to test their capabilities on real-world inference optimization tasks. These tasks were taken from vLLM and SGLang, two of the most popular LLM serving frameworks. Each task provides an agent with a codebase and bottleneck description, whereby the agent must produce an optimization patch evaluated against expert human solutions. We curated 54 tasks from merged pull requests with measurable performance improvements. While existing benchmarks heavily use runtime-based metrics, such approaches can be gamed to pass tests without capturing the actual intent of the code changes. Therefore, we combine both hard (execution-based) and soft (LLM-based) metrics to show that both are necessary for complete evaluation. While evaluating both closed and open-source coding agents, we find no single agent dominates across codebases. Surprisingly, agents often identify correct bottlenecks but fail to execute working solutions. We also show that agents with identical underlying models differ substantially, suggesting scaffolding is as important as the model.

ISO-Bench: Kunnen Codeer-Agents Real-World Inferentiewerkbelastingen Optimaliseren?

ISO-Bench: Can Coding Agents Optimize Real-World Inference Workloads?

Samenvatting

Support