ISO-Bench: Gli Agenti di Programmazione Possono Ottimizzare i Carichi di Lavoro di Inferenza nel Mondo Reale?

Abstract

Presentiamo ISO-Bench, un benchmark per agenti di programmazione progettato per testare le loro capacità su compiti di ottimizzazione dell'inferenza tratti dal mondo reale. Questi compiti sono stati ricavati da vLLM e SGLang, due dei framework di servizio per LLM più diffusi. Ogni compito fornisce a un agente una codebase e una descrizione di un collo di bottiglia, e l'agente deve produrre una patch di ottimizzazione che viene valutata confrontandola con soluzioni umane esperte. Abbiamo curato 54 compiti provenienti da pull request approvate che mostravano miglioramenti prestazionali misurabili. Mentre i benchmark esistenti utilizzano pesantemente metriche basate sul runtime, tali approcci possono essere manipolati per superare i test senza cogliere la reale intenzione delle modifiche al codice. Pertanto, combiniamo sia metriche hard (basate sull'esecuzione) che soft (basate su LLM) per dimostrare che entrambe sono necessarie per una valutazione completa. Valutando sia agenti di programmazione proprietari che open-source, abbiamo riscontrato che nessun singolo agente domina tra le codebase. Sorprendentemente, gli agenti spesso identificano i colli di bottiglia corretti ma non riescono a implementare soluzioni funzionanti. Dimostriamo inoltre che agenti con modelli sottostanti identici differiscono in modo sostanziale, suggerendo che l'impalcatura sia importante tanto quanto il modello.

English

We introduce ISO-Bench, a benchmark for coding agents to test their capabilities on real-world inference optimization tasks. These tasks were taken from vLLM and SGLang, two of the most popular LLM serving frameworks. Each task provides an agent with a codebase and bottleneck description, whereby the agent must produce an optimization patch evaluated against expert human solutions. We curated 54 tasks from merged pull requests with measurable performance improvements. While existing benchmarks heavily use runtime-based metrics, such approaches can be gamed to pass tests without capturing the actual intent of the code changes. Therefore, we combine both hard (execution-based) and soft (LLM-based) metrics to show that both are necessary for complete evaluation. While evaluating both closed and open-source coding agents, we find no single agent dominates across codebases. Surprisingly, agents often identify correct bottlenecks but fail to execute working solutions. We also show that agents with identical underlying models differ substantially, suggesting scaffolding is as important as the model.

ISO-Bench: Gli Agenti di Programmazione Possono Ottimizzare i Carichi di Lavoro di Inferenza nel Mondo Reale?

ISO-Bench: Can Coding Agents Optimize Real-World Inference Workloads?

Abstract

Support