Benchmark alles overal tegelijk

Samenvatting

Benchmarks zijn fundamenteel voor het evalueren en verbeteren van LLM's en MLLM's door gestandaardiseerde en expliciete prestatiemetingen te bieden. Hun constructie is echter arbeidsintensief en moeilijk herbruikbaar, wat zorgen oproept over duurzaamheid en schaalbaarheid. Bovendien raken bestaande benchmarks vaak snel verzadigd na hun release, wat leidt tot onvoldoende discriminatie tussen state-of-the-art modellen. Om deze uitdagingen aan te pakken, introduceren we Benchmark Agent, een volledig autonoom agentsysteem ontworpen voor het bouwen van benchmarks. Ons raamwerk orkestreert de volledige benchmarkconstructiepijplijn, van gebruikersvraaganalyse en subtakenontwerp tot data-annotatie en kwaliteitscontrole. Om Benchmark Agent te evalueren, implementeren we het om 15 representatieve benchmarks te produceren, die diverse evaluatiescenario's bestrijken, waaronder tekstbegrip, multimodaal begrip en domeinspecifiek redeneren. Uitgebreide experimenten, waaronder menselijke evaluatie, LLM-as-a-judge-beoordeling en consistentiecontroles, tonen aan dat Benchmark Agent hoogwaardige benchmarkvoorbeelden kan genereren met minimale menselijke betrokkenheid. Belangrijker nog, door voortdurende evaluatie observeren we verschillende inzichtelijke bevindingen, waaronder dat huidige modellen moeite hebben met bepaalde domeinspecifieke redeneertaken. We geloven dat snel evoluerende benchmarks een belangrijke bijdrage kunnen leveren aan de onderzoeksgemeenschap. De preview en code zullen openbaar beschikbaar worden gesteld op de demo-pagina en coderepository.

English

Benchmarks are fundamental for evaluating and advancing LLMs and MLLMs by providing standardized and explicit measures of performance. However, their construction is labor-intensive and hard to reuse, raising concerns about sustainability and scalability. Moreover, existing benchmarks often quickly reach performance saturation after their release, resulting in insufficient discrimination among state-of-the-art models. To address these challenges, we introduce Benchmark Agent, a fully autonomous agentic system designed for benchmark building. Our framework orchestrates the complete benchmark construction pipeline, from user query analysis and subtask design to data annotation and quality control. To assess Benchmark Agent, we implement it to produce 15 representative benchmarks, spanning diverse evaluation scenarios, including text understanding, multimodal understanding, and domain-specific reasoning. Extensive experiments, including human evaluation, LLM-as-a-judge assessment, and consistency checks, demonstrate Benchmark Agent can generate high-quality benchmark samples with minimal human involvement. More importantly, through continual evaluation, we observe several insightful findings, including that current models struggle with certain domain-specific reasoning tasks. We believe that rapidly evolving benchmarks can contribute significantly to the research community. The preview and code will be publicly available at the demo page and code repository.