ChatPaper.aiChatPaper

InfoSynth: Informatiegestuurde Synthese van Benchmarks voor LLM's

InfoSynth: Information-Guided Benchmark Synthesis for LLMs

January 2, 2026
Auteurs: Ishir Garg, Neel Kolhe, Xuandong Zhao, Dawn Song
cs.AI

Samenvatting

Grote taalmodellen (LLM's) hebben aanzienlijke vooruitgang geboekt op het gebied van redeneren en codegeneratie. Het efficiënt creëren van nieuwe benchmarks om deze capaciteiten te evalueren, blijft echter een uitdaging. Traditionele benchmarkcreatie steunt op menselijke handmatige inspanning, een proces dat zowel duur als tijdrovend is. Bovendien verontreinigen bestaande benchmarks vaak de trainingsdata van LLM's, wat de noodzaak voor nieuwe en diverse benchmarks benadrukt om hun werkelijke capaciteiten nauwkeurig te beoordelen. Dit werk introduceert InfoSynth, een nieuw raamwerk voor het automatisch genereren en evalueren van redeneerbenchmarks, geleid door informatie-theoretische principes. Wij stellen metrieken voor op basis van KL-divergentie en entropie om de nieuwheid en diversiteit van benchmarks te kwantificeren zonder afhankelijk te zijn van kostelijke modelevaluaties. Voortbordurend op dit raamwerk ontwikkelen wij een end-to-end pipeline die robuuste Python-codeerproblemen synthetiseert uit startdatasets met behulp van genetische algoritmen en iteratieve codefeedback. Onze methode genereert 97% van de tijd accurate testgevallen en oplossingen voor nieuwe problemen, en de gesynthetiseerde benchmarks vertonen consistent een hogere nieuwheid en diversiteit in vergelijking met hun startdatasets. Bovendien biedt ons algoritme een methode om de nieuwheid/diversiteit en moeilijkheidsgraad van gegenereerde problemen te controleren. InfoSynth biedt een schaalbare, zelfverificerende pipeline voor het construeren van hoogwaardige, nieuwe en diverse benchmarks voor LLM's. Projectpagina: https://ishirgarg.github.io/infosynth_web/
English
Large language models (LLMs) have demonstrated significant advancements in reasoning and code generation. However, efficiently creating new benchmarks to evaluate these capabilities remains a challenge. Traditional benchmark creation relies on manual human effort, a process that is both expensive and time-consuming. Furthermore, existing benchmarks often contaminate LLM training data, necessitating novel and diverse benchmarks to accurately assess their genuine capabilities. This work introduces InfoSynth, a novel framework for automatically generating and evaluating reasoning benchmarks guided by information-theoretic principles. We propose metrics based on KL-divergence and entropy to quantify benchmark novelty and diversity without relying on costly model evaluations. Building on this framework, we develop an end-to-end pipeline that synthesizes robust Python coding problems from seed datasets using genetic algorithms and iterative code feedback. Our method generates accurate test cases and solutions to new problems 97% of the time, and the synthesized benchmarks consistently exhibit higher novelty and diversity compared to their seed datasets. Moreover, our algorithm provides a method for controlling the novelty/diversity and difficulty of generated problems. InfoSynth offers a scalable, self-verifying pipeline for constructing high-quality, novel and diverse benchmarks for LLMs. Project Page: https://ishirgarg.github.io/infosynth_web/
PDF11January 6, 2026