InfoSynth: Informationsgesteuerte Benchmark-Synthese für LLMs
InfoSynth: Information-Guided Benchmark Synthesis for LLMs
January 2, 2026
papers.authors: Ishir Garg, Neel Kolhe, Xuandong Zhao, Dawn Song
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) haben bedeutende Fortschritte im Bereich des logischen Schließens und der Code-Generierung gezeigt. Die effiziente Erstellung neuer Benchmarks zur Bewertung dieser Fähigkeiten bleibt jedoch eine Herausforderung. Herkömmliche Benchmark-Erstellung stützt sich auf manuelle menschliche Arbeit, ein Prozess, der sowohl kostspielig als auch zeitaufwändig ist. Darüber hinaus kontaminieren bestehende Benchmarks oft die Trainingsdaten von LLMs, was neue und vielfältige Benchmarks erfordert, um ihre tatsächlichen Fähigkeiten genau zu beurteilen. Diese Arbeit stellt InfoSynth vor, einen neuartigen Rahmen zur automatischen Generierung und Bewertung von Reasoning-Benchmarks, der von informationstheoretischen Prinzipien geleitet wird. Wir schlagen Metriken auf Basis der KL-Divergenz und Entropie vor, um die Neuheit und Vielfalt von Benchmarks zu quantifizieren, ohne auf kostspielige Modellbewertungen angewiesen zu sein. Aufbauend auf diesem Rahmen entwickeln wir eine End-to-End-Pipeline, die mit genetischen Algorithmen und iterativem Code-Feedback robuste Python-Programmieraufgaben aus Ausgangsdatensätzen synthetisiert. Unsere Methode generiert in 97 % der Fälle genaue Testfälle und Lösungen für neue Probleme, und die synthetisierten Benchmarks weisen durchweg eine höhere Neuheit und Vielfalt im Vergleich zu ihren Ausgangsdatensätzen auf. Darüber hinaus bietet unser Algorithmus eine Methode zur Steuerung der Neuheit/Vielfalt und des Schwierigkeitsgrades der generierten Probleme. InfoSynth bietet eine skalierbare, selbstverifizierende Pipeline zur Erstellung hochwertiger, neuartiger und vielfältiger Benchmarks für LLMs. Projektseite: https://ishirgarg.github.io/infosynth_web/
English
Large language models (LLMs) have demonstrated significant advancements in reasoning and code generation. However, efficiently creating new benchmarks to evaluate these capabilities remains a challenge. Traditional benchmark creation relies on manual human effort, a process that is both expensive and time-consuming. Furthermore, existing benchmarks often contaminate LLM training data, necessitating novel and diverse benchmarks to accurately assess their genuine capabilities. This work introduces InfoSynth, a novel framework for automatically generating and evaluating reasoning benchmarks guided by information-theoretic principles. We propose metrics based on KL-divergence and entropy to quantify benchmark novelty and diversity without relying on costly model evaluations. Building on this framework, we develop an end-to-end pipeline that synthesizes robust Python coding problems from seed datasets using genetic algorithms and iterative code feedback. Our method generates accurate test cases and solutions to new problems 97% of the time, and the synthesized benchmarks consistently exhibit higher novelty and diversity compared to their seed datasets. Moreover, our algorithm provides a method for controlling the novelty/diversity and difficulty of generated problems. InfoSynth offers a scalable, self-verifying pipeline for constructing high-quality, novel and diverse benchmarks for LLMs. Project Page: https://ishirgarg.github.io/infosynth_web/