ChatPaper.aiChatPaper

InfoSynth : Synthèse de benchmarks guidée par l'information pour les LLM

InfoSynth: Information-Guided Benchmark Synthesis for LLMs

January 2, 2026
papers.authors: Ishir Garg, Neel Kolhe, Xuandong Zhao, Dawn Song
cs.AI

papers.abstract

Les grands modèles de langage (LLM) ont démontré des avancées significatives en raisonnement et génération de code. Cependant, la création efficace de nouveaux benchmarks pour évaluer ces capacités reste un défi. L'élaboration traditionnelle de benchmarks repose sur un effort manuel humain, un processus à la fois coûteux et chronophage. De plus, les benchmarks existants contaminent souvent les données d'entraînement des LLM, nécessitant des benchmarks nouveaux et diversifiés pour évaluer avec précision leurs capacités réelles. Ce travail présente InfoSynth, un nouveau cadre pour la génération et l'évaluation automatiques de benchmarks de raisonnement guidés par des principes informationnels. Nous proposons des métriques basées sur la divergence KL et l'entropie pour quantifier la nouveauté et la diversité des benchmarks sans recourir à des évaluations coûteuses des modèles. Sur la base de ce cadre, nous développons un pipeline de bout en bout qui synthétise des problèmes de programmation Python robustes à partir de jeux de données initiaux en utilisant des algorithmes génétiques et une rétroaction itérative du code. Notre méthode génère des cas de test et des solutions précis pour de nouveaux problèmes 97 % du temps, et les benchmarks synthétisés présentent systématiquement une nouveauté et une diversité plus élevées que leurs jeux de données initiaux. De plus, notre algorithme fournit une méthode pour contrôler la nouveauté/diversité et la difficulté des problèmes générés. InfoSynth offre un pipeline évolutif et auto-vérifiant pour construire des benchmarks de haute qualité, nouveaux et diversifiés pour les LLM. Page du projet : https://ishirgarg.github.io/infosynth_web/
English
Large language models (LLMs) have demonstrated significant advancements in reasoning and code generation. However, efficiently creating new benchmarks to evaluate these capabilities remains a challenge. Traditional benchmark creation relies on manual human effort, a process that is both expensive and time-consuming. Furthermore, existing benchmarks often contaminate LLM training data, necessitating novel and diverse benchmarks to accurately assess their genuine capabilities. This work introduces InfoSynth, a novel framework for automatically generating and evaluating reasoning benchmarks guided by information-theoretic principles. We propose metrics based on KL-divergence and entropy to quantify benchmark novelty and diversity without relying on costly model evaluations. Building on this framework, we develop an end-to-end pipeline that synthesizes robust Python coding problems from seed datasets using genetic algorithms and iterative code feedback. Our method generates accurate test cases and solutions to new problems 97% of the time, and the synthesized benchmarks consistently exhibit higher novelty and diversity compared to their seed datasets. Moreover, our algorithm provides a method for controlling the novelty/diversity and difficulty of generated problems. InfoSynth offers a scalable, self-verifying pipeline for constructing high-quality, novel and diverse benchmarks for LLMs. Project Page: https://ishirgarg.github.io/infosynth_web/
PDF11January 6, 2026