InfoSynth: 大規模言語モデルのための情報誘導型ベンチマーク合成
InfoSynth: Information-Guided Benchmark Synthesis for LLMs
January 2, 2026
著者: Ishir Garg, Neel Kolhe, Xuandong Zhao, Dawn Song
cs.AI
要旨
大規模言語モデル(LLM)は、推論とコード生成において著しい進歩を示している。しかし、これらの能力を評価するための新しいベンチマークを効率的に作成することは依然として課題である。従来のベンチマーク作成は人的労力に依存しており、このプロセスは費用と時間を要する。さらに、既存のベンチマークはLLMの学習データを汚染することが多く、真の能力を正確に評価するには新規性と多様性に富んだベンチマークが必要とされる。本研究では、情報理論の原則に基づいて推論ベンチマークを自動生成・評価する新規フレームワーク「InfoSynth」を提案する。我々は、高コストなモデル評価に依存せずにベンチマークの新規性と多様性を定量化するため、KLダイバージェンスとエントロピーに基づく指標を提案する。このフレームワークに基づき、遺伝的アルゴリズムと反復的なコードフィードバックを用いて、シードデータセットから堅牢なPythonコーディング問題を合成するエンドツーエンドのパイプラインを開発する。本手法は、新しい問題に対する正確なテストケースと解答を97%の確率で生成し、合成されたベンチマークはシードデータセットと比較して一貫して高い新規性と多様性を示す。さらに、本アルゴリズムは生成問題の新規性/多様性および難易度を制御する方法を提供する。InfoSynthは、LLM向けに高品質で新規性・多様性に富んだベンチマークを構築するためのスケーラブルで自己検証型のパイプラインを実現する。プロジェクトページ: https://ishirgarg.github.io/infosynth_web/
English
Large language models (LLMs) have demonstrated significant advancements in reasoning and code generation. However, efficiently creating new benchmarks to evaluate these capabilities remains a challenge. Traditional benchmark creation relies on manual human effort, a process that is both expensive and time-consuming. Furthermore, existing benchmarks often contaminate LLM training data, necessitating novel and diverse benchmarks to accurately assess their genuine capabilities. This work introduces InfoSynth, a novel framework for automatically generating and evaluating reasoning benchmarks guided by information-theoretic principles. We propose metrics based on KL-divergence and entropy to quantify benchmark novelty and diversity without relying on costly model evaluations. Building on this framework, we develop an end-to-end pipeline that synthesizes robust Python coding problems from seed datasets using genetic algorithms and iterative code feedback. Our method generates accurate test cases and solutions to new problems 97% of the time, and the synthesized benchmarks consistently exhibit higher novelty and diversity compared to their seed datasets. Moreover, our algorithm provides a method for controlling the novelty/diversity and difficulty of generated problems. InfoSynth offers a scalable, self-verifying pipeline for constructing high-quality, novel and diverse benchmarks for LLMs. Project Page: https://ishirgarg.github.io/infosynth_web/