InfoSynth: Синтез эталонных тестов на основе информации для больших языковых моделей
InfoSynth: Information-Guided Benchmark Synthesis for LLMs
January 2, 2026
Авторы: Ishir Garg, Neel Kolhe, Xuandong Zhao, Dawn Song
cs.AI
Аннотация
Крупные языковые модели (LLМ) продемонстрировали значительный прогресс в области логического мышления и генерации кода. Однако эффективное создание новых тестовых наборов для оценки этих способностей остается сложной задачей. Традиционное создание тестовых наборов опирается на ручной человеческий труд — процесс, который является дорогостоящим и трудоемким. Кроме того, существующие тестовые наборы часто загрязняют данные для обучения LLМ, что требует создания новых и разнообразных тестов для точной оценки их подлинных возможностей. В данной работе представлен InfoSynth — новый фреймворк для автоматической генерации и оценки тестовых наборов на логическое мышление, основанный на принципах теории информации. Мы предлагаем метрики на основе KL-дивергенции и энтропии для количественной оценки новизны и разнообразия тестовых наборов без необходимости проведения дорогостоящих оценок моделей. На основе этого фреймворка мы разрабатываем сквозной конвейер, который синтезирует надежные задачи по программированию на Python из исходных наборов данных с использованием генетических алгоритмов и итеративной обратной связи по коду. Наш метод генерирует точные тестовые случаи и решения для новых задач в 97% случаев, а синтезированные тестовые наборы последовательно демонстрируют более высокую новизну и разнообразие по сравнению с исходными наборами данных. Более того, наш алгоритм предоставляет метод контроля новизны/разнообразия и сложности генерируемых задач. InfoSynth предлагает масштабируемый, самопроверяющийся конвейер для построения высококачественных, новых и разнообразных тестовых наборов для LLМ. Страница проекта: https://ishirgarg.github.io/infosynth_web/
English
Large language models (LLMs) have demonstrated significant advancements in reasoning and code generation. However, efficiently creating new benchmarks to evaluate these capabilities remains a challenge. Traditional benchmark creation relies on manual human effort, a process that is both expensive and time-consuming. Furthermore, existing benchmarks often contaminate LLM training data, necessitating novel and diverse benchmarks to accurately assess their genuine capabilities. This work introduces InfoSynth, a novel framework for automatically generating and evaluating reasoning benchmarks guided by information-theoretic principles. We propose metrics based on KL-divergence and entropy to quantify benchmark novelty and diversity without relying on costly model evaluations. Building on this framework, we develop an end-to-end pipeline that synthesizes robust Python coding problems from seed datasets using genetic algorithms and iterative code feedback. Our method generates accurate test cases and solutions to new problems 97% of the time, and the synthesized benchmarks consistently exhibit higher novelty and diversity compared to their seed datasets. Moreover, our algorithm provides a method for controlling the novelty/diversity and difficulty of generated problems. InfoSynth offers a scalable, self-verifying pipeline for constructing high-quality, novel and diverse benchmarks for LLMs. Project Page: https://ishirgarg.github.io/infosynth_web/