ChatPaper.aiChatPaper

InfoSynth: 정보 기반 벤치마크 합성 기술

InfoSynth: Information-Guided Benchmark Synthesis for LLMs

January 2, 2026
저자: Ishir Garg, Neel Kolhe, Xuandong Zhao, Dawn Song
cs.AI

초록

대규모 언어 모델(LLM)은 추론 및 코드 생성 분야에서 상당한 발전을 보여주고 있습니다. 그러나 이러한 능력을 평가하기 위한 새로운 벤치마크를 효율적으로 구축하는 것은 여전히 과제로 남아 있습니다. 기존 벤치마크 구축은 비용과 시간이 많이 소요되는 수동 인간 노력에 의존합니다. 더욱이 기존 벤치마크는 LLM 학습 데이터를 오염시키는 경우가 많아, 모델의 진정한 능력을 정확히 평가하기 위해 새롭고 다양한 벤치마크가 필요합니다. 본 연구에서는 정보 이론 원칙에 기반하여 추론 벤치마크를 자동으로 생성하고 평가하는 새로운 프레임워크인 InfoSynth를 소개합니다. 우리는 비용이 많이 드는 모델 평가에 의존하지 않고 벤치마크의 참신성과 다양성을 정량화하기 위해 KL-발산과 엔트로피를 기반으로 한 메트릭을 제안합니다. 이 프레임워크를 기반으로 유전자 알고리즘과 반복적인 코드 피드백을 사용하여 시드 데이터셋으로부터 강력한 Python 코딩 문제를 합성하는 종단간 파이프라인을 개발합니다. 우리의 방법은 새로운 문제에 대해 97%의 정확도로 정확한 테스트 케이스와 해결책을 생성하며, 합성된 벤치마크는 시드 데이터셋과 비교하여 지속적으로 더 높은 참신성과 다양성을 나타냅니다. 또한 우리의 알고리즘은 생성된 문제의 참신성/다양성과 난이도를 제어하는 방법을 제공합니다. InfoSynth는 LLM을 위한 고품질의 참신하고 다양한 벤치마크를 구축하기 위한 확장 가능하고 자체 검증 가능한 파이프라인을 제공합니다. 프로젝트 페이지: https://ishirgarg.github.io/infosynth_web/
English
Large language models (LLMs) have demonstrated significant advancements in reasoning and code generation. However, efficiently creating new benchmarks to evaluate these capabilities remains a challenge. Traditional benchmark creation relies on manual human effort, a process that is both expensive and time-consuming. Furthermore, existing benchmarks often contaminate LLM training data, necessitating novel and diverse benchmarks to accurately assess their genuine capabilities. This work introduces InfoSynth, a novel framework for automatically generating and evaluating reasoning benchmarks guided by information-theoretic principles. We propose metrics based on KL-divergence and entropy to quantify benchmark novelty and diversity without relying on costly model evaluations. Building on this framework, we develop an end-to-end pipeline that synthesizes robust Python coding problems from seed datasets using genetic algorithms and iterative code feedback. Our method generates accurate test cases and solutions to new problems 97% of the time, and the synthesized benchmarks consistently exhibit higher novelty and diversity compared to their seed datasets. Moreover, our algorithm provides a method for controlling the novelty/diversity and difficulty of generated problems. InfoSynth offers a scalable, self-verifying pipeline for constructing high-quality, novel and diverse benchmarks for LLMs. Project Page: https://ishirgarg.github.io/infosynth_web/
PDF11January 6, 2026