InfoSynth: Síntese de Benchmark Orientada por Informação para LLMs

Resumo

Os grandes modelos de linguagem (LLMs) demonstraram avanços significativos em raciocínio e geração de código. No entanto, a criação eficiente de novos benchmarks para avaliar essas capacidades continua a ser um desafio. A criação tradicional de benchmarks depende do esforço humano manual, um processo dispendioso e demorado. Além disso, os benchmarks existentes frequentemente contaminam os dados de treinamento dos LLMs, exigindo benchmarks novos e diversificados para avaliar com precisão suas capacidades genuínas. Este trabalho introduz o InfoSynth, uma estrutura inovadora para gerar e avaliar automaticamente benchmarks de raciocínio guiada por princípios da teoria da informação. Propomos métricas baseadas em divergência KL e entropia para quantificar a novidade e diversidade dos benchmarks sem depender de avaliações dispendiosas de modelos. Com base nesta estrutura, desenvolvemos um pipeline de ponta a ponta que sintetiza problemas robustos de programação em Python a partir de conjuntos de dados iniciais usando algoritmos genéticos e feedback iterativo de código. Nosso método gera casos de teste e soluções precisos para novos problemas em 97% das vezes, e os benchmarks sintetizados exibem consistentemente maior novidade e diversidade em comparação com seus conjuntos de dados iniciais. Além disso, nosso algoritmo fornece um método para controlar a novidade/diversidade e dificuldade dos problemas gerados. O InfoSynth oferece um pipeline escalável e auto-verificável para construir benchmarks de alta qualidade, novos e diversificados para LLMs. Página do Projeto: https://ishirgarg.github.io/infosynth_web/

English

Large language models (LLMs) have demonstrated significant advancements in reasoning and code generation. However, efficiently creating new benchmarks to evaluate these capabilities remains a challenge. Traditional benchmark creation relies on manual human effort, a process that is both expensive and time-consuming. Furthermore, existing benchmarks often contaminate LLM training data, necessitating novel and diverse benchmarks to accurately assess their genuine capabilities. This work introduces InfoSynth, a novel framework for automatically generating and evaluating reasoning benchmarks guided by information-theoretic principles. We propose metrics based on KL-divergence and entropy to quantify benchmark novelty and diversity without relying on costly model evaluations. Building on this framework, we develop an end-to-end pipeline that synthesizes robust Python coding problems from seed datasets using genetic algorithms and iterative code feedback. Our method generates accurate test cases and solutions to new problems 97% of the time, and the synthesized benchmarks consistently exhibit higher novelty and diversity compared to their seed datasets. Moreover, our algorithm provides a method for controlling the novelty/diversity and difficulty of generated problems. InfoSynth offers a scalable, self-verifying pipeline for constructing high-quality, novel and diverse benchmarks for LLMs. Project Page: https://ishirgarg.github.io/infosynth_web/

InfoSynth: Síntese de Benchmark Orientada por Informação para LLMs

InfoSynth: Information-Guided Benchmark Synthesis for LLMs

Resumo

Support