InfoSynth: Síntesis de Puntos de Referencia Guiada por Información para LLM
InfoSynth: Information-Guided Benchmark Synthesis for LLMs
January 2, 2026
Autores: Ishir Garg, Neel Kolhe, Xuandong Zhao, Dawn Song
cs.AI
Resumen
Los modelos de lenguaje grandes (LLMs) han demostrado avances significativos en razonamiento y generación de código. Sin embargo, crear nuevos puntos de referencia de manera eficiente para evaluar estas capacidades sigue siendo un desafío. La creación tradicional de puntos de referencia depende del esfuerzo humano manual, un proceso que resulta costoso y requiere mucho tiempo. Además, los puntos de referencia existentes a menudo contaminan los datos de entrenamiento de los LLMs, lo que hace necesario disponer de puntos de referencia novedosos y diversos para evaluar con precisión sus capacidades genuinas. Este trabajo presenta InfoSynth, un marco novedoso para generar y evaluar automáticamente puntos de referencia de razonamiento guiado por principios de teoría de la información. Proponemos métricas basadas en la divergencia KL y la entropía para cuantificar la novedad y diversidad de los puntos de referencia sin depender de costosas evaluaciones de modelos. Sobre la base de este marco, desarrollamos un pipeline integral que sintetiza problemas robustos de programación en Python a partir de conjuntos de datos semilla utilizando algoritmos genéticos y retroalimentación iterativa de código. Nuestro método genera casos de prueba y soluciones precisos para nuevos problemas el 97% de las veces, y los puntos de referencia sintetizados exhiben consistentemente una mayor novedad y diversidad en comparación con sus conjuntos de datos semilla. Además, nuestro algoritmo proporciona un método para controlar la novedad/diversidad y la dificultad de los problemas generados. InfoSynth ofrece un pipeline escalable y auto-verificable para construir puntos de referencia de alta calidad, novedosos y diversos para LLMs. Página del proyecto: https://ishirgarg.github.io/infosynth_web/
English
Large language models (LLMs) have demonstrated significant advancements in reasoning and code generation. However, efficiently creating new benchmarks to evaluate these capabilities remains a challenge. Traditional benchmark creation relies on manual human effort, a process that is both expensive and time-consuming. Furthermore, existing benchmarks often contaminate LLM training data, necessitating novel and diverse benchmarks to accurately assess their genuine capabilities. This work introduces InfoSynth, a novel framework for automatically generating and evaluating reasoning benchmarks guided by information-theoretic principles. We propose metrics based on KL-divergence and entropy to quantify benchmark novelty and diversity without relying on costly model evaluations. Building on this framework, we develop an end-to-end pipeline that synthesizes robust Python coding problems from seed datasets using genetic algorithms and iterative code feedback. Our method generates accurate test cases and solutions to new problems 97% of the time, and the synthesized benchmarks consistently exhibit higher novelty and diversity compared to their seed datasets. Moreover, our algorithm provides a method for controlling the novelty/diversity and difficulty of generated problems. InfoSynth offers a scalable, self-verifying pipeline for constructing high-quality, novel and diverse benchmarks for LLMs. Project Page: https://ishirgarg.github.io/infosynth_web/