UnpredictaBench: Um Benchmark para Avaliar a Aleatoriedade Distribucional em LLMs

Resumo

Apresentamos o UnpredictaBench, uma avaliação que testa a capacidade de modelos de linguagem de grande porte (LLMs) de capturar distribuições subjacentes reais. À medida que os LLMs são cada vez mais utilizados como substitutos para outras entidades (por exemplo, para humanos em simulações econômicas), a tendência de muitos modelos de convergir para uma única resposta plausível implica uma falha em capturar a imprevisibilidade de sistemas reais. Trabalhos recentes sobre melhoria da diversidade de saída são insuficientes para este cenário: a simulação requer amostras calibradas para uma distribuição alvo, não apenas saídas variadas. O UnpredictaBench isola uma versão simplificada, porém fundamental, desse problema: amostragem de resultados a partir de distribuições alvo individuais, incluindo distribuições estatísticas canônicas, distribuições induzidas por programas estocásticos e cenários em linguagem natural que descrevem processos aleatórios. Introduzimos 448 desses problemas, juntamente com o KS@N, uma métrica de avaliação de propósito geral que quantifica quão bem um modelo produz aproximações de distribuições alvo de caixa-preta por meio do teste estatístico de Kolmogorov-Smirnov. Trata-se da taxa na qual falhamos em rejeitar amostras de tamanho N geradas pelo modelo em comparação com amostras reais, onde N maiores indicam maior dificuldade. Testados em modelos abertos e proprietários, encontramos uma ampla dispersão nas capacidades distribucionais. Por exemplo, quando os modelos geram amostras de tamanho 100 (KS@100, nossa métrica padrão), as pontuações variam de perto de 0 a mais de 20%. Nenhum modelo é capaz de atingir mais de 40% no KS@100, evidenciando uma margem significativa para melhoria na amostragem distribucional como capacidade. Embora adicionar raciocínio possa aumentar um pouco as pontuações, não encontramos solução imediata para esse problema. O UnpredictaBench mostra que até mesmo simulações distribucionais simples permanecem desafiadoras, tornando-se um primeiro passo necessário em direção ao uso de LLMs como substitutos para sistemas complexos.

English

We introduce UnpredictaBench, an evaluation that tests the ability of large language models (LLMs) to capture true underlying distributions. As LLMs are increasingly used as substitutes for other entities (e.g., for humans in economic simulations), the tendency of many models to collapse towards a single plausible answer means a failure to capture the unpredictability of real systems. Recent work on improving output diversity is insufficient for this setting: simulation requires samples that are calibrated to a target distribution, not merely varied outputs. UnpredictaBench isolates a simplified but fundamental version of this problem: sampling outcomes from individual target distributions, including canonical statistical distributions, distributions induced by stochastic programs, and natural-language scenarios that describe random processes. We introduce 448 such problems together with KS@N, a general-purpose evaluation metric that quantifies how well a model outputs approximate black-box target distributions via the Kolmogorov-Smirnov statistical test. This is the rate at which we fail to reject model samples of size N against ground-truth samples, with larger N indicating greater difficulty. Tested across open and proprietary models, we find a large spread in distributional capabilities. For instance, when models generate samples of size 100 (KS@100, our standard metric), scores range from near 0 to over 20%. No model is able to achieve over 40% at KS@100, showing significant headroom in distributional sampling as a capability. Although adding reasoning can somewhat increase scores, we find no immediate solution for this issue. UnpredictaBench shows that even simple distributional simulation remains challenging, making it a necessary first step toward using LLMs as stand-ins for complex systems.