Os seus LLMs são capazes de raciocínio estável?Are Your LLMs Capable of Stable Reasoning?
O rápido avanço dos Modelos de Linguagem de Grande Escala (LLMs) tem demonstrado um progresso notável em tarefas de raciocínio complexo. No entanto, uma discrepância significativa persiste entre o desempenho nos benchmarks e as aplicações do mundo real. Identificamos essa lacuna como decorrente principalmente dos protocolos e métricas de avaliação atuais, que capturam de forma inadequada todo o espectro de capacidades dos LLMs, especialmente em tarefas de raciocínio complexo onde tanto a precisão quanto a consistência são cruciais. Este trabalho apresenta duas contribuições-chave. Primeiramente, introduzimos o G-Pass@k, uma métrica de avaliação inovadora que fornece uma avaliação contínua do desempenho do modelo em várias tentativas de amostragem, quantificando tanto o potencial de desempenho máximo do modelo quanto sua estabilidade. Em segundo lugar, apresentamos o LiveMathBench, um benchmark dinâmico composto por problemas matemáticos desafiadores e contemporâneos, projetados para minimizar os riscos de vazamento de dados durante a avaliação. Através de experimentos extensivos utilizando o G-Pass@k em LLMs de ponta com o LiveMathBench, fornecemos insights abrangentes tanto sobre suas capacidades máximas quanto sobre sua consistência operacional. Nossas descobertas revelam um amplo espaço para melhorias nas capacidades de raciocínio "realistas" dos LLMs, destacando a necessidade de métodos de avaliação mais robustos. O benchmark e os resultados detalhados estão disponíveis em: https://github.com/open-compass/GPassK.