BERT-como-Juiz: Uma Alternativa Robusta aos Métodos Lexicais para Avaliação Eficiente de LLMs Baseada em Referências

Resumo

A avaliação precisa é central para o ecossistema de modelos de linguagem de grande porte (LLM), orientando a seleção de modelos e a adoção subsequente em diversos casos de uso. Na prática, no entanto, a avaliação de saídas generativas geralmente depende de métodos léxicos rígidos para extrair e avaliar respostas, o que pode confundir a verdadeira capacidade de resolução de problemas de um modelo com sua conformidade com diretrizes de formatação predefinidas. Embora abordagens recentes de "LLM-como-Juiz" mitiguem esse problema ao avaliar a correção semântica em vez da conformidade estrutural estrita, elas também introduzem uma sobrecarga computacional substancial, tornando a avaliação dispendiosa. Neste trabalho, investigamos primeiro sistematicamente as limitações da avaliação léxica por meio de um estudo empírico em larga escala abrangendo 36 modelos e 15 tarefas subsequentes, demonstrando que tais métodos correlacionam-se pouco com os julgamentos humanos. Para superar essa limitação, introduzimos o "BERT-como-Juiz", uma abordagem baseada em *encoder* para avaliar a correção de respostas em configurações generativas baseadas em referência, robusta a variações na formulação da saída e que requer apenas um treinamento leve em triplas de pergunta-candidato-referência anotadas sinteticamente. Mostramos que ele supera consistentemente a linha de base léxica enquanto iguala o desempenho de juízes baseados em LLMs muito maiores, oferecendo um equilíbrio atraente entre os dois e permitindo uma avaliação confiável e escalável. Por fim, por meio de experimentação extensiva, fornecemos insights detalhados sobre o desempenho do BERT-como-Juiz para oferecer orientação prática aos profissionais e disponibilizamos todos os artefatos do projeto para promover a adoção subsequente.

English

Accurate evaluation is central to the large language model (LLM) ecosystem, guiding model selection and downstream adoption across diverse use cases. In practice, however, evaluating generative outputs typically relies on rigid lexical methods to extract and assess answers, which can conflate a model's true problem-solving ability with its compliance with predefined formatting guidelines. While recent LLM-as-a-Judge approaches mitigate this issue by assessing semantic correctness rather than strict structural conformity, they also introduce substantial computational overhead, making evaluation costly. In this work, we first systematically investigate the limitations of lexical evaluation through a large-scale empirical study spanning 36 models and 15 downstream tasks, demonstrating that such methods correlate poorly with human judgments. To address this limitation, we introduce BERT-as-a-Judge, an encoder-driven approach for assessing answer correctness in reference-based generative settings, robust to variations in output phrasing, and requiring only lightweight training on synthetically annotated question-candidate-reference triplets. We show that it consistently outperforms the lexical baseline while matching the performance of much larger LLM judges, providing a compelling tradeoff between the two and enabling reliable, scalable evaluation. Finally, through extensive experimentation, we provide detailed insights into BERT-as-a-Judge's performance to offer practical guidance for practitioners, and release all project artifacts to foster downstream adoption.

BERT-como-Juiz: Uma Alternativa Robusta aos Métodos Lexicais para Avaliação Eficiente de LLMs Baseada em Referências

BERT-as-a-Judge: A Robust Alternative to Lexical Methods for Efficient Reference-Based LLM Evaluation

Resumo

Support