ChatPaper.aiChatPaper

RuleArena: Um Benchmark para Raciocínio Guiado por Regras com LLMs em Cenários do Mundo Real

RuleArena: A Benchmark for Rule-Guided Reasoning with LLMs in Real-World Scenarios

December 12, 2024
Autores: Ruiwen Zhou, Wenyue Hua, Liangming Pan, Sitao Cheng, Xiaobao Wu, En Yu, William Yang Wang
cs.AI

Resumo

Este artigo apresenta o RuleArena, um novo e desafiador benchmark projetado para avaliar a capacidade de grandes modelos de linguagem (LLMs) de seguir regras complexas do mundo real no raciocínio. Abrangendo três domínios práticos - taxas de bagagem aérea, transações da NBA e regulamentações fiscais - o RuleArena avalia a proficiência dos LLMs em lidar com instruções intrincadas em linguagem natural que exigem compreensão de contexto extenso, raciocínio lógico e cálculos matemáticos precisos. Duas características-chave distinguem o RuleArena dos benchmarks tradicionais de raciocínio baseado em regras: (1) ele vai além das representações padrão de lógica de primeira ordem e (2) está fundamentado em cenários autênticos e práticos, fornecendo insights sobre a adequação e confiabilidade dos LLMs para aplicações do mundo real. Nossas descobertas revelam várias limitações notáveis nos LLMs: (1) eles têm dificuldade em identificar e aplicar as regras apropriadas, frequentemente se confundindo com regulamentações semelhantes, mas distintas, (2) eles não conseguem realizar cálculos matemáticos precisos de forma consistente, mesmo quando identificam corretamente as regras relevantes e (3) de forma geral, têm um desempenho fraco no benchmark. Esses resultados destacam desafios significativos em avançar as capacidades de raciocínio guiado por regras dos LLMs em aplicações da vida real.
English
This paper introduces RuleArena, a novel and challenging benchmark designed to evaluate the ability of large language models (LLMs) to follow complex, real-world rules in reasoning. Covering three practical domains -- airline baggage fees, NBA transactions, and tax regulations -- RuleArena assesses LLMs' proficiency in handling intricate natural language instructions that demand long-context understanding, logical reasoning, and accurate mathematical computation. Two key attributes distinguish RuleArena from traditional rule-based reasoning benchmarks: (1) it extends beyond standard first-order logic representations, and (2) it is grounded in authentic, practical scenarios, providing insights into the suitability and reliability of LLMs for real-world applications. Our findings reveal several notable limitations in LLMs: (1) they struggle to identify and apply the appropriate rules, frequently becoming confused by similar but distinct regulations, (2) they cannot consistently perform accurate mathematical computations, even when they correctly identify the relevant rules, and (3) in general, they perform poorly in the benchmark. These results highlight significant challenges in advancing LLMs' rule-guided reasoning capabilities in real-life applications.

Summary

AI-Generated Summary

PDF102December 13, 2024