A Consistência Amplifica: Como a Variância Comportamental Molda a Precisão do Agente

Resumo

Com a implantação de agentes baseados em LLM em sistemas de produção, a compreensão da sua consistência comportamental (se produzem sequências de ações semelhantes quando recebem tarefas idênticas) torna-se crítica para a confiabilidade. Estudamos a consistência no contexto do SWE-bench, um benchmark desafiador de engenharia de software que requer raciocínio complexo e multi-etapas. Comparando Claude 4.5 Sonnet, GPT-5 e Llama-3.1-70B em 50 execuções cada (10 tarefas vezes 5 execuções), descobrimos que, entre os modelos, uma maior consistência está alinhada com uma maior precisão: Claude alcança a variância mais baixa (CV: 15,2%) e a maior precisão (58%), GPT-5 apresenta resultados intermediários (CV: 32,2%, precisão: 32%), e Llama mostra a maior variância (CV: 47,0%) com a menor precisão (4%). No entanto, dentro de um mesmo modelo, a consistência pode amplificar tanto interpretações corretas quanto incorretas. Nossa análise revela uma nuance crítica: a consistência amplifica os resultados em vez de garantir a correção. 71% das falhas do Claude originam-se de "interpretação incorreta consistente": fazer a mesma suposição incorreta em todas as execuções. Curiosamente, o GPT-5 atinge um acordo estratégico inicial semelhante ao do Claude (divergindo na etapa 3,4 vs. 3,2), mas exibe uma variância 2,1 vezes maior, sugerindo que o momento da divergência por si só não determina a consistência. Esses achados sugerem que, para a implantação em produção, a precisão da interpretação é mais importante do que a consistência da execução, com implicações para a avaliação e o treinamento de agentes.

English

As LLM-based agents are deployed in production systems, understanding their behavioral consistency (whether they produce similar action sequences when given identical tasks) becomes critical for reliability. We study consistency in the context of SWE-bench, a challenging software engineering benchmark requiring complex, multi-step reasoning. Comparing Claude~4.5~Sonnet, GPT-5, and Llama-3.1-70B across 50 runs each (10 tasks times 5 runs), we find that across models, higher consistency aligns with higher accuracy: Claude achieves the lowest variance (CV: 15.2\%) and highest accuracy (58\%), GPT-5 is intermediate (CV: 32.2\%, accuracy: 32\%), and Llama shows the highest variance (CV: 47.0\%) with lowest accuracy (4\%). However, within a model, consistency can amplify both correct and incorrect interpretations. Our analysis reveals a critical nuance: consistency amplifies outcomes rather than guaranteeing correctness. 71\% of Claude's failures stem from "consistent wrong interpretation": making the same incorrect assumption across all runs. Interestingly, GPT-5 achieves similar early strategic agreement as Claude (diverging at step 3.4 vs.\ 3.2) but exhibits 2.1times higher variance, suggesting that divergence timing alone does not determine consistency. These findings suggest that for production deployment, interpretation accuracy matters more than execution consistency, with implications for agent evaluation and training.

A Consistência Amplifica: Como a Variância Comportamental Molda a Precisão do Agente

Consistency Amplifies: How Behavioral Variance Shapes Agent Accuracy

Resumo

Support