A Capacidade do Modelo é Dominante: Lições de Otimização no Momento da Inferência a partir do AIMO 3

Resumo

A votação majoritária sobre múltiplas tentativas de LLM melhora o raciocínio matemático, mas erros correlacionados limitam o tamanho efetivo da amostra. Uma solução natural é atribuir diferentes estratégias de raciocínio a diferentes votantes. A abordagem, denominada *Diverse Prompt Mixer*, foi testada na competição AIMO 3: 3 modelos, 23+ experimentos, 50 problemas de nível Olimpíada Internacional de Matemática (IMO), um H100 80 GB, limite de 5 horas. Toda intervenção a nível de *prompt* falha. A amostragem com alta temperatura já descorrelaciona os erros; estratégias mais fracas reduzem a precisão mais do que reduzem a correlação. Através de uma lacuna de capacidade de 8 pontos com N=8 igual e todas as otimizações testadas, a capacidade do modelo é dominante. A diferença entre a melhor pontuação por votação majoritária (42/50) e o *pass@20* (~45,5) é uma perda por seleção, não uma perda por *prompt*. Um seletor baseado em verificador poderia fechá-la. A engenharia de *prompts* não pode.

English

Majority voting over multiple LLM attempts improves mathematical reasoning, but correlated errors limit the effective sample size. A natural fix is to assign different reasoning strategies to different voters. The approach, Diverse Prompt Mixer, is tested on the AIMO 3 competition: 3 models, 23+ experiments, 50 IMO-level problems, one H100 80 GB, 5-hour limit. Every prompt-level intervention fails. High-temperature sampling already decorrelates errors; weaker strategies reduce accuracy more than they reduce correlation. Across an 8-point capability gap at equal N=8 and every optimization tested, model capability dominates. The gap between the best majority-vote score (42/50) and pass@20 (~45.5) is selection loss, not prompt loss. A verifier-based selector could close it. Prompt engineering cannot.

A Capacidade do Modelo é Dominante: Lições de Otimização no Momento da Inferência a partir do AIMO 3

Model Capability Dominates: Inference-Time Optimization Lessons from AIMO 3

Resumo

Support