La capacità del modello domina: lezioni di ottimizzazione al momento dell'inferenza da AIMO 3
Model Capability Dominates: Inference-Time Optimization Lessons from AIMO 3
April 16, 2026
Autori: Natapong Nitarach
cs.AI
Abstract
Il voto a maggioranza su più tentativi di LLM migliora il ragionamento matematico, ma gli errori correlati limitano la dimensione effettiva del campione. Una soluzione naturale consiste nell'assegnare strategie di ragionamento diverse a ciascun votante. L'approccio, denominato Diverse Prompt Mixer, è stato testato sulla competizione AIMO 3: 3 modelli, 23+ esperimenti, 50 problemi di livello Olimpiadi della Matematica, un H100 80 GB, limite di 5 ore. Ogni intervento a livello di prompt fallisce. Il campionamento ad alta temperatura già decorrela gli errori; strategie più deboli riducono l'accuratezza più di quanto riducano la correlazione. Attraverso un divario di capacità di 8 punti a N=8 pari e ogni ottimizzazione testata, la capacità del modello domina. Il divario tra il miglior punteggio a maggioranza (42/50) e pass@20 (~45.5) è una perdita da selezione, non una perdita da prompt. Un selettore basato su verificatore potrebbe colmarlo. L'ingegnerizzazione dei prompt non può farlo.
English
Majority voting over multiple LLM attempts improves mathematical reasoning, but correlated errors limit the effective sample size. A natural fix is to assign different reasoning strategies to different voters. The approach, Diverse Prompt Mixer, is tested on the AIMO 3 competition: 3 models, 23+ experiments, 50 IMO-level problems, one H100 80 GB, 5-hour limit. Every prompt-level intervention fails. High-temperature sampling already decorrelates errors; weaker strategies reduce accuracy more than they reduce correlation. Across an 8-point capability gap at equal N=8 and every optimization tested, model capability dominates. The gap between the best majority-vote score (42/50) and pass@20 (~45.5) is selection loss, not prompt loss. A verifier-based selector could close it. Prompt engineering cannot.