La capacité du modèle prime : Leçons d'optimisation au moment de l'inférence tirées d'AIMO 3
Model Capability Dominates: Inference-Time Optimization Lessons from AIMO 3
April 16, 2026
Auteurs: Natapong Nitarach
cs.AI
Résumé
Le vote majoritaire sur plusieurs tentatives de LLM améliore le raisonnement mathématique, mais les erreurs corrélées limitent la taille d'échantillon effective. Une solution naturelle consiste à attribuer différentes stratégies de raisonnement à différents votants. L'approche, Diverse Prompt Mixer, est testée lors de la compétition AIMO 3 : 3 modèles, 23+ expériences, 50 problèmes de niveau OIM, un H100 80 Go, limite de 5 heures. Toute intervention au niveau du prompt échoue. L'échantillonnage à haute température décorrèle déjà les erreurs ; les stratégies plus faibles réduisent davantage la précision qu'elles ne réduisent la corrélation. Sur un écart de capacité de 8 points à N=8 égal et toutes les optimisations testées, la capacité du modèle domine. L'écart entre le meilleur score par vote majoritaire (42/50) et pass@20 (~45,5) est une perte de sélection, pas une perte due au prompt. Un sélecteur basé sur un vérificateur pourrait le combler. L'ingénierie de prompt ne le peut pas.
English
Majority voting over multiple LLM attempts improves mathematical reasoning, but correlated errors limit the effective sample size. A natural fix is to assign different reasoning strategies to different voters. The approach, Diverse Prompt Mixer, is tested on the AIMO 3 competition: 3 models, 23+ experiments, 50 IMO-level problems, one H100 80 GB, 5-hour limit. Every prompt-level intervention fails. High-temperature sampling already decorrelates errors; weaker strategies reduce accuracy more than they reduce correlation. Across an 8-point capability gap at equal N=8 and every optimization tested, model capability dominates. The gap between the best majority-vote score (42/50) and pass@20 (~45.5) is selection loss, not prompt loss. A verifier-based selector could close it. Prompt engineering cannot.