Modellfähigkeit dominiert: Erkenntnisse zur Inferenzzeit-Optimierung aus AIMO 3

Zusammenfassung

Mehrheitsabstimmung über mehrere LLM-Versuche verbessert mathematisches Reasoning, aber korrelierte Fehler begrenzen die effektive Stichprobengröße. Eine natürliche Lösung ist die Zuweisung unterschiedlicher Reasoning-Strategien zu verschiedenen Abstimmenden. Der Ansatz, Diverse Prompt Mixer, wird im AIMO-3-Wettbewerb getestet: 3 Modelle, 23+ Experimente, 50 IMO-Level-Probleme, eine H100 80 GB, 5-Stunden-Limit. Jede Intervention auf Prompt-Ebene scheitert. Hochtemperatur-Sampling dekorreliert Fehler bereits; schwächere Strategien reduzieren die Genauigkeit stärker als die Korrelation. Über eine 8-Punkte-Fähigkeitslücke bei gleichem N=8 und jeder getesteten Optimierung dominiert die Modellfähigkeit. Die Lücke zwischen der besten Mehrheitsabstimmungs-Punktzahl (42/50) und pass@20 (~45,5) ist Selektionsverlust, nicht Prompt-Verlust. Ein verifikationsbasierter Selektor könnte diese schließen. Prompt-Engineering kann es nicht.

English

Majority voting over multiple LLM attempts improves mathematical reasoning, but correlated errors limit the effective sample size. A natural fix is to assign different reasoning strategies to different voters. The approach, Diverse Prompt Mixer, is tested on the AIMO 3 competition: 3 models, 23+ experiments, 50 IMO-level problems, one H100 80 GB, 5-hour limit. Every prompt-level intervention fails. High-temperature sampling already decorrelates errors; weaker strategies reduce accuracy more than they reduce correlation. Across an 8-point capability gap at equal N=8 and every optimization tested, model capability dominates. The gap between the best majority-vote score (42/50) and pass@20 (~45.5) is selection loss, not prompt loss. A verifier-based selector could close it. Prompt engineering cannot.

Modellfähigkeit dominiert: Erkenntnisse zur Inferenzzeit-Optimierung aus AIMO 3

Model Capability Dominates: Inference-Time Optimization Lessons from AIMO 3

Zusammenfassung

Support