Modelvermogen overheerst: Lessen over optimalisatie tijdens inferentie van AIMO 3

Samenvatting

Meerderheidsstemming over meerdere LLM-pogingen verbetert wiskundig redeneren, maar gecorreleerde fouten beperken de effectieve steekproefomvang. Een logische oplossing is om verschillende redeneerstrategieën toe te wijzen aan verschillende 'stemmers'. Deze aanpak, de Diverse Prompt Mixer, werd getest in de AIMO 3-wedstrijd: 3 modellen, 23+ experimenten, 50 IMO-niveau problemen, één H100 80 GB, tijdslimiet van 5 uur. Elke interventie op promptniveau faalt. Steekproefname met een hoge temperatuur ontkoort fouten al; zwakkere strategieën verminderen de nauwkeurigheid meer dan dat ze de correlatie verminderen. Over een capaciteitskloof van 8 punten bij gelijke N=8 en elke geteste optimalisatie heerst modelcapaciteit. Het verschil tussen de beste meerderheidsstemscore (42/50) en pass@20 (~45,5) is selectieverlies, geen promptverlies. Een op een verifier gebaseerde selector zou dit kunnen dichten. Prompt engineering kan dat niet.

English

Majority voting over multiple LLM attempts improves mathematical reasoning, but correlated errors limit the effective sample size. A natural fix is to assign different reasoning strategies to different voters. The approach, Diverse Prompt Mixer, is tested on the AIMO 3 competition: 3 models, 23+ experiments, 50 IMO-level problems, one H100 80 GB, 5-hour limit. Every prompt-level intervention fails. High-temperature sampling already decorrelates errors; weaker strategies reduce accuracy more than they reduce correlation. Across an 8-point capability gap at equal N=8 and every optimization tested, model capability dominates. The gap between the best majority-vote score (42/50) and pass@20 (~45.5) is selection loss, not prompt loss. A verifier-based selector could close it. Prompt engineering cannot.

Modelvermogen overheerst: Lessen over optimalisatie tijdens inferentie van AIMO 3

Model Capability Dominates: Inference-Time Optimization Lessons from AIMO 3

Samenvatting

Support