ChatPaper.aiChatPaper

Доминирование возможностей модели: уроки оптимизации на этапе вывода от AIMO 3

Model Capability Dominates: Inference-Time Optimization Lessons from AIMO 3

April 16, 2026
Авторы: Natapong Nitarach
cs.AI

Аннотация

Голосование большинством по нескольким попыткам больших языковых моделей улучшает математические рассуждения, но скоррелированные ошибки ограничивают эффективный размер выборки. Естественное решение — назначить различным участникам голосования разные стратегии рассуждений. Данный подход, Diverse Prompt Mixer, был протестирован в рамках соревнования AIMO 3: 3 модели, 23+ эксперимента, 50 задач уровня Международной математической олимпиады (ММО), один GPU H100 80 ГБ, ограничение по времени — 5 часов. Любое вмешательство на уровне промптов не дало результата. Сэмплирование с высокой температурой уже декоррелирует ошибки; более слабые стратегии снижают точность в большей степени, чем снижают корреляцию. При равном N=8 и всех опробованных оптимизациях, на фоне 8-балльного разрыва в способностях моделей, именно их возможности оказываются определяющим фактором. Разрыв между лучшим результатом по большинству голосов (42/50) и метрикой pass@20 (~45.5) является потерей от выбора, а не потерей от промптов. Этот разрыв мог бы закрыть селектор на основе верификатора. Промпт-инжиниринг — не может.
English
Majority voting over multiple LLM attempts improves mathematical reasoning, but correlated errors limit the effective sample size. A natural fix is to assign different reasoning strategies to different voters. The approach, Diverse Prompt Mixer, is tested on the AIMO 3 competition: 3 models, 23+ experiments, 50 IMO-level problems, one H100 80 GB, 5-hour limit. Every prompt-level intervention fails. High-temperature sampling already decorrelates errors; weaker strategies reduce accuracy more than they reduce correlation. Across an 8-point capability gap at equal N=8 and every optimization tested, model capability dominates. The gap between the best majority-vote score (42/50) and pass@20 (~45.5) is selection loss, not prompt loss. A verifier-based selector could close it. Prompt engineering cannot.
PDF11April 18, 2026