모델 역량이 지배한다: AIMO 3에서 얻은 추론 시점 최적화의 교훈

초록

다수의 LLM 시도에 대한 다수결 투표는 수학적 추론을 향상시키지만, 상관된 오류가 유효 표본 크기를 제한합니다. 자연스러운 해결책은 각 투표자에게 서로 다른 추론 전략을 할당하는 것입니다. 이러한 접근법인 Diverse Prompt Mixer는 AIMO 3 경쟁에서 테스트되었습니다: 3가지 모델, 23개 이상의 실험, 50개의 IMO 수준 문제, H100 80GB 1대, 5시간 제한. 모든 프롬프트 수준 개입은 실패했습니다. 높은 온도 샘플링은 이미 오류 상관관계를 제거하며, 약한 전략은 상관관계를 줄이는 것보다 정확도를 더 크게 감소시킵니다. 동일한 N=8 및 테스트된 모든 최적화에서 8점의 능력 차이를 가로질러, 모델 능력이 지배적입니다. 최고의 다수결 점수(42/50)와 pass@20(~45.5) 간의 차이는 프롬프트 손실이 아닌 선택 손실입니다. 검증기 기반 선택기가 이를 해결할 수 있지만, 프롬프트 엔지니어링은 그렇지 못합니다.

English

Majority voting over multiple LLM attempts improves mathematical reasoning, but correlated errors limit the effective sample size. A natural fix is to assign different reasoning strategies to different voters. The approach, Diverse Prompt Mixer, is tested on the AIMO 3 competition: 3 models, 23+ experiments, 50 IMO-level problems, one H100 80 GB, 5-hour limit. Every prompt-level intervention fails. High-temperature sampling already decorrelates errors; weaker strategies reduce accuracy more than they reduce correlation. Across an 8-point capability gap at equal N=8 and every optimization tested, model capability dominates. The gap between the best majority-vote score (42/50) and pass@20 (~45.5) is selection loss, not prompt loss. A verifier-based selector could close it. Prompt engineering cannot.

모델 역량이 지배한다: AIMO 3에서 얻은 추론 시점 최적화의 교훈

Model Capability Dominates: Inference-Time Optimization Lessons from AIMO 3

초록

Support