La capacidad del modelo es lo que domina: lecciones de optimización en el tiempo de inferencia de AIMO 3

Resumen

La votación mayoritaria sobre múltiples intentos de LLM mejora el razonamiento matemático, pero los errores correlacionados limitan el tamaño muestral efectivo. Una solución natural es asignar diferentes estrategias de razonamiento a distintos votantes. Este enfoque, denominado Diverse Prompt Mixer, se prueba en la competición AIMO 3: 3 modelos, 23+ experimentos, 50 problemas de nivel Olimpiada Internacional de Matemáticas (IMO), una H100 80 GB, límite de 5 horas. Toda intervención a nivel de prompt fracasa. El muestreo con alta temperatura ya descorrelaciona los errores; las estrategias más débiles reducen más la precisión que la correlación. A través de una brecha de capacidad de 8 puntos con N=8 igual y cada optimización probada, la capacidad del modelo domina. La brecha entre el mejor puntaje por votación mayoritaria (42/50) y pass@20 (~45.5) es pérdida por selección, no pérdida por prompt. Un selector basado en verificador podría cerrarla. La ingeniería de prompts no puede.

English

Majority voting over multiple LLM attempts improves mathematical reasoning, but correlated errors limit the effective sample size. A natural fix is to assign different reasoning strategies to different voters. The approach, Diverse Prompt Mixer, is tested on the AIMO 3 competition: 3 models, 23+ experiments, 50 IMO-level problems, one H100 80 GB, 5-hour limit. Every prompt-level intervention fails. High-temperature sampling already decorrelates errors; weaker strategies reduce accuracy more than they reduce correlation. Across an 8-point capability gap at equal N=8 and every optimization tested, model capability dominates. The gap between the best majority-vote score (42/50) and pass@20 (~45.5) is selection loss, not prompt loss. A verifier-based selector could close it. Prompt engineering cannot.

La capacidad del modelo es lo que domina: lecciones de optimización en el tiempo de inferencia de AIMO 3

Model Capability Dominates: Inference-Time Optimization Lessons from AIMO 3

Resumen

Support