La relation entre le raisonnement et la performance dans les grands modèles de langage -- o3 (mini) réfléchit plus intensément, pas plus longtemps
The Relationship Between Reasoning and Performance in Large Language Models -- o3 (mini) Thinks Harder, Not Longer
February 21, 2025
Auteurs: Marthe Ballon, Andres Algaba, Vincent Ginis
cs.AI
Résumé
Les grands modèles de langage ont démontré des progrès remarquables en raisonnement mathématique, en exploitant les chaînes de pensée et la mise à l'échelle des calculs au moment du test. Cependant, de nombreuses questions restent ouvertes concernant l'interaction entre l'utilisation des tokens de raisonnement et les gains de précision. En particulier, lors de la comparaison de modèles entre différentes générations, il n'est pas clair si l'amélioration des performances résulte de chaînes de raisonnement plus longues ou d'un raisonnement plus efficace. Nous analysons systématiquement la longueur des chaînes de pensée à travers les variantes o1-mini et o3-mini sur le benchmark Omni-MATH, constatant que o3-mini (m) atteint une précision supérieure sans nécessiter de chaînes de raisonnement plus longues que o1-mini. De plus, nous montrons que la précision diminue généralement à mesure que les chaînes de raisonnement s'allongent pour tous les modèles et configurations de calcul, même en contrôlant la difficulté des questions. Cette baisse de précision est significativement plus faible dans les modèles plus performants, suggérant que les nouvelles générations de modèles de raisonnement utilisent les calculs au moment du test de manière plus efficace. Enfin, nous soulignons que bien que o3-mini (h) obtienne un gain de précision marginal par rapport à o3-mini (m), il le fait en allouant considérablement plus de tokens de raisonnement pour tous les problèmes, même ceux que o3-mini (m) peut déjà résoudre. Ces résultats apportent de nouvelles perspectives sur la relation entre la capacité du modèle et la longueur du raisonnement, avec des implications pour l'efficacité, la mise à l'échelle et les méthodologies d'évaluation.
English
Large language models have demonstrated remarkable progress in mathematical
reasoning, leveraging chain-of-thought and test-time compute scaling. However,
many open questions remain regarding the interplay between reasoning token
usage and accuracy gains. In particular, when comparing models across
generations, it is unclear whether improved performance results from longer
reasoning chains or more efficient reasoning. We systematically analyze
chain-of-thought length across o1-mini and o3-mini variants on the Omni-MATH
benchmark, finding that o3-mini (m) achieves superior accuracy without
requiring longer reasoning chains than o1-mini. Moreover, we show that accuracy
generally declines as reasoning chains grow across all models and compute
settings, even when controlling for difficulty of the questions. This accuracy
drop is significantly smaller in more proficient models, suggesting that new
generations of reasoning models use test-time compute more effectively.
Finally, we highlight that while o3-mini (h) achieves a marginal accuracy gain
over o3-mini (m), it does so by allocating substantially more reasoning tokens
across all problems, even the ones that o3-mini (m) can already solve. These
findings provide new insights into the relationship between model capability
and reasoning length, with implications for efficiency, scaling, and evaluation
methodologies.Summary
AI-Generated Summary