La relation entre le raisonnement et la performance dans les grands modèles de langage -- o3 (mini) réfléchit plus intensément, pas plus longtemps

papers.abstract

Les grands modèles de langage ont démontré des progrès remarquables en raisonnement mathématique, en exploitant les chaînes de pensée et la mise à l'échelle des calculs au moment du test. Cependant, de nombreuses questions restent ouvertes concernant l'interaction entre l'utilisation des tokens de raisonnement et les gains de précision. En particulier, lors de la comparaison de modèles entre différentes générations, il n'est pas clair si l'amélioration des performances résulte de chaînes de raisonnement plus longues ou d'un raisonnement plus efficace. Nous analysons systématiquement la longueur des chaînes de pensée à travers les variantes o1-mini et o3-mini sur le benchmark Omni-MATH, constatant que o3-mini (m) atteint une précision supérieure sans nécessiter de chaînes de raisonnement plus longues que o1-mini. De plus, nous montrons que la précision diminue généralement à mesure que les chaînes de raisonnement s'allongent pour tous les modèles et configurations de calcul, même en contrôlant la difficulté des questions. Cette baisse de précision est significativement plus faible dans les modèles plus performants, suggérant que les nouvelles générations de modèles de raisonnement utilisent les calculs au moment du test de manière plus efficace. Enfin, nous soulignons que bien que o3-mini (h) obtienne un gain de précision marginal par rapport à o3-mini (m), il le fait en allouant considérablement plus de tokens de raisonnement pour tous les problèmes, même ceux que o3-mini (m) peut déjà résoudre. Ces résultats apportent de nouvelles perspectives sur la relation entre la capacité du modèle et la longueur du raisonnement, avec des implications pour l'efficacité, la mise à l'échelle et les méthodologies d'évaluation.

English

Large language models have demonstrated remarkable progress in mathematical reasoning, leveraging chain-of-thought and test-time compute scaling. However, many open questions remain regarding the interplay between reasoning token usage and accuracy gains. In particular, when comparing models across generations, it is unclear whether improved performance results from longer reasoning chains or more efficient reasoning. We systematically analyze chain-of-thought length across o1-mini and o3-mini variants on the Omni-MATH benchmark, finding that o3-mini (m) achieves superior accuracy without requiring longer reasoning chains than o1-mini. Moreover, we show that accuracy generally declines as reasoning chains grow across all models and compute settings, even when controlling for difficulty of the questions. This accuracy drop is significantly smaller in more proficient models, suggesting that new generations of reasoning models use test-time compute more effectively. Finally, we highlight that while o3-mini (h) achieves a marginal accuracy gain over o3-mini (m), it does so by allocating substantially more reasoning tokens across all problems, even the ones that o3-mini (m) can already solve. These findings provide new insights into the relationship between model capability and reasoning length, with implications for efficiency, scaling, and evaluation methodologies.

La relation entre le raisonnement et la performance dans les grands modèles de langage -- o3 (mini) réfléchit plus intensément, pas plus longtemps

The Relationship Between Reasoning and Performance in Large Language Models -- o3 (mini) Thinks Harder, Not Longer

papers.abstract

Support