Qu'est-ce qui contrôle véritablement le raisonnement temporel dans les grands modèles de langage : la tokenisation ou la représentation du temps ?

Résumé

Nous présentons MultiTempBench, un benchmark multilingue de raisonnement temporel couvrant trois tâches — calcul de dates, conversion de fuseaux horaires et extraction de relations temporelles — à travers cinq langues (anglais, allemand, chinois, arabe et haoussa) et plusieurs conventions calendaires (grégorien, hégirien et lunaire chinois). MultiTempBench contient 15 000 exemples construits par traduction de 750 questions anglaises soigneusement sélectionnées, chaque question étant déclinée en variantes contrôlées de format de date. Nous évaluons 20 modèles de langage de grande taille et introduisons le Ratio de Fragmentation de Date multilingue (mDFR), calibré à l'aide d'évaluations humaines de sévérité, ainsi que des analyses par sondage géométrique des représentations temporelles internes. Nous constatons que la qualité de la tokenisation des artefacts temporels est un goulot d'étranglement dépendant des ressources : dans les langues peu dotées et les formats calendaires plus rares, la fragmentation perturbe la séparation Année/Mois/Jour et la précision s'effondre, tandis que les contextes riches en ressources sont souvent robustes à une séparation au niveau des chiffres. Au-delà de la tokenisation, une régression à effets mixtes croisés montre que la linéarité temporelle est le prédicteur le plus fort du raisonnement temporel dans les langues bien dotées, tandis que la fragmentation est le prédicteur dominant dans les langues peu dotées. Le code est disponible à l'adresse : https://github.com/gagan3012/mtb

English

We present MultiTempBench, a multilingual temporal reasoning benchmark spanning three tasks, date arithmetic, time zone conversion, and temporal relation extraction across five languages (English, German, Chinese, Arabic, and Hausa) and multiple calendar conventions (Gregorian, Hijri, and Chinese Lunar). MultiTempBench contains 15,000 examples built by translating 750 curated English questions and expanding each into controlled date-format variants. We evaluate 20 LLMs and introduce the multilingual Date Fragmentation Ratio (mDFR), calibrated with human severity ratings, together with geometric-probing analyses of internal temporal representations. We find tokenisation quality of temporal artefacts is a resource-dependent bottleneck: in low-resource languages and rarer calendar formats, fragmentation disrupts Year/Month/Day separation and accuracy collapses, while high-resource settings are often robust to digit-level splitting. Beyond tokenisation, crossed mixed-effects regression shows that temporal linearity is the strongest predictor of temporal reasoning in high-resource languages, whereas fragmentation is the stronger predictor in low-resource languages. Code is available at: https://github.com/gagan3012/mtb

Qu'est-ce qui contrôle véritablement le raisonnement temporel dans les grands modèles de langage : la tokenisation ou la représentation du temps ?

What Really Controls Temporal Reasoning in Large Language Models: Tokenisation or Representation of Time?

Résumé

Support