Wat Beheerst Werkelijk Temporeel Redeneren in Grote Taalmodellen: Tokenisatie of Representatie van Tijd?

Samenvatting

Wij presenteren MultiTempBench, een meertalige temporele redeneerbenchmark die drie taken omvat: datumrekening, tijdzoneconversie en temporele relatie-extractie in vijf talen (Engels, Duits, Chinees, Arabisch en Hausa) en meerdere kalenderconventies (Gregoriaans, Hidjri en Chinese Maankalender). MultiTempBench bevat 15.000 voorbeelden, opgebouwd door 750 gecureerde Engelse vragen te vertalen en elk uit te breiden naar gecontroleerde datumnotatie-varianten. Wij evalueren 20 LLM's en introduceren de meertalige Date Fragmentation Ratio (mDFR), gekalibreerd met humane ernstbeoordelingen, samen met geometrische-probinganalyses van interne temporele representaties. Wij constateren dat de tokenisatiekwaliteit van temporele artefacten een resource-afhankelijk knelpunt is: in talen met weinig bronnen en zeldzamere kalenderformaten verstoort fragmentatie de scheiding tussen Jaar/Maand/Dag en stort de nauwkeurigheid in, terwijl settings met veel bronnen vaak robuust zijn tegen cijferniveau-splitsing. Naast tokenisatie toont crossed mixed-effects regression aan dat temporele lineariteit de sterkste voorspeller is voor temporeel redeneren in talen met veel bronnen, terwijl fragmentatie de sterkere voorspeller is in talen met weinig bronnen. Code is beschikbaar op: https://github.com/gagan3012/mtb

English

We present MultiTempBench, a multilingual temporal reasoning benchmark spanning three tasks, date arithmetic, time zone conversion, and temporal relation extraction across five languages (English, German, Chinese, Arabic, and Hausa) and multiple calendar conventions (Gregorian, Hijri, and Chinese Lunar). MultiTempBench contains 15,000 examples built by translating 750 curated English questions and expanding each into controlled date-format variants. We evaluate 20 LLMs and introduce the multilingual Date Fragmentation Ratio (mDFR), calibrated with human severity ratings, together with geometric-probing analyses of internal temporal representations. We find tokenisation quality of temporal artefacts is a resource-dependent bottleneck: in low-resource languages and rarer calendar formats, fragmentation disrupts Year/Month/Day separation and accuracy collapses, while high-resource settings are often robust to digit-level splitting. Beyond tokenisation, crossed mixed-effects regression shows that temporal linearity is the strongest predictor of temporal reasoning in high-resource languages, whereas fragmentation is the stronger predictor in low-resource languages. Code is available at: https://github.com/gagan3012/mtb

Wat Beheerst Werkelijk Temporeel Redeneren in Grote Taalmodellen: Tokenisatie of Representatie van Tijd?

What Really Controls Temporal Reasoning in Large Language Models: Tokenisation or Representation of Time?

Samenvatting

Support