¿Qué Controla Realmente el Razonamiento Temporal en los Modelos de Lenguaje Grandes: ¿La Tokenización o la Representación del Tiempo?
What Really Controls Temporal Reasoning in Large Language Models: Tokenisation or Representation of Time?
March 19, 2026
Autores: Gagan Bhatia, Ahmad Muhammad Isa, Maxime Peyrard, Wei Zhao
cs.AI
Resumen
Presentamos MultiTempBench, un benchmark multilingüe de razonamiento temporal que abarca tres tareas: aritmética de fechas, conversión de zonas horarias y extracción de relaciones temporales en cinco idiomas (inglés, alemán, chino, árabe y hausa) y múltiples convenciones calendáricas (gregoriano, hijri y calendario lunar chino). MultiTempBench contiene 15.000 ejemplos construidos mediante la traducción de 750 preguntas en inglés curadas y la expansión de cada una en variantes controladas de formato de fecha. Evaluamos 20 LLM e introducimos la Ratio de Fragmentación de Fechas multilingüe (mDFR), calibrada con valoraciones de severidad humanas, junto con análisis de *geometric-probing* de las representaciones temporales internas. Encontramos que la calidad de la tokenización de artefactos temporales es un cuello de botella dependiente de los recursos: en idiomas de bajos recursos y formatos de calendario más raros, la fragmentación interrumpe la separación Año/Mes/Día y la precisión colapsa, mientras que los entornos de altos recursos suelen ser robustos ante la división a nivel de dígitos. Más allá de la tokenización, una regresión de efectos mixtos cruzada muestra que la linealidad temporal es el predictor más fuerte del razonamiento temporal en idiomas de altos recursos, mientras que la fragmentación es el predictor más fuerte en idiomas de bajos recursos. El código está disponible en: https://github.com/gagan3012/mtb
English
We present MultiTempBench, a multilingual temporal reasoning benchmark spanning three tasks, date arithmetic, time zone conversion, and temporal relation extraction across five languages (English, German, Chinese, Arabic, and Hausa) and multiple calendar conventions (Gregorian, Hijri, and Chinese Lunar). MultiTempBench contains 15,000 examples built by translating 750 curated English questions and expanding each into controlled date-format variants. We evaluate 20 LLMs and introduce the multilingual Date Fragmentation Ratio (mDFR), calibrated with human severity ratings, together with geometric-probing analyses of internal temporal representations. We find tokenisation quality of temporal artefacts is a resource-dependent bottleneck: in low-resource languages and rarer calendar formats, fragmentation disrupts Year/Month/Day separation and accuracy collapses, while high-resource settings are often robust to digit-level splitting. Beyond tokenisation, crossed mixed-effects regression shows that temporal linearity is the strongest predictor of temporal reasoning in high-resource languages, whereas fragmentation is the stronger predictor in low-resource languages. Code is available at: https://github.com/gagan3012/mtb