Что на самом деле управляет временными рассуждениями в больших языковых моделях: токенизация или представление времени?

Аннотация

Мы представляем MultiTempBench — многозадачный бенчмарк для оценки темпоральных рассуждений, охватывающий три задачи: арифметику с датами, конвертацию часовых поясов и извлечение темпоральных отношений на пяти языках (английском, немецком, китайском, арабском и хауса) с использованием нескольких календарных систем (григорианской, хиджры и китайского лунного календаря). MultiTempBench содержит 15 000 примеров, созданных путем перевода 750 тщательно отобранных английских вопросов и расширения каждого из них в контролируемые варианты с разными форматами дат. Мы оцениваем 20 больших языковых моделей (LLM) и вводим многозадачный коэффициент фрагментации дат (mDFR), калиброванный с учетом оценок серьезности ошибок человеком, вместе с анализом внутренних темпоральных представлений методом геометрического зондирования. Мы обнаружили, что качество токенизации темпоральных артефактов является узким местом, зависящим от ресурсов: в языках с ограниченными ресурсами и более редких календарных форматах фрагментация нарушает разделение Год/Месяц/День, и точность резко падает, тогда как в условиях высоких ресурсов системы часто устойчивы к разбиению на уровне цифр. Помимо токенизации, перекрестная регрессия со смешанными эффектами показывает, что темпоральная линейность является наиболее сильным предиктором темпоральных рассуждений в языках с высокими ресурсами, тогда как фрагментация — более сильный предиктор в языках с низкими ресурсами. Код доступен по адресу: https://github.com/gagan3012/mtb

English

We present MultiTempBench, a multilingual temporal reasoning benchmark spanning three tasks, date arithmetic, time zone conversion, and temporal relation extraction across five languages (English, German, Chinese, Arabic, and Hausa) and multiple calendar conventions (Gregorian, Hijri, and Chinese Lunar). MultiTempBench contains 15,000 examples built by translating 750 curated English questions and expanding each into controlled date-format variants. We evaluate 20 LLMs and introduce the multilingual Date Fragmentation Ratio (mDFR), calibrated with human severity ratings, together with geometric-probing analyses of internal temporal representations. We find tokenisation quality of temporal artefacts is a resource-dependent bottleneck: in low-resource languages and rarer calendar formats, fragmentation disrupts Year/Month/Day separation and accuracy collapses, while high-resource settings are often robust to digit-level splitting. Beyond tokenisation, crossed mixed-effects regression shows that temporal linearity is the strongest predictor of temporal reasoning in high-resource languages, whereas fragmentation is the stronger predictor in low-resource languages. Code is available at: https://github.com/gagan3012/mtb

Что на самом деле управляет временными рассуждениями в больших языковых моделях: токенизация или представление времени?

What Really Controls Temporal Reasoning in Large Language Models: Tokenisation or Representation of Time?

Аннотация

Support