Предварительно обученные большие языковые модели изучают скрытые марковские модели в контексте.
Pre-trained Large Language Models Learn Hidden Markov Models In-context
June 8, 2025
Авторы: Yijia Dai, Zhaolin Gao, Yahya Satter, Sarah Dean, Jennifer J. Sun
cs.AI
Аннотация
Скрытые марковские модели (HMM) являются фундаментальными инструментами для моделирования последовательных данных с латентной марковской структурой, однако их адаптация к реальным данным остается вычислительно сложной задачей. В данной работе мы показываем, что предварительно обученные большие языковые модели (LLM) могут эффективно моделировать данные, сгенерированные HMM, с помощью обучения в контексте (ICL) — их способности выводить закономерности из примеров, представленных в запросе. На разнообразном наборе синтетических HMM LLM достигают прогностической точности, близкой к теоретическому оптимуму. Мы выявляем новые закономерности масштабирования, зависящие от свойств HMM, и предлагаем теоретические гипотезы для объяснения этих эмпирических наблюдений. Также мы предоставляем практические рекомендации для ученых по использованию ICL в качестве диагностического инструмента для анализа сложных данных. На реальных задачах принятия решений животными ICL демонстрирует конкурентоспособные результаты по сравнению с моделями, разработанными экспертами. Насколько нам известно, это первая демонстрация того, что ICL может обучаться и предсказывать последовательности, сгенерированные HMM, — достижение, которое углубляет наше понимание обучения в контексте в LLM и подтверждает его потенциал как мощного инструмента для выявления скрытой структуры в сложных научных данных.
English
Hidden Markov Models (HMMs) are foundational tools for modeling sequential
data with latent Markovian structure, yet fitting them to real-world data
remains computationally challenging. In this work, we show that pre-trained
large language models (LLMs) can effectively model data generated by HMMs via
in-context learning (ICL)x2013their ability to infer patterns from
examples within a prompt. On a diverse set of synthetic HMMs, LLMs achieve
predictive accuracy approaching the theoretical optimum. We uncover novel
scaling trends influenced by HMM properties, and offer theoretical conjectures
for these empirical observations. We also provide practical guidelines for
scientists on using ICL as a diagnostic tool for complex data. On real-world
animal decision-making tasks, ICL achieves competitive performance with models
designed by human experts. To our knowledge, this is the first demonstration
that ICL can learn and predict HMM-generated sequencesx2013an
advance that deepens our understanding of in-context learning in LLMs and
establishes its potential as a powerful tool for uncovering hidden structure in
complex scientific data.