Voorgetrainde grote taalmodellen leren Hidden Markov-modellen in-context.
Pre-trained Large Language Models Learn Hidden Markov Models In-context
June 8, 2025
Auteurs: Yijia Dai, Zhaolin Gao, Yahya Satter, Sarah Dean, Jennifer J. Sun
cs.AI
Samenvatting
Hidden Markov Models (HMM's) zijn fundamentele hulpmiddelen voor het modelleren van sequentiële data met een latent Markoviaanse structuur, maar het aanpassen ervan aan real-world data blijft computationeel uitdagend. In dit werk tonen we aan dat vooraf getrainde grote taalmodellen (LLM's) effectief data gegenereerd door HMM's kunnen modelleren via in-context learning (ICL) – hun vermogen om patronen af te leiden uit voorbeelden binnen een prompt. Op een diverse set van synthetische HMM's bereiken LLM's een voorspellende nauwkeurigheid die het theoretische optimum benadert. We ontdekken nieuwe schaalingspatronen die worden beïnvloed door eigenschappen van HMM's, en bieden theoretische vermoedens voor deze empirische observaties. We geven ook praktische richtlijnen voor wetenschappers over het gebruik van ICL als een diagnostisch hulpmiddel voor complexe data. Op real-world taken gerelateerd aan dierlijke besluitvorming presteert ICL competitief met modellen ontworpen door menselijke experts. Voor zover wij weten, is dit de eerste demonstratie dat ICL HMM-gegenereerde sequenties kan leren en voorspellen – een vooruitgang die ons begrip van in-context learning in LLM's verdiept en het potentieel ervan bevestigt als een krachtig hulpmiddel voor het ontdekken van verborgen structuren in complexe wetenschappelijke data.
English
Hidden Markov Models (HMMs) are foundational tools for modeling sequential
data with latent Markovian structure, yet fitting them to real-world data
remains computationally challenging. In this work, we show that pre-trained
large language models (LLMs) can effectively model data generated by HMMs via
in-context learning (ICL)x2013their ability to infer patterns from
examples within a prompt. On a diverse set of synthetic HMMs, LLMs achieve
predictive accuracy approaching the theoretical optimum. We uncover novel
scaling trends influenced by HMM properties, and offer theoretical conjectures
for these empirical observations. We also provide practical guidelines for
scientists on using ICL as a diagnostic tool for complex data. On real-world
animal decision-making tasks, ICL achieves competitive performance with models
designed by human experts. To our knowledge, this is the first demonstration
that ICL can learn and predict HMM-generated sequencesx2013an
advance that deepens our understanding of in-context learning in LLMs and
establishes its potential as a powerful tool for uncovering hidden structure in
complex scientific data.