Voorgetrainde grote taalmodellen leren Hidden Markov-modellen in-context.

Samenvatting

Hidden Markov Models (HMM's) zijn fundamentele hulpmiddelen voor het modelleren van sequentiële data met een latent Markoviaanse structuur, maar het aanpassen ervan aan real-world data blijft computationeel uitdagend. In dit werk tonen we aan dat vooraf getrainde grote taalmodellen (LLM's) effectief data gegenereerd door HMM's kunnen modelleren via in-context learning (ICL) – hun vermogen om patronen af te leiden uit voorbeelden binnen een prompt. Op een diverse set van synthetische HMM's bereiken LLM's een voorspellende nauwkeurigheid die het theoretische optimum benadert. We ontdekken nieuwe schaalingspatronen die worden beïnvloed door eigenschappen van HMM's, en bieden theoretische vermoedens voor deze empirische observaties. We geven ook praktische richtlijnen voor wetenschappers over het gebruik van ICL als een diagnostisch hulpmiddel voor complexe data. Op real-world taken gerelateerd aan dierlijke besluitvorming presteert ICL competitief met modellen ontworpen door menselijke experts. Voor zover wij weten, is dit de eerste demonstratie dat ICL HMM-gegenereerde sequenties kan leren en voorspellen – een vooruitgang die ons begrip van in-context learning in LLM's verdiept en het potentieel ervan bevestigt als een krachtig hulpmiddel voor het ontdekken van verborgen structuren in complexe wetenschappelijke data.

English

Hidden Markov Models (HMMs) are foundational tools for modeling sequential data with latent Markovian structure, yet fitting them to real-world data remains computationally challenging. In this work, we show that pre-trained large language models (LLMs) can effectively model data generated by HMMs via in-context learning (ICL)x2013their ability to infer patterns from examples within a prompt. On a diverse set of synthetic HMMs, LLMs achieve predictive accuracy approaching the theoretical optimum. We uncover novel scaling trends influenced by HMM properties, and offer theoretical conjectures for these empirical observations. We also provide practical guidelines for scientists on using ICL as a diagnostic tool for complex data. On real-world animal decision-making tasks, ICL achieves competitive performance with models designed by human experts. To our knowledge, this is the first demonstration that ICL can learn and predict HMM-generated sequencesx2013an advance that deepens our understanding of in-context learning in LLMs and establishes its potential as a powerful tool for uncovering hidden structure in complex scientific data.

Voorgetrainde grote taalmodellen leren Hidden Markov-modellen in-context.

Pre-trained Large Language Models Learn Hidden Markov Models In-context

Samenvatting

Support