ChatPaper.aiChatPaper

I modelli linguistici pre-addestrati di grandi dimensioni apprendono i modelli di Markov nascosti in contesto.

Pre-trained Large Language Models Learn Hidden Markov Models In-context

June 8, 2025
Autori: Yijia Dai, Zhaolin Gao, Yahya Satter, Sarah Dean, Jennifer J. Sun
cs.AI

Abstract

I Modelli di Markov Nascosti (HMM) sono strumenti fondamentali per modellare dati sequenziali con struttura latente di Markov, ma adattarli a dati del mondo reale rimane una sfida computazionale. In questo lavoro, dimostriamo che i modelli linguistici pre-addestrati su larga scala (LLM) possono modellare efficacemente i dati generati da HMM attraverso l'apprendimento in contesto (ICL)x2013la loro capacità di inferire schemi da esempi all'interno di un prompt. Su un insieme diversificato di HMM sintetici, gli LLM raggiungono un'accuratezza predittiva che si avvicina all'ottimo teorico. Scopriamo nuove tendenze di scalabilità influenzate dalle proprietà degli HMM e offriamo congetture teoriche per queste osservazioni empiriche. Forniamo inoltre linee guida pratiche per gli scienziati sull'uso dell'ICL come strumento diagnostico per dati complessi. Su compiti reali di decisione animale, l'ICL ottiene prestazioni competitive con modelli progettati da esperti umani. A nostra conoscenza, questa è la prima dimostrazione che l'ICL può apprendere e prevedere sequenze generate da HMMx2013un progresso che approfondisce la nostra comprensione dell'apprendimento in contesto negli LLM e ne stabilisce il potenziale come strumento potente per scoprire strutture nascoste in dati scientifici complessi.
English
Hidden Markov Models (HMMs) are foundational tools for modeling sequential data with latent Markovian structure, yet fitting them to real-world data remains computationally challenging. In this work, we show that pre-trained large language models (LLMs) can effectively model data generated by HMMs via in-context learning (ICL)x2013their ability to infer patterns from examples within a prompt. On a diverse set of synthetic HMMs, LLMs achieve predictive accuracy approaching the theoretical optimum. We uncover novel scaling trends influenced by HMM properties, and offer theoretical conjectures for these empirical observations. We also provide practical guidelines for scientists on using ICL as a diagnostic tool for complex data. On real-world animal decision-making tasks, ICL achieves competitive performance with models designed by human experts. To our knowledge, this is the first demonstration that ICL can learn and predict HMM-generated sequencesx2013an advance that deepens our understanding of in-context learning in LLMs and establishes its potential as a powerful tool for uncovering hidden structure in complex scientific data.
PDF213June 10, 2025