ChatPaper.aiChatPaper

Modelos de Linguagem Pré-treinados de Grande Escala Aprendem Modelos Ocultos de Markov em Contexto

Pre-trained Large Language Models Learn Hidden Markov Models In-context

June 8, 2025
Autores: Yijia Dai, Zhaolin Gao, Yahya Satter, Sarah Dean, Jennifer J. Sun
cs.AI

Resumo

Modelos Ocultos de Markov (HMMs) são ferramentas fundamentais para modelar dados sequenciais com estrutura Markoviana latente, mas ajustá-los a dados do mundo real continua sendo um desafio computacional. Neste trabalho, mostramos que grandes modelos de linguagem (LLMs) pré-treinados podem modelar efetivamente dados gerados por HMMs por meio de aprendizado em contexto (ICL)x2013sua capacidade de inferir padrões a partir de exemplos dentro de um prompt. Em um conjunto diversificado de HMMs sintéticos, os LLMs alcançam precisão preditiva próxima ao ótimo teórico. Descobrimos tendências de escalonamento inéditas influenciadas pelas propriedades dos HMMs e oferecemos conjecturas teóricas para essas observações empíricas. Também fornecemos diretrizes práticas para cientistas sobre o uso do ICL como uma ferramenta de diagnóstico para dados complexos. Em tarefas reais de tomada de decisão animal, o ICL alcança desempenho competitivo com modelos projetados por especialistas humanos. Até onde sabemos, esta é a primeira demonstração de que o ICL pode aprender e prever sequências geradas por HMMsx2013um avanço que aprofunda nossa compreensão do aprendizado em contexto em LLMs e estabelece seu potencial como uma ferramenta poderosa para revelar estruturas ocultas em dados científicos complexos.
English
Hidden Markov Models (HMMs) are foundational tools for modeling sequential data with latent Markovian structure, yet fitting them to real-world data remains computationally challenging. In this work, we show that pre-trained large language models (LLMs) can effectively model data generated by HMMs via in-context learning (ICL)x2013their ability to infer patterns from examples within a prompt. On a diverse set of synthetic HMMs, LLMs achieve predictive accuracy approaching the theoretical optimum. We uncover novel scaling trends influenced by HMM properties, and offer theoretical conjectures for these empirical observations. We also provide practical guidelines for scientists on using ICL as a diagnostic tool for complex data. On real-world animal decision-making tasks, ICL achieves competitive performance with models designed by human experts. To our knowledge, this is the first demonstration that ICL can learn and predict HMM-generated sequencesx2013an advance that deepens our understanding of in-context learning in LLMs and establishes its potential as a powerful tool for uncovering hidden structure in complex scientific data.
PDF213June 10, 2025