ChatPaper.aiChatPaper

Los modelos de lenguaje preentrenados a gran escala aprenden modelos ocultos de Markov en contexto.

Pre-trained Large Language Models Learn Hidden Markov Models In-context

June 8, 2025
Autores: Yijia Dai, Zhaolin Gao, Yahya Satter, Sarah Dean, Jennifer J. Sun
cs.AI

Resumen

Los Modelos Ocultos de Markov (HMMs, por sus siglas en inglés) son herramientas fundamentales para modelar datos secuenciales con estructura latente markoviana, aunque ajustarlos a datos del mundo real sigue siendo un desafío computacional. En este trabajo, demostramos que los modelos de lenguaje de gran escala (LLMs) preentrenados pueden modelar efectivamente datos generados por HMMs mediante el aprendizaje en contexto (ICL, por sus siglas en inglés)x2013su capacidad para inferir patrones a partir de ejemplos dentro de un prompt. En un conjunto diverso de HMMs sintéticos, los LLMs alcanzan una precisión predictiva cercana al óptimo teórico. Descubrimos tendencias de escalamiento novedosas influenciadas por las propiedades de los HMMs y ofrecemos conjeturas teóricas para estas observaciones empíricas. También proporcionamos pautas prácticas para científicos sobre el uso de ICL como herramienta de diagnóstico para datos complejos. En tareas reales de toma de decisiones animales, ICL logra un rendimiento competitivo con modelos diseñados por expertos humanos. Hasta donde sabemos, esta es la primera demostración de que ICL puede aprender y predecir secuencias generadas por HMMsx2013un avance que profundiza nuestra comprensión del aprendizaje en contexto en LLMs y establece su potencial como una herramienta poderosa para descubrir estructuras ocultas en datos científicos complejos.
English
Hidden Markov Models (HMMs) are foundational tools for modeling sequential data with latent Markovian structure, yet fitting them to real-world data remains computationally challenging. In this work, we show that pre-trained large language models (LLMs) can effectively model data generated by HMMs via in-context learning (ICL)x2013their ability to infer patterns from examples within a prompt. On a diverse set of synthetic HMMs, LLMs achieve predictive accuracy approaching the theoretical optimum. We uncover novel scaling trends influenced by HMM properties, and offer theoretical conjectures for these empirical observations. We also provide practical guidelines for scientists on using ICL as a diagnostic tool for complex data. On real-world animal decision-making tasks, ICL achieves competitive performance with models designed by human experts. To our knowledge, this is the first demonstration that ICL can learn and predict HMM-generated sequencesx2013an advance that deepens our understanding of in-context learning in LLMs and establishes its potential as a powerful tool for uncovering hidden structure in complex scientific data.
PDF193June 10, 2025