ChatPaper.aiChatPaper

Les grands modèles de langage pré-entraînés apprennent les modèles de Markov cachés en contexte.

Pre-trained Large Language Models Learn Hidden Markov Models In-context

June 8, 2025
Auteurs: Yijia Dai, Zhaolin Gao, Yahya Satter, Sarah Dean, Jennifer J. Sun
cs.AI

Résumé

Les modèles de Markov cachés (HMM) sont des outils fondamentaux pour modéliser des données séquentielles avec une structure markovienne latente, mais leur ajustement à des données réelles reste un défi computationnel. Dans ce travail, nous montrons que les grands modèles de langage (LLM) pré-entraînés peuvent modéliser efficacement les données générées par des HMM via l'apprentissage en contexte (ICL) – leur capacité à inférer des modèles à partir d'exemples dans un prompt. Sur un ensemble diversifié de HMM synthétiques, les LLM atteignent une précision prédictive approchant l'optimum théorique. Nous découvrons de nouvelles tendances d'échelle influencées par les propriétés des HMM et proposons des conjectures théoriques pour ces observations empiriques. Nous fournissons également des directives pratiques pour les scientifiques sur l'utilisation de l'ICL comme outil de diagnostic pour des données complexes. Sur des tâches réelles de prise de décision animale, l'ICL obtient des performances compétitives avec des modèles conçus par des experts humains. À notre connaissance, il s'agit de la première démonstration que l'ICL peut apprendre et prédire des séquences générées par des HMM – une avancée qui approfondit notre compréhension de l'apprentissage en contexte dans les LLM et établit son potentiel comme outil puissant pour révéler des structures cachées dans des données scientifiques complexes.
English
Hidden Markov Models (HMMs) are foundational tools for modeling sequential data with latent Markovian structure, yet fitting them to real-world data remains computationally challenging. In this work, we show that pre-trained large language models (LLMs) can effectively model data generated by HMMs via in-context learning (ICL)x2013their ability to infer patterns from examples within a prompt. On a diverse set of synthetic HMMs, LLMs achieve predictive accuracy approaching the theoretical optimum. We uncover novel scaling trends influenced by HMM properties, and offer theoretical conjectures for these empirical observations. We also provide practical guidelines for scientists on using ICL as a diagnostic tool for complex data. On real-world animal decision-making tasks, ICL achieves competitive performance with models designed by human experts. To our knowledge, this is the first demonstration that ICL can learn and predict HMM-generated sequencesx2013an advance that deepens our understanding of in-context learning in LLMs and establishes its potential as a powerful tool for uncovering hidden structure in complex scientific data.
PDF193June 10, 2025