ChatPaper.aiChatPaper

Vortrainierte große Sprachmodelle lernen Hidden-Markov-Modelle im Kontext.

Pre-trained Large Language Models Learn Hidden Markov Models In-context

June 8, 2025
Autoren: Yijia Dai, Zhaolin Gao, Yahya Satter, Sarah Dean, Jennifer J. Sun
cs.AI

Zusammenfassung

Hidden Markov Models (HMMs) sind grundlegende Werkzeuge zur Modellierung sequenzieller Daten mit latenter Markov-Struktur, doch ihre Anpassung an reale Daten bleibt eine rechnerische Herausforderung. In dieser Arbeit zeigen wir, dass vortrainierte große Sprachmodelle (LLMs) Daten, die von HMMs generiert werden, effektiv über In-Context-Learning (ICL) modellieren können – ihre Fähigkeit, Muster aus Beispielen innerhalb eines Prompts abzuleiten. Auf einer vielfältigen Menge synthetischer HMMs erreichen LLMs eine Vorhersagegenauigkeit, die sich dem theoretischen Optimum annähert. Wir entdecken neuartige Skalierungstrends, die von den Eigenschaften der HMMs beeinflusst werden, und bieten theoretische Vermutungen für diese empirischen Beobachtungen. Zudem geben wir praktische Leitlinien für Wissenschaftler, wie ICL als Diagnosewerkzeug für komplexe Daten genutzt werden kann. Bei realen Aufgaben zur Entscheidungsfindung von Tieren erzielt ICL eine wettbewerbsfähige Leistung im Vergleich zu von menschlichen Experten entworfenen Modellen. Unseres Wissens ist dies der erste Nachweis, dass ICL HMM-generierte Sequenzen lernen und vorhersagen kann – ein Fortschritt, der unser Verständnis von In-Context-Learning in LLMs vertieft und sein Potenzial als leistungsstarkes Werkzeug zur Aufdeckung verborgener Strukturen in komplexen wissenschaftlichen Daten aufzeigt.
English
Hidden Markov Models (HMMs) are foundational tools for modeling sequential data with latent Markovian structure, yet fitting them to real-world data remains computationally challenging. In this work, we show that pre-trained large language models (LLMs) can effectively model data generated by HMMs via in-context learning (ICL)x2013their ability to infer patterns from examples within a prompt. On a diverse set of synthetic HMMs, LLMs achieve predictive accuracy approaching the theoretical optimum. We uncover novel scaling trends influenced by HMM properties, and offer theoretical conjectures for these empirical observations. We also provide practical guidelines for scientists on using ICL as a diagnostic tool for complex data. On real-world animal decision-making tasks, ICL achieves competitive performance with models designed by human experts. To our knowledge, this is the first demonstration that ICL can learn and predict HMM-generated sequencesx2013an advance that deepens our understanding of in-context learning in LLMs and establishes its potential as a powerful tool for uncovering hidden structure in complex scientific data.
PDF193June 10, 2025