ChatPaper.aiChatPaper

Kognitiv inspirierte energiebasierte Weltmodelle

Cognitively Inspired Energy-Based World Models

June 13, 2024
papers.authors: Alexi Gladstone, Ganesh Nanduru, Md Mofijul Islam, Aman Chadha, Jundong Li, Tariq Iqbal
cs.AI

papers.abstract

Eine der vorherrschenden Methoden zur Schulung von Weltmodellen ist die autoregressive Vorhersage im Ausgaberaum des nächsten Elements einer Sequenz. In der natürlichen Sprachverarbeitung (NLP) nimmt dies die Form von Großen Sprachmodellen (LLMs) an, die das nächste Token vorhersagen; in der Computer Vision (CV) nimmt dies die Form von autoregressiven Modellen an, die das nächste Frame/Token/Pixel vorhersagen. Dieser Ansatz unterscheidet sich jedoch in mehreren Aspekten von der menschlichen Kognition. Erstens beeinflussen menschliche Vorhersagen über die Zukunft aktiv interne kognitive Prozesse. Zweitens bewerten Menschen natürlich die Plausibilität von Vorhersagen über zukünftige Zustände. Basierend auf dieser Fähigkeit und drittens, indem sie beurteilen, wann Vorhersagen ausreichend sind, weisen Menschen eine dynamische Menge Zeit zur Vorhersage zu. Dieser adaptive Prozess ist analog zum System-2-Denken in der Psychologie. All diese Fähigkeiten sind fundamental für den Erfolg von Menschen bei hochrangigem Denken und Planen. Daher führen wir zur Bewältigung der Einschränkungen traditioneller autoregressiver Modelle, die diese menschenähnlichen Fähigkeiten nicht aufweisen, Energy-Based World Models (EBWM) ein. EBWM beinhaltet das Training eines Energiebasierten Modells (EBM), um die Kompatibilität eines gegebenen Kontexts und eines vorhergesagten zukünftigen Zustands vorherzusagen. Auf diese Weise ermöglicht EBWM Modellen, alle drei Facetten der menschlichen Kognition zu erreichen, die beschrieben wurden. Darüber hinaus haben wir eine Variante des traditionellen autoregressiven Transformers entwickelt, die speziell für Energiebasierte Modelle geeignet ist, genannt den Energy-Based Transformer (EBT). Unsere Ergebnisse zeigen, dass EBWM besser mit Daten und GPU-Stunden skaliert als traditionelle autoregressive Transformer in der CV und dass EBWM vielversprechende frühe Skalierung in der NLP bietet. Folglich bietet dieser Ansatz einen spannenden Weg zur Schulung zukünftiger Modelle, die in der Lage sind, System-2-Denken zu entwickeln und intelligent über Zustandsräume zu suchen.
English
One of the predominant methods for training world models is autoregressive prediction in the output space of the next element of a sequence. In Natural Language Processing (NLP), this takes the form of Large Language Models (LLMs) predicting the next token; in Computer Vision (CV), this takes the form of autoregressive models predicting the next frame/token/pixel. However, this approach differs from human cognition in several respects. First, human predictions about the future actively influence internal cognitive processes. Second, humans naturally evaluate the plausibility of predictions regarding future states. Based on this capability, and third, by assessing when predictions are sufficient, humans allocate a dynamic amount of time to make a prediction. This adaptive process is analogous to System 2 thinking in psychology. All these capabilities are fundamental to the success of humans at high-level reasoning and planning. Therefore, to address the limitations of traditional autoregressive models lacking these human-like capabilities, we introduce Energy-Based World Models (EBWM). EBWM involves training an Energy-Based Model (EBM) to predict the compatibility of a given context and a predicted future state. In doing so, EBWM enables models to achieve all three facets of human cognition described. Moreover, we developed a variant of the traditional autoregressive transformer tailored for Energy-Based models, termed the Energy-Based Transformer (EBT). Our results demonstrate that EBWM scales better with data and GPU Hours than traditional autoregressive transformers in CV, and that EBWM offers promising early scaling in NLP. Consequently, this approach offers an exciting path toward training future models capable of System 2 thinking and intelligently searching across state spaces.
PDF107December 6, 2024