Modèles de Contenu et de Comportement à Grande Échelle pour Comprendre, Simuler et Optimiser le Contenu et le Comportement
Large Content And Behavior Models To Understand, Simulate, And Optimize Content And Behavior
September 1, 2023
Auteurs: Ashmit Khandelwal, Aditya Agrawal, Aanisha Bhattacharyya, Yaman K Singla, Somesh Singh, Uttaran Bhattacharya, Ishita Dasgupta, Stefano Petrangeli, Rajiv Ratn Shah, Changyou Chen, Balaji Krishnamurthy
cs.AI
Résumé
Shannon, dans son article fondateur introduisant la théorie de l'information, a divisé la communication en trois niveaux : technique, sémantique et d'efficacité. Alors que le niveau technique concerne la reconstruction précise des symboles transmis, les niveaux sémantique et d'efficacité traitent du sens inféré et de son effet sur le récepteur. Grâce aux télécommunications, le problème du premier niveau a donné lieu à des avancées majeures comme l'internet. Les modèles de langage de grande taille (LLMs) font des progrès vers le deuxième objectif, mais le troisième niveau reste largement inexploré. Ce troisième problème concerne la prédiction et l'optimisation de la communication pour un comportement souhaité du récepteur. Les LLMs, bien qu'ils montrent des capacités de généralisation étendues sur une large gamme de tâches, sont incapables de résoudre ce problème. Une raison de cette sous-performance pourrait être l'absence de "tokens de comportement" dans les corpus d'entraînement des LLMs. Les tokens de comportement définissent le comportement du récepteur au cours d'une communication, tels que les partages, les likes, les clics, les achats, les retweets, etc. Lors du prétraitement des données pour l'entraînement des LLMs, les tokens de comportement sont souvent supprimés des corpus comme du bruit. Par conséquent, dans cet article, nous faisons des progrès initiaux vers la réintroduction des tokens de comportement dans l'entraînement des LLMs. Les modèles entraînés, en plus de montrer des performances similaires aux LLMs sur les tâches de compréhension de contenu, montrent des capacités de généralisation sur la simulation de comportement, la simulation de contenu, la compréhension du comportement et l'adaptation au domaine comportemental. En utilisant une large gamme de tâches sur deux corpus, nous montrons des résultats sur toutes ces capacités. Nous appelons ces modèles des Modèles de Contenu et de Comportement de Grande Taille (LCBMs). De plus, pour stimuler davantage de recherches sur les LCBMs, nous publions notre nouveau Corpus de Contenu et de Comportement (CBC), un référentiel contenant le communicateur, le message et le comportement correspondant du récepteur.
English
Shannon, in his seminal paper introducing information theory, divided the
communication into three levels: technical, semantic, and effectivenss. While
the technical level is concerned with accurate reconstruction of transmitted
symbols, the semantic and effectiveness levels deal with the inferred meaning
and its effect on the receiver. Thanks to telecommunications, the first level
problem has produced great advances like the internet. Large Language Models
(LLMs) make some progress towards the second goal, but the third level still
remains largely untouched. The third problem deals with predicting and
optimizing communication for desired receiver behavior. LLMs, while showing
wide generalization capabilities across a wide range of tasks, are unable to
solve for this. One reason for the underperformance could be a lack of
"behavior tokens" in LLMs' training corpora. Behavior tokens define receiver
behavior over a communication, such as shares, likes, clicks, purchases,
retweets, etc. While preprocessing data for LLM training, behavior tokens are
often removed from the corpora as noise. Therefore, in this paper, we make some
initial progress towards reintroducing behavior tokens in LLM training. The
trained models, other than showing similar performance to LLMs on content
understanding tasks, show generalization capabilities on behavior simulation,
content simulation, behavior understanding, and behavior domain adaptation.
Using a wide range of tasks on two corpora, we show results on all these
capabilities. We call these models Large Content and Behavior Models (LCBMs).
Further, to spur more research on LCBMs, we release our new Content Behavior
Corpus (CBC), a repository containing communicator, message, and corresponding
receiver behavior.