ChatPaper.aiChatPaper

Modèles de Contenu et de Comportement à Grande Échelle pour Comprendre, Simuler et Optimiser le Contenu et le Comportement

Large Content And Behavior Models To Understand, Simulate, And Optimize Content And Behavior

September 1, 2023
Auteurs: Ashmit Khandelwal, Aditya Agrawal, Aanisha Bhattacharyya, Yaman K Singla, Somesh Singh, Uttaran Bhattacharya, Ishita Dasgupta, Stefano Petrangeli, Rajiv Ratn Shah, Changyou Chen, Balaji Krishnamurthy
cs.AI

Résumé

Shannon, dans son article fondateur introduisant la théorie de l'information, a divisé la communication en trois niveaux : technique, sémantique et d'efficacité. Alors que le niveau technique concerne la reconstruction précise des symboles transmis, les niveaux sémantique et d'efficacité traitent du sens inféré et de son effet sur le récepteur. Grâce aux télécommunications, le problème du premier niveau a donné lieu à des avancées majeures comme l'internet. Les modèles de langage de grande taille (LLMs) font des progrès vers le deuxième objectif, mais le troisième niveau reste largement inexploré. Ce troisième problème concerne la prédiction et l'optimisation de la communication pour un comportement souhaité du récepteur. Les LLMs, bien qu'ils montrent des capacités de généralisation étendues sur une large gamme de tâches, sont incapables de résoudre ce problème. Une raison de cette sous-performance pourrait être l'absence de "tokens de comportement" dans les corpus d'entraînement des LLMs. Les tokens de comportement définissent le comportement du récepteur au cours d'une communication, tels que les partages, les likes, les clics, les achats, les retweets, etc. Lors du prétraitement des données pour l'entraînement des LLMs, les tokens de comportement sont souvent supprimés des corpus comme du bruit. Par conséquent, dans cet article, nous faisons des progrès initiaux vers la réintroduction des tokens de comportement dans l'entraînement des LLMs. Les modèles entraînés, en plus de montrer des performances similaires aux LLMs sur les tâches de compréhension de contenu, montrent des capacités de généralisation sur la simulation de comportement, la simulation de contenu, la compréhension du comportement et l'adaptation au domaine comportemental. En utilisant une large gamme de tâches sur deux corpus, nous montrons des résultats sur toutes ces capacités. Nous appelons ces modèles des Modèles de Contenu et de Comportement de Grande Taille (LCBMs). De plus, pour stimuler davantage de recherches sur les LCBMs, nous publions notre nouveau Corpus de Contenu et de Comportement (CBC), un référentiel contenant le communicateur, le message et le comportement correspondant du récepteur.
English
Shannon, in his seminal paper introducing information theory, divided the communication into three levels: technical, semantic, and effectivenss. While the technical level is concerned with accurate reconstruction of transmitted symbols, the semantic and effectiveness levels deal with the inferred meaning and its effect on the receiver. Thanks to telecommunications, the first level problem has produced great advances like the internet. Large Language Models (LLMs) make some progress towards the second goal, but the third level still remains largely untouched. The third problem deals with predicting and optimizing communication for desired receiver behavior. LLMs, while showing wide generalization capabilities across a wide range of tasks, are unable to solve for this. One reason for the underperformance could be a lack of "behavior tokens" in LLMs' training corpora. Behavior tokens define receiver behavior over a communication, such as shares, likes, clicks, purchases, retweets, etc. While preprocessing data for LLM training, behavior tokens are often removed from the corpora as noise. Therefore, in this paper, we make some initial progress towards reintroducing behavior tokens in LLM training. The trained models, other than showing similar performance to LLMs on content understanding tasks, show generalization capabilities on behavior simulation, content simulation, behavior understanding, and behavior domain adaptation. Using a wide range of tasks on two corpora, we show results on all these capabilities. We call these models Large Content and Behavior Models (LCBMs). Further, to spur more research on LCBMs, we release our new Content Behavior Corpus (CBC), a repository containing communicator, message, and corresponding receiver behavior.
PDF220December 15, 2024