RecurrentGPT : Génération interactive de textes (arbitrairement) longs
RecurrentGPT: Interactive Generation of (Arbitrarily) Long Text
May 22, 2023
Auteurs: Wangchunshu Zhou, Yuchen Eleanor Jiang, Peng Cui, Tiannan Wang, Zhenxin Xiao, Yifan Hou, Ryan Cotterell, Mrinmaya Sachan
cs.AI
Résumé
Le contexte de taille fixe des Transformers rend les modèles GPT incapables de générer des textes de longueur arbitraire. Dans cet article, nous présentons RecurrentGPT, un simulacre basé sur le langage du mécanisme de récurrence des RNN. RecurrentGPT est construit sur un grand modèle de langage (LLM) tel que ChatGPT et utilise le langage naturel pour simuler le mécanisme de mémoire à long et court terme (LSTM). À chaque pas de temps, RecurrentGPT génère un paragraphe de texte et met à jour sa mémoire à long et court terme basée sur le langage, stockée sur le disque dur et dans l'invite, respectivement. Ce mécanisme de récurrence permet à RecurrentGPT de générer des textes de longueur arbitraire sans oubli. Comme les utilisateurs humains peuvent facilement observer et modifier les mémoires en langage naturel, RecurrentGPT est interprétable et permet une génération interactive de textes longs. RecurrentGPT est une première étape vers les systèmes d'écriture assistée par ordinateur de nouvelle génération, allant au-delà des suggestions d'édition locales. En plus de produire du contenu généré par IA (AIGC), nous démontrons également la possibilité d'utiliser RecurrentGPT comme une fiction interactive qui interagit directement avec les consommateurs. Nous appelons cette utilisation des modèles génératifs « L'IA comme contenu » (AIAC), que nous croyons être la prochaine forme de l'AIGC conventionnel. Nous démontrons en outre la possibilité d'utiliser RecurrentGPT pour créer des fictions interactives personnalisées qui interagissent directement avec les lecteurs plutôt qu'avec les écrivains. Plus largement, RecurrentGPT démontre l'utilité d'emprunter des idées aux conceptions de modèles populaires en sciences cognitives et en apprentissage profond pour inciter les LLM. Notre code est disponible à l'adresse https://github.com/aiwaves-cn/RecurrentGPT et une démonstration en ligne est disponible à l'adresse https://www.aiwaves.org/recurrentgpt.
English
The fixed-size context of Transformer makes GPT models incapable of
generating arbitrarily long text. In this paper, we introduce RecurrentGPT, a
language-based simulacrum of the recurrence mechanism in RNNs. RecurrentGPT is
built upon a large language model (LLM) such as ChatGPT and uses natural
language to simulate the Long Short-Term Memory mechanism in an LSTM. At each
timestep, RecurrentGPT generates a paragraph of text and updates its
language-based long-short term memory stored on the hard drive and the prompt,
respectively. This recurrence mechanism enables RecurrentGPT to generate texts
of arbitrary length without forgetting. Since human users can easily observe
and edit the natural language memories, RecurrentGPT is interpretable and
enables interactive generation of long text. RecurrentGPT is an initial step
towards next-generation computer-assisted writing systems beyond local editing
suggestions. In addition to producing AI-generated content (AIGC), we also
demonstrate the possibility of using RecurrentGPT as an interactive fiction
that directly interacts with consumers. We call this usage of generative models
by ``AI As Contents'' (AIAC), which we believe is the next form of conventional
AIGC. We further demonstrate the possibility of using RecurrentGPT to create
personalized interactive fiction that directly interacts with readers instead
of interacting with writers. More broadly, RecurrentGPT demonstrates the
utility of borrowing ideas from popular model designs in cognitive science and
deep learning for prompting LLMs. Our code is available at
https://github.com/aiwaves-cn/RecurrentGPT and an online demo is available at
https://www.aiwaves.org/recurrentgpt.