RecurrentGPT: Generación Interactiva de Texto (Arbitrariamente) Largo
RecurrentGPT: Interactive Generation of (Arbitrarily) Long Text
May 22, 2023
Autores: Wangchunshu Zhou, Yuchen Eleanor Jiang, Peng Cui, Tiannan Wang, Zhenxin Xiao, Yifan Hou, Ryan Cotterell, Mrinmaya Sachan
cs.AI
Resumen
El contexto de tamaño fijo de Transformer hace que los modelos GPT sean incapaces de generar textos de longitud arbitraria. En este artículo, presentamos RecurrentGPT, un simulacro basado en lenguaje del mecanismo de recurrencia en RNNs. RecurrentGPT se construye sobre un modelo de lenguaje grande (LLM) como ChatGPT y utiliza lenguaje natural para simular el mecanismo de memoria a corto y largo plazo (LSTM). En cada paso de tiempo, RecurrentGPT genera un párrafo de texto y actualiza su memoria basada en lenguaje a corto y largo plazo, almacenada en el disco duro y en el prompt, respectivamente. Este mecanismo de recurrencia permite a RecurrentGPT generar textos de longitud arbitraria sin olvidar. Dado que los usuarios humanos pueden observar y editar fácilmente las memorias en lenguaje natural, RecurrentGPT es interpretable y permite la generación interactiva de textos largos. RecurrentGPT es un primer paso hacia sistemas de escritura asistida por computadora de próxima generación que van más allá de las sugerencias de edición local. Además de producir contenido generado por IA (AIGC), también demostramos la posibilidad de utilizar RecurrentGPT como una ficción interactiva que interactúa directamente con los consumidores. Llamamos a este uso de modelos generativos "IA como contenido" (AIAC), que creemos es la siguiente forma del AIGC convencional. Además, demostramos la posibilidad de utilizar RecurrentGPT para crear ficción interactiva personalizada que interactúa directamente con los lectores en lugar de interactuar con los escritores. En términos más generales, RecurrentGPT demuestra la utilidad de tomar ideas de diseños de modelos populares en ciencia cognitiva y aprendizaje profundo para guiar LLMs. Nuestro código está disponible en https://github.com/aiwaves-cn/RecurrentGPT y una demostración en línea está disponible en https://www.aiwaves.org/recurrentgpt.
English
The fixed-size context of Transformer makes GPT models incapable of
generating arbitrarily long text. In this paper, we introduce RecurrentGPT, a
language-based simulacrum of the recurrence mechanism in RNNs. RecurrentGPT is
built upon a large language model (LLM) such as ChatGPT and uses natural
language to simulate the Long Short-Term Memory mechanism in an LSTM. At each
timestep, RecurrentGPT generates a paragraph of text and updates its
language-based long-short term memory stored on the hard drive and the prompt,
respectively. This recurrence mechanism enables RecurrentGPT to generate texts
of arbitrary length without forgetting. Since human users can easily observe
and edit the natural language memories, RecurrentGPT is interpretable and
enables interactive generation of long text. RecurrentGPT is an initial step
towards next-generation computer-assisted writing systems beyond local editing
suggestions. In addition to producing AI-generated content (AIGC), we also
demonstrate the possibility of using RecurrentGPT as an interactive fiction
that directly interacts with consumers. We call this usage of generative models
by ``AI As Contents'' (AIAC), which we believe is the next form of conventional
AIGC. We further demonstrate the possibility of using RecurrentGPT to create
personalized interactive fiction that directly interacts with readers instead
of interacting with writers. More broadly, RecurrentGPT demonstrates the
utility of borrowing ideas from popular model designs in cognitive science and
deep learning for prompting LLMs. Our code is available at
https://github.com/aiwaves-cn/RecurrentGPT and an online demo is available at
https://www.aiwaves.org/recurrentgpt.