ChatPaper.aiChatPaper

RecurrentGPT: Geração Interativa de Textos (Arbitrariamente) Longos

RecurrentGPT: Interactive Generation of (Arbitrarily) Long Text

May 22, 2023
Autores: Wangchunshu Zhou, Yuchen Eleanor Jiang, Peng Cui, Tiannan Wang, Zhenxin Xiao, Yifan Hou, Ryan Cotterell, Mrinmaya Sachan
cs.AI

Resumo

O contexto de tamanho fixo do Transformer torna os modelos GPT incapazes de gerar textos arbitrariamente longos. Neste artigo, apresentamos o RecurrentGPT, um simulacro baseado em linguagem do mecanismo de recorrência em RNNs. O RecurrentGPT é construído sobre um modelo de linguagem de grande escala (LLM), como o ChatGPT, e utiliza linguagem natural para simular o mecanismo de Memória de Longo e Curto Prazo (LSTM) em um LSTM. A cada passo de tempo, o RecurrentGPT gera um parágrafo de texto e atualiza sua memória de longo e curto prazo baseada em linguagem, armazenada no disco rígido e no prompt, respectivamente. Esse mecanismo de recorrência permite que o RecurrentGPT gere textos de comprimento arbitrário sem esquecer. Como os usuários humanos podem facilmente observar e editar as memórias em linguagem natural, o RecurrentGPT é interpretável e permite a geração interativa de textos longos. O RecurrentGPT é um passo inicial em direção a sistemas de escrita assistida por computador de próxima geração, indo além de sugestões de edição local. Além de produzir conteúdo gerado por IA (AIGC), também demonstramos a possibilidade de usar o RecurrentGPT como uma ficção interativa que interage diretamente com os consumidores. Chamamos esse uso de modelos generativos de ``IA Como Conteúdo'' (AIAC), que acreditamos ser a próxima forma do AIGC convencional. Além disso, demonstramos a possibilidade de usar o RecurrentGPT para criar ficção interativa personalizada que interage diretamente com os leitores, em vez de interagir com escritores. De forma mais ampla, o RecurrentGPT demonstra a utilidade de emprestar ideias de designs de modelos populares em ciência cognitiva e aprendizado profundo para a criação de prompts em LLMs. Nosso código está disponível em https://github.com/aiwaves-cn/RecurrentGPT e uma demonstração online está disponível em https://www.aiwaves.org/recurrentgpt.
English
The fixed-size context of Transformer makes GPT models incapable of generating arbitrarily long text. In this paper, we introduce RecurrentGPT, a language-based simulacrum of the recurrence mechanism in RNNs. RecurrentGPT is built upon a large language model (LLM) such as ChatGPT and uses natural language to simulate the Long Short-Term Memory mechanism in an LSTM. At each timestep, RecurrentGPT generates a paragraph of text and updates its language-based long-short term memory stored on the hard drive and the prompt, respectively. This recurrence mechanism enables RecurrentGPT to generate texts of arbitrary length without forgetting. Since human users can easily observe and edit the natural language memories, RecurrentGPT is interpretable and enables interactive generation of long text. RecurrentGPT is an initial step towards next-generation computer-assisted writing systems beyond local editing suggestions. In addition to producing AI-generated content (AIGC), we also demonstrate the possibility of using RecurrentGPT as an interactive fiction that directly interacts with consumers. We call this usage of generative models by ``AI As Contents'' (AIAC), which we believe is the next form of conventional AIGC. We further demonstrate the possibility of using RecurrentGPT to create personalized interactive fiction that directly interacts with readers instead of interacting with writers. More broadly, RecurrentGPT demonstrates the utility of borrowing ideas from popular model designs in cognitive science and deep learning for prompting LLMs. Our code is available at https://github.com/aiwaves-cn/RecurrentGPT and an online demo is available at https://www.aiwaves.org/recurrentgpt.
PDF22December 15, 2024