Artigos de pesquisa em IA selecionados diariamente com traduções
A geração de imagens a partir de texto tem testemunhado conquistas notáveis recentemente. Apresentamos um modelo de difusão de imagens condicionado por texto, denominado RAPHAEL, para gerar imagens altamente artísticas que retratam com precisão os prompts textuais, abrangendo múltiplos substantivos, adjetivos e verbos. Isso é alcançado empilhando dezenas de camadas de mistura de especialistas (MoEs), ou seja, camadas space-MoE e time-MoE, permitindo bilhões de caminhos (rotas) de difusão desde a entrada até a saída da rede. Cada caminho funciona intuitivamente como um "pintor" para representar um conceito textual específico em uma região da imagem em um passo de difusão. Experimentos abrangentes revelam que o RAPHAEL supera modelos recentes de ponta, como Stable Diffusion, ERNIE-ViLG 2.0, DeepFloyd e DALL-E 2, tanto em qualidade de imagem quanto em apelo estético. Primeiramente, o RAPHAEL demonstra desempenho superior na alternância de imagens entre diversos estilos, como quadrinhos japoneses, realismo, cyberpunk e ilustração em tinta. Em segundo lugar, um único modelo com três bilhões de parâmetros, treinado em 1.000 GPUs A100 por dois meses, alcança um estado da arte no score FID zero-shot de 6.61 no conjunto de dados COCO. Além disso, o RAPHAEL supera significativamente seus concorrentes na avaliação humana no benchmark ViLG-300. Acreditamos que o RAPHAEL tem o potencial de impulsionar as fronteiras da pesquisa em geração de imagens tanto na academia quanto na indústria, pavimentando o caminho para futuros avanços neste campo em rápida evolução. Mais detalhes podem ser encontrados na página do projeto: https://raphael-painter.github.io/.
Propomos um método para fundir modelos de linguagem grandes (LLMs) congelados e exclusivamente textuais com modelos pré-treinados de codificação e decodificação de imagens, mapeando entre seus espaços de incorporação. Nosso modelo demonstra uma ampla gama de capacidades multimodais: recuperação de imagens, geração de novas imagens e diálogo multimodal. Nossa abordagem é a primeira capaz de condicionar entradas intercaladas arbitrariamente de imagens e texto para gerar saídas coerentes de imagens (e texto). Para alcançar um desempenho robusto na geração de imagens, propomos uma rede de mapeamento eficiente para ancorar o LLM a um modelo de geração de texto para imagem pronto para uso. Essa rede de mapeamento traduz representações ocultas de texto para o espaço de incorporação dos modelos visuais, permitindo-nos aproveitar as fortes representações textuais do LLM para saídas visuais. Nossa abordagem supera modelos de geração de linha de base em tarefas com linguagem mais longa e complexa. Além da geração de novas imagens, nosso modelo também é capaz de recuperar imagens de um conjunto de dados pré-especificado e decide se deve recuperar ou gerar no momento da inferência. Isso é feito com um módulo de decisão aprendido que condiciona as representações ocultas do LLM. Nosso modelo exibe uma gama mais ampla de capacidades em comparação com modelos de linguagem multimodal anteriores. Ele pode processar entradas de imagem e texto e produzir imagens recuperadas, imagens geradas e texto gerado — superando modelos de geração não baseados em LLM em várias tarefas de texto para imagem que medem a dependência de contexto.
O Stable Diffusion revolucionou a criação de imagens a partir de textos descritivos. O GPT-2, GPT-3(.5) e GPT-4 demonstraram desempenho impressionante em uma variedade de tarefas de linguagem. O ChatGPT introduziu esses modelos de linguagem ao público em geral. Agora está claro que os grandes modelos de linguagem (LLMs, na sigla em inglês) vieram para ficar e trarão mudanças drásticas em todo o ecossistema de textos e imagens online. Neste artigo, consideramos o que o futuro pode reservar. O que acontecerá com o GPT-{n} quando os LLMs contribuírem com grande parte da linguagem encontrada na internet? Descobrimos que o uso de conteúdo gerado por modelos no treinamento causa defeitos irreversíveis nos modelos resultantes, onde as caudas da distribuição original do conteúdo desaparecem. Chamamos esse efeito de "demência de modelo" e mostramos que ele pode ocorrer em Autoencoders Variacionais (VAEs), Modelos de Mistura Gaussiana (GMMs) e LLMs. Construímos uma intuição teórica por trás do fenômeno e destacamos sua ubiquidade entre todos os modelos generativos aprendidos. Demonstramos que ele deve ser levado a sério se quisermos sustentar os benefícios do treinamento com dados em grande escala extraídos da web. De fato, o valor dos dados coletados sobre interações genuínas de humanos com sistemas será cada vez mais valioso na presença de conteúdo gerado por LLMs em dados coletados da internet.
Modelos públicos de difusão de texto para imagem em grande escala, como o Stable Diffusion, têm ganhado atenção significativa da comunidade. Esses modelos podem ser facilmente personalizados para novos conceitos usando adaptações de baixo posto (LoRAs). No entanto, a utilização de múltiplos LoRAs de conceito para suportar conjuntamente vários conceitos personalizados apresenta um desafio. Referimo-nos a esse cenário como personalização descentralizada de múltiplos conceitos, que envolve ajuste de conceito de cliente único e fusão de conceito no nó central. Neste artigo, propomos uma nova estrutura chamada Mix-of-Show que aborda os desafios da personalização descentralizada de múltiplos conceitos, incluindo conflitos de conceito resultantes do ajuste de LoRA de cliente único existente e perda de identidade durante a fusão de modelos. O Mix-of-Show adota um LoRA de decomposição de incorporação (ED-LoRA) para ajuste de cliente único e fusão de gradiente para o nó central, a fim de preservar a essência no domínio de conceitos únicos e suportar fusão de conceitos teoricamente ilimitada. Além disso, introduzimos amostragem regionalmente controlável, que estende a amostragem espacialmente controlável (por exemplo, ControlNet e T2I-Adaptor) para abordar problemas de vinculação de atributos e objetos ausentes na amostragem de múltiplos conceitos. Experimentos extensivos demonstram que o Mix-of-Show é capaz de compor múltiplos conceitos personalizados com alta fidelidade, incluindo personagens, objetos e cenários.
Modelos de linguagem de grande escala (LLMs) demonstram desempenho promissor em tradução entre diversos idiomas naturais. No entanto, muitos LLMs, especialmente os de código aberto, como BLOOM e LLaMA, são predominantemente em inglês e suportam apenas dezenas de idiomas naturais, o que faz com que o potencial dos LLMs em tradução de idiomas seja menos explorado. Neste trabalho, apresentamos o BigTrans, que adapta o LLaMA, que cobre apenas 20 idiomas, e o aprimora com capacidade de tradução multilíngue para mais de 100 idiomas. O BigTrans é construído com base no LLaMA-13B e é otimizado em três etapas. Primeiro, continuamos o treinamento do LLaMA com uma grande quantidade de dados monolíngues em chinês. Segundo, continuamos o treinamento do modelo com um conjunto de dados paralelos em larga escala que abrange 102 idiomas naturais. Terceiro, ajustamos o modelo base com instruções de tradução multilíngue, resultando no nosso modelo BigTrans. Os experimentos preliminares em tradução multilíngue mostram que o BigTrans tem um desempenho comparável ao ChatGPT e ao Google Translate em muitos idiomas e até supera o ChatGPT em 8 pares de idiomas. Disponibilizamos o modelo BigTrans e esperamos que ele possa avançar o progresso da pesquisa.
Apresentamos o MindEye, uma nova abordagem de fMRI-para-imagem para recuperar e reconstruir imagens visualizadas a partir da atividade cerebral. Nosso modelo é composto por dois submódulos paralelos especializados para recuperação (usando aprendizado contrastivo) e reconstrução (usando um prior de difusão). O MindEye pode mapear a atividade cerebral de fMRI para qualquer espaço latente multimodal de alta dimensionalidade, como o espaço de imagens CLIP, permitindo a reconstrução de imagens usando modelos generativos que aceitam embeddings desse espaço latente. Comparamos de forma abrangente nossa abordagem com outros métodos existentes, utilizando tanto comparações qualitativas lado a lado quanto avaliações quantitativas, e mostramos que o MindEye alcança desempenho de ponta tanto em tarefas de reconstrução quanto de recuperação. Em particular, o MindEye pode recuperar a imagem original exata mesmo entre candidatos altamente semelhantes, indicando que seus embeddings cerebrais retêm informações específicas da imagem em nível detalhado. Isso nos permite recuperar imagens com precisão mesmo em bancos de dados de grande escala, como o LAION-5B. Demonstramos por meio de ablações que as melhorias de desempenho do MindEye em relação a métodos anteriores resultam de submódulos especializados para recuperação e reconstrução, técnicas de treinamento aprimoradas e modelos treinados com ordens de magnitude mais parâmetros. Além disso, mostramos que o MindEye pode preservar melhor as características de baixo nível das imagens nas reconstruções ao usar img2img, com saídas de um autoencoder separado. Todo o código está disponível no GitHub.
A visualização precisa de histórias requer vários elementos essenciais, como consistência de identidade entre os quadros, alinhamento entre texto simples e conteúdo visual, e um layout razoável dos objetos nas imagens. A maioria dos trabalhos anteriores busca atender a esses requisitos ajustando um modelo de texto para imagem (T2I) em um conjunto de vídeos com o mesmo estilo e os mesmos personagens, por exemplo, o conjunto de dados FlintstonesSV. No entanto, os modelos T2I aprendidos geralmente lutam para se adaptar a novos personagens, cenários e estilos, e frequentemente carecem de flexibilidade para revisar o layout das imagens sintetizadas. Este artigo propõe um sistema para visualização interativa genérica de histórias, capaz de lidar com múltiplos personagens novos e suportar a edição de layout e estrutura local. Ele é desenvolvido aproveitando o conhecimento prévio de grandes modelos de linguagem e T2I, treinados em corpora massivos. O sistema compreende quatro componentes interconectados: geração de história para prompt (S2P), geração de texto para layout (T2L), geração controlável de texto para imagem (C-T2I) e animação de imagem para vídeo (I2V). Primeiro, o módulo S2P converte informações concisas da história em prompts detalhados necessários para as etapas subsequentes. Em seguida, o T2L gera layouts diversos e razoáveis com base nos prompts, oferecendo aos usuários a capacidade de ajustar e refinar o layout de acordo com sua preferência. O componente central, C-T2I, permite a criação de imagens guiadas por layouts, esboços e identificadores específicos de atores para manter a consistência e os detalhes nas visualizações. Finalmente, o I2V enriquece o processo de visualização animando as imagens geradas. Experimentos extensivos e um estudo com usuários são conduzidos para validar a eficácia e a flexibilidade da edição interativa do sistema proposto.
Este artigo tem como objetivo permitir de forma eficiente que Modelos de Linguagem de Grande Escala (LLMs) utilizem ferramentas multimodais. LLMs proprietários avançados, como ChatGPT e GPT-4, demonstraram grande potencial para o uso de ferramentas por meio de engenharia de prompts sofisticada. No entanto, esses modelos geralmente dependem de custos computacionais proibitivos e dados publicamente inacessíveis. Para enfrentar esses desafios, propomos o GPT4Tools, baseado em auto-instrução, para permitir que LLMs de código aberto, como LLaMA e OPT, utilizem ferramentas. Ele gera um conjunto de dados de seguimento de instruções ao solicitar a um professor avançado com vários contextos multimodais. Utilizando a otimização de Adaptação de Baixa Classificação (LoRA), nossa abordagem facilita que os LLMs de código aberto resolvam uma variedade de problemas visuais, incluindo compreensão visual e geração de imagens. Além disso, fornecemos um benchmark para avaliar a capacidade dos LLMs de usar ferramentas, realizado tanto de forma zero-shot quanto com ajuste fino. Experimentos extensivos demonstram a eficácia do nosso método em vários modelos de linguagem, que não apenas melhora significativamente a precisão na invocação de ferramentas conhecidas, mas também habilita a capacidade zero-shot para ferramentas desconhecidas. O código e a demonstração estão disponíveis em https://github.com/StevenGrove/GPT4Tools.
Modelos de Linguagem de Grande Escala (LLMs) com fortes habilidades em tarefas de processamento de linguagem natural surgiram e têm sido rapidamente aplicados em diversas áreas, como ciência, finanças e engenharia de software. No entanto, a capacidade dos LLMs de avançar o campo da química ainda não é clara. Neste artigo, estabelecemos um benchmark abrangente contendo 8 tarefas práticas de química, incluindo 1) previsão de nomes, 2) previsão de propriedades, 3) previsão de rendimento, 4) previsão de reações, 5) retrossíntese (previsão de reagentes a partir de produtos), 6) design de moléculas baseado em texto, 7) legendagem de moléculas e 8) seleção de reagentes. Nossa análise utiliza conjuntos de dados amplamente reconhecidos, incluindo BBBP, Tox21, PubChem, USPTO e ChEBI, facilitando uma exploração abrangente das capacidades dos LLMs no contexto da química prática. Três modelos GPT (GPT-4, GPT-3.5 e Davinci-003) são avaliados para cada tarefa de química em configurações de aprendizado zero-shot e few-shot com exemplos de demonstração cuidadosamente selecionados e prompts especialmente elaborados. Os principais resultados de nossa investigação são: 1) GPT-4 supera os outros dois modelos entre os três avaliados; 2) os modelos GPT exibem desempenho menos competitivo em tarefas que exigem compreensão precisa da representação SMILES de moléculas, como previsão de reações e retrossíntese; 3) os modelos GPT demonstram fortes capacidades em tarefas de explicação relacionadas a texto, como legendagem de moléculas; e 4) os modelos GPT exibem desempenho comparável ou superior aos modelos clássicos de aprendizado de máquina quando aplicados a problemas químicos que podem ser transformados em tarefas de classificação ou ordenação, como previsão de propriedades e previsão de rendimento.
Apresentamos o SwiftSage, uma nova estrutura de agente inspirada na teoria do processo duplo da cognição humana, projetada para se destacar no planejamento de ações para tarefas complexas de raciocínio interativo. O SwiftSage integra os pontos fortes da clonagem de comportamento e do prompting de modelos de linguagem de grande escala (LLMs) para melhorar o desempenho na conclusão de tarefas. A estrutura é composta por dois módulos principais: o módulo Swift, que representa o pensamento rápido e intuitivo, e o módulo Sage, que emula processos de pensamento deliberados. O módulo Swift é um pequeno modelo de linguagem codificador-decodificador ajustado nas trajetórias de ação do agente oráculo, enquanto o módulo Sage emprega LLMs como o GPT-4 para o planejamento de subobjetivos e a fundamentação. Desenvolvemos um método heurístico para integrar harmonicamente os dois módulos, resultando em um processo de resolução de problemas mais eficiente e robusto. Em 30 tarefas do benchmark ScienceWorld, o SwiftSage superou significativamente outros métodos como SayCan, ReAct e Reflexion, demonstrando sua eficácia na resolução de tarefas complexas do mundo real.
Aproveitando grandes conjuntos de dados de imagem-texto e avanços em modelos de difusão, os modelos generativos orientados por texto têm feito progressos notáveis no campo de geração e edição de imagens. Este estudo explora o potencial de estender a capacidade orientada por texto para a geração e edição de vídeos longos com múltiplas condições de texto. As metodologias atuais para geração e edição de vídeos, embora inovadoras, frequentemente se limitam a vídeos extremamente curtos (geralmente com menos de 24 quadros) e estão restritas a uma única condição de texto. Essas limitações reduzem significativamente suas aplicações, considerando que vídeos do mundo real geralmente consistem em múltiplos segmentos, cada um contendo diferentes informações semânticas. Para enfrentar esse desafio, introduzimos um novo paradigma chamado Gen-L-Video, capaz de estender modelos de difusão de vídeos curtos prontos para uso, gerando e editando vídeos com centenas de quadros e diversos segmentos semânticos sem a necessidade de treinamento adicional, tudo isso mantendo a consistência do conteúdo. Implementamos três metodologias principais de geração e edição de vídeos orientadas por texto e as estendemos para acomodar vídeos mais longos com uma variedade de segmentos semânticos usando nosso paradigma proposto. Nossos resultados experimentais mostram que nossa abordagem amplia significativamente as capacidades de geração e edição de modelos de difusão de vídeos, oferecendo novas possibilidades para pesquisas e aplicações futuras. O código está disponível em https://github.com/G-U-N/Gen-L-Video.
Os modelos atuais de geração de imagens a partir de texto frequentemente têm dificuldade em seguir instruções textuais, especialmente aquelas que exigem raciocínio espacial. Por outro lado, os Modelos de Linguagem de Grande Escala (LLMs), como o GPT-4, demonstraram uma precisão notável na geração de trechos de código para esboçar entradas textuais graficamente, por exemplo, via TikZ. Neste trabalho, introduzimos o Control-GPT para orientar os pipelines de geração de imagens baseados em difusão com esboços programáticos gerados pelo GPT-4, aprimorando suas habilidades de seguir instruções. O Control-GPT funciona consultando o GPT-4 para escrever código TikZ, e os esboços gerados são usados como referências juntamente com as instruções textuais para modelos de difusão (por exemplo, ControlNet) gerarem imagens foto-realistas. Um grande desafio para treinar nosso pipeline é a falta de um conjunto de dados contendo texto, imagens e esboços alinhados. Resolvemos esse problema convertendo máscaras de instância em conjuntos de dados existentes em polígonos para imitar os esboços usados no momento do teste. Como resultado, o Control-GPT aumenta significativamente a controlabilidade da geração de imagens. Ele estabelece um novo estado da arte na geração de arranjos espaciais e posicionamento de objetos e aprimora o controle dos usuários sobre posições, tamanhos etc. de objetos, quase dobrando a precisão dos modelos anteriores. Nosso trabalho, como uma primeira tentativa, mostra o potencial de empregar LLMs para melhorar o desempenho em tarefas de visão computacional.
O ajuste fino de modelos de linguagem (LMs) tem obtido sucesso em diversas tarefas subsequentes, mas, à medida que os LMs aumentam em tamanho, a retropropagação exige uma quantidade proibitivamente grande de memória. Métodos de ordem zero (ZO) podem, em princípio, estimar gradientes usando apenas duas passagens diretas, mas são teoricamente considerados catastróficamente lentos para otimizar modelos grandes. Neste trabalho, propomos um otimizador de ordem zero eficiente em memória (MeZO), adaptando o método clássico ZO-SGD para operar in-place, permitindo assim o ajuste fino de LMs com a mesma pegada de memória que a inferência. Por exemplo, com uma única GPU A100 80GB, o MeZO pode treinar um modelo de 30 bilhões de parâmetros, enquanto o ajuste fino com retropropagação pode treinar apenas um LM de 2,7B com o mesmo orçamento. Realizamos experimentos abrangentes em diversos tipos de modelos (LMs mascarados e autorregressivos), escalas de modelos (até 66B) e tarefas subsequentes (classificação, múltipla escolha e geração). Nossos resultados demonstram que (1) o MeZO supera significativamente o aprendizado em contexto e a sondagem linear; (2) o MeZO alcança desempenho comparável ao ajuste fino com retropropagação em várias tarefas, com redução de memória de até 12x; (3) o MeZO é compatível com técnicas de ajuste de parâmetros completos e eficientes, como LoRA e prefix tuning; (4) o MeZO pode otimizar efetivamente objetivos não diferenciáveis (por exemplo, maximizar precisão ou F1). Apoiamos nossas descobertas empíricas com insights teóricos, destacando como um pré-treinamento adequado e prompts de tarefas permitem que o MeZO ajuste modelos enormes, apesar das análises clássicas de ZO sugerirem o contrário.
Em uma era onde imagens e conteúdo visual dominam nossa paisagem digital, a capacidade de manipular e personalizar essas imagens tornou-se uma necessidade. Imagine substituir perfeitamente um gato malhado descansando em um parapeito ensolarado em uma fotografia pelo seu próprio filhote brincalhão, mantendo o charme e a composição originais da imagem. Apresentamos o Photoswap, uma abordagem inovadora que possibilita essa experiência imersiva de edição de imagens por meio da troca personalizada de objetos em imagens existentes. O Photoswap primeiro aprende o conceito visual do objeto a partir de imagens de referência e, em seguida, o insere na imagem alvo utilizando modelos de difusão pré-treinados, sem necessidade de treinamento adicional. Demonstramos que um objeto visual bem conceituado pode ser transferido perfeitamente para qualquer imagem com a manipulação adequada de auto-atenção e atenção cruzada, preservando a pose do objeto trocado e a coerência geral da imagem. Experimentos abrangentes destacam a eficácia e a controlabilidade do Photoswap na troca personalizada de objetos. Além disso, o Photoswap supera significativamente métodos de referência em avaliações humanas em termos de troca de objetos, preservação do fundo e qualidade geral, revelando seu vasto potencial de aplicação, desde entretenimento até edição profissional.
Recentemente, tem havido um interesse crescente no desenvolvimento de modelos generativos de texto para imagem baseados em difusão, capazes de gerar textos visuais coerentes e bem-formados. Neste artigo, propomos uma abordagem nova e eficiente chamada GlyphControl para abordar essa tarefa. Diferente dos métodos existentes que dependem de codificadores de texto conscientes de caracteres, como o ByT5, e exigem o retreinamento de modelos de texto para imagem, nossa abordagem aproveita informações condicionais adicionais de glifos para melhorar o desempenho do modelo Stable-Diffusion pronto para uso na geração de textos visuais precisos. Ao incorporar instruções de glifos, os usuários podem personalizar o conteúdo, a localização e o tamanho do texto gerado de acordo com suas necessidades específicas. Para facilitar pesquisas futuras na geração de textos visuais, construímos um conjunto de dados de referência para treinamento chamado LAION-Glyph. Avaliamos a eficácia de nossa abordagem medindo métricas baseadas em OCR e pontuações CLIP dos textos visuais gerados. Nossas avaliações empíricas demonstram que o GlyphControl supera a recente abordagem DeepFloyd IF em termos de precisão OCR e pontuações CLIP, destacando a eficácia de nosso método.
À medida que os modelos de linguagem de grande escala (LLMs) continuam a ser desenvolvidos, sua avaliação torna-se cada vez mais importante, porém desafiadora. Este trabalho propõe o Chain-of-Thought Hub, um conjunto de avaliação de código aberto focado nas capacidades de raciocínio em múltiplos passos dos modelos de linguagem de grande escala. Interessamo-nos por esse cenário por duas razões: (1) a partir do comportamento das famílias de modelos GPT e PaLM, observamos que o raciocínio complexo provavelmente será um diferencial chave entre LLMs mais fracos e mais fortes; (2) prevemos que os modelos de linguagem de grande escala se tornarão a próxima geração de plataformas computacionais e fomentarão um ecossistema de novas aplicações baseadas em LLMs, o que naturalmente exige que os modelos de base realizem tarefas complexas que frequentemente envolvem a composição de operações linguísticas e lógicas. Nossa abordagem consiste em compilar um conjunto de benchmarks desafiadores de raciocínio para acompanhar o progresso dos LLMs. Nossos resultados atuais mostram que: (1) a escala do modelo claramente se correlaciona com as capacidades de raciocínio; (2) Em maio de 2023, Claude-v1.3 e PaLM-2 são os únicos dois modelos comparáveis ao GPT-4, enquanto os modelos de código aberto ainda estão atrás; (3) LLaMA-65B tem um desempenho próximo ao code-davinci-002, indicando que, com um desenvolvimento adicional bem-sucedido, como o aprendizado por reforço com feedback humano (RLHF), ele tem grande potencial para se aproximar do GPT-3.5-Turbo. Nossos resultados também sugerem que, para os esforços de código aberto alcançarem os modelos líderes, a comunidade pode focar mais na construção de modelos base melhores e na exploração do RLHF.
O fascinante mundo do Minecraft tem atraído um interesse substancial de pesquisa nos últimos anos, servindo como uma plataforma rica para o desenvolvimento de agentes inteligentes capazes de funcionar em ambientes de mundo aberto. No entanto, o cenário atual de pesquisa foca predominantemente em objetivos específicos, como a popular tarefa "ObtainDiamond", e ainda não demonstrou uma generalização eficaz para um espectro mais amplo de tarefas. Além disso, a taxa de sucesso atual para a tarefa "ObtainDiamond" é de cerca de 20%, destacando as limitações dos controladores baseados em Aprendizado por Reforço (RL) usados nos métodos existentes. Para enfrentar esses desafios, introduzimos o Ghost in the Minecraft (GITM), um novo framework que integra Modelos de Linguagem de Grande Escala (LLMs) com conhecimento e memória baseados em texto, visando criar Agentes Geralmente Capazes (GCAs) no Minecraft. Esses agentes, equipados com as capacidades de lógica e senso comum dos LLMs, podem navegar habilmente em ambientes complexos e de recompensa esparsa com interações baseadas em texto. Desenvolvemos um conjunto de ações estruturadas e aproveitamos os LLMs para gerar planos de ação para os agentes executarem. O agente baseado em LLM resultante supera significativamente os métodos anteriores, alcançando uma melhoria notável de +47,5% na taxa de sucesso na tarefa "ObtainDiamond", demonstrando uma robustez superior em comparação com os controladores tradicionais baseados em RL. Notavelmente, nosso agente é o primeiro a obter todos os itens da árvore tecnológica do Minecraft Overworld, demonstrando suas extensas capacidades. O GITM não precisa de nenhuma GPU para treinamento, mas um único nó de CPU com 32 núcleos de CPU é suficiente. Esta pesquisa mostra o potencial dos LLMs no desenvolvimento de agentes capazes de lidar com tarefas complexas de longo prazo e de se adaptar a incertezas em ambientes de mundo aberto. Veja o site do projeto em https://github.com/OpenGVLab/GITM.
Apesar do tremendo sucesso dos modelos generativos de difusão na geração de texto para imagem, replicar esse sucesso no domínio da compressão de imagens tem se mostrado difícil. Neste artigo, demonstramos que a difusão pode melhorar significativamente a qualidade perceptual em uma determinada taxa de bits, superando as abordagens state-of-the-art PO-ELIC e HiFiC, conforme medido pelo score FID. Isso é alcançado usando uma abordagem simples, mas teoricamente motivada, em dois estágios, que combina um autoencoder direcionado ao MSE seguido por um decodificador adicional baseado em scores. No entanto, como mostraremos, os detalhes de implementação são importantes, e as decisões de design ideais podem diferir bastante dos modelos típicos de texto para imagem.
Os grandes modelos de linguagem (LLMs) melhoraram significativamente a fluência e a diversidade do texto gerado por máquinas. No entanto, esse progresso também apresenta um desafio significativo na detecção da origem de um determinado texto, e a pesquisa atual sobre métodos de detecção está aquém da rápida evolução dos LLMs. Os métodos convencionais baseados em treinamento têm limitações em termos de flexibilidade, especialmente ao se adaptar a novos domínios, e muitas vezes carecem de poder explicativo. Para abordar essa lacuna, propomos uma nova estratégia de detecção sem treinamento chamada Análise Divergente de N-Gramas (DNA-GPT). Dado um texto, primeiro o truncamos no meio e, em seguida, usamos apenas a parte anterior como entrada para os LLMs, a fim de regenerar as novas partes restantes. Ao analisar as diferenças entre as partes originais e as novas partes restantes por meio da análise de N-gramas em caixa-preta ou da divergência de probabilidade em caixa-branca, podemos ilustrar claramente discrepâncias significativas entre o texto gerado por máquina e o escrito por humanos. Realizamos extensos experimentos com os LLMs mais avançados da OpenAI, incluindo text-davinci-003, GPT-3.5-turbo e GPT-4, bem como modelos de código aberto como GPT-NeoX-20B e LLaMa-13B. Os resultados mostram que nossa abordagem zero-shot exibe desempenho de ponta na distinção entre texto humano e texto gerado por GPT em quatro conjuntos de dados em inglês e um em alemão, superando o próprio classificador da OpenAI, que é treinado em milhões de textos. Além disso, nossos métodos fornecem explicações e evidências razoáveis para apoiar nossa afirmação, o que é uma característica única da detecção explicável. Nosso método também é robusto sob o ataque de texto revisado e pode adicionalmente resolver a identificação do modelo. Os códigos estão disponíveis em https://github.com/Xianjun-Yang/DNA-GPT.