Artigos de pesquisa em IA selecionados diariamente com traduções
A IA generativa conversacional tem demonstrado um potencial notável para capacitar profissionais biomédicos, mas as investigações atuais se concentram em texto unimodal. A IA conversacional multimodal tem progredido rapidamente ao aproveitar bilhões de pares imagem-texto da web pública, mas esses modelos de visão e linguagem de domínio geral ainda carecem de sofisticação na compreensão e conversação sobre imagens biomédicas. Neste artigo, propomos uma abordagem de baixo custo para treinar um assistente conversacional de visão e linguagem capaz de responder a perguntas de pesquisa abertas sobre imagens biomédicas. A ideia central é aproveitar um conjunto de dados em larga escala e de ampla cobertura de figuras e legendas biomédicas extraídas do PubMed Central, usar o GPT-4 para gerar automaticamente dados de instrução aberta a partir das legendas e, em seguida, ajustar um modelo de visão e linguagem de domínio geral usando um novo método de aprendizado curricular. Especificamente, o modelo primeiro aprende a alinhar o vocabulário biomédico usando os pares figura-legenda como estão, depois aprende a dominar a semântica conversacional aberta usando os dados de instrução gerados pelo GPT-4, imitando amplamente como um leigo adquire gradualmente conhecimento biomédico. Isso nos permite treinar um Assistente de Linguagem e Visão de Grande Escala para Biomedicina (LLaVA-Med) em menos de 15 horas (com oito GPUs A100). O LLaVA-Med exibe excelente capacidade conversacional multimodal e pode seguir instruções abertas para auxiliar em consultas sobre uma imagem biomédica. Em três conjuntos de dados padrão de resposta a perguntas visuais biomédicas, o LLaVA-Med supera os melhores modelos supervisionados anteriores em certas métricas. Para facilitar a pesquisa multimodal biomédica, disponibilizaremos nossos dados de instrução e o modelo LLaVA-Med.
Modelos pré-treinados de grande escala para síntese de texto em imagem geram imagens impressionantes com o uso adequado de prompts de texto. No entanto, as ambiguidades inerentes à linguagem natural e os efeitos de distribuição fora do domínio tornam difícil sintetizar estilos de imagem que aproveitem um padrão de design, textura ou material específico. Neste artigo, apresentamos o StyleDrop, um método que possibilita a síntese de imagens que seguem fielmente um estilo específico utilizando um modelo de texto em imagem. O método proposto é extremamente versátil e captura nuances e detalhes de um estilo fornecido pelo usuário, como esquemas de cores, sombreamento, padrões de design e efeitos locais e globais. Ele aprende eficientemente um novo estilo ao ajustar poucos parâmetros treináveis (menos de 1% do total de parâmetros do modelo) e melhora a qualidade por meio de treinamento iterativo com feedback humano ou automatizado. Melhor ainda, o StyleDrop é capaz de entregar resultados impressionantes mesmo quando o usuário fornece apenas uma única imagem que especifica o estilo desejado. Um estudo extensivo mostra que, para a tarefa de ajuste de estilo em modelos de texto em imagem, o StyleDrop implementado no Muse supera convincentemente outros métodos, incluindo DreamBooth e inversão textual no Imagen ou Stable Diffusion. Mais resultados estão disponíveis em nosso site do projeto: https://styledrop.github.io.
Apresentamos um agente de RL baseado em valor, que chamamos de BBF, que alcança desempenho super-humano no benchmark Atari 100K. O BBF depende da escalabilidade das redes neurais utilizadas para estimação de valor, bem como de uma série de outras escolhas de design que permitem essa escalabilidade de forma eficiente em termos de amostras. Realizamos análises extensivas dessas escolhas de design e fornecemos insights para trabalhos futuros. Concluímos com uma discussão sobre a atualização dos objetivos para pesquisas de RL eficientes em amostras no ALE. Disponibilizamos nosso código e dados publicamente em https://github.com/google-research/google-research/tree/master/bigger_better_faster.
Imagens geradas por modelos de difusão, como o Stable Diffusion, estão se tornando cada vez mais difundidas. Trabalhos recentes e até mesmo processos judiciais têm mostrado que esses modelos são propensos a replicar seus dados de treinamento, sem o conhecimento do usuário. Neste artigo, analisamos primeiro esse problema de memorização em modelos de difusão de texto para imagem. Embora seja amplamente aceito que imagens duplicadas no conjunto de treinamento sejam responsáveis pela replicação de conteúdo no momento da inferência, observamos que o condicionamento por texto do modelo desempenha um papel igualmente importante. De fato, vemos em nossos experimentos que a replicação de dados frequentemente não ocorre em modelos incondicionais, enquanto é comum no caso condicionado por texto. Motivados por nossas descobertas, propomos então várias técnicas para reduzir a replicação de dados tanto no treinamento quanto na inferência, randomizando e aumentando as legendas das imagens no conjunto de treinamento.
Os Transformers emergiram como a pedra angular dos modelos de última geração em processamento de linguagem natural, demonstrando desempenho excepcional em uma ampla gama de aplicações de IA. No entanto, as demandas de memória impostas pelo mecanismo de autoatenção e pela grande rede feedforward nos Transformers limitam sua capacidade de lidar com sequências longas, criando desafios para tarefas que envolvem múltiplas sequências longas ou dependências de longo prazo. Apresentamos uma abordagem distinta, o Transformer Paralelo por Blocos (BPT), que aproveita o cálculo em blocos da autoatenção e a fusão da rede feedforward para minimizar os custos de memória. Ao processar sequências de entrada mais longas enquanto mantém a eficiência de memória, o BPT permite treinar sequências até 32 vezes mais longas do que os Transformers convencionais e de 2 a 4 vezes mais longas do que métodos anteriores eficientes em memória. Experimentos extensivos em modelagem de linguagem e tarefas de aprendizado por reforço demonstram a eficácia do BPT na redução de requisitos de memória e na melhoria de desempenho.
O Pré-treinamento Contrastivo de Linguagem e Imagem (CLIP) se destaca como um dos métodos mais eficazes e escaláveis para treinar modelos de visão transferíveis utilizando dados pareados de imagem e texto. Os modelos CLIP são treinados usando perda contrastiva, que normalmente depende de aumentos de dados para evitar sobreajuste e atalhos. No entanto, no paradigma de treinamento do CLIP, os aumentos de dados são aplicados exclusivamente às entradas de imagem, enquanto as entradas de linguagem permanecem inalteradas durante todo o processo de treinamento, limitando a exposição de textos diversos à mesma imagem. Neste artigo, apresentamos o CLIP Aumentado por Linguagem (LaCLIP), uma abordagem simples, mas altamente eficaz, para aprimorar o treinamento do CLIP por meio de reescritas de linguagem. Aproveitando a capacidade de aprendizado em contexto de grandes modelos de linguagem, reescrevemos as descrições de texto associadas a cada imagem. Esses textos reescritos exibem diversidade na estrutura de frases e no vocabulário, preservando os conceitos e significados originais. Durante o treinamento, o LaCLIP seleciona aleatoriamente os textos originais ou as versões reescritas como aumentos de texto para cada imagem. Experimentos extensivos nos conjuntos de dados CC3M, CC12M, RedCaps e LAION-400M mostram que o pré-treinamento do CLIP com reescritas de linguagem melhora significativamente o desempenho de transferência sem sobrecarga de computação ou memória durante o treinamento. Especificamente, para a precisão zero-shot no ImageNet, o LaCLIP supera o CLIP em 8,2% no CC12M e 2,4% no LAION-400M. O código está disponível em https://github.com/LijieFan/LaCLIP.
Dada a rápida ascensão dos modelos de linguagem de grande escala (LLMs), investigamos a seguinte questão: (Como) os modelos de linguagem de grande escala podem auxiliar na revisão de artigos ou propostas científicas? Primeiro, conduzimos alguns estudos piloto, onde descobrimos que (i) o GPT-4 supera outros LLMs (Bard, Vicuna, Koala, Alpaca, LLaMa, Dolly, OpenAssistant, StableLM), e (ii) o uso de prompts com perguntas específicas (por exemplo, para identificar erros) é mais eficaz do que solicitar simplesmente a escrita de uma revisão. Com essas percepções, estudamos o uso de LLMs (especificamente, o GPT-4) para três tarefas: 1. Identificação de erros: Construímos 13 artigos curtos de ciência da computação, cada um com um erro inserido deliberadamente, e solicitamos ao LLM que verificasse a correção desses artigos. Observamos que o LLM identificou erros em 7 deles, abrangendo tanto erros matemáticos quanto conceituais. 2. Verificação de listas de verificação: Atribuímos ao LLM a tarefa de verificar 16 perguntas fechadas de listas de verificação nas respectivas seções de 15 artigos da NeurIPS 2022. Descobrimos que, em 119 pares {pergunta da lista de verificação, artigo}, o LLM teve uma precisão de 86,6%. 3. Escolha do artigo "melhor": Geramos 10 pares de resumos, projetando deliberadamente cada par de forma que um resumo fosse claramente superior ao outro. No entanto, o LLM teve dificuldade em discernir essas distinções relativamente simples com precisão, cometendo erros em suas avaliações para 6 dos 10 pares. Com base nesses experimentos, acreditamos que os LLMs têm um uso promissor como assistentes de revisão para tarefas específicas de revisão, mas não (ainda) para avaliações completas de artigos ou propostas.
Nos últimos anos, observamos avanços significativos na edição de imagens com instruções textuais. Ao aplicar esses editores à edição de cenas dinâmicas, a nova cena tende a ser temporalmente inconsistente devido à natureza quadro a quadro desses editores 2D. Para resolver esse problema, propomos o Control4D, uma abordagem inovadora para edição de retratos 4D de alta fidelidade e consistência temporal. O Control4D é construído sobre uma representação 4D eficiente com um editor baseado em difusão 2D. Em vez de usar supervisões diretas do editor, nosso método aprende um GAN 4D a partir dele e evita os sinais de supervisão inconsistentes. Especificamente, empregamos um discriminador para aprender a distribuição de geração com base nas imagens editadas e, em seguida, atualizamos o gerador com os sinais de discriminação. Para um treinamento mais estável, informações em múltiplos níveis são extraídas das imagens editadas e usadas para facilitar o aprendizado do gerador. Os resultados experimentais mostram que o Control4D supera abordagens anteriores e alcança performances de edição 4D mais foto-realistas e consistentes. O link para o site do nosso projeto é https://control4darxiv.github.io.
O aprendizado por reforço offline (RL) visa aprender políticas ótimas a partir de conjuntos de dados offline, onde a parametrização das políticas é crucial, mas frequentemente negligenciada. Recentemente, o Diffusion-QL aumentou significativamente o desempenho do RL offline ao representar uma política com um modelo de difusão, cujo sucesso depende de uma Cadeia de Markov parametrizada com centenas de passos para amostragem. No entanto, o Diffusion-QL sofre de duas limitações críticas. 1) É computacionalmente ineficiente avançar e retroceder por toda a cadeia de Markov durante o treinamento. 2) É incompatível com algoritmos de RL baseados em máxima verossimilhança (por exemplo, métodos de gradiente de política), pois a verossimilhança dos modelos de difusão é intratável. Portanto, propomos a política de difusão eficiente (EDP) para superar esses dois desafios. O EDP constrói aproximadamente ações a partir de ações corrompidas durante o treinamento para evitar a execução da cadeia de amostragem. Realizamos extensos experimentos no benchmark D4RL. Os resultados mostram que o EDP pode reduzir o tempo de treinamento da política de difusão de 5 dias para 5 horas em tarefas de locomoção no gym. Além disso, mostramos que o EDP é compatível com vários algoritmos de RL offline (TD3, CRR e IQL) e alcança novos estados da arte no D4RL com grandes margens em relação aos métodos anteriores. Nosso código está disponível em https://github.com/sail-sg/edp.
Apresentamos uma abordagem para reconstruir humanos e rastreá-los ao longo do tempo. No cerne de nossa abordagem, propomos uma versão totalmente "transformada" de uma rede para recuperação de malha humana. Essa rede, HMR 2.0, avança o estado da arte e demonstra a capacidade de analisar poses incomuns que, no passado, eram difíceis de reconstruir a partir de imagens únicas. Para analisar vídeos, utilizamos reconstruções 3D do HMR 2.0 como entrada para um sistema de rastreamento que opera em 3D. Isso nos permite lidar com múltiplas pessoas e manter identidades durante eventos de oclusão. Nossa abordagem completa, 4DHumans, alcança resultados de ponta para o rastreamento de pessoas a partir de vídeos monoculares. Além disso, demonstramos a eficácia do HMR 2.0 na tarefa subsequente de reconhecimento de ações, obtendo melhorias significativas em relação às abordagens anteriores baseadas em poses. Nosso código e modelos estão disponíveis no site do projeto: https://shubham-goel.github.io/4dhumans/.
O planejamento procedural, que envolve a decomposição de um objetivo de alto nível em uma sequência de etapas temporalmente ordenadas, é uma tarefa importante, porém complexa, para máquinas. Ele requer a integração de conhecimento de senso comum para raciocinar sobre situações contextualizadas complexas que frequentemente são contrafactuais, como, por exemplo, "marcar uma consulta médica sem um telefone". Embora as abordagens atuais mostrem resultados encorajadores ao utilizar modelos de linguagem de grande escala (LLMs), elas são limitadas por desvantagens, como chamadas de API custosas e problemas de reprodutibilidade. Neste artigo, defendemos o planejamento utilizando modelos de linguagem menores. Apresentamos o PlaSma, uma nova abordagem de duas vertentes para dotar modelos de linguagem menores de conhecimento procedural e capacidades de planejamento (contrafactual). Mais concretamente, desenvolvemos a destilação de conhecimento procedural simbólico para aprimorar o conhecimento implícito em modelos de linguagem menores e um algoritmo de inferência em tempo real para facilitar um raciocínio mais estruturado e preciso. Além disso, introduzimos uma nova tarefa, o Planejamento Contrafactual, que exige a revisão de um plano para lidar com uma situação contrafactual. Tanto no cenário original quanto no contrafactual, demonstramos que modelos ordens de magnitude menores (770M-11B parâmetros) podem competir e, frequentemente, superar as capacidades de seus modelos maiores de referência.
Modelos de linguagem de grande escala (LLMs) têm demonstrado sucesso notável em uma ampla gama de tarefas de geração de linguagem natural, onde projetos adequados de prompts têm um grande impacto. Embora os métodos de prompting existentes normalmente se restrinjam a fornecer informações corretas, neste artigo, incentivamos o modelo a deliberar propondo uma nova estrutura de prompting chamada Deliberar e depois Gerar (DTG), que consiste em instruções de detecção de erros e candidatos que podem conter erros. O DTG é uma técnica simples, porém eficaz, que pode ser aplicada a várias tarefas de geração de texto com modificações mínimas. Realizamos extensos experimentos em mais de 20 conjuntos de dados abrangendo 7 tarefas de geração de texto, incluindo sumarização, tradução, diálogo e mais. Demonstramos que o DTG supera consistentemente os métodos de prompting existentes e alcança desempenho de ponta em múltiplas tarefas de geração de texto. Também fornecemos análises detalhadas para revelar os mecanismos subjacentes do DTG, o que pode inspirar pesquisas futuras sobre prompting para LLMs.
Apresentamos "Human or Not?", um jogo online inspirado no teste de Turing, que mede a capacidade de chatbots de IA de imitar humanos em diálogos e a capacidade de humanos de distinguir bots de outros humanos. Ao longo de um mês, o jogo foi jogado por mais de 1,5 milhão de usuários que participaram de sessões de chat anônimas de dois minutos com outro humano ou com um modelo de linguagem de IA instruído a se comportar como humanos. A tarefa dos jogadores era adivinhar corretamente se estavam conversando com uma pessoa ou com uma IA. Este maior teste no estilo Turing já conduzido até hoje revelou alguns fatos interessantes. Por exemplo, no geral, os usuários adivinharam a identidade de seus parceiros corretamente em apenas 68% dos jogos. No subconjunto de jogos em que os usuários enfrentaram um bot de IA, as taxas de acerto foram ainda menores, de 60% (ou seja, pouco acima do acaso). Este white paper detalha o desenvolvimento, a implantação e os resultados deste experimento único. Embora este experimento exija muitas extensões e refinamentos, essas descobertas já começam a lançar luz sobre o inevitável futuro próximo em que humanos e IA estarão interligados.