Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o SDXL, um modelo de difusão latente para síntese de texto em imagem. Em comparação com versões anteriores do Stable Diffusion, o SDXL utiliza uma arquitetura UNet três vezes maior: o aumento de parâmetros do modelo deve-se principalmente a mais blocos de atenção e a um contexto de atenção cruzada maior, já que o SDXL emprega um segundo codificador de texto. Projetamos diversos esquemas de condicionamento inovadores e treinamos o SDXL em múltiplas proporções de aspecto. Também introduzimos um modelo de refinamento, utilizado para melhorar a fidelidade visual das amostras geradas pelo SDXL por meio de uma técnica pós-processamento de imagem em imagem. Demonstramos que o SDXL apresenta uma melhoria drástica de desempenho em relação às versões anteriores do Stable Diffusion e alcança resultados competitivos com os geradores de imagem de última geração de caixa preta. No espírito de promover pesquisa aberta e fomentar a transparência no treinamento e avaliação de modelos grandes, disponibilizamos o acesso ao código e aos pesos do modelo em https://github.com/Stability-AI/generative-models.
A escalabilidade do comprimento de sequência tornou-se uma demanda crítica na era dos grandes modelos de linguagem. No entanto, os métodos existentes enfrentam dificuldades com a complexidade computacional ou a expressividade do modelo, limitando o comprimento máximo da sequência. Neste trabalho, apresentamos o LongNet, uma variante do Transformer que pode escalar o comprimento da sequência para mais de 1 bilhão de tokens, sem sacrificar o desempenho em sequências mais curtas. Especificamente, propomos a atenção dilatada, que expande o campo de atenção exponencialmente à medida que a distância aumenta. O LongNet apresenta vantagens significativas: 1) possui complexidade computacional linear e uma dependência logarítmica entre os tokens; 2) pode ser utilizado como um treinador distribuído para sequências extremamente longas; 3) sua atenção dilatada é uma substituição direta para a atenção padrão, podendo ser integrada de forma contínua com as otimizações baseadas em Transformer existentes. Os resultados dos experimentos demonstram que o LongNet oferece um forte desempenho tanto na modelagem de sequências longas quanto em tarefas gerais de linguagem. Nosso trabalho abre novas possibilidades para a modelagem de sequências muito longas, por exemplo, tratando um corpus inteiro ou até mesmo toda a Internet como uma sequência.
Apesar da capacidade dos modelos existentes de grande escala de texto para imagem (T2I) gerarem imagens de alta qualidade a partir de descrições textuais detalhadas, eles frequentemente carecem da habilidade de editar com precisão as imagens geradas ou reais. Neste artigo, propomos um novo método de edição de imagens, o DragonDiffusion, que permite a manipulação no estilo Drag em modelos de difusão. Especificamente, construímos uma orientação de classificador baseada na forte correspondência de características intermediárias no modelo de difusão. Isso pode transformar os sinais de edição em gradientes por meio de uma perda de correspondência de características para modificar a representação intermediária do modelo de difusão. Com base nessa estratégia de orientação, também construímos uma orientação multiescala para considerar tanto o alinhamento semântico quanto o geométrico. Além disso, uma auto-atenção entre ramos é adicionada para manter a consistência entre a imagem original e o resultado da edição. Nosso método, por meio de um design eficiente, alcança vários modos de edição para imagens geradas ou reais, como movimentação de objetos, redimensionamento de objetos, substituição de aparência de objetos e arrastamento de conteúdo. Vale ressaltar que todos os sinais de edição e preservação de conteúdo vêm da própria imagem, e o modelo não requer ajuste fino ou módulos adicionais. Nosso código-fonte estará disponível em https://github.com/MC-E/DragonDiffusion.
Recentemente, o lançamento do INSTRUCTEVAL forneceu insights valiosos sobre o desempenho de grandes modelos de linguagem (LLMs) que utilizam arquiteturas encoder-decoder ou apenas decoder. Curiosamente, apesar de terem sido introduzidos há quatro anos, LLMs baseados em T5, como o FLAN-T5, continuam a superar os mais recentes LLMs baseados em decoder, como LLAMA e VICUNA, em tarefas que exigem habilidades gerais de resolução de problemas. Essa discrepância de desempenho pode ser atribuída a três fatores principais: (1) Dados de pré-treinamento, (2) Arquitetura de backbone e (3) Conjunto de dados de instruções. Neste relatório técnico, nosso foco principal é investigar o impacto do terceiro fator, utilizando o VICUNA, um grande modelo de linguagem baseado no LLAMA, que foi ajustado em conversas do ChatGPT. Para atingir esse objetivo, ajustamos o VICUNA usando uma coleção personalizada de conjuntos de dados de instruções chamada FLANMINI. Essa coleção inclui um subconjunto do grande conjunto de dados de instruções conhecido como FLAN, além de vários conjuntos de dados relacionados a código e conjuntos de dados conversacionais derivados do ChatGPT/GPT-4. Esse conjunto de dados compreende um grande número de tarefas que exigem habilidades de resolução de problemas. Nossos resultados experimentais indicam fortemente que as habilidades aprimoradas de resolução de problemas do nosso modelo, FLACUNA, são obtidas através do ajuste fino do VICUNA no conjunto de dados FLAN, resultando em melhorias significativas em diversos conjuntos de dados de benchmark no INSTRUCTEVAL. O FLACUNA está publicamente disponível em https://huggingface.co/declare-lab/flacuna-13b-v1.0.
Grandes modelos de linguagem treinados para segurança e inofensividade continuam suscetíveis a uso adversário, como evidenciado pela prevalência de ataques de "jailbreak" em versões iniciais do ChatGPT que provocam comportamentos indesejados. Indo além do reconhecimento do problema, investigamos por que tais ataques têm sucesso e como podem ser criados. Nossa hipótese aponta dois modos de falha no treinamento de segurança: objetivos concorrentes e generalização desalinhada. Objetivos concorrentes surgem quando as capacidades do modelo e seus objetivos de segurança entram em conflito, enquanto a generalização desalinhada ocorre quando o treinamento de segurança falha em generalizar para um domínio no qual as capacidades existem. Utilizamos esses modos de falha para orientar o design de jailbreaks e, em seguida, avaliamos modelos de última geração, incluindo o GPT-4 da OpenAI e o Claude v1.3 da Anthropic, contra ataques existentes e recém-projetados. Constatamos que as vulnerabilidades persistem, apesar dos extensos esforços de red-teaming e treinamento de segurança aplicados a esses modelos. Notavelmente, novos ataques que utilizam nossos modos de falha têm sucesso em todos os prompts de uma coleção de solicitações inseguras dos conjuntos de avaliação de red-teaming dos modelos e superam jailbreaks ad hoc existentes. Nossa análise enfatiza a necessidade de paridade entre segurança e capacidade — ou seja, que os mecanismos de segurança devem ser tão sofisticados quanto o modelo subjacente — e argumenta contra a ideia de que o escalonamento por si só pode resolver esses modos de falha de segurança.
A compreensão de documentos refere-se à extração, análise e interpretação automática de informações de diversos tipos de documentos digitais, como uma página da web. Os modelos de linguagem multimodal de grande escala (MLLMs) existentes, incluindo o mPLUG-Owl, demonstraram capacidades promissoras de reconhecimento de texto sem OCR (zero-shot) em tarefas superficiais, indicando seu potencial para a compreensão de documentos sem OCR. No entanto, sem treinamento específico no domínio, esses modelos tendem a ignorar características detalhadas do OCR, como tabelas complexas ou grandes blocos de texto, que são essenciais para a compreensão de documentos sem OCR. Neste artigo, propomos o mPLUG-DocOwl, baseado no mPLUG-Owl, para a compreensão de documentos sem OCR. Especificamente, primeiro construímos um conjunto de dados de ajuste fino de instruções que abrange uma variedade de tarefas de compreensão de texto visual. Em seguida, reforçamos a capacidade de compreensão de documentos sem OCR ao treinar o modelo conjuntamente em dados de ajuste fino de linguagem pura, visão e linguagem geral, e documentos com nossa estratégia unificada de ajuste fino de instruções. Também construímos um conjunto de avaliação de compreensão de instruções de documentos sem OCR, chamado LLMDoc, para comparar melhor as capacidades dos modelos em conformidade com instruções e compreensão de documentos. Os resultados experimentais mostram que nosso modelo supera os modelos multimodais existentes, demonstrando sua forte capacidade de compreensão de documentos. Além disso, sem ajuste fino específico, o mPLUG-DocOwl generaliza bem em várias tarefas de downstream. Nosso código, modelos, dados de treinamento e conjunto de avaliação estão disponíveis em https://github.com/X-PLUG/mPLUG-DocOwl.
Avanços recentes em Modelos de Linguagem de Grande Escala (LLMs), como o GPT-4, demonstraram capacidades multimodais excepcionais ao seguir instruções abertas fornecidas com imagens. No entanto, o desempenho desses modelos depende fortemente de escolhas de projeto, como estruturas de rede, dados de treinamento e estratégias de treinamento, e essas escolhas não foram amplamente discutidas na literatura, tornando difícil quantificar o progresso nesse campo. Para abordar essa questão, este artigo apresenta um estudo sistemático e abrangente, quantitativo e qualitativo, sobre o treinamento de tais modelos. Implementamos mais de 20 variantes com configurações controladas. Concretamente, para estruturas de rede, comparamos diferentes arquiteturas de LLMs e designs de modelos. Para dados de treinamento, investigamos o impacto de estratégias de dados e amostragem. Para instruções, exploramos a influência de prompts diversificados na capacidade de seguir instruções dos modelos treinados. Para benchmarks, contribuímos com o primeiro, até onde sabemos, conjunto de avaliação abrangente que inclui tarefas com imagens e vídeos, obtido por meio de crowdsourcing. Com base em nossas descobertas, apresentamos o Lynx, que realiza a compreensão multimodal mais precisa enquanto mantém a melhor capacidade de geração multimodal em comparação com os modelos de estilo GPT-4 de código aberto existentes.
Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado habilidades impressionantes de planejamento em tarefas corporificadas de agente único em diversos domínios. No entanto, sua capacidade de planejamento e comunicação em cooperação multiagente ainda não é clara, embora essas sejam habilidades cruciais para agentes corporificados inteligentes. Neste artigo, apresentamos uma nova estrutura que utiliza LLMs para cooperação multiagente e a testa em vários ambientes corporificados. Nossa estrutura permite que agentes corporificados planejem, comuniquem e cooperem com outros agentes corporificados ou humanos para realizar tarefas de longo horizonte de forma eficiente. Demonstramos que LLMs recentes, como o GPT-4, podem superar métodos robustos baseados em planejamento e exibir comunicação eficaz emergente usando nossa estrutura, sem a necessidade de ajuste fino ou prompts de poucos exemplos. Também descobrimos que agentes baseados em LLMs que se comunicam em linguagem natural podem ganhar mais confiança e cooperar de forma mais eficaz com humanos. Nossa pesquisa destaca o potencial dos LLMs para IA corporificada e estabelece as bases para pesquisas futuras em cooperação multiagente. Vídeos podem ser encontrados no site do projeto https://vis-www.cs.umass.edu/Co-LLM-Agents/.
Modelos de linguagem de grande escala (LLMs) exibem uma ampla gama de capacidades promissoras — desde planejamento passo a passo até raciocínio de senso comum — que podem ser úteis para robôs, mas ainda são propensos a previsões confiantes e alucinadas. Neste trabalho, apresentamos o KnowNo, um framework para medir e alinhar a incerteza de planejadores baseados em LLMs, de modo que eles saibam quando não sabem e peçam ajuda quando necessário. O KnowNo se baseia na teoria da predição conformal para fornecer garantias estatísticas na conclusão de tarefas, ao mesmo tempo que minimiza a intervenção humana em cenários complexos de planejamento de múltiplos passos. Experimentos realizados em diversas configurações de robôs simulados e reais, envolvendo tarefas com diferentes modos de ambiguidade (por exemplo, desde incertezas espaciais até numéricas, desde preferências humanas até esquemas de Winograd), mostram que o KnowNo supera favoravelmente baselines modernas (que podem envolver ensembles ou ajustes extensivos de prompts) em termos de melhoria de eficiência e autonomia, ao mesmo tempo que fornece garantias formais. O KnowNo pode ser usado com LLMs prontos para uso, sem necessidade de ajuste fino do modelo, e sugere uma abordagem leve e promissora para modelar incertezas que pode complementar e escalar com as crescentes capacidades dos modelos de base. Website: https://robot-help.github.io
Os recentes Transformers de Difusão (por exemplo, DiT) demonstraram sua poderosa eficácia na geração de imagens 2D de alta qualidade. No entanto, ainda não está claro se a arquitetura Transformer desempenha-se igualmente bem na geração de formas 3D, uma vez que os métodos anteriores de difusão 3D adotaram principalmente a arquitetura U-Net. Para preencher essa lacuna, propomos um novo Transformer de Difusão para geração de formas 3D, denominado DiT-3D, que pode operar diretamente o processo de remoção de ruído em nuvens de pontos voxelizadas usando Transformers simples. Em comparação com as abordagens U-Net existentes, nosso DiT-3D é mais escalável em tamanho de modelo e produz gerações de qualidade muito superior. Especificamente, o DiT-3D adota a filosofia de design do DiT, mas o modifica incorporando embeddings posicionais e de patches 3D para agregar adaptativamente a entrada de nuvens de pontos voxelizadas. Para reduzir o custo computacional da auto-atenção na geração de formas 3D, incorporamos a atenção por janela 3D nos blocos Transformer, já que o aumento no comprimento dos tokens 3D resultante da dimensão adicional dos voxels pode levar a um alto custo computacional. Finalmente, camadas lineares e de devoxelização são usadas para prever as nuvens de pontos sem ruído. Além disso, nossa arquitetura Transformer suporta ajuste fino eficiente de 2D para 3D, onde o checkpoint pré-treinado do DiT-2D no ImageNet pode melhorar significativamente o DiT-3D no ShapeNet. Resultados experimentais no conjunto de dados ShapeNet demonstram que o DiT-3D proposto alcança desempenho de ponta na geração de nuvens de pontos 3D de alta fidelidade e diversidade. Em particular, nosso DiT-3D reduz a Acurácia do Vizinho Mais Próximo (1-Nearest Neighbor Accuracy) do método estado da arte em 4,59 e aumenta a métrica de Cobertura (Coverage) em 3,51 quando avaliado na Distância de Chamfer.
Os avatares são importantes para criar experiências interativas e imersivas em mundos virtuais. Um dos desafios na animação desses personagens para imitar os movimentos de um usuário é que os produtos comerciais de AR/VR consistem apenas em um headset e controles, fornecendo dados de sensores muito limitados sobre a postura do usuário. Outro desafio é que um avatar pode ter uma estrutura esquelética diferente da de um humano, e o mapeamento entre eles não é claro. Neste trabalho, abordamos ambos os desafios. Introduzimos um método para redirecionar movimentos em tempo real a partir de dados esparsos de sensores humanos para personagens de várias morfologias. Nosso método utiliza aprendizado por reforço para treinar uma política que controla os personagens em um simulador de física. Exigimos apenas dados de captura de movimento humano para o treinamento, sem depender de animações geradas por artistas para cada avatar. Isso nos permite usar grandes conjuntos de dados de captura de movimento para treinar políticas gerais que podem rastrear usuários não vistos a partir de dados reais e esparsos em tempo real. Demonstramos a viabilidade de nossa abordagem em três personagens com estruturas esqueléticas diferentes: um dinossauro, uma criatura semelhante a um rato e um humano. Mostramos que as posturas dos avatares frequentemente correspondem surpreendentemente bem às do usuário, apesar de não haver informações de sensores disponíveis sobre a parte inferior do corpo. Discutimos e analisamos os componentes importantes de nossa estrutura, especificamente a etapa de redirecionamento cinemático, a imitação, as recompensas de contato e ação, bem como nossas observações assimétricas de ator-crítico. Exploramos ainda a robustez de nosso método em uma variedade de cenários, incluindo movimentos de desequilíbrio, dança e esportes.
Os tokens de entrada para os Vision Transformers carregam pouco significado semântico, pois são definidos como patches regulares de tamanho igual da imagem de entrada, independentemente de seu conteúdo. No entanto, processar áreas uniformes de fundo de uma imagem não deve exigir tanto poder computacional quanto áreas densas e desordenadas. Para resolver esse problema, propomos um esquema de tokenização dinâmica de escala mista para ViT, o MSViT. Nosso método introduz um mecanismo de portão condicional que seleciona a escala ótima de token para cada região da imagem, de modo que o número de tokens seja determinado dinamicamente por entrada. O módulo de portão proposto é leve, agnóstico à escolha do backbone do transformer e treinado em poucas épocas (por exemplo, 20 épocas no ImageNet) com pouca sobrecarga de treinamento. Além disso, para melhorar o comportamento condicional do portão durante o treinamento, introduzimos uma nova generalização da função de perda de moldagem de lote. Mostramos que nosso módulo de portão é capaz de aprender semântica significativa, apesar de operar localmente no nível de patch grosseiro. Validamos o MSViT nas tarefas de classificação e segmentação, onde ele leva a uma melhor relação de compensação entre precisão e complexidade.
Este estudo examina o desempenho de Modelos de Linguagem de Grande Escala (LLMs) de código aberto em tarefas de anotação de texto e o compara com modelos proprietários, como o ChatGPT, e serviços baseados em humanos, como o MTurk. Embora pesquisas anteriores tenham demonstrado o alto desempenho do ChatGPT em diversas tarefas de PLN, LLMs de código aberto, como HugginChat e FLAN, estão ganhando atenção por sua relação custo-benefício, transparência, reprodutibilidade e proteção superior de dados. Avaliamos esses modelos utilizando abordagens zero-shot e few-shot, além de diferentes parâmetros de temperatura, em uma variedade de tarefas de anotação de texto. Nossos resultados mostram que, embora o ChatGPT alcance o melhor desempenho na maioria das tarefas, os LLMs de código aberto não apenas superam o MTurk, mas também demonstram potencial competitivo em relação ao ChatGPT em tarefas específicas.
A música é utilizada para transmitir emoções, e, portanto, a geração de música emocional é importante na criação automática de música. Trabalhos anteriores sobre geração de música emocional utilizam diretamente rótulos de emoções anotados como sinais de controle, o que sofre com o viés subjetivo: diferentes pessoas podem anotar emoções distintas para a mesma música, e uma mesma pessoa pode sentir emoções diferentes em situações diversas. Portanto, mapear diretamente rótulos de emoções para sequências musicais de forma end-to-end confundiria o processo de aprendizado e impediria o modelo de gerar música com emoções gerais. Neste artigo, propomos o EmoGen, um sistema de geração de música emocional que utiliza um conjunto de atributos musicais relacionados a emoções como ponte entre a emoção e a música, e divide a geração em duas etapas: mapeamento de emoção para atributo com agrupamento supervisionado, e geração de atributo para música com aprendizado auto-supervisionado. Ambas as etapas são benéficas: na primeira etapa, os valores dos atributos em torno do centro do agrupamento representam as emoções gerais dessas amostras, o que ajuda a eliminar os impactos do viés subjetivo dos rótulos de emoção; na segunda etapa, a geração é completamente desvinculada dos rótulos de emoção e, portanto, livre do viés subjetivo. Avaliações subjetivas e objetivas mostram que o EmoGen supera métodos anteriores em precisão de controle emocional e qualidade musical, respectivamente, o que demonstra nossa superioridade na geração de música emocional. Amostras de música geradas pelo EmoGen estão disponíveis no link: https://ai-muzic.github.io/emogen/, e o código está disponível no link: https://github.com/microsoft/muzic/.
Equipar agentes corporificados com senso comum é crucial para que robôs completem com sucesso instruções humanas complexas em ambientes gerais. Modelos de linguagem de grande escala (LLM) recentes podem incorporar conhecimento semântico rico para agentes na geração de planos para tarefas complexas, mas carecem de informações sobre o mundo real e frequentemente produzem sequências de ações inviáveis. Neste artigo, propomos um Agente de Planejamento de Tarefas (TaPA) para tarefas corporificadas, visando o planejamento fundamentado com restrições de cena física, onde o agente gera planos executáveis de acordo com os objetos existentes na cena, alinhando LLMs com modelos de percepção visual. Especificamente, primeiro construímos um conjunto de dados multimodal contendo tríades de cenas internas, instruções e planos de ação, onde fornecemos prompts projetados e a lista de objetos existentes na cena para o GPT-3.5 gerar um grande número de instruções e ações planejadas correspondentes. Os dados gerados são utilizados para ajustar o planejamento fundamentado de LLMs pré-treinados. Durante a inferência, descobrimos os objetos na cena estendendo detectores de objetos de vocabulário aberto para imagens RGB multiview coletadas em diferentes locais alcançáveis. Resultados experimentais mostram que o plano gerado por nossa estrutura TaPA pode alcançar uma taxa de sucesso significativamente maior do que LLaVA e GPT-3.5, indicando a praticidade do planejamento de tarefas corporificadas em ambientes gerais e complexos.
Este artigo apresenta o Elastic Decision Transformer (EDT), um avanço significativo em relação ao Decision Transformer (DT) existente e suas variantes. Embora o DT afirme gerar uma trajetória ótima, evidências empíricas sugerem que ele enfrenta dificuldades com a costura de trajetórias, um processo que envolve a geração de uma trajetória ótima ou quase ótima a partir das melhores partes de um conjunto de trajetórias sub-ótimas. O EDT proposto se diferencia ao facilitar a costura de trajetórias durante a inferência de ações no momento do teste, alcançado por meio do ajuste do comprimento do histórico mantido no DT. Além disso, o EDT otimiza a trajetória ao manter um histórico mais longo quando a trajetória anterior é ótima e um mais curto quando é sub-ótima, permitindo que ele "costure" com uma trajetória mais ótima. Experimentos extensivos demonstram a capacidade do EDT de reduzir a lacuna de desempenho entre abordagens baseadas em DT e em Q-Learning. Em particular, o EDT supera métodos baseados em Q-Learning em um regime de múltiplas tarefas no benchmark de locomoção D4RL e em jogos do Atari. Vídeos estão disponíveis em: https://kristery.github.io/edt/