Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o SUPIR (Scaling-UP Image Restoration), um método inovador de restauração de imagens que utiliza prior generativo e o poder de escalonamento de modelos. Aproveitando técnicas multimodais e prior generativo avançado, o SUPIR representa um avanço significativo na restauração de imagens inteligente e realista. Como um catalisador fundamental dentro do SUPIR, o escalonamento de modelos amplia drasticamente suas capacidades e demonstra um novo potencial para a restauração de imagens. Coletamos um conjunto de dados composto por 20 milhões de imagens de alta resolução e qualidade para o treinamento do modelo, cada uma enriquecida com anotações textuais descritivas. O SUPIR oferece a capacidade de restaurar imagens guiadas por prompts textuais, ampliando seu escopo de aplicação e potencial. Além disso, introduzimos prompts de qualidade negativa para melhorar ainda mais a qualidade perceptiva. Também desenvolvemos um método de amostragem guiada por restauração para suprimir o problema de fidelidade encontrado na restauração baseada em geração. Experimentos demonstram os efeitos excepcionais de restauração do SUPIR e sua nova capacidade de manipular a restauração por meio de prompts textuais.
Modelos de linguagem sem tokenização aprendem diretamente a partir de bytes brutos e eliminam o viés da tokenização em subpalavras. No entanto, operar em bytes resulta em sequências significativamente mais longas, e os Transformers autoregressivos padrão têm um desempenho ruim nesses cenários. Experimentamos com o MambaByte, uma adaptação sem tokenização do modelo de espaço de estados Mamba, treinado de forma autoregressiva em sequências de bytes. Nossos experimentos indicam a eficiência computacional do MambaByte em comparação com outros modelos em nível de byte. Também descobrimos que o MambaByte é competitivo e até supera Transformers de última geração baseados em subpalavras. Além disso, devido à escala linear em comprimento, o MambaByte se beneficia de inferência rápida em comparação com Transformers. Nossas descobertas estabelecem a viabilidade do MambaByte na modelagem de linguagem sem tokenização.
No ano passado, os Modelos de Linguagem de Grande Escala Multimodais (MM-LLMs) passaram por avanços significativos, aprimorando modelos de linguagem prontos para uso (off-the-shelf) para suportar entradas ou saídas multimodais por meio de estratégias de treinamento de baixo custo. Os modelos resultantes não apenas preservam as capacidades inerentes de raciocínio e tomada de decisão dos LLMs, mas também capacitam uma ampla gama de tarefas multimodais. Neste artigo, fornecemos uma revisão abrangente com o objetivo de facilitar pesquisas futuras sobre MM-LLMs. Especificamente, primeiro delineamos formulações gerais de design para a arquitetura do modelo e o pipeline de treinamento. Em seguida, apresentamos breves introduções de 26 MM-LLMs existentes, cada um caracterizado por suas formulações específicas. Além disso, revisamos o desempenho dos MM-LLMs em benchmarks principais e resumimos as principais receitas de treinamento para aumentar a eficácia dos MM-LLMs. Por fim, exploramos direções promissoras para os MM-LLMs enquanto mantemos um site de acompanhamento em tempo real para os últimos desenvolvimentos na área. Esperamos que esta revisão contribua para o avanço contínuo do domínio dos MM-LLMs.
O avanço dos grandes modelos de linguagem (LLMs) inaugura uma nova era marcada pelo desenvolvimento de aplicações autônomas no mundo real, impulsionando a inovação na criação de agentes web avançados. Os agentes web existentes geralmente lidam apenas com uma única modalidade de entrada e são avaliados apenas em simuladores web simplificados ou capturas estáticas de páginas web, limitando significativamente sua aplicabilidade em cenários do mundo real. Para preencher essa lacuna, apresentamos o WebVoyager, um agente web inovador baseado em um Grande Modelo Multimodal (LMM) que pode executar instruções do usuário de ponta a ponta ao interagir com sites reais. Além disso, propomos um novo protocolo de avaliação para agentes web, visando abordar os desafios da avaliação automática de tarefas abertas de agentes web, aproveitando as robustas capacidades de compreensão multimodal do GPT-4V. Criamos um novo benchmark ao coletar tarefas do mundo real de 15 sites amplamente utilizados para avaliar nossos agentes. Demonstramos que o WebVoyager alcança uma taxa de sucesso de tarefas de 55,7%, superando significativamente o desempenho tanto do GPT-4 (All Tools) quanto das configurações do WebVoyager (apenas texto), destacando a capacidade excepcional do WebVoyager em aplicações práticas. Constatamos que nossa proposta de avaliação automática alcança 85,3% de concordância com o julgamento humano, abrindo caminho para o desenvolvimento adicional de agentes web em ambientes do mundo real.
Modelos recentes de geração de texto para imagem demonstraram um sucesso incrível na criação de imagens que seguem fielmente os prompts de entrada. No entanto, a necessidade de usar palavras para descrever um conceito desejado oferece um controle limitado sobre a aparência dos conceitos gerados. Neste trabalho, abordamos essa limitação propondo uma abordagem para habilitar capacidades de personalização em modelos de difusão de texto para imagem existentes. Propomos uma nova arquitetura (BootPIG) que permite ao usuário fornecer imagens de referência de um objeto para guiar a aparência de um conceito nas imagens geradas. A arquitetura BootPIG proposta faz modificações mínimas em um modelo de difusão de texto para imagem pré-treinado e utiliza um modelo UNet separado para direcionar as gerações para a aparência desejada. Introduzimos um procedimento de treinamento que nos permite implementar capacidades de personalização na arquitetura BootPIG usando dados gerados por modelos de texto para imagem pré-treinados, agentes de chat baseados em LLM e modelos de segmentação de imagem. Em contraste com métodos existentes que exigem vários dias de pré-treinamento, a arquitetura BootPIG pode ser treinada em aproximadamente 1 hora. Experimentos no conjunto de dados DreamBooth demonstram que o BootPIG supera métodos zero-shot existentes, sendo comparável a abordagens de ajuste fino em tempo de teste. Por meio de um estudo com usuários, validamos a preferência pelas gerações do BootPIG em relação aos métodos existentes, tanto na manutenção da fidelidade à aparência do objeto de referência quanto no alinhamento com os prompts textuais.
O pré-treinamento de grandes modelos de linguagem é conhecido por ser extremamente intensivo em recursos e, muitas vezes, ineficiente, subutilizando as informações encapsuladas nas sequências de texto de treinamento. Neste artigo, apresentamos o SpacTor, um novo procedimento de treinamento que consiste em (1) um objetivo híbrido que combina corrupção de span (SC) e detecção de substituição de tokens (RTD), e (2) um currículo de duas etapas que otimiza o objetivo híbrido durante as primeiras iterações tau, e então faz a transição para a perda padrão de SC. Demonstramos empiricamente que a eficácia do objetivo híbrido está ligada ao cronograma de pré-treinamento de duas etapas, e fornecemos uma análise extensa sobre o motivo disso. Em nossos experimentos com arquiteturas encoder-decoder (T5) em uma variedade de tarefas de NLP, o SpacTor-T5 alcança o mesmo desempenho downstream que o pré-treinamento padrão com SC, enquanto permite uma redução de 50% nas iterações de pré-treinamento e uma redução de 40% no total de FLOPs. Alternativamente, dado o mesmo orçamento de computação, descobrimos que o SpacTor resulta em um desempenho significativamente melhorado em benchmarks downstream.
Recentemente, abordagens de texto-para-3D têm alcançado a geração de conteúdo 3D de alta fidelidade utilizando descrições textuais. No entanto, os objetos gerados são estocásticos e carecem de controle refinado. Esboços fornecem uma abordagem econômica para introduzir esse controle refinado. No entanto, é desafiador alcançar controle flexível a partir desses esboços devido à sua abstração e ambiguidade. Neste artigo, apresentamos uma estrutura de geração de texto-para-3D guiada por esboços multi-visão (denominada Sketch2NeRF) para adicionar controle de esboço à geração 3D. Especificamente, nosso método aproveita modelos de difusão 2D pré-treinados (por exemplo, Stable Diffusion e ControlNet) para supervisionar a otimização de uma cena 3D representada por um campo de radiação neural (NeRF). Propomos um novo método de geração e reconstrução sincronizada para otimizar efetivamente o NeRF. Nos experimentos, coletamos dois tipos de conjuntos de dados de esboços multi-visão para avaliar o método proposto. Demonstramos que nosso método pode sintetizar conteúdos 3D consistentes com controle refinado de esboço, mantendo alta fidelidade aos prompts textuais. Resultados extensivos mostram que nosso método alcança desempenho de ponta em termos de similaridade de esboço e alinhamento de texto.
Modelos de linguagem de grande escala avançaram o estado da arte no processamento de linguagem natural. No entanto, seu design predominante para o inglês ou um conjunto limitado de idiomas cria uma lacuna substancial em sua eficácia para línguas de baixos recursos. Para preencher essa lacuna, apresentamos o MaLA-500, um novo modelo de linguagem de grande escala projetado para abranger uma ampla gama de 534 idiomas. Para treinar o MaLA-500, empregamos extensão de vocabulário e pré-treinamento contínuo no LLaMA 2 com o Glot500-c. Nossos experimentos no SIB-200 mostram que o MaLA-500 alcança resultados de aprendizado em contexto de última geração. Disponibilizamos o MaLA-500 em https://huggingface.co/MaLA-LM.
Os recentes avanços em IA levaram ao desenvolvimento de grandes modelos multimodais (LMMs, do inglês *Large Multimodal Models*) capazes de processar tarefas complexas que envolvem raciocínio conjunto sobre texto e conteúdo visual em imagens (por exemplo, navegar em mapas em locais públicos). Este artigo apresenta o ConTextual, um novo benchmark composto por instruções projetadas explicitamente para avaliar a capacidade dos LMMs de realizar raciocínio visual rico em texto e sensível ao contexto. O ConTextual enfatiza cenários diversos do mundo real (por exemplo, leitura de horários, navegação, compras e mais) que exigem uma compreensão mais profunda das interações entre elementos textuais e visuais. Nossos resultados revelam uma lacuna significativa de desempenho de 30,8% entre o melhor LMM, o GPT-4V(ision), e as capacidades humanas, conforme avaliado por humanos, indicando um espaço considerável para melhorias no raciocínio visual rico em texto e sensível ao contexto. Notavelmente, embora o GPT-4V tenha se destacado em categorias abstratas, como interpretação de memes e citações, seu desempenho geral ainda ficou aquém do humano. Além das avaliações humanas, também empregamos métricas de avaliação automática usando o GPT-4, revelando tendências semelhantes nas disparidades de desempenho. Também realizamos uma avaliação detalhada em diversos contextos visuais e fornecemos uma análise qualitativa que oferece uma estrutura robusta para futuros avanços no design de LMMs. https://con-textual.github.io/
Os modelos de difusão texto-imagem existentes geram principalmente imagens a partir de prompts textuais. No entanto, a concisão inerente das descrições textuais apresenta desafios na síntese fiel de imagens com detalhes intrincados, como entidades ou cenas específicas. Este artigo apresenta o UNIMO-G, uma estrutura simples de difusão condicional multimodal que opera com prompts multimodais que intercalam entradas textuais e visuais, demonstrando uma capacidade unificada para geração de imagens tanto orientada por texto quanto por sujeito. O UNIMO-G compreende dois componentes principais: um Modelo de Linguagem Multimodal de Grande Escala (MLLM) para codificar prompts multimodais, e uma rede de difusão de remoção de ruído condicional para gerar imagens com base na entrada multimodal codificada. Utilizamos uma estratégia de treinamento em duas etapas para treinar efetivamente a estrutura: primeiro, pré-treinamento em pares texto-imagem em grande escala para desenvolver capacidades de geração de imagens condicionais, e depois ajuste por instrução com prompts multimodais para alcançar proficiência unificada na geração de imagens. Um pipeline de processamento de dados bem projetado, envolvendo ancoragem linguística e segmentação de imagens, é empregado para construir prompts multimodais. O UNIMO-G se destaca tanto na geração de texto para imagem quanto na síntese orientada por sujeito com zero-shot, sendo notavelmente eficaz na geração de imagens de alta fidelidade a partir de prompts multimodais complexos envolvendo múltiplas entidades de imagem.
Modelos generativos de texto para imagem em larga escala têm feito avanços impressionantes, demonstrando sua capacidade de sintetizar uma vasta gama de imagens de alta qualidade. No entanto, adaptar esses modelos para edição artística de imagens apresenta dois desafios significativos. Primeiramente, os usuários enfrentam dificuldades para criar prompts textuais que detalhem meticulosamente os elementos visuais da imagem de entrada. Em segundo lugar, os modelos predominantes, ao efetuar modificações em zonas específicas, frequentemente perturbam o estilo artístico geral, dificultando a obtenção de obras coesas e esteticamente unificadas. Para superar esses obstáculos, construímos o inovador framework unificado CreativeSynth, baseado em um modelo de difusão com a capacidade de coordenar entradas multimodais e multitarefas no campo da geração de imagens artísticas. Ao integrar características multimodais com mecanismos de atenção personalizados, o CreativeSynth facilita a importação de conteúdo semântico do mundo real para o domínio da arte por meio de inversão e transferência de estilo em tempo real. Isso permite a manipulação precisa do estilo e do conteúdo da imagem, mantendo a integridade dos parâmetros originais do modelo. Avaliações qualitativas e quantitativas rigorosas destacam que o CreativeSynth se destaca ao aprimorar a fidelidade das imagens artísticas e preservar sua essência estética inata. Ao preencher a lacuna entre modelos generativos e refinamento artístico, o CreativeSynth se torna uma paleta digital personalizada.