Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o LlamaGen, uma nova família de modelos de geração de imagens que aplica o paradigma original de "previsão do próximo token" dos grandes modelos de linguagem ao domínio da geração visual. Ele é uma resposta afirmativa à questão de saber se modelos autoregressivos convencionais, como o Llama, sem vieses indutivos sobre sinais visuais, podem alcançar desempenho de ponta em geração de imagens se dimensionados adequadamente. Reexaminamos os espaços de design dos tokenizadores de imagens, as propriedades de escalabilidade dos modelos de geração de imagens e a qualidade dos dados de treinamento. O resultado dessa exploração consiste em: (1) Um tokenizador de imagens com taxa de redução de 16, qualidade de reconstrução de 0,94 rFID e uso de codebook de 97% no benchmark ImageNet. (2) Uma série de modelos de geração de imagens condicionados por classe, variando de 111M a 3,1B de parâmetros, alcançando 2,18 FID no benchmark ImageNet 256x256, superando modelos de difusão populares como LDM e DiT. (3) Um modelo de geração de imagens condicionado por texto com 775M de parâmetros, treinado em duas etapas com dados do LAION-COCO e imagens de alta qualidade estética, demonstrando desempenho competitivo em qualidade visual e alinhamento textual. (4) Verificamos a eficácia de frameworks de serviço de LLM na otimização da velocidade de inferência dos modelos de geração de imagens, alcançando um aumento de velocidade de 326% a 414%. Disponibilizamos todos os modelos e códigos para facilitar a comunidade de código aberto em geração visual e modelos de fundação multimodais.
Agentes de linguagem executam tarefas complexas utilizando ferramentas para realizar cada etapa com precisão. No entanto, a maioria dos agentes existentes é baseada em modelos proprietários ou projetada para tarefas específicas, como matemática ou respostas a perguntas de múltiplos saltos. Apresentamos o Husky, um agente de linguagem holístico e de código aberto que aprende a raciocinar sobre um espaço de ação unificado para abordar um conjunto diversificado de tarefas complexas envolvendo raciocínio numérico, tabular e baseado em conhecimento. O Husky itera entre dois estágios: 1) gerar a próxima ação a ser tomada para resolver uma tarefa específica e 2) executar a ação utilizando modelos especializados e atualizar o estado atual da solução. Identificamos uma ontologia detalhada de ações para abordar tarefas complexas e curamos dados de alta qualidade para treinar modelos especializados na execução dessas ações. Nossos experimentos mostram que o Husky supera agentes de linguagem anteriores em 14 conjuntos de dados de avaliação. Além disso, introduzimos o HuskyQA, um novo conjunto de avaliação que testa a capacidade de agentes de linguagem para raciocínio com múltiplas ferramentas, com foco na recuperação de conhecimento ausente e na realização de raciocínio numérico. Apesar de utilizar modelos de 7B, o Husky iguala ou até supera modelos de ponta como o GPT-4 nessas tarefas, demonstrando a eficácia de nossa abordagem holística na resolução de problemas de raciocínio complexo. Nosso código e modelos estão disponíveis em https://github.com/agent-husky/Husky-v1.
Avanços na aprendizagem multimodal, particularmente na compreensão e geração de vídeos, exigem conjuntos de dados vídeo-texto de alta qualidade para melhorar o desempenho dos modelos. O Vript aborda essa questão com um corpus meticulosamente anotado de 12 mil vídeos de alta resolução, oferecendo legendas detalhadas, densas e semelhantes a roteiros para mais de 420 mil clipes. Cada clipe possui uma legenda de aproximadamente 145 palavras, o que é mais de 10 vezes maior do que a maioria dos conjuntos de dados vídeo-texto. Diferente das legendas que apenas documentam conteúdo estático em conjuntos de dados anteriores, aprimoramos a legendagem de vídeos para a criação de roteiros, documentando não apenas o conteúdo, mas também as operações de câmera, que incluem os tipos de enquadramento (plano médio, close-up, etc.) e movimentos de câmera (panorâmica, inclinação, etc.). Ao utilizar o Vript, exploramos três paradigmas de treinamento que alinham mais texto com a modalidade de vídeo, em vez de pares clipe-legenda. Isso resulta no Vriptor, um modelo de legendagem de vídeos de alto desempenho entre os modelos de código aberto, comparável ao GPT-4V em termos de desempenho. O Vriptor também é um modelo poderoso capaz de gerar legendas densas e detalhadas de forma ponta a ponta para vídeos longos. Além disso, introduzimos o Vript-Hard, um benchmark composto por três tarefas de compreensão de vídeo que são mais desafiadoras do que os benchmarks existentes: o Vript-HAL é o primeiro benchmark que avalia alucinações de ações e objetos em LLMs de vídeo, o Vript-RR combina raciocínio com recuperação para resolver ambiguidades de perguntas em QAs de vídeos longos, e o Vript-ERO é uma nova tarefa para avaliar a compreensão temporal de eventos em vídeos longos, em vez de ações em vídeos curtos, como em trabalhos anteriores. Todo o código, modelos e conjuntos de dados estão disponíveis em https://github.com/mutonix/Vript.
Na área da saúde, a maioria das pesquisas sobre modelos de linguagem de grande escala (LLMs) tem se concentrado em tarefas clínicas. No entanto, dispositivos móveis e wearables, que raramente são integrados a essas tarefas, fornecem dados ricos e longitudinais para o monitoramento pessoal da saúde. Aqui, apresentamos o Personal Health Large Language Model (PH-LLM), ajustado a partir do Gemini para compreender e raciocinar sobre dados numéricos de séries temporais de saúde pessoal. Criamos e organizamos três conjuntos de dados que testam 1) a produção de insights e recomendações personalizadas a partir de padrões de sono, atividade física e respostas fisiológicas, 2) o conhecimento especializado do domínio e 3) a previsão de resultados de sono autorrelatados. Para a primeira tarefa, projetamos 857 estudos de caso em colaboração com especialistas do domínio para avaliar cenários do mundo real em sono e condicionamento físico. Por meio de uma avaliação abrangente de rubricas específicas do domínio, observamos que o Gemini Ultra 1.0 e o PH-LLM não apresentam diferenças estatísticas em relação ao desempenho de especialistas em condicionamento físico e, embora os especialistas permaneçam superiores em sono, o ajuste fino do PH-LLM proporcionou melhorias significativas no uso de conhecimento relevante do domínio e na personalização de informações para insights sobre o sono. Avaliamos o conhecimento do domínio do PH-LLM usando exames de múltipla escolha em medicina do sono e condicionamento físico. O PH-LLM obteve 79% em sono e 88% em condicionamento físico, superando as pontuações médias de uma amostra de especialistas humanos. Por fim, treinamos o PH-LLM para prever resultados de qualidade do sono autorrelatados a partir de representações textuais e multimodais de dados de wearables, e demonstramos que a codificação multimodal é necessária para igualar o desempenho de modelos discriminativos especializados. Embora sejam necessários mais desenvolvimento e avaliação no domínio crítico de segurança da saúde pessoal, esses resultados demonstram tanto o amplo conhecimento e as capacidades dos modelos Gemini quanto o benefício de contextualizar dados fisiológicos para aplicações de saúde pessoal, como feito com o PH-LLM.
Métodos baseados em renderização volumétrica, como o NeRF, destacam-se na síntese de visões HDR a partir de imagens RAW, especialmente para cenas noturnas. No entanto, eles sofrem com longos tempos de treinamento e não conseguem realizar renderização em tempo real devido à necessidade de amostragem densa. O advento do 3D Gaussian Splatting (3DGS) possibilita renderização em tempo real e treinamento mais rápido. Entretanto, implementar a síntese de visão baseada em imagens RAW diretamente usando 3DGS é desafiador devido às suas limitações intrínsecas: 1) em cenas noturnas, a relação sinal-ruído (SNR) extremamente baixa leva a uma estimativa pobre de estrutura a partir de movimento (SfM) em visões distantes; 2) a capacidade limitada de representação das funções harmônicas esféricas (SH) é inadequada para o espaço de cores linear RAW; e 3) a estrutura imprecisa da cena prejudica tarefas subsequentes, como o refoco. Para resolver esses problemas, propomos o LE3D (Lighting Every darkness with 3DGS). Nosso método propõe a Inicialização de Dispersão Cônica para enriquecer a estimativa de SfM e substitui as SH por uma MLP de Cor para representar o espaço de cores linear RAW. Além disso, introduzimos regularizações de distorção de profundidade e distância próxima-distante para melhorar a precisão da estrutura da cena para tarefas subsequentes. Esses projetos permitem que o LE3D realize síntese de novas visões em tempo real, renderização HDR, refoco e alterações de tone-mapping. Em comparação com métodos anteriores baseados em renderização volumétrica, o LE3D reduz o tempo de treinamento para 1% e melhora a velocidade de renderização em até 4.000 vezes para imagens de resolução 2K em termos de FPS. O código e o visualizador podem ser encontrados em https://github.com/Srameo/LE3D.
O desenvolvimento de terapêuticos é um processo longo e caro que exige a satisfação de muitos critérios diferentes, e modelos de IA capazes de acelerar esse processo seriam de valor inestimável. No entanto, a maioria das abordagens atuais de IA aborda apenas um conjunto estreitamente definido de tarefas, frequentemente circunscritas a um domínio específico. Para preencher essa lacuna, apresentamos o Tx-LLM, um modelo de linguagem de grande escala (LLM) generalista ajustado a partir do PaLM-2, que codifica conhecimento sobre diversas modalidades terapêuticas. O Tx-LLM é treinado usando uma coleção de 709 conjuntos de dados que abrangem 66 tarefas em várias etapas do pipeline de descoberta de medicamentos. Usando um único conjunto de pesos, o Tx-LLM processa simultaneamente uma ampla variedade de entidades químicas ou biológicas (pequenas moléculas, proteínas, ácidos nucleicos, linhagens celulares, doenças) intercaladas com texto livre, permitindo prever uma ampla gama de propriedades associadas, alcançando desempenho competitivo com o estado da arte (SOTA) em 43 das 66 tarefas e superando o SOTA em 22. Entre essas, o Tx-LLM é particularmente poderoso e supera o desempenho de classe média em tarefas que combinam representações moleculares SMILES com texto, como nomes de linhagens celulares ou doenças, provavelmente devido ao contexto aprendido durante o pré-treinamento. Observamos evidências de transferência positiva entre tarefas com diversos tipos de medicamentos (por exemplo, tarefas envolvendo pequenas moléculas e tarefas envolvendo proteínas), e estudamos o impacto do tamanho do modelo, do ajuste fino de domínio e das estratégias de prompt no desempenho. Acreditamos que o Tx-LLM representa um passo importante em direção a LLMs que codificam conhecimento bioquímico e poderia ter um papel futuro como uma ferramenta de ponta a ponta em todo o pipeline de desenvolvimento de descoberta de medicamentos.
Este artigo apresenta o VALL-E 2, o mais recente avanço em modelos de linguagem de codec neural, que marca um marco na síntese de texto para fala (TTS) em zero-shot, alcançando pela primeira vez a paridade humana. Baseado em seu predecessor, o VALL-E, esta nova iteração introduz duas melhorias significativas: a Amostragem Consciente de Repetição refina o processo original de amostragem de núcleo ao considerar a repetição de tokens no histórico de decodificação. Isso não apenas estabiliza a decodificação, mas também evita o problema de loop infinito. A Modelagem de Código Agrupado organiza os códigos do codec em grupos para encurtar efetivamente o comprimento da sequência, o que não apenas aumenta a velocidade de inferência, mas também aborda os desafios da modelagem de sequências longas. Nossos experimentos nos conjuntos de dados LibriSpeech e VCTK mostram que o VALL-E 2 supera os sistemas anteriores em robustez de fala, naturalidade e similaridade do falante. É o primeiro do tipo a alcançar a paridade humana nesses benchmarks. Além disso, o VALL-E 2 sintetiza consistentemente fala de alta qualidade, mesmo para frases tradicionalmente desafiadoras devido à sua complexidade ou frases repetitivas. As vantagens deste trabalho podem contribuir para esforços valiosos, como a geração de fala para indivíduos com afasia ou pessoas com esclerose lateral amiotrófica. Demonstrações do VALL-E 2 serão publicadas em https://aka.ms/valle2.
Técnicas modernas de alinhamento baseadas em preferências humanas, como RLHF e DPO, geralmente empregam regularização de divergência em relação ao modelo de referência para garantir a estabilidade do treinamento. No entanto, isso frequentemente limita a flexibilidade dos modelos durante o alinhamento, especialmente quando há uma discrepância distribucional clara entre os dados de preferência e o modelo de referência. Neste artigo, focamos no alinhamento de modelos recentes de difusão de texto para imagem, como o Stable Diffusion XL (SDXL), e descobrimos que esse "desajuste de referência" é de fato um problema significativo no alinhamento desses modelos devido à natureza não estruturada das modalidades visuais: por exemplo, uma preferência por um aspecto estilístico específico pode facilmente induzir tal discrepância. Motivados por essa observação, propomos um novo método de alinhamento de preferências para modelos de difusão que não depende de nenhum modelo de referência, denominado otimização de preferências com consciência de margem (MaPO). O MaPO maximiza conjuntamente a margem de verossimilhança entre os conjuntos de imagens preferidas e não preferidas e a verossimilhança dos conjuntos preferidos, aprendendo simultaneamente características estilísticas gerais e preferências. Para avaliação, introduzimos dois novos conjuntos de dados de preferências pareadas, que consistem em pares de imagens auto-geradas do SDXL, Pick-Style e Pick-Safety, simulando diversos cenários de desajuste de referência. Nossos experimentos validam que o MaPO pode melhorar significativamente o alinhamento em Pick-Style e Pick-Safety e o alinhamento geral de preferências quando usado com Pick-a-Pic v2, superando o SDXL base e outros métodos existentes. Nosso código, modelos e conjuntos de dados estão publicamente disponíveis em https://mapo-t2i.github.io.
Modelos de linguagem de grande escala (LLMs) têm demonstrado desempenho impressionante em tarefas de linguagem, mas enfrentam desafios quando implantados em dispositivos com recursos limitados devido ao seu extenso número de parâmetros e dependência de multiplicações densas, resultando em altas demandas de memória e gargalos de latência. A reparametrização por deslocamento e adição oferece uma solução promissora ao substituir multiplicações custosas por primitivas amigáveis ao hardware tanto nas camadas de atenção quanto nas camadas de perceptron multicamadas (MLP) de um LLM. No entanto, as técnicas atuais de reparametrização exigem treinamento do zero ou ajuste fino completo dos parâmetros para restaurar a precisão, o que é intensivo em recursos para LLMs. Para resolver isso, propomos acelerar LLMs pré-treinados por meio de reparametrização pós-treinamento por deslocamento e adição, criando modelos eficientes sem multiplicações, denominados ShiftAddLLM. Especificamente, quantizamos cada matriz de peso em matrizes binárias emparelhadas com fatores de escala por grupo. As multiplicações associadas são reparametrizadas em (1) deslocamentos entre ativações e fatores de escala e (2) consultas e adições de acordo com as matrizes binárias. Para reduzir a perda de precisão, apresentamos um método de otimização multiobjetivo para minimizar tanto os erros de reparametrização dos pesos quanto das ativações de saída. Além disso, com base na sensibilidade variável entre as camadas à reparametrização, desenvolvemos uma estratégia automatizada de alocação de bits para reduzir ainda mais o uso de memória e a latência. Experimentos em cinco famílias de LLMs e oito tarefas validam consistentemente a eficácia do ShiftAddLLM, alcançando melhorias médias de perplexidade de 5,6 e 22,7 pontos com latência comparável ou menor em relação aos LLMs quantizados mais competitivos em 3 e 2 bits, respectivamente, e reduções de mais de 80% na memória e energia em comparação com os LLMs originais. Códigos e modelos estão disponíveis em https://github.com/GATECH-EIC/ShiftAddLLM.
Como os seres humanos podem adquirir imagens de forma eficiente e eficaz sempre foi uma questão perene. Uma solução típica é a recuperação de texto para imagem a partir de um banco de dados existente, dado o texto de consulta; no entanto, o banco de dados limitado geralmente carece de criatividade. Em contraste, os recentes avanços na geração de texto para imagem tornaram possível produzir conteúdo visual sofisticado e diversificado, mas enfrentam desafios na síntese de imagens que exigem conhecimento intensivo. Neste trabalho, repensamos a relação entre geração e recuperação de texto para imagem e propomos uma estrutura unificada no contexto dos Modelos de Linguagem Multimodal de Grande Escala (MLLMs). Especificamente, primeiro exploramos as habilidades discriminativas intrínsecas dos MLLMs e introduzimos um método de recuperação generativa para realizar a recuperação de maneira livre de treinamento. Posteriormente, unificamos geração e recuperação de forma autoregressiva e propomos um módulo de decisão autônomo para escolher a melhor correspondência entre as imagens geradas e recuperadas como resposta ao texto de consulta. Além disso, construímos um benchmark chamado TIGeR-Bench, incluindo domínios criativos e de conhecimento intensivo, para padronizar a avaliação da geração e recuperação unificada de texto para imagem. Resultados experimentais extensivos no TIGeR-Bench e em dois benchmarks de recuperação, ou seja, Flickr30K e MS-COCO, demonstram a superioridade e eficácia do nosso método proposto.
Os métodos existentes para síntese de visões reluzíveis -- que utilizam um conjunto de imagens de um objeto sob iluminação desconhecida para recuperar uma representação 3D que pode ser renderizada a partir de novos pontos de vista sob uma iluminação alvo -- são baseados em renderização inversa e tentam desvendar a geometria do objeto, os materiais e a iluminação que explicam as imagens de entrada. Além disso, isso geralmente envolve otimização por meio de renderização Monte Carlo diferenciável, que é frágil e computacionalmente cara. Neste trabalho, propomos uma abordagem mais simples: primeiro reluzimos cada imagem de entrada usando um modelo de difusão de imagem condicionado à iluminação e, em seguida, reconstruímos um Neural Radiance Field (NeRF) com essas imagens reluzidas, a partir do qual renderizamos novas visões sob a iluminação alvo. Demonstramos que essa estratégia é surpreendentemente competitiva e alcança resultados de ponta em vários benchmarks de reluzimento. Consulte nossa página do projeto em https://illuminerf.github.io/.
A destilação de grandes modelos de difusão latente (LDMs) em modelos que são rápidos para amostragem está atraindo um interesse crescente na pesquisa. No entanto, a maioria dos métodos existentes enfrenta um dilema onde eles ou (i) dependem de múltiplos modelos destilados individuais para diferentes orçamentos de amostragem, ou (ii) sacrificam a qualidade da geração com um número limitado (por exemplo, 2-4) e/ou moderado (por exemplo, 5-8) de passos de amostragem. Para abordar esses problemas, estendemos a recente estratégia de destilação de consistência multistep (MCD) para LDMs representativos, estabelecendo a abordagem de Modelos de Consistência Latente Multistep (MLCMs) para síntese de imagens de alta qualidade e baixo custo. O MLCM serve como um modelo unificado para vários passos de amostragem devido à promessa do MCD. Além disso, aprimoramos o MCD com uma estratégia de treinamento progressivo para fortalecer a consistência entre segmentos e melhorar a qualidade das gerações com poucos passos. Utilizamos os estados das trajetórias de amostragem do modelo professor como dados de treinamento para os MLCMs, a fim de reduzir as exigências de conjuntos de dados de treinamento de alta qualidade e diminuir a lacuna entre o treinamento e a inferência do modelo destilado. O MLCM é compatível com estratégias de aprendizado de preferência para melhorar ainda mais a qualidade visual e o apelo estético. Empiricamente, o MLCM pode gerar imagens de alta qualidade e agradáveis com apenas 2-8 passos de amostragem. No benchmark MSCOCO-2017 5K, o MLCM destilado do SDXL obtém um CLIP Score de 33.30, um Aesthetic Score de 6.19 e um Image Reward de 1.20 com apenas 4 passos, superando substancialmente o LCM de 4 passos [23], o SDXL-Lightning de 8 passos [17] e o HyperSD de 8 passos [33]. Também demonstramos a versatilidade dos MLCMs em aplicações que incluem geração controlada, transferência de estilo de imagem e geração de imagens a partir de texto em chinês.
Propomos o ExtraNeRF, um método inovador para extrapolar o intervalo de visões tratadas por um Campo de Radiação Neural (NeRF). Nossa ideia principal é aproveitar os NeRFs para modelar detalhes específicos e refinados da cena, enquanto utilizamos modelos de difusão para extrapolar além dos dados observados. Um elemento-chave é rastrear a visibilidade para determinar quais partes da cena não foram observadas e focar na reconstrução dessas regiões de forma consistente com modelos de difusão. Nossas principais contribuições incluem um módulo de preenchimento baseado em difusão e consciente da visibilidade, que é ajustado nas imagens de entrada, gerando um NeRF inicial com regiões preenchidas de qualidade moderada (frequentemente borradas), seguido por um segundo modelo de difusão treinado nas imagens de entrada para aprimorar consistentemente, notadamente nitidizar, as imagens preenchidas da primeira passagem. Demonstramos resultados de alta qualidade, extrapolando além de um pequeno número de visões de entrada (tipicamente seis ou menos), efetivamente expandindo o NeRF, bem como preenchendo novas regiões desoclusas dentro do volume de visualização original. Comparamos com trabalhos relacionados tanto quantitativa quanto qualitativamente e mostramos ganhos significativos em relação ao estado da arte anterior.
Propomos uma nova abordagem para a reconstrução de malhas 3D a partir de imagens multivista. Nosso método se inspira em grandes modelos de reconstrução, como o LRM, que utilizam um gerador de triplanos baseado em transformadores e um modelo de Campo de Radiação Neural (NeRF) treinado em imagens multivista. No entanto, em nosso método, introduzimos várias modificações importantes que nos permitem melhorar significativamente a qualidade da reconstrução 3D. Primeiramente, examinamos a arquitetura original do LRM e identificamos algumas deficiências. Posteriormente, introduzimos modificações respectivas na arquitetura do LRM, que resultam em uma representação mais eficiente das imagens multivista e em um treinamento computacionalmente mais eficaz. Em segundo lugar, para melhorar a reconstrução da geometria e permitir supervisão em resolução total da imagem, extraímos malhas do campo NeRF de forma diferenciável e ajustamos finamente o modelo NeRF por meio da renderização da malha. Essas modificações nos permitem alcançar desempenho de ponta em métricas de avaliação 2D e 3D, como um PSNR de 28,67 no conjunto de dados Google Scanned Objects (GSO). Apesar desses resultados superiores, nosso modelo de alimentação direta ainda enfrenta dificuldades para reconstruir texturas complexas, como texto e retratos em ativos. Para resolver isso, introduzimos um procedimento leve de refinamento de textura por instância. Esse procedimento ajusta finamente a representação do triplano e o modelo de estimativa de cor do NeRF na superfície da malha usando as imagens multivista de entrada em apenas 4 segundos. Esse refinamento melhora o PSNR para 29,79 e alcança uma reconstrução fiel de texturas complexas, como texto. Além disso, nossa abordagem possibilita várias aplicações subsequentes, incluindo geração de texto ou imagem para 3D.