Artigos de pesquisa em IA selecionados diariamente com traduções
Houve um progresso significativo na síntese de imagens personalizadas com métodos como Textual Inversion, DreamBooth e LoRA. No entanto, sua aplicabilidade no mundo real é limitada pelas altas demandas de armazenamento, processos de ajuste fino demorados e a necessidade de múltiplas imagens de referência. Por outro lado, os métodos existentes baseados em incorporação de ID, embora exijam apenas uma única inferência direta, enfrentam desafios: ou exigem um extenso ajuste fino em inúmeros parâmetros do modelo, não são compatíveis com modelos pré-treinados pela comunidade ou falham em manter uma alta fidelidade facial. Para abordar essas limitações, introduzimos o InstantID, uma solução poderosa baseada em modelos de difusão. Nosso módulo plug-and-play lida habilmente com a personalização de imagens em vários estilos usando apenas uma única imagem facial, garantindo alta fidelidade. Para alcançar isso, projetamos uma nova IdentityNet, impondo condições semânticas fortes e condições espaciais fracas, integrando imagens faciais e de marcos com prompts textuais para orientar a geração de imagens. O InstantID demonstra um desempenho e eficiência excepcionais, provando ser altamente benéfico em aplicações do mundo real onde a preservação da identidade é primordial. Além disso, nosso trabalho se integra perfeitamente com modelos populares de difusão de texto para imagem pré-treinados, como SD1.5 e SDXL, servindo como um plugin adaptável. Nossos códigos e checkpoints pré-treinados estarão disponíveis em https://github.com/InstantID/InstantID.
Este artigo apresenta o AIM, uma coleção de modelos de visão pré-treinados com um objetivo autoregressivo. Esses modelos são inspirados em suas contrapartes textuais, ou seja, os Modelos de Linguagem de Grande Escala (LLMs), e exibem propriedades de escalabilidade semelhantes. Especificamente, destacamos duas descobertas principais: (1) o desempenho das características visuais escala tanto com a capacidade do modelo quanto com a quantidade de dados, (2) o valor da função objetivo correlaciona-se com o desempenho do modelo em tarefas subsequentes. Ilustramos a implicação prática dessas descobertas ao pré-treinar um AIM de 7 bilhões de parâmetros em 2 bilhões de imagens, que alcança 84,0% no ImageNet-1k com um tronco congelado. Curiosamente, mesmo nessa escala, não observamos nenhum sinal de saturação no desempenho, sugerindo que o AIM potencialmente representa uma nova fronteira para o treinamento de modelos de visão em grande escala. O pré-treinamento do AIM é semelhante ao pré-treinamento de LLMs e não requer nenhuma estratégia específica para imagens para estabilizar o treinamento em grande escala.
Modelos de linguagem de grande porte (LLMs) de tamanho moderado — aqueles com 7B ou 13B parâmetros — apresentam desempenho promissor em tradução automática (MT). No entanto, mesmo os modelos de tradução baseados em LLMs de 13B com melhor desempenho, como o ALMA, não alcançam o desempenho dos modelos convencionais de tradução codificador-decodificador de última geração ou de LLMs em maior escala, como o GPT-4. Neste estudo, reduzimos essa lacuna de desempenho. Primeiro, avaliamos as deficiências do ajuste fino supervisionado (SFT) para LLMs na tarefa de MT, destacando os problemas de qualidade presentes nos dados de referência, apesar de serem gerados por humanos. Em seguida, em contraste com o SFT, que imita traduções de referência, introduzimos a Otimização de Preferência Contrastiva (CPO), uma abordagem inovadora que treina modelos para evitar a geração de traduções adequadas, mas não perfeitas. A aplicação do CPO aos modelos ALMA com apenas 22 mil frases paralelas e 12 milhões de parâmetros resulta em melhorias significativas. O modelo resultante, chamado ALMA-R, consegue igualar ou superar o desempenho dos vencedores da competição WMT e do GPT-4 nos conjuntos de dados de teste do WMT'21, WMT'22 e WMT'23.
Tipicamente, o treinamento de LLMs com tamanhos de contexto longos é computacionalmente caro, exigindo horas extensas de treinamento e recursos de GPU. Os métodos existentes de extensão de contexto longo geralmente precisam de procedimentos adicionais de treinamento para suportar janelas de contexto longo correspondentes, onde os dados de treinamento de contexto longo (por exemplo, 32k) são necessários, e altos custos de treinamento em GPU são assumidos. Para abordar os problemas mencionados, propomos um método de extensão de comprimento Eficiente e Extremo para Modelos de Linguagem de Grande Escala, chamado E²-LLM, com apenas um procedimento de treinamento e custo computacional drasticamente reduzido, que também elimina a necessidade de coletar dados de contexto longo. Concretamente, primeiro, os dados de treinamento do nosso E²-LLM exigem apenas um comprimento curto (por exemplo, 4k), o que reduz consideravelmente o custo de ajuste. Segundo, o procedimento de treinamento na janela de contexto curto é realizado apenas uma vez, e podemos suportar diferentes janelas de contexto de avaliação na inferência. Terceiro, no E²-LLM, com base nos embeddings de posição RoPE, introduzimos dois métodos diferentes de aumento nos parâmetros de escala e índice de posição para diferentes amostras no treinamento. O objetivo é tornar o modelo mais robusto às diferentes diferenças relativas ao interpolar diretamente o comprimento de contexto arbitrário na inferência. Resultados experimentais abrangentes em múltiplos conjuntos de dados de referência demonstram a eficácia do nosso E²-LLM em tarefas desafiadoras de contexto longo.
Apesar das capacidades gerais dos grandes modelos de linguagem pré-treinados, eles consistentemente se beneficiam de uma adaptação adicional para melhor alcançar comportamentos desejados. No entanto, ajustar esses modelos tem se tornado cada vez mais intensivo em recursos, ou impossível quando os pesos do modelo são privados. Introduzimos o proxy-tuning, um algoritmo leve de decodificação que opera sobre modelos de linguagem de caixa preta para alcançar o resultado de ajustar diretamente o modelo, mas acessando apenas suas previsões sobre o vocabulário de saída. Nosso método ajusta um modelo de linguagem menor e, em seguida, aplica a diferença entre as previsões dos modelos menores ajustados e não ajustados para deslocar as previsões originais do modelo base na direção do ajuste, mantendo os benefícios do pré-treinamento em grande escala. Em experimentos, quando aplicamos o proxy-tuning ao Llama2-70B usando proxies de apenas 7B de tamanho, conseguimos fechar 88% da lacuna entre o Llama2-70B e sua versão de chat verdadeiramente ajustada, quando avaliada em benchmarks de conhecimento, raciocínio e segurança. Curiosamente, quando testado no TruthfulQA, os modelos com proxy-tuning são na verdade mais verídicos do que os modelos ajustados diretamente, possivelmente porque a orientação no tempo de decodificação retém melhor o conhecimento factual do modelo. Em seguida, demonstramos a generalidade do proxy-tuning aplicando-o para adaptação de domínio em código e ajuste fino específico para tarefas de resposta a perguntas e problemas matemáticos. Nosso trabalho demonstra o potencial de usar modelos de linguagem pequenos ajustados para personalizar eficientemente modelos de linguagem grandes, potencialmente proprietários, por meio de orientação no tempo de decodificação.
Os Modelos de Linguagem de Grande Escala (LLMs) são conhecidos por terem uma capacidade limitada de extrapolação além de sua janela de contexto pré-treinada, o que restringe sua aplicação em tarefas subsequentes com entradas extensas. Estudos recentes buscaram estender a janela de contexto dos LLMs modificando o método de codificação de posição rotativa (RoPE), uma técnica popular de codificação de posição adotada por LLMs conhecidos como LLaMA, PaLM e GPT-NeoX. No entanto, trabalhos anteriores como Interpolação de Posição (PI) e YaRN são intensivos em recursos e carecem de experimentos comparativos para avaliar sua aplicabilidade. Neste trabalho, identificamos a necessidade intrínseca de que a entropia de atenção dos LLMs (ou seja, a entropia da informação dos escores de atenção) mantenha estabilidade e introduzimos uma nova extensão ao RoPE que combina o ajuste da frequência base do RoPE e a escala dos logits de atenção para ajudar os LLMs a se adaptarem eficientemente a uma janela de contexto maior. Validamos a superioridade de nosso método tanto no desempenho de ajuste fino quanto na robustez em diferentes tamanhos de janela de contexto em várias tarefas que demandam contexto. Notavelmente, nosso método estende a janela de contexto do LLaMA-2-7B-Chat para 16.384 com apenas 100 amostras e 6 passos de treinamento, demonstrando uma eficiência extraordinária. Por fim, também exploramos como as composições de dados e os currículos de treinamento afetam a extensão da janela de contexto para tarefas subsequentes específicas, sugerindo que o ajuste fino de LLMs com conversas extensas é um bom ponto de partida. Disponibilizamos nosso código e dados de SFT em https://github.com/GAIR-NLP/Entropy-ABF.
Modelos generativos têm demonstrado uma capacidade notável na síntese de texto, imagens e vídeos de alta qualidade. Para a geração de vídeos, os modelos contemporâneos de texto-para-vídeo exibem habilidades impressionantes, criando vídeos visualmente deslumbrantes. No entanto, a avaliação desses vídeos apresenta desafios significativos. A pesquisa atual emprega predominantemente métricas automatizadas, como FVD, IS e CLIP Score. Contudo, essas métricas fornecem uma análise incompleta, particularmente na avaliação temporal do conteúdo do vídeo, tornando-as indicadores pouco confiáveis da verdadeira qualidade do vídeo. Além disso, embora estudos com usuários tenham o potencial de refletir com precisão a percepção humana, eles são prejudicados por sua natureza demorada e trabalhosa, com resultados frequentemente contaminados por viés subjetivo. Neste artigo, investigamos as limitações inerentes às métricas existentes e introduzimos um novo pipeline de avaliação, o Text-to-Video Score (T2VScore). Essa métrica integra dois critérios fundamentais: (1) Alinhamento Texto-Vídeo, que examina a fidelidade do vídeo em representar a descrição textual fornecida, e (2) Qualidade do Vídeo, que avalia o calibre geral de produção do vídeo com uma mistura de especialistas. Além disso, para avaliar as métricas propostas e facilitar melhorias futuras, apresentamos o conjunto de dados TVGE, coletando julgamentos humanos de 2.543 vídeos gerados por texto-para-vídeo nos dois critérios. Experimentos no conjunto de dados TVGE demonstram a superioridade do T2VScore proposto ao oferecer uma métrica melhor para a geração de texto-para-vídeo.
Nos últimos anos, modelos de aprendizado de máquina como DALL-E, Craiyon e Stable Diffusion ganharam atenção significativa por sua capacidade de gerar imagens de alta resolução a partir de descrições concisas. Paralelamente, a computação quântica tem mostrado avanços promissores, especialmente com o aprendizado de máquina quântico, que aproveita a mecânica quântica para atender às crescentes demandas computacionais dos algoritmos tradicionais de aprendizado de máquina. Este artigo explora a integração do aprendizado de máquina quântico e circuitos quânticos variacionais para aumentar a eficácia dos modelos de geração de imagens baseados em difusão. Especificamente, abordamos dois desafios dos modelos clássicos de difusão: sua baixa velocidade de amostragem e os extensos requisitos de parâmetros. Introduzimos dois modelos quânticos de difusão e avaliamos suas capacidades em comparação com suas contrapartes clássicas usando dígitos MNIST, Fashion MNIST e CIFAR-10. Nossos modelos superam os modelos clássicos com contagens de parâmetros semelhantes em termos das métricas de desempenho FID, SSIM e PSNR. Além disso, introduzimos uma arquitetura de amostragem única unitária de modelo de consistência que combina o procedimento de difusão em uma única etapa, permitindo uma geração rápida de imagens em um único passo.
Apesar dos avanços mais recentes e notáveis na modelagem generativa, a geração eficiente de ativos 3D de alta qualidade a partir de prompts textuais continua sendo uma tarefa desafiadora. Um dos principais desafios reside na escassez de dados: os maiores conjuntos de dados 3D abrangem meramente milhões de ativos, enquanto suas contrapartes 2D contêm bilhões de pares texto-imagem. Para abordar isso, propomos uma nova abordagem que aproveita o poder de grandes modelos de difusão 2D pré-treinados. Mais especificamente, nossa abordagem, HexaGen3D, ajusta finamente um modelo pré-treinado de texto para imagem para prever conjuntamente 6 projeções ortográficas e o triplano latente correspondente. Em seguida, decodificamos esses latentes para gerar uma malha texturizada. O HexaGen3D não requer otimização por amostra e pode inferir objetos de alta qualidade e diversos a partir de prompts textuais em 7 segundos, oferecendo trade-offs significativamente melhores entre qualidade e latência quando comparado às abordagens existentes. Além disso, o HexaGen3D demonstra uma forte generalização para novos objetos ou composições.