Artigos de pesquisa em IA selecionados diariamente com traduções
Modelos de difusão texto-imagem alcançaram um salto notável em capacidades nos últimos anos, permitindo a síntese de imagens de alta qualidade e diversidade a partir de um prompt textual. No entanto, mesmo os modelos mais avançados frequentemente lutam para seguir precisamente todas as instruções em seus prompts. A grande maioria desses modelos é treinada em conjuntos de dados compostos por pares (imagem, legenda), onde as imagens geralmente vêm da web, e as legendas são seus textos alternativos HTML. Um exemplo notável é o conjunto de dados LAION, usado pelo Stable Diffusion e outros modelos. Neste trabalho, observamos que essas legendas são frequentemente de baixa qualidade e argumentamos que isso afeta significativamente a capacidade do modelo de entender semânticas sutis nos prompts textuais. Mostramos que, ao rotular novamente o corpus com um modelo especializado de legendagem automática e treinar um modelo texto-imagem no conjunto de dados relegendado, o modelo se beneficia substancialmente em todos os aspectos. Primeiro, na qualidade geral da imagem: por exemplo, FID 14,84 versus a linha de base de 17,87, e uma melhoria de 64,3% na geração fiel de imagens de acordo com avaliação humana. Segundo, no alinhamento semântico, por exemplo, precisão de objetos semânticos 84,34 versus 78,90, erros de alinhamento de contagem 1,32 versus 1,44 e alinhamento posicional 62,42 versus 57,60. Analisamos várias maneiras de rotular novamente o corpus e fornecemos evidências de que essa técnica, que chamamos de RECAP, tanto reduz a discrepância entre treinamento e inferência quanto fornece ao modelo mais informações por exemplo, aumentando a eficiência amostral e permitindo que o modelo entenda melhor as relações entre legendas e imagens.
Montamos um conjunto de dados de imagens licenciadas sob Creative Commons (CC), que utilizamos para treinar uma série de modelos de difusão abertos que são qualitativamente competitivos com o Stable Diffusion 2 (SD2). Essa tarefa apresenta dois desafios: (1) imagens CC de alta resolução carecem das legendas necessárias para treinar modelos generativos de texto para imagem; (2) as imagens CC são relativamente escassas. Para enfrentar esses desafios, empregamos uma técnica intuitiva de transferência de aprendizagem para produzir um conjunto de legendas sintéticas de alta qualidade associadas a imagens CC curadas. Em seguida, desenvolvemos uma receita de treinamento eficiente em termos de dados e computação que requer apenas 3% dos dados do LAION-2B necessários para treinar os modelos SD2 existentes, mas obtém qualidade comparável. Esses resultados indicam que temos um número suficiente de imagens CC (~70 milhões) para treinar modelos de alta qualidade. Nossa receita de treinamento também implementa uma variedade de otimizações que alcançam acelerações de treinamento de ~3X, permitindo iteração rápida de modelos. Aproveitamos essa receita para treinar vários modelos de texto para imagem de alta qualidade, que batizamos de família CommonCanvas. Nosso maior modelo alcança desempenho comparável ao SD2 em uma avaliação humana, apesar de ter sido treinado em nosso conjunto de dados CC, que é significativamente menor que o LAION, e de utilizar legendas sintéticas para o treinamento. Disponibilizamos nossos modelos, dados e código em https://github.com/mosaicml/diffusion/blob/main/assets/common-canvas.md.
Apresentamos o DreamCraft3D, um método hierárquico de geração de conteúdo 3D que produz objetos 3D de alta fidelidade e coerentes. Abordamos o problema utilizando uma imagem de referência 2D para guiar as etapas de escultura de geometria e aprimoramento de textura. Um foco central deste trabalho é resolver o problema de consistência enfrentado por trabalhos existentes. Para esculpir geometrias que renderizam de forma coerente, realizamos amostragem por destilação de pontuação (score distillation sampling) por meio de um modelo de difusão dependente da visão. Esse prior 3D, juntamente com várias estratégias de treinamento, prioriza a consistência da geometria, mas compromete a fidelidade da textura. Propomos ainda a Destilação de Pontuação com Bootstrapping (Bootstrapped Score Distillation) para especificamente aprimorar a textura. Treinamos um modelo de difusão personalizado, o Dreambooth, nas renderizações aumentadas da cena, dotando-o de conhecimento 3D da cena que está sendo otimizada. A destilação de pontuação a partir desse prior de difusão com consciência 3D fornece orientação consistente em relação à visão para a cena. Notavelmente, por meio de uma otimização alternada do prior de difusão e da representação da cena 3D, alcançamos melhorias que se reforçam mutuamente: a cena 3D otimizada auxilia no treinamento do modelo de difusão específico da cena, que oferece orientação cada vez mais consistente em relação à visão para a otimização 3D. A otimização é, portanto, impulsionada e resulta em um aprimoramento substancial da textura. Com priors 3D personalizados ao longo da geração hierárquica, o DreamCraft3D gera objetos 3D coerentes com renderizações fotorrealistas, avançando o estado da arte na geração de conteúdo 3D. Código disponível em https://github.com/deepseek-ai/DreamCraft3D.
As arquiteturas Mixture-of-Experts (MoE) oferecem uma solução geral para os altos custos de inferência de grandes modelos de linguagem (LLMs) por meio de roteamento esparso, proporcionando modelos mais rápidos e precisos, ao custo de contagens massivas de parâmetros. Por exemplo, o modelo SwitchTransformer-c2048 possui 1,6 trilhões de parâmetros, exigindo 3,2TB de memória de acelerador para funcionar de forma eficiente, o que torna a implantação prática desafiadora e cara. Neste artigo, apresentamos uma solução para esse problema de memória, na forma de um novo framework de compressão e execução chamado QMoE. Especificamente, o QMoE consiste em um algoritmo escalável que comprime com precisão MoEs com trilhões de parâmetros para menos de 1 bit por parâmetro, em um formato personalizado co-desenhado com kernels de decodificação GPU sob medida para facilitar a inferência comprimida eficiente de ponta a ponta, com pequenos sobrecustos de tempo de execução em relação à execução não comprimida. Concretamente, o QMoE pode comprimir o modelo SwitchTransformer-c2048 de 1,6 trilhão de parâmetros para menos de 160GB (compressão de 20x, 0,8 bits por parâmetro) com apenas uma pequena perda de precisão, em menos de um dia em uma única GPU. Isso permite, pela primeira vez, a execução de um modelo com trilhões de parâmetros em hardware acessível, como um único servidor com 4x NVIDIA A6000 ou 8x NVIDIA 3090 GPUs, com menos de 5% de sobrecarga de tempo de execução em relação à inferência ideal não comprimida. O código-fonte e os modelos comprimidos estão disponíveis em github.com/IST-DASLab/qmoe.
Neste trabalho, apresentamos o Wonder3D, um método inovador para gerar eficientemente malhas texturizadas de alta fidelidade a partir de imagens de visão única. Métodos recentes baseados em Amostragem por Distilação de Pontuação (SDS) demonstraram o potencial de recuperar geometria 3D a partir de priors de difusão 2D, mas geralmente sofrem com otimização demorada por forma e geometria inconsistente. Em contraste, certos trabalhos produzem diretamente informações 3D por meio de inferências rápidas de rede, mas seus resultados frequentemente são de baixa qualidade e carecem de detalhes geométricos. Para melhorar holisticamente a qualidade, consistência e eficiência de tarefas de imagem-para-3D, propomos um modelo de difusão de domínio cruzado que gera mapas normais multivista e as imagens de cores correspondentes. Para garantir consistência, empregamos um mecanismo de atenção de domínio cruzado multivista que facilita a troca de informações entre vistas e modalidades. Por fim, introduzimos um algoritmo de fusão normal com consciência geométrica que extrai superfícies de alta qualidade a partir das representações 2D multivista. Nossas extensivas avaliações demonstram que nosso método alcança resultados de reconstrução de alta qualidade, generalização robusta e eficiência razoavelmente boa em comparação com trabalhos anteriores.
Neste artigo, avaliamos diferentes habilidades do GPT-4V, incluindo compreensão visual, compreensão linguística, resolução de quebra-cabeças visuais e compreensão de outras modalidades, como profundidade, térmica, vídeo e áudio. Para estimar o desempenho do GPT-4V, construímos manualmente 656 instâncias de teste e avaliamos cuidadosamente os resultados do GPT-4V. Os destaques de nossas descobertas são os seguintes: (1) O GPT-4V exibe um desempenho impressionante em benchmarks visuais centrados no inglês, mas falha em reconhecer textos simples em chinês nas imagens; (2) O GPT-4V mostra um comportamento de recusa inconsistente ao responder perguntas relacionadas a características sensíveis, como gênero, raça e idade; (3) O GPT-4V obtém resultados piores do que o GPT-4 (API) em tarefas de compreensão linguística, incluindo benchmarks gerais de compreensão linguística e benchmarks de avaliação de conhecimento de senso comum visual; (4) O prompting few-shot pode melhorar o desempenho do GPT-4V tanto na compreensão visual quanto na compreensão linguística; (5) O GPT-4V tem dificuldade em encontrar as nuances entre duas imagens semelhantes e resolver quebra-cabeças matemáticos visuais simples; (6) O GPT-4V mostra um desempenho não trivial em tarefas de modalidades semelhantes à imagem, como vídeo e térmica. Nossos resultados experimentais revelam a capacidade e as limitações do GPT-4V, e esperamos que nosso artigo possa fornecer alguns insights sobre a aplicação e pesquisa do GPT-4V.
Muitos pesquisadores acreditam que as ConvNets têm bom desempenho em conjuntos de dados pequenos ou moderadamente grandes, mas não são competitivas com os Vision Transformers quando têm acesso a conjuntos de dados em escala da web. Desafiamos essa crença avaliando uma arquitetura de ConvNet de alto desempenho pré-treinada no JFT-4B, um grande conjunto de dados de imagens rotuladas frequentemente usado para treinar modelos de base. Consideramos orçamentos de computação de pré-treinamento entre 0,4k e 110k horas de computação em núcleos TPU-v4 e treinamos uma série de redes com profundidade e largura crescentes da família de modelos NFNet. Observamos uma lei de escala log-log entre a perda em dados retidos e o orçamento de computação. Após o ajuste fino no ImageNet, as NFNets igualam o desempenho relatado dos Vision Transformers com orçamentos de computação comparáveis. Nosso modelo mais forte após ajuste fino alcança uma precisão Top-1 de 90,4%.
Propomos o LLM-FP4 para quantizar tanto os pesos quanto as ativações em grandes modelos de linguagem (LLMs) para valores de ponto flutuante de 4 bits, de maneira pós-treinamento. As soluções existentes de quantização pós-treinamento (PTQ) são principalmente baseadas em inteiros e enfrentam dificuldades com larguras de bits abaixo de 8 bits. Em comparação com a quantização inteira, a quantização de ponto flutuante (FP) é mais flexível e pode lidar melhor com distribuições de cauda longa ou em forma de sino, e emergiu como a escolha padrão em muitas plataformas de hardware. Uma característica da quantização FP é que seu desempenho depende em grande parte da escolha dos bits de expoente e da faixa de corte. Nesse sentido, construímos uma linha de base forte de FP-PTQ buscando os parâmetros de quantização ótimos. Além disso, observamos um padrão de alta variância inter-canal e baixa variância intra-canal nas distribuições de ativação, o que aumenta a dificuldade de quantização das ativações. Reconhecemos que esse padrão é consistente em uma variedade de modelos de transformadores projetados para diversas tarefas, como LLMs, BERT e modelos Vision Transformer. Para lidar com isso, propomos a quantização de ativação por canal e mostramos que esses fatores de escala adicionais podem ser reparametrizados como vieses exponenciais dos pesos, incorrendo em um custo insignificante. Nosso método, pela primeira vez, pode quantizar tanto os pesos quanto as ativações no LLaMA-13B para apenas 4 bits e alcança uma pontuação média de 63,1 nas tarefas de raciocínio zero-shot de senso comum, que é apenas 5,8 menor que o modelo de precisão total, superando significativamente o estado da arte anterior em 12,7 pontos. O código está disponível em: https://github.com/nbasyl/LLM-FP4.
Embora os modelos de linguagem de grande escala (LLMs) sejam amplamente implantados, os dados usados para treiná-los raramente são divulgados. Dada a escala incrível desses dados, que podem chegar a trilhões de tokens, é quase certo que eles incluam textos potencialmente problemáticos, como materiais protegidos por direitos autorais, informações pessoalmente identificáveis e dados de teste para benchmarks de referência amplamente relatados. No entanto, atualmente não temos como saber quais desses tipos de dados estão incluídos ou em que proporções. Neste artigo, estudamos o problema de detecção de dados de pré-treinamento: dado um texto e acesso a um LLM como uma caixa preta, sem conhecer os dados de pré-treinamento, podemos determinar se o modelo foi treinado com o texto fornecido? Para facilitar esse estudo, introduzimos um benchmark dinâmico chamado WIKIMIA, que utiliza dados criados antes e depois do treinamento do modelo para apoiar a detecção de verdade absoluta. Também apresentamos um novo método de detecção chamado Min-K% Prob, baseado em uma hipótese simples: um exemplo não visto provavelmente contém algumas palavras discrepantes com baixas probabilidades sob o LLM, enquanto um exemplo visto tem menor probabilidade de conter palavras com probabilidades tão baixas. O Min-K% Prob pode ser aplicado sem qualquer conhecimento sobre o corpus de pré-treinamento ou qualquer treinamento adicional, diferindo dos métodos anteriores que exigem o treinamento de um modelo de referência em dados semelhantes aos de pré-treinamento. Além disso, nossos experimentos demonstram que o Min-K% Prob alcança uma melhoria de 7,4% no WIKIMIA em relação a esses métodos anteriores. Aplicamos o Min-K% Prob a dois cenários do mundo real: detecção de livros protegidos por direitos autorais e detecção de exemplos contaminados em tarefas subsequentes, e descobrimos que ele é uma solução consistentemente eficaz.
Modelos de Linguagem de Grande Escala (LLMs) baseados em Transformers estão liderando avanços em muitas tarefas de processamento de linguagem natural. No entanto, suas capacidades excepcionais são limitadas pela janela de contexto pré-definida do Transformer. Métodos de escalonamento de Embedding de Posição (PE), embora eficazes em estender a janela de contexto para um comprimento específico, demonstram limitações notáveis em suas habilidades de extrapolação ou sacrificam parte do desempenho dentro da janela de contexto. Métodos de extrapolação de comprimento, embora teoricamente capazes de estender a janela de contexto além do comprimento da sequência de treinamento, frequentemente têm desempenho inferior em aplicações práticas de contexto longo. Para enfrentar esses desafios, propomos a Extrapolação Contínua de Comprimento (CLEX) para LLMs. Generalizamos as abordagens de escalonamento de PE para modelar a dinâmica contínua por meio de equações diferenciais ordinárias sobre o fator de escalonamento de comprimento, superando assim as limitações dos métodos atuais de escalonamento de PE projetados para comprimentos específicos. Além disso, ao estender a dinâmica para comprimentos de contexto desejados além do comprimento da sequência de treinamento, o CLEX facilita a extrapolação de comprimento com desempenho impressionante em tarefas práticas. Demonstramos que o CLEX pode ser incorporado de forma contínua em LLMs equipados com Embedding de Posição Rotacional, como LLaMA e GPT-NeoX, com impacto insignificante na latência de treinamento e inferência. Resultados experimentais revelam que o CLEX pode estender efetivamente a janela de contexto para mais de 4x ou quase 8x o comprimento de treinamento, sem deterioração no desempenho. Além disso, quando avaliado no benchmark prático LongBench, nosso modelo treinado com um comprimento de 4k exibe desempenho competitivo em comparação com modelos de código aberto state-of-the-art treinados com comprimentos de contexto de até 32k.
Manter grandes modelos de base atualizados com os dados mais recentes é inerentemente caro. Para evitar os custos proibitivos de retreinar constantemente, é imperativo treinar continuamente esses modelos. Esse problema é agravado pela falta de benchmarks ou baselines em grande escala para aprendizado contínuo. Introduzimos o primeiro conjunto de benchmarks em escala web para treinamento de modelos visão-linguagem com foco no tempo contínuo (TiC): TiC-DataCompt, TiC-YFCC e TiC-RedCaps, com mais de 12,7 bilhões de pares de imagem-texto com carimbo de tempo, abrangendo 9 anos (2014–2022). Primeiro, usamos nossos benchmarks para criar várias avaliações dinâmicas que medem a robustez temporal de modelos existentes. Mostramos que o CLIP da OpenAI (treinado com dados até 2020) perde aproximadamente 8% de precisão zero-shot em nossa tarefa de recuperação curada de 2021–2022 em comparação com modelos mais recentes no repositório OpenCLIP. Em seguida, estudamos como treinar modelos de forma eficiente com dados contínuos no tempo. Demonstramos que uma abordagem simples baseada em repetição, que continua o treinamento a partir do último checkpoint e repete dados antigos, reduz o custo computacional em 2,5 vezes em comparação com a prática padrão de retreinar do zero.
O TD-MPC é um algoritmo de aprendizado por reforço (RL) baseado em modelo que realiza otimização local de trajetórias no espaço latente de um modelo de mundo implícito (sem decodificador) aprendido. Neste trabalho, apresentamos o TD-MPC2: uma série de melhorias em relação ao algoritmo TD-MPC. Demonstramos que o TD-MPC2 apresenta avanços significativos em relação às linhas de base em 104 tarefas de RL online, abrangendo 4 domínios de tarefas diversos, alcançando resultados consistentemente fortes com um único conjunto de hiperparâmetros. Além disso, mostramos que as capacidades do agente aumentam com o tamanho do modelo e dos dados, e treinamos com sucesso um único agente com 317 milhões de parâmetros para executar 80 tarefas em múltiplos domínios de tarefas, embodiamentos e espaços de ação. Concluímos com uma análise das lições, oportunidades e riscos associados a agentes TD-MPC2 de grande escala. Explore vídeos, modelos, dados, códigos e mais em https://nicklashansen.github.io/td-mpc2.
A síntese de imagens de novas perspectivas em tempo real em dispositivos móveis é proibitiva devido ao poder computacional e armazenamento limitados. O uso de métodos de renderização volumétrica, como NeRF e seus derivados, em dispositivos móveis não é adequado devido ao alto custo computacional da renderização volumétrica. Por outro lado, avanços recentes em representações de campos de luz neurais têm mostrado resultados promissores na síntese de visão em tempo real em dispositivos móveis. Os métodos de campo de luz neural aprendem um mapeamento direto de uma representação de raio para a cor do pixel. A escolha atual de representação de raio é a amostragem estratificada de raios ou as coordenadas de Pl\"{u}cker, negligenciando a clássica representação de lâmina de luz (dois planos), a representação preferida para interpolar entre as visões do campo de luz. Neste trabalho, descobrimos que o uso da representação de lâmina de luz é uma representação eficiente para aprender um campo de luz neural. Mais importante ainda, é uma representação de raio de menor dimensão que nos permite aprender o espaço de raio 4D usando grades de características que são significativamente mais rápidas de treinar e renderizar. Embora projetada principalmente para visões frontais, mostramos que a representação de lâmina de luz pode ser ainda mais estendida para cenas não frontais usando uma estratégia de dividir e conquistar. Nosso método oferece qualidade de renderização superior em comparação com métodos anteriores de campo de luz e alcança uma relação significativamente melhorada entre qualidade de renderização e velocidade.