HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

13 papers found

Uma Imagem Vale Mais que Mil Palavras: Recaptioning Baseado em Princípios Melhora a Geração de Imagens
A Picture is Worth a Thousand Words: Principled Recaptioning Improves Image Generation

Oct 25

ByEyal Segalis, Dani Valevski, Danny Lumen, Yossi Matias, Yaniv Leviathan

Modelos de difusão texto-imagem alcançaram um salto notável em capacidades nos últimos anos, permitindo a síntese de imagens de alta qualidade e diversidade a partir de um prompt textual. No entanto, mesmo os modelos mais avançados frequentemente lutam para seguir precisamente todas as instruções em seus prompts. A grande maioria desses modelos é treinada em conjuntos de dados compostos por pares (imagem, legenda), onde as imagens geralmente vêm da web, e as legendas são seus textos alternativos HTML. Um exemplo notável é o conjunto de dados LAION, usado pelo Stable Diffusion e outros modelos. Neste trabalho, observamos que essas legendas são frequentemente de baixa qualidade e argumentamos que isso afeta significativamente a capacidade do modelo de entender semânticas sutis nos prompts textuais. Mostramos que, ao rotular novamente o corpus com um modelo especializado de legendagem automática e treinar um modelo texto-imagem no conjunto de dados relegendado, o modelo se beneficia substancialmente em todos os aspectos. Primeiro, na qualidade geral da imagem: por exemplo, FID 14,84 versus a linha de base de 17,87, e uma melhoria de 64,3% na geração fiel de imagens de acordo com avaliação humana. Segundo, no alinhamento semântico, por exemplo, precisão de objetos semânticos 84,34 versus 78,90, erros de alinhamento de contagem 1,32 versus 1,44 e alinhamento posicional 62,42 versus 57,60. Analisamos várias maneiras de rotular novamente o corpus e fornecemos evidências de que essa técnica, que chamamos de RECAP, tanto reduz a discrepância entre treinamento e inferência quanto fornece ao modelo mais informações por exemplo, aumentando a eficiência amostral e permitindo que o modelo entenda melhor as relações entre legendas e imagens.

CommonCanvas: Um Modelo de Difusão Aberto Treinado com Imagens Creative Commons
CommonCanvas: An Open Diffusion Model Trained with Creative-Commons Images

Oct 25

ByAaron Gokaslan, A. Feder Cooper, Jasmine Collins, Landan Seguin, Austin Jacobson, Mihir Patel, Jonathan Frankle, Cory Stephenson, Volodymyr Kuleshov

Montamos um conjunto de dados de imagens licenciadas sob Creative Commons (CC), que utilizamos para treinar uma série de modelos de difusão abertos que são qualitativamente competitivos com o Stable Diffusion 2 (SD2). Essa tarefa apresenta dois desafios: (1) imagens CC de alta resolução carecem das legendas necessárias para treinar modelos generativos de texto para imagem; (2) as imagens CC são relativamente escassas. Para enfrentar esses desafios, empregamos uma técnica intuitiva de transferência de aprendizagem para produzir um conjunto de legendas sintéticas de alta qualidade associadas a imagens CC curadas. Em seguida, desenvolvemos uma receita de treinamento eficiente em termos de dados e computação que requer apenas 3% dos dados do LAION-2B necessários para treinar os modelos SD2 existentes, mas obtém qualidade comparável. Esses resultados indicam que temos um número suficiente de imagens CC (~70 milhões) para treinar modelos de alta qualidade. Nossa receita de treinamento também implementa uma variedade de otimizações que alcançam acelerações de treinamento de ~3X, permitindo iteração rápida de modelos. Aproveitamos essa receita para treinar vários modelos de texto para imagem de alta qualidade, que batizamos de família CommonCanvas. Nosso maior modelo alcança desempenho comparável ao SD2 em uma avaliação humana, apesar de ter sido treinado em nosso conjunto de dados CC, que é significativamente menor que o LAION, e de utilizar legendas sintéticas para o treinamento. Disponibilizamos nossos modelos, dados e código em https://github.com/mosaicml/diffusion/blob/main/assets/common-canvas.md.

DreamCraft3D: Geração Hierárquica de 3D com Prior de Difusão Bootstrapped
DreamCraft3D: Hierarchical 3D Generation with Bootstrapped Diffusion Prior

Oct 25

ByJingxiang Sun, Bo Zhang, Ruizhi Shao, Lizhen Wang, Wen Liu, Zhenda Xie, Yebin Liu

Apresentamos o DreamCraft3D, um método hierárquico de geração de conteúdo 3D que produz objetos 3D de alta fidelidade e coerentes. Abordamos o problema utilizando uma imagem de referência 2D para guiar as etapas de escultura de geometria e aprimoramento de textura. Um foco central deste trabalho é resolver o problema de consistência enfrentado por trabalhos existentes. Para esculpir geometrias que renderizam de forma coerente, realizamos amostragem por destilação de pontuação (score distillation sampling) por meio de um modelo de difusão dependente da visão. Esse prior 3D, juntamente com várias estratégias de treinamento, prioriza a consistência da geometria, mas compromete a fidelidade da textura. Propomos ainda a Destilação de Pontuação com Bootstrapping (Bootstrapped Score Distillation) para especificamente aprimorar a textura. Treinamos um modelo de difusão personalizado, o Dreambooth, nas renderizações aumentadas da cena, dotando-o de conhecimento 3D da cena que está sendo otimizada. A destilação de pontuação a partir desse prior de difusão com consciência 3D fornece orientação consistente em relação à visão para a cena. Notavelmente, por meio de uma otimização alternada do prior de difusão e da representação da cena 3D, alcançamos melhorias que se reforçam mutuamente: a cena 3D otimizada auxilia no treinamento do modelo de difusão específico da cena, que oferece orientação cada vez mais consistente em relação à visão para a otimização 3D. A otimização é, portanto, impulsionada e resulta em um aprimoramento substancial da textura. Com priors 3D personalizados ao longo da geração hierárquica, o DreamCraft3D gera objetos 3D coerentes com renderizações fotorrealistas, avançando o estado da arte na geração de conteúdo 3D. Código disponível em https://github.com/deepseek-ai/DreamCraft3D.

QMoE: Compressão Prática de Modelos com Trilhões de Parâmetros em Sub-1-Bit
QMoE: Practical Sub-1-Bit Compression of Trillion-Parameter Models

Oct 25

ByElias Frantar, Dan Alistarh

As arquiteturas Mixture-of-Experts (MoE) oferecem uma solução geral para os altos custos de inferência de grandes modelos de linguagem (LLMs) por meio de roteamento esparso, proporcionando modelos mais rápidos e precisos, ao custo de contagens massivas de parâmetros. Por exemplo, o modelo SwitchTransformer-c2048 possui 1,6 trilhões de parâmetros, exigindo 3,2TB de memória de acelerador para funcionar de forma eficiente, o que torna a implantação prática desafiadora e cara. Neste artigo, apresentamos uma solução para esse problema de memória, na forma de um novo framework de compressão e execução chamado QMoE. Especificamente, o QMoE consiste em um algoritmo escalável que comprime com precisão MoEs com trilhões de parâmetros para menos de 1 bit por parâmetro, em um formato personalizado co-desenhado com kernels de decodificação GPU sob medida para facilitar a inferência comprimida eficiente de ponta a ponta, com pequenos sobrecustos de tempo de execução em relação à execução não comprimida. Concretamente, o QMoE pode comprimir o modelo SwitchTransformer-c2048 de 1,6 trilhão de parâmetros para menos de 160GB (compressão de 20x, 0,8 bits por parâmetro) com apenas uma pequena perda de precisão, em menos de um dia em uma única GPU. Isso permite, pela primeira vez, a execução de um modelo com trilhões de parâmetros em hardware acessível, como um único servidor com 4x NVIDIA A6000 ou 8x NVIDIA 3090 GPUs, com menos de 5% de sobrecarga de tempo de execução em relação à inferência ideal não comprimida. O código-fonte e os modelos comprimidos estão disponíveis em github.com/IST-DASLab/qmoe.

Wonder3D: Geração de 3D a partir de uma Única Imagem utilizando Difusão entre Domínios
Wonder3D: Single Image to 3D using Cross-Domain Diffusion

Oct 23

ByXiaoxiao Long, Yuan-Chen Guo, Cheng Lin, Yuan Liu, Zhiyang Dou, Lingjie Liu, Yuexin Ma, Song-Hai Zhang, Marc Habermann, Christian Theobalt, Wenping Wang

Neste trabalho, apresentamos o Wonder3D, um método inovador para gerar eficientemente malhas texturizadas de alta fidelidade a partir de imagens de visão única. Métodos recentes baseados em Amostragem por Distilação de Pontuação (SDS) demonstraram o potencial de recuperar geometria 3D a partir de priors de difusão 2D, mas geralmente sofrem com otimização demorada por forma e geometria inconsistente. Em contraste, certos trabalhos produzem diretamente informações 3D por meio de inferências rápidas de rede, mas seus resultados frequentemente são de baixa qualidade e carecem de detalhes geométricos. Para melhorar holisticamente a qualidade, consistência e eficiência de tarefas de imagem-para-3D, propomos um modelo de difusão de domínio cruzado que gera mapas normais multivista e as imagens de cores correspondentes. Para garantir consistência, empregamos um mecanismo de atenção de domínio cruzado multivista que facilita a troca de informações entre vistas e modalidades. Por fim, introduzimos um algoritmo de fusão normal com consciência geométrica que extrai superfícies de alta qualidade a partir das representações 2D multivista. Nossas extensivas avaliações demonstram que nosso método alcança resultados de reconstrução de alta qualidade, generalização robusta e eficiência razoavelmente boa em comparação com trabalhos anteriores.

Uma Avaliação Inicial do GPT-4V(ision)
An Early Evaluation of GPT-4V(ision)

Oct 25

ByYang Wu, Shilong Wang, Hao Yang, Tian Zheng, Hongbo Zhang, Yanyan Zhao, Bing Qin

Neste artigo, avaliamos diferentes habilidades do GPT-4V, incluindo compreensão visual, compreensão linguística, resolução de quebra-cabeças visuais e compreensão de outras modalidades, como profundidade, térmica, vídeo e áudio. Para estimar o desempenho do GPT-4V, construímos manualmente 656 instâncias de teste e avaliamos cuidadosamente os resultados do GPT-4V. Os destaques de nossas descobertas são os seguintes: (1) O GPT-4V exibe um desempenho impressionante em benchmarks visuais centrados no inglês, mas falha em reconhecer textos simples em chinês nas imagens; (2) O GPT-4V mostra um comportamento de recusa inconsistente ao responder perguntas relacionadas a características sensíveis, como gênero, raça e idade; (3) O GPT-4V obtém resultados piores do que o GPT-4 (API) em tarefas de compreensão linguística, incluindo benchmarks gerais de compreensão linguística e benchmarks de avaliação de conhecimento de senso comum visual; (4) O prompting few-shot pode melhorar o desempenho do GPT-4V tanto na compreensão visual quanto na compreensão linguística; (5) O GPT-4V tem dificuldade em encontrar as nuances entre duas imagens semelhantes e resolver quebra-cabeças matemáticos visuais simples; (6) O GPT-4V mostra um desempenho não trivial em tarefas de modalidades semelhantes à imagem, como vídeo e térmica. Nossos resultados experimentais revelam a capacidade e as limitações do GPT-4V, e esperamos que nosso artigo possa fornecer alguns insights sobre a aplicação e pesquisa do GPT-4V.

ConvNets Igualam Vision Transformers em Escala
ConvNets Match Vision Transformers at Scale

Oct 25

BySamuel L. Smith, Andrew Brock, Leonard Berrada, Soham De

Muitos pesquisadores acreditam que as ConvNets têm bom desempenho em conjuntos de dados pequenos ou moderadamente grandes, mas não são competitivas com os Vision Transformers quando têm acesso a conjuntos de dados em escala da web. Desafiamos essa crença avaliando uma arquitetura de ConvNet de alto desempenho pré-treinada no JFT-4B, um grande conjunto de dados de imagens rotuladas frequentemente usado para treinar modelos de base. Consideramos orçamentos de computação de pré-treinamento entre 0,4k e 110k horas de computação em núcleos TPU-v4 e treinamos uma série de redes com profundidade e largura crescentes da família de modelos NFNet. Observamos uma lei de escala log-log entre a perda em dados retidos e o orçamento de computação. Após o ajuste fino no ImageNet, as NFNets igualam o desempenho relatado dos Vision Transformers com orçamentos de computação comparáveis. Nosso modelo mais forte após ajuste fino alcança uma precisão Top-1 de 90,4%.

LLM-FP4: Transformadores Quantizados com Ponto Flutuante de 4 Bits
LLM-FP4: 4-Bit Floating-Point Quantized Transformers

Oct 25

ByShih-yang Liu, Zechun Liu, Xijie Huang, Pingcheng Dong, Kwang-Ting Cheng

Propomos o LLM-FP4 para quantizar tanto os pesos quanto as ativações em grandes modelos de linguagem (LLMs) para valores de ponto flutuante de 4 bits, de maneira pós-treinamento. As soluções existentes de quantização pós-treinamento (PTQ) são principalmente baseadas em inteiros e enfrentam dificuldades com larguras de bits abaixo de 8 bits. Em comparação com a quantização inteira, a quantização de ponto flutuante (FP) é mais flexível e pode lidar melhor com distribuições de cauda longa ou em forma de sino, e emergiu como a escolha padrão em muitas plataformas de hardware. Uma característica da quantização FP é que seu desempenho depende em grande parte da escolha dos bits de expoente e da faixa de corte. Nesse sentido, construímos uma linha de base forte de FP-PTQ buscando os parâmetros de quantização ótimos. Além disso, observamos um padrão de alta variância inter-canal e baixa variância intra-canal nas distribuições de ativação, o que aumenta a dificuldade de quantização das ativações. Reconhecemos que esse padrão é consistente em uma variedade de modelos de transformadores projetados para diversas tarefas, como LLMs, BERT e modelos Vision Transformer. Para lidar com isso, propomos a quantização de ativação por canal e mostramos que esses fatores de escala adicionais podem ser reparametrizados como vieses exponenciais dos pesos, incorrendo em um custo insignificante. Nosso método, pela primeira vez, pode quantizar tanto os pesos quanto as ativações no LLaMA-13B para apenas 4 bits e alcança uma pontuação média de 63,1 nas tarefas de raciocínio zero-shot de senso comum, que é apenas 5,8 menor que o modelo de precisão total, superando significativamente o estado da arte anterior em 12,7 pontos. O código está disponível em: https://github.com/nbasyl/LLM-FP4.

Detectando Dados de Pré-treinamento em Modelos de Linguagem de Grande Escala
Detecting Pretraining Data from Large Language Models

Oct 25

ByWeijia Shi, Anirudh Ajith, Mengzhou Xia, Yangsibo Huang, Daogao Liu, Terra Blevins, Danqi Chen, Luke Zettlemoyer

Embora os modelos de linguagem de grande escala (LLMs) sejam amplamente implantados, os dados usados para treiná-los raramente são divulgados. Dada a escala incrível desses dados, que podem chegar a trilhões de tokens, é quase certo que eles incluam textos potencialmente problemáticos, como materiais protegidos por direitos autorais, informações pessoalmente identificáveis e dados de teste para benchmarks de referência amplamente relatados. No entanto, atualmente não temos como saber quais desses tipos de dados estão incluídos ou em que proporções. Neste artigo, estudamos o problema de detecção de dados de pré-treinamento: dado um texto e acesso a um LLM como uma caixa preta, sem conhecer os dados de pré-treinamento, podemos determinar se o modelo foi treinado com o texto fornecido? Para facilitar esse estudo, introduzimos um benchmark dinâmico chamado WIKIMIA, que utiliza dados criados antes e depois do treinamento do modelo para apoiar a detecção de verdade absoluta. Também apresentamos um novo método de detecção chamado Min-K% Prob, baseado em uma hipótese simples: um exemplo não visto provavelmente contém algumas palavras discrepantes com baixas probabilidades sob o LLM, enquanto um exemplo visto tem menor probabilidade de conter palavras com probabilidades tão baixas. O Min-K% Prob pode ser aplicado sem qualquer conhecimento sobre o corpus de pré-treinamento ou qualquer treinamento adicional, diferindo dos métodos anteriores que exigem o treinamento de um modelo de referência em dados semelhantes aos de pré-treinamento. Além disso, nossos experimentos demonstram que o Min-K% Prob alcança uma melhoria de 7,4% no WIKIMIA em relação a esses métodos anteriores. Aplicamos o Min-K% Prob a dois cenários do mundo real: detecção de livros protegidos por direitos autorais e detecção de exemplos contaminados em tarefas subsequentes, e descobrimos que ele é uma solução consistentemente eficaz.

CLEX: Extrapolação Contínua de Comprimento para Modelos de Linguagem de Grande Escala
CLEX: Continuous Length Extrapolation for Large Language Models

Oct 25

ByGuanzheng Chen, Xin Li, Zaiqiao Meng, Shangsong Liang, Lidong Bing

Modelos de Linguagem de Grande Escala (LLMs) baseados em Transformers estão liderando avanços em muitas tarefas de processamento de linguagem natural. No entanto, suas capacidades excepcionais são limitadas pela janela de contexto pré-definida do Transformer. Métodos de escalonamento de Embedding de Posição (PE), embora eficazes em estender a janela de contexto para um comprimento específico, demonstram limitações notáveis em suas habilidades de extrapolação ou sacrificam parte do desempenho dentro da janela de contexto. Métodos de extrapolação de comprimento, embora teoricamente capazes de estender a janela de contexto além do comprimento da sequência de treinamento, frequentemente têm desempenho inferior em aplicações práticas de contexto longo. Para enfrentar esses desafios, propomos a Extrapolação Contínua de Comprimento (CLEX) para LLMs. Generalizamos as abordagens de escalonamento de PE para modelar a dinâmica contínua por meio de equações diferenciais ordinárias sobre o fator de escalonamento de comprimento, superando assim as limitações dos métodos atuais de escalonamento de PE projetados para comprimentos específicos. Além disso, ao estender a dinâmica para comprimentos de contexto desejados além do comprimento da sequência de treinamento, o CLEX facilita a extrapolação de comprimento com desempenho impressionante em tarefas práticas. Demonstramos que o CLEX pode ser incorporado de forma contínua em LLMs equipados com Embedding de Posição Rotacional, como LLaMA e GPT-NeoX, com impacto insignificante na latência de treinamento e inferência. Resultados experimentais revelam que o CLEX pode estender efetivamente a janela de contexto para mais de 4x ou quase 8x o comprimento de treinamento, sem deterioração no desempenho. Além disso, quando avaliado no benchmark prático LongBench, nosso modelo treinado com um comprimento de 4k exibe desempenho competitivo em comparação com modelos de código aberto state-of-the-art treinados com comprimentos de contexto de até 32k.

TiC-CLIP: Treinamento Contínuo de Modelos CLIP
TiC-CLIP: Continual Training of CLIP Models

Oct 24

BySaurabh Garg, Mehrdad Farajtabar, Hadi Pouransari, Raviteja Vemulapalli, Sachin Mehta, Oncel Tuzel, Vaishaal Shankar, Fartash Faghri

Manter grandes modelos de base atualizados com os dados mais recentes é inerentemente caro. Para evitar os custos proibitivos de retreinar constantemente, é imperativo treinar continuamente esses modelos. Esse problema é agravado pela falta de benchmarks ou baselines em grande escala para aprendizado contínuo. Introduzimos o primeiro conjunto de benchmarks em escala web para treinamento de modelos visão-linguagem com foco no tempo contínuo (TiC): TiC-DataCompt, TiC-YFCC e TiC-RedCaps, com mais de 12,7 bilhões de pares de imagem-texto com carimbo de tempo, abrangendo 9 anos (2014–2022). Primeiro, usamos nossos benchmarks para criar várias avaliações dinâmicas que medem a robustez temporal de modelos existentes. Mostramos que o CLIP da OpenAI (treinado com dados até 2020) perde aproximadamente 8% de precisão zero-shot em nossa tarefa de recuperação curada de 2021–2022 em comparação com modelos mais recentes no repositório OpenCLIP. Em seguida, estudamos como treinar modelos de forma eficiente com dados contínuos no tempo. Demonstramos que uma abordagem simples baseada em repetição, que continua o treinamento a partir do último checkpoint e repete dados antigos, reduz o custo computacional em 2,5 vezes em comparação com a prática padrão de retreinar do zero.

TD-MPC2: Modelos de Mundo Escaláveis e Robustos para Controle Contínuo
TD-MPC2: Scalable, Robust World Models for Continuous Control

Oct 25

ByNicklas Hansen, Hao Su, Xiaolong Wang

O TD-MPC é um algoritmo de aprendizado por reforço (RL) baseado em modelo que realiza otimização local de trajetórias no espaço latente de um modelo de mundo implícito (sem decodificador) aprendido. Neste trabalho, apresentamos o TD-MPC2: uma série de melhorias em relação ao algoritmo TD-MPC. Demonstramos que o TD-MPC2 apresenta avanços significativos em relação às linhas de base em 104 tarefas de RL online, abrangendo 4 domínios de tarefas diversos, alcançando resultados consistentemente fortes com um único conjunto de hiperparâmetros. Além disso, mostramos que as capacidades do agente aumentam com o tamanho do modelo e dos dados, e treinamos com sucesso um único agente com 317 milhões de parâmetros para executar 80 tarefas em múltiplos domínios de tarefas, embodiamentos e espaços de ação. Concluímos com uma análise das lições, oportunidades e riscos associados a agentes TD-MPC2 de grande escala. Explore vídeos, modelos, dados, códigos e mais em https://nicklashansen.github.io/td-mpc2.

LightSpeed: Campos de Luz Neural Leves e Rápidos em Dispositivos Móveis
LightSpeed: Light and Fast Neural Light Fields on Mobile Devices

Oct 25

ByAarush Gupta, Junli Cao, Chaoyang Wang, Ju Hu, Sergey Tulyakov, Jian Ren, László A Jeni

A síntese de imagens de novas perspectivas em tempo real em dispositivos móveis é proibitiva devido ao poder computacional e armazenamento limitados. O uso de métodos de renderização volumétrica, como NeRF e seus derivados, em dispositivos móveis não é adequado devido ao alto custo computacional da renderização volumétrica. Por outro lado, avanços recentes em representações de campos de luz neurais têm mostrado resultados promissores na síntese de visão em tempo real em dispositivos móveis. Os métodos de campo de luz neural aprendem um mapeamento direto de uma representação de raio para a cor do pixel. A escolha atual de representação de raio é a amostragem estratificada de raios ou as coordenadas de Pl\"{u}cker, negligenciando a clássica representação de lâmina de luz (dois planos), a representação preferida para interpolar entre as visões do campo de luz. Neste trabalho, descobrimos que o uso da representação de lâmina de luz é uma representação eficiente para aprender um campo de luz neural. Mais importante ainda, é uma representação de raio de menor dimensão que nos permite aprender o espaço de raio 4D usando grades de características que são significativamente mais rápidas de treinar e renderizar. Embora projetada principalmente para visões frontais, mostramos que a representação de lâmina de luz pode ser ainda mais estendida para cenas não frontais usando uma estratégia de dividir e conquistar. Nosso método oferece qualidade de renderização superior em comparação com métodos anteriores de campo de luz e alcança uma relação significativamente melhorada entre qualidade de renderização e velocidade.

CLEX: Extrapolação Contínua de Comprimento para Modelos de Linguagem de Grande Escala
CLEX: Continuous Length Extrapolation for Large Language Models

Oct 25

ByGuanzheng Chen, Xin Li, Zaiqiao Meng, Shangsong Liang, Lidong Bing