HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

9 papers found

A Ineficácia Irracional das Camadas Mais Profundas
The Unreasonable Ineffectiveness of the Deeper Layers

Mar 26

ByAndrey Gromov, Kushal Tirumala, Hassan Shapourian, Paolo Glorioso, Daniel A. Roberts

Estudamos empiricamente uma estratégia simples de poda de camadas para famílias populares de LLMs pré-treinados de pesos abertos, encontrando uma degradação mínima de desempenho em diferentes benchmarks de questionamento e resposta até que uma grande fração (até metade) das camadas seja removida. Para podar esses modelos, identificamos o bloco ideal de camadas a ser podado considerando a similaridade entre as camadas; em seguida, para "curar" o dano, realizamos uma pequena quantidade de ajuste fino. Em particular, utilizamos métodos de ajuste fino eficiente em parâmetros (PEFT), especificamente quantização e Low Rank Adapters (QLoRA), de modo que cada um de nossos experimentos possa ser realizado em uma única GPU A100. De uma perspectiva prática, esses resultados sugerem que métodos de poda de camadas podem complementar outras estratégias PEFT para reduzir ainda mais os recursos computacionais de ajuste fino, por um lado, e podem melhorar a memória e a latência de inferência, por outro. De uma perspectiva científica, a robustez desses LLMs à remoção de camadas implica que os métodos atuais de pré-treinamento não estão aproveitando adequadamente os parâmetros nas camadas mais profundas da rede ou que as camadas superficiais desempenham um papel crítico no armazenamento de conhecimento.

Relatório Técnico do InternLM2
InternLM2 Technical Report

Mar 26

ByZheng Cai, Maosong Cao, Haojiong Chen, Kai Chen, Keyu Chen, Xin Chen, Xun Chen, Zehui Chen, Zhi Chen, Pei Chu, Xiaoyi Dong, Haodong Duan, Qi Fan, Zhaoye Fei, Yang Gao, Jiaye Ge, Chenya Gu, Yuzhe Gu, Tao Gui, Aijia Guo, Qipeng Guo, Conghui He, Yingfan Hu, Ting Huang, Tao Jiang, Penglong Jiao, Zhenjiang Jin, Zhikai Lei, Jiaxing Li, Jingwen Li, Linyang Li, Shuaibin Li, Wei Li, Yining Li, Hongwei Liu, Jiangning Liu, Jiawei Hong, Kaiwen Liu, Kuikun Liu, Xiaoran Liu, Chengqi Lv, Haijun Lv, Kai Lv, Li Ma, Runyuan Ma, Zerun Ma, Wenchang Ning, Linke Ouyang, Jiantao Qiu, Yuan Qu, Fukai Shang, Yunfan Shao, Demin Song, Zifan Song, Zhihao Sui, Peng Sun, Yu Sun, Huanze Tang, Bin Wang, Guoteng Wang, Jiaqi Wang, Jiayu Wang, Rui Wang, Yudong Wang, Ziyi Wang, Xingjian Wei, Qizhen Weng, Fan Wu, Yingtong Xiong, Chao Xu, Ruiliang Xu, Hang Yan, Yirong Yan, Xiaogui Yang, Haochen Ye, Huaiyuan Ying, Jia Yu, Jing Yu, Yuhang Zang, Chuyu Zhang, Li Zhang, Pan Zhang, Peng Zhang, Ruijie Zhang, Shuo Zhang, Songyang Zhang, Wenjian Zhang, Wenwei Zhang, Xingcheng Zhang, Xinyue Zhang, Hui Zhao, Qian Zhao, Xiaomeng Zhao, Fengzhe Zhou, Zaida Zhou, Jingming Zhuo, Yicheng Zou, Xipeng Qiu, Yu Qiao, Dahua Lin

A evolução dos Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês), como o ChatGPT e o GPT-4, tem gerado discussões sobre o advento da Inteligência Geral Artificial (AGI, na sigla em inglês). No entanto, replicar tais avanços em modelos de código aberto tem sido um desafio. Este artigo apresenta o InternLM2, um LLM de código aberto que supera seus predecessores em avaliações abrangentes em 6 dimensões e 30 benchmarks, modelagem de contexto longo e avaliações subjetivas de resposta aberta, graças a técnicas inovadoras de pré-treinamento e otimização. O processo de pré-treinamento do InternLM2 é detalhado minuciosamente, destacando a preparação de diversos tipos de dados, incluindo texto, código e dados de contexto longo. O InternLM2 captura eficientemente dependências de longo prazo, sendo inicialmente treinado com 4 mil tokens antes de avançar para 32 mil tokens nas etapas de pré-treinamento e ajuste fino, demonstrando desempenho notável no teste de 200 mil tokens "Needle-in-a-Haystack" (Agulha no Palheiro). O InternLM2 é ainda alinhado por meio de Ajuste Fino Supervisionado (SFT, na sigla em inglês) e uma nova estratégia de Aprendizado por Reforço Online Condicional com Feedback Humano (COOL RLHF, na sigla em inglês), que aborda preferências humanas conflitantes e o problema de manipulação de recompensas. Ao liberar modelos do InternLM2 em diferentes estágios de treinamento e tamanhos, fornecemos à comunidade insights sobre a evolução do modelo.

Gaussian Splatting 2D para Campos de Radiação Geometricamente Precisos
2D Gaussian Splatting for Geometrically Accurate Radiance Fields

Mar 26

ByBinbin Huang, Zehao Yu, Anpei Chen, Andreas Geiger, Shenghua Gao

O 3D Gaussian Splatting (3DGS) revolucionou recentemente a reconstrução de campos de radiação, alcançando síntese de novas vistas de alta qualidade e velocidade de renderização rápida sem necessidade de pré-processamento. No entanto, o 3DGS falha em representar superfícies com precisão devido à natureza inconsistente em múltiplas vistas dos Gaussianos 3D. Apresentamos o 2D Gaussian Splatting (2DGS), uma abordagem inovadora para modelar e reconstruir campos de radiação geometricamente precisos a partir de imagens de múltiplas vistas. Nossa ideia central é colapsar o volume 3D em um conjunto de discos Gaussianos 2D orientados. Diferente dos Gaussianos 3D, os Gaussianos 2D fornecem geometria consistente entre as vistas enquanto modelam superfícies intrinsecamente. Para recuperar superfícies finas com precisão e alcançar otimização estável, introduzimos um processo de splatting 2D preciso em perspectiva, utilizando interseção raio-splat e rasterização. Além disso, incorporamos termos de distorção de profundidade e consistência de normais para aprimorar ainda mais a qualidade das reconstruções. Demonstramos que nosso renderizador diferenciável permite reconstrução de geometria detalhada e livre de ruído, mantendo qualidade competitiva de aparência, velocidade rápida de treinamento e renderização em tempo real. Nosso código será disponibilizado publicamente.

Melhorando a Consistência Texto-Imagem por meio de Otimização Automática de Prompts
Improving Text-to-Image Consistency via Automatic Prompt Optimization

Mar 26

ByOscar Mañas, Pietro Astolfi, Melissa Hall, Candace Ross, Jack Urbanek, Adina Williams, Aishwarya Agrawal, Adriana Romero-Soriano, Michal Drozdzal

Avanços impressionantes em modelos generativos de texto para imagem (T2I) resultaram em uma infinidade de modelos de alto desempenho capazes de gerar imagens esteticamente atraentes e foto-realistas. Apesar do progresso, esses modelos ainda lutam para produzir imagens consistentes com o prompt de entrada, frequentemente falhando em capturar corretamente quantidades, relações e atributos de objetos. As soluções existentes para melhorar a consistência entre prompt e imagem enfrentam os seguintes desafios: (1) frequentemente exigem ajuste fino do modelo, (2) focam apenas em amostras de prompt próximas, e (3) são afetadas por trocas desfavoráveis entre qualidade da imagem, diversidade de representação e consistência entre prompt e imagem. Neste artigo, abordamos esses desafios e introduzimos um framework de otimização por prompt, OPT2I, que aproveita um modelo de linguagem de grande escala (LLM) para melhorar a consistência entre prompt e imagem em modelos T2I. Nosso framework começa com um prompt do usuário e gera iterativamente prompts revisados com o objetivo de maximizar uma pontuação de consistência. Nossa validação extensiva em dois conjuntos de dados, MSCOCO e PartiPrompts, mostra que o OPT2I pode aumentar a pontuação inicial de consistência em até 24,9% em termos de pontuação DSG, enquanto preserva o FID e aumenta a recall entre dados gerados e reais. Nosso trabalho abre caminho para a construção de sistemas T2I mais confiáveis e robustos, aproveitando o poder dos LLMs.

TC4D: Geração de Texto para 4D Condicionada por Trajetória
TC4D: Trajectory-Conditioned Text-to-4D Generation

Mar 26

BySherwin Bahmani, Xian Liu, Yifan Wang, Ivan Skorokhodov, Victor Rong, Ziwei Liu, Xihui Liu, Jeong Joon Park, Sergey Tulyakov, Gordon Wetzstein, Andrea Tagliasacchi, David B. Lindell

Técnicas recentes para geração de texto-para-4D sintetizam cenas 3D dinâmicas utilizando supervisão de modelos pré-treinados de texto-para-vídeo. No entanto, as representações existentes para movimento, como modelos de deformação ou representações neurais dependentes do tempo, são limitadas na quantidade de movimento que podem gerar — elas não conseguem sintetizar movimentos que se estendam muito além da caixa delimitadora usada para renderização volumétrica. A falta de um modelo de movimento mais flexível contribui para a lacuna de realismo entre os métodos de geração 4D e os modelos recentes de geração de vídeo quase fotorealistas. Aqui, propomos o TC4D: geração de texto-para-4D condicionada por trajetória, que divide o movimento em componentes globais e locais. Representamos o movimento global da caixa delimitadora de uma cena usando transformações rígidas ao longo de uma trajetória parametrizada por uma spline. Aprendemos deformações locais que se conformam à trajetória global utilizando supervisão de um modelo de texto-para-vídeo. Nossa abordagem permite a síntese de cenas animadas ao longo de trajetórias arbitrárias, geração composicional de cenas e melhorias significativas no realismo e na quantidade de movimento gerado, que avaliamos qualitativamente e por meio de um estudo com usuários. Os resultados em vídeo podem ser visualizados em nosso site: https://sherwinbahmani.github.io/tc4d.

Octree-GS: Rumando à Renderização em Tempo Real Consistente com Gaussianas 3D Estruturadas em Níveis de Detalhe
Octree-GS: Towards Consistent Real-time Rendering with LOD-Structured 3D Gaussians

Mar 26

ByKerui Ren, Lihan Jiang, Tao Lu, Mulin Yu, Linning Xu, Zhangkai Ni, Bo Dai

O recente método de splatting com Gaussianas 3D (3D-GS) demonstrou uma fidelidade e eficiência de renderização notáveis em comparação com as representações de cena neural baseadas em NeRF. Embora mostre potencial para renderização em tempo real, o 3D-GS enfrenta gargalos de renderização em cenas grandes com detalhes complexos devido ao número excessivo de primitivas Gaussianas localizadas dentro do frustum de visualização. Essa limitação é particularmente perceptível em visões ampliadas e pode levar a velocidades de renderização inconsistentes em cenas com detalhes variados. Além disso, o método frequentemente tem dificuldade em capturar o nível correspondente de detalhes em diferentes escalas com sua operação heurística de controle de densidade. Inspirados pelas técnicas de Nível de Detalhe (LOD), introduzimos o Octree-GS, que apresenta uma abordagem de Gaussianas 3D estruturada em LOD, suportando a decomposição de nível de detalhe para representação de cena que contribui para os resultados finais de renderização. Nosso modelo seleciona dinamicamente o nível apropriado a partir de um conjunto de pontos de ancoragem multi-resolução, garantindo um desempenho de renderização consistente com ajustes adaptativos de LOD, enquanto mantém resultados de renderização de alta fidelidade.

AniPortrait: Síntese de Animação Fotorealística de Retratos Dirigida por Áudio
AniPortrait: Audio-Driven Synthesis of Photorealistic Portrait Animation

Mar 26

ByHuawei Wei, Zejun Yang, Zhisheng Wang

Neste estudo, propomos o AniPortrait, uma nova estrutura para geração de animações de alta qualidade impulsionadas por áudio e uma imagem de retrato de referência. Nossa metodologia é dividida em duas etapas. Inicialmente, extraímos representações intermediárias 3D a partir do áudio e as projetamos em uma sequência de marcos faciais 2D. Posteriormente, empregamos um modelo de difusão robusto, acoplado a um módulo de movimento, para converter a sequência de marcos em uma animação de retrato fotorrealista e temporalmente consistente. Os resultados experimentais demonstram a superioridade do AniPortrait em termos de naturalidade facial, diversidade de poses e qualidade visual, oferecendo assim uma experiência perceptiva aprimorada. Além disso, nossa metodologia exibe um potencial considerável em termos de flexibilidade e controlabilidade, podendo ser efetivamente aplicada em áreas como edição de movimento facial ou reencenação facial. Disponibilizamos o código e os pesos do modelo em https://github.com/scutzzj/AniPortrait.

DreamPolisher: Rumo à Geração de Texto para 3D de Alta Qualidade por meio de Difusão Geométrica
DreamPolisher: Towards High-Quality Text-to-3D Generation via Geometric Diffusion

Mar 25

ByYuanze Lin, Ronald Clark, Philip Torr

Apresentamos o DreamPolisher, um novo método baseado em Gaussian Splatting com orientação geométrica, projetado para aprender consistência entre visões e detalhes intrincados a partir de descrições textuais. Embora os avanços recentes em métodos de geração de texto para 3D tenham sido promissores, os métodos predominantes frequentemente falham em garantir consistência de visão e riqueza textural. Esse problema torna-se particularmente evidente em métodos que operam apenas com entrada textual. Para resolver isso, propomos uma abordagem em duas etapas baseada em Gaussian Splatting que reforça a consistência geométrica entre as visões. Inicialmente, uma geração 3D grosseira passa por um refinamento via otimização geométrica. Em seguida, utilizamos um refinador guiado por ControlNet, acoplado ao termo de consistência geométrica, para melhorar tanto a fidelidade textural quanto a consistência geral do ativo 3D gerado. Avaliações empíricas com diversos prompts textuais abrangendo várias categorias de objetos demonstram a eficácia do DreamPolisher na geração de objetos 3D consistentes e realistas, alinhando-se de perto com a semântica das instruções textuais.

Perceptrons Multicamadas Totalmente Fundidos em GPUs Intel para Data Centers
Fully-fused Multi-Layer Perceptrons on Intel Data Center GPUs

Mar 26

ByKai Yuan, Christoph Bauinger, Xiangyi Zhang, Pascal Baehr, Matthias Kirchhart, Darius Dabert, Adrien Tousnakhoff, Pierre Boudier, Michael Paulitsch

Este artigo apresenta uma implementação em SYCL de Perceptrons Multicamadas (MLPs), que é direcionada e otimizada para a GPU Intel Data Center Max 1550. Para aumentar o desempenho, nossa implementação minimiza os acessos lentos à memória global, maximizando a reutilização de dados no arquivo de registradores gerais e na memória local compartilhada, por meio da fusão das operações em cada camada do MLP. Demonstramos com um modelo simples de roofline que isso resulta em um aumento significativo na intensidade aritmética, levando a uma melhoria no desempenho, especialmente para inferência. Comparamos nossa abordagem com uma implementação semelhante em CUDA para MLPs e mostramos que nossa implementação na GPU Intel Data Center supera a implementação em CUDA na GPU H100 da Nvidia por um fator de até 2,84 em inferência e 1,75 em treinamento. O artigo também demonstra a eficiência de nossa implementação em SYCL em três áreas significativas: Compressão de Imagens, Campos de Radiação Neural e Aprendizado de Máquina com Base em Física. Em todos os casos, nossa implementação supera a implementação padrão da Extensão Intel para PyTorch (IPEX) na mesma GPU Intel por um fator de até 30 e a versão CUDA do PyTorch na GPU H100 da Nvidia por um fator de até 19. O código pode ser encontrado em https://github.com/intel/tiny-dpcpp-nn.

Relatório Técnico do InternLM2
InternLM2 Technical Report

Mar 26