Artigos de pesquisa em IA selecionados diariamente com traduções
Estudamos empiricamente uma estratégia simples de poda de camadas para famílias populares de LLMs pré-treinados de pesos abertos, encontrando uma degradação mínima de desempenho em diferentes benchmarks de questionamento e resposta até que uma grande fração (até metade) das camadas seja removida. Para podar esses modelos, identificamos o bloco ideal de camadas a ser podado considerando a similaridade entre as camadas; em seguida, para "curar" o dano, realizamos uma pequena quantidade de ajuste fino. Em particular, utilizamos métodos de ajuste fino eficiente em parâmetros (PEFT), especificamente quantização e Low Rank Adapters (QLoRA), de modo que cada um de nossos experimentos possa ser realizado em uma única GPU A100. De uma perspectiva prática, esses resultados sugerem que métodos de poda de camadas podem complementar outras estratégias PEFT para reduzir ainda mais os recursos computacionais de ajuste fino, por um lado, e podem melhorar a memória e a latência de inferência, por outro. De uma perspectiva científica, a robustez desses LLMs à remoção de camadas implica que os métodos atuais de pré-treinamento não estão aproveitando adequadamente os parâmetros nas camadas mais profundas da rede ou que as camadas superficiais desempenham um papel crítico no armazenamento de conhecimento.
A evolução dos Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês), como o ChatGPT e o GPT-4, tem gerado discussões sobre o advento da Inteligência Geral Artificial (AGI, na sigla em inglês). No entanto, replicar tais avanços em modelos de código aberto tem sido um desafio. Este artigo apresenta o InternLM2, um LLM de código aberto que supera seus predecessores em avaliações abrangentes em 6 dimensões e 30 benchmarks, modelagem de contexto longo e avaliações subjetivas de resposta aberta, graças a técnicas inovadoras de pré-treinamento e otimização. O processo de pré-treinamento do InternLM2 é detalhado minuciosamente, destacando a preparação de diversos tipos de dados, incluindo texto, código e dados de contexto longo. O InternLM2 captura eficientemente dependências de longo prazo, sendo inicialmente treinado com 4 mil tokens antes de avançar para 32 mil tokens nas etapas de pré-treinamento e ajuste fino, demonstrando desempenho notável no teste de 200 mil tokens "Needle-in-a-Haystack" (Agulha no Palheiro). O InternLM2 é ainda alinhado por meio de Ajuste Fino Supervisionado (SFT, na sigla em inglês) e uma nova estratégia de Aprendizado por Reforço Online Condicional com Feedback Humano (COOL RLHF, na sigla em inglês), que aborda preferências humanas conflitantes e o problema de manipulação de recompensas. Ao liberar modelos do InternLM2 em diferentes estágios de treinamento e tamanhos, fornecemos à comunidade insights sobre a evolução do modelo.
O 3D Gaussian Splatting (3DGS) revolucionou recentemente a reconstrução de campos de radiação, alcançando síntese de novas vistas de alta qualidade e velocidade de renderização rápida sem necessidade de pré-processamento. No entanto, o 3DGS falha em representar superfícies com precisão devido à natureza inconsistente em múltiplas vistas dos Gaussianos 3D. Apresentamos o 2D Gaussian Splatting (2DGS), uma abordagem inovadora para modelar e reconstruir campos de radiação geometricamente precisos a partir de imagens de múltiplas vistas. Nossa ideia central é colapsar o volume 3D em um conjunto de discos Gaussianos 2D orientados. Diferente dos Gaussianos 3D, os Gaussianos 2D fornecem geometria consistente entre as vistas enquanto modelam superfícies intrinsecamente. Para recuperar superfícies finas com precisão e alcançar otimização estável, introduzimos um processo de splatting 2D preciso em perspectiva, utilizando interseção raio-splat e rasterização. Além disso, incorporamos termos de distorção de profundidade e consistência de normais para aprimorar ainda mais a qualidade das reconstruções. Demonstramos que nosso renderizador diferenciável permite reconstrução de geometria detalhada e livre de ruído, mantendo qualidade competitiva de aparência, velocidade rápida de treinamento e renderização em tempo real. Nosso código será disponibilizado publicamente.
Avanços impressionantes em modelos generativos de texto para imagem (T2I) resultaram em uma infinidade de modelos de alto desempenho capazes de gerar imagens esteticamente atraentes e foto-realistas. Apesar do progresso, esses modelos ainda lutam para produzir imagens consistentes com o prompt de entrada, frequentemente falhando em capturar corretamente quantidades, relações e atributos de objetos. As soluções existentes para melhorar a consistência entre prompt e imagem enfrentam os seguintes desafios: (1) frequentemente exigem ajuste fino do modelo, (2) focam apenas em amostras de prompt próximas, e (3) são afetadas por trocas desfavoráveis entre qualidade da imagem, diversidade de representação e consistência entre prompt e imagem. Neste artigo, abordamos esses desafios e introduzimos um framework de otimização por prompt, OPT2I, que aproveita um modelo de linguagem de grande escala (LLM) para melhorar a consistência entre prompt e imagem em modelos T2I. Nosso framework começa com um prompt do usuário e gera iterativamente prompts revisados com o objetivo de maximizar uma pontuação de consistência. Nossa validação extensiva em dois conjuntos de dados, MSCOCO e PartiPrompts, mostra que o OPT2I pode aumentar a pontuação inicial de consistência em até 24,9% em termos de pontuação DSG, enquanto preserva o FID e aumenta a recall entre dados gerados e reais. Nosso trabalho abre caminho para a construção de sistemas T2I mais confiáveis e robustos, aproveitando o poder dos LLMs.
Técnicas recentes para geração de texto-para-4D sintetizam cenas 3D dinâmicas utilizando supervisão de modelos pré-treinados de texto-para-vídeo. No entanto, as representações existentes para movimento, como modelos de deformação ou representações neurais dependentes do tempo, são limitadas na quantidade de movimento que podem gerar — elas não conseguem sintetizar movimentos que se estendam muito além da caixa delimitadora usada para renderização volumétrica. A falta de um modelo de movimento mais flexível contribui para a lacuna de realismo entre os métodos de geração 4D e os modelos recentes de geração de vídeo quase fotorealistas. Aqui, propomos o TC4D: geração de texto-para-4D condicionada por trajetória, que divide o movimento em componentes globais e locais. Representamos o movimento global da caixa delimitadora de uma cena usando transformações rígidas ao longo de uma trajetória parametrizada por uma spline. Aprendemos deformações locais que se conformam à trajetória global utilizando supervisão de um modelo de texto-para-vídeo. Nossa abordagem permite a síntese de cenas animadas ao longo de trajetórias arbitrárias, geração composicional de cenas e melhorias significativas no realismo e na quantidade de movimento gerado, que avaliamos qualitativamente e por meio de um estudo com usuários. Os resultados em vídeo podem ser visualizados em nosso site: https://sherwinbahmani.github.io/tc4d.
O recente método de splatting com Gaussianas 3D (3D-GS) demonstrou uma fidelidade e eficiência de renderização notáveis em comparação com as representações de cena neural baseadas em NeRF. Embora mostre potencial para renderização em tempo real, o 3D-GS enfrenta gargalos de renderização em cenas grandes com detalhes complexos devido ao número excessivo de primitivas Gaussianas localizadas dentro do frustum de visualização. Essa limitação é particularmente perceptível em visões ampliadas e pode levar a velocidades de renderização inconsistentes em cenas com detalhes variados. Além disso, o método frequentemente tem dificuldade em capturar o nível correspondente de detalhes em diferentes escalas com sua operação heurística de controle de densidade. Inspirados pelas técnicas de Nível de Detalhe (LOD), introduzimos o Octree-GS, que apresenta uma abordagem de Gaussianas 3D estruturada em LOD, suportando a decomposição de nível de detalhe para representação de cena que contribui para os resultados finais de renderização. Nosso modelo seleciona dinamicamente o nível apropriado a partir de um conjunto de pontos de ancoragem multi-resolução, garantindo um desempenho de renderização consistente com ajustes adaptativos de LOD, enquanto mantém resultados de renderização de alta fidelidade.
Neste estudo, propomos o AniPortrait, uma nova estrutura para geração de animações de alta qualidade impulsionadas por áudio e uma imagem de retrato de referência. Nossa metodologia é dividida em duas etapas. Inicialmente, extraímos representações intermediárias 3D a partir do áudio e as projetamos em uma sequência de marcos faciais 2D. Posteriormente, empregamos um modelo de difusão robusto, acoplado a um módulo de movimento, para converter a sequência de marcos em uma animação de retrato fotorrealista e temporalmente consistente. Os resultados experimentais demonstram a superioridade do AniPortrait em termos de naturalidade facial, diversidade de poses e qualidade visual, oferecendo assim uma experiência perceptiva aprimorada. Além disso, nossa metodologia exibe um potencial considerável em termos de flexibilidade e controlabilidade, podendo ser efetivamente aplicada em áreas como edição de movimento facial ou reencenação facial. Disponibilizamos o código e os pesos do modelo em https://github.com/scutzzj/AniPortrait.
Apresentamos o DreamPolisher, um novo método baseado em Gaussian Splatting com orientação geométrica, projetado para aprender consistência entre visões e detalhes intrincados a partir de descrições textuais. Embora os avanços recentes em métodos de geração de texto para 3D tenham sido promissores, os métodos predominantes frequentemente falham em garantir consistência de visão e riqueza textural. Esse problema torna-se particularmente evidente em métodos que operam apenas com entrada textual. Para resolver isso, propomos uma abordagem em duas etapas baseada em Gaussian Splatting que reforça a consistência geométrica entre as visões. Inicialmente, uma geração 3D grosseira passa por um refinamento via otimização geométrica. Em seguida, utilizamos um refinador guiado por ControlNet, acoplado ao termo de consistência geométrica, para melhorar tanto a fidelidade textural quanto a consistência geral do ativo 3D gerado. Avaliações empíricas com diversos prompts textuais abrangendo várias categorias de objetos demonstram a eficácia do DreamPolisher na geração de objetos 3D consistentes e realistas, alinhando-se de perto com a semântica das instruções textuais.
Este artigo apresenta uma implementação em SYCL de Perceptrons Multicamadas (MLPs), que é direcionada e otimizada para a GPU Intel Data Center Max 1550. Para aumentar o desempenho, nossa implementação minimiza os acessos lentos à memória global, maximizando a reutilização de dados no arquivo de registradores gerais e na memória local compartilhada, por meio da fusão das operações em cada camada do MLP. Demonstramos com um modelo simples de roofline que isso resulta em um aumento significativo na intensidade aritmética, levando a uma melhoria no desempenho, especialmente para inferência. Comparamos nossa abordagem com uma implementação semelhante em CUDA para MLPs e mostramos que nossa implementação na GPU Intel Data Center supera a implementação em CUDA na GPU H100 da Nvidia por um fator de até 2,84 em inferência e 1,75 em treinamento. O artigo também demonstra a eficiência de nossa implementação em SYCL em três áreas significativas: Compressão de Imagens, Campos de Radiação Neural e Aprendizado de Máquina com Base em Física. Em todos os casos, nossa implementação supera a implementação padrão da Extensão Intel para PyTorch (IPEX) na mesma GPU Intel por um fator de até 30 e a versão CUDA do PyTorch na GPU H100 da Nvidia por um fator de até 19. O código pode ser encontrado em https://github.com/intel/tiny-dpcpp-nn.