Artigos de pesquisa em IA selecionados diariamente com traduções
Modelos de linguagem de grande escala (LLMs) são centrais para o processamento moderno de linguagem natural, oferecendo desempenho excepcional em diversas tarefas. No entanto, suas exigências intensivas de computação e memória apresentam desafios, especialmente para dispositivos com capacidade limitada de DRAM. Este artigo aborda o desafio de executar LLMs de forma eficiente que excedem a capacidade de DRAM disponível, armazenando os parâmetros do modelo em memória flash, mas trazendo-os sob demanda para a DRAM. Nosso método envolve a construção de um modelo de custo de inferência que se harmoniza com o comportamento da memória flash, orientando-nos a otimizar em duas áreas críticas: reduzir o volume de dados transferidos da flash e ler dados em blocos maiores e mais contíguos. Dentro deste framework informado pela memória flash, introduzimos duas técnicas principais. Primeiro, o "windowing" reduz estrategicamente a transferência de dados ao reutilizar neurônios previamente ativados, e segundo, o "row-column bundling", adaptado às forças de acesso sequencial de dados da memória flash, aumenta o tamanho dos blocos de dados lidos da memória flash. Esses métodos coletivamente permitem a execução de modelos com até o dobro do tamanho da DRAM disponível, com um aumento de 4-5x e 20-25x na velocidade de inferência em comparação com abordagens de carregamento ingênuas em CPU e GPU, respectivamente. Nossa integração de consciência de esparsidade, carregamento adaptativo ao contexto e um design orientado ao hardware abre caminho para a inferência eficaz de LLMs em dispositivos com memória limitada.
Os gráficos vetoriais escaláveis (SVGs) tornaram-se essenciais em aplicações modernas de renderização de imagens devido à sua escalabilidade infinita em resolução, usabilidade versátil e capacidades de edição. Os SVGs são particularmente populares nas áreas de desenvolvimento web e design gráfico. As abordagens existentes para modelagem de SVGs usando aprendizado profundo frequentemente enfrentam dificuldades na geração de SVGs complexos e são limitadas a SVGs mais simples que exigem processamento e simplificação extensivos. Este artigo apresenta o StarVector, um modelo multimodal de geração de SVGs que integra efetivamente modelos de linguagem de grande escala para geração de código (CodeLLMs) e modelos de visão. Nossa abordagem utiliza um codificador de imagens CLIP para extrair representações visuais de imagens baseadas em pixels, que são então transformadas em tokens visuais por meio de um módulo adaptador. Esses tokens visuais são pré-anexados às incorporações de tokens de SVG, e a sequência é modelada pelo modelo StarCoder usando previsão de próximo token, aprendendo efetivamente a alinhar os tokens visuais e de código. Isso permite que o StarVector gere SVGs irrestritos que representam com precisão imagens em pixels. Para avaliar o desempenho do StarVector, apresentamos o SVG-Bench, um benchmark abrangente para avaliar métodos de SVG em vários conjuntos de dados e métricas relevantes. Dentro desse benchmark, introduzimos novos conjuntos de dados, incluindo o SVG-Stack, um conjunto de dados em larga escala de exemplos de SVGs do mundo real, e o utilizamos para pré-treinar o StarVector como um grande modelo de base para SVGs. Nossos resultados demonstram melhorias significativas na qualidade visual e no tratamento da complexidade em relação aos métodos atuais, marcando um avanço notável na tecnologia de geração de SVGs. Código e modelos: https://github.com/joanrod/star-vector
A reconstrução da estrutura 3D e da câmera a partir de pontos de referência 2D está no cerne de toda a disciplina de visão computacional. Métodos tradicionais foram limitados a objetos rígidos específicos, como aqueles encontrados em problemas de Perspectiva-n-Pontos (PnP), mas o aprendizado profundo expandiu nossa capacidade de reconstruir uma ampla gama de classes de objetos (por exemplo, C3PDO e PAUL) com resiliência a ruídos, oclusões e distorções de perspectiva. No entanto, todas essas técnicas foram limitadas pela necessidade fundamental de estabelecer correspondências nos dados de treinamento 3D — o que restringe significativamente sua utilidade a aplicações onde há uma abundância de dados 3D "correspondentes". Nossa abordagem aproveita a equivariância inerente a permutações dos transformers para lidar com um número variável de pontos por instância de dados 3D, resistir a oclusões e generalizar para categorias não vistas. Demonstramos desempenho de ponta em benchmarks de tarefas de reconstrução 2D-3D. Como nossa abordagem pode ser treinada em uma ampla classe de estruturas, referimo-nos a ela simplesmente como um Modelo de Fundação para Reconstrução 3D (3D-LFM) — o primeiro do gênero.
A capacidade dos grandes modelos de linguagem (LLMs) de processar entradas visuais deu origem a sistemas de visão de propósito geral, unificando várias tarefas de visão e linguagem (VL) por meio de ajuste por instrução. No entanto, devido à enorme diversidade nos formatos de entrada e saída no domínio da visão, os modelos de propósito geral existentes não conseguem integrar com sucesso segmentação e entradas de múltiplas imagens com tarefas de nível grosseiro em um único framework. Neste trabalho, introduzimos o VistaLLM, um sistema visual poderoso que aborda tarefas VL de nível grosseiro e refinado em imagens únicas e múltiplas usando um framework unificado. O VistaLLM utiliza um tokenizador de imagens guiado por instruções que filtra embeddings globais usando descrições de tarefas para extrair características comprimidas e refinadas de várias imagens. Além disso, o VistaLLM emprega uma técnica de amostragem adaptativa com consciência de gradiente para representar máscaras de segmentação binária como sequências, melhorando significativamente em relação à amostragem uniforme usada anteriormente. Para reforçar a capacidade desejada do VistaLLM, criamos o CoinIt, um conjunto de dados abrangente de ajuste por instrução de nível grosseiro a refinado com 6,8 milhões de amostras. Também abordamos a falta de conjuntos de dados de ancoragem em múltiplas imagens introduzindo uma nova tarefa, o AttCoSeg (Co-Segmentação em Nível de Atributo), que aumenta a capacidade de raciocínio e ancoragem do modelo em múltiplas imagens de entrada. Experimentos extensos em uma ampla gama de tarefas V e VL demonstram a eficácia do VistaLLM ao alcançar desempenho consistente de última geração em relação a baselines fortes em todas as tarefas subsequentes. Nossa página do projeto pode ser encontrada em https://shramanpramanick.github.io/VistaLLM/.
Apresentamos o HAAR, um novo modelo generativo baseado em fios para penteados humanos em 3D. Especificamente, com base em entradas textuais, o HAAR produz penteados 3D que podem ser utilizados como recursos de nível de produção em motores gráficos modernos. Os modelos generativos atuais baseados em IA aproveitam poderosos priores 2D para reconstruir conteúdo 3D na forma de nuvens de pontos, malhas ou funções volumétricas. No entanto, ao utilizar esses priores 2D, eles são intrinsecamente limitados a recuperar apenas as partes visíveis. Estruturas capilares altamente ocluídas não podem ser reconstruídas com esses métodos, e eles modelam apenas a "casca externa", que não está pronta para ser usada em pipelines de renderização ou simulação baseados em física. Em contraste, propomos um primeiro método generativo guiado por texto que utiliza fios de cabelo 3D como representação subjacente. Aproveitando sistemas de resposta a perguntas visuais (VQA) em 2D, anotamos automaticamente modelos capilares sintéticos gerados a partir de um pequeno conjunto de penteados criados por artistas. Isso nos permite treinar um modelo de difusão latente que opera em um espaço UV comum de penteados. Em estudos qualitativos e quantitativos, demonstramos as capacidades do modelo proposto e o comparamos com abordagens existentes de geração de penteados.
A percepção amodal, a capacidade de compreender estruturas completas de objetos a partir de visibilidade parcial, é uma habilidade fundamental, mesmo para bebês. Sua importância se estende a aplicações como a condução autônoma, onde um entendimento claro de objetos fortemente ocluídos é essencial. No entanto, os algoritmos modernos de detecção e rastreamento frequentemente negligenciam essa capacidade crítica, talvez devido à prevalência de anotações modais na maioria dos conjuntos de dados. Para abordar a escassez de dados amodais, introduzimos o benchmark TAO-Amodal, que apresenta 880 categorias diversas em milhares de sequências de vídeo. Nosso conjunto de dados inclui caixas delimitadoras amodais e modais para objetos visíveis e ocluídos, incluindo objetos que estão parcialmente fora do quadro. Para aprimorar o rastreamento amodal com permanência de objetos, utilizamos um módulo leve de plug-in, o expansor amodal, para transformar rastreadores modais padrão em amodais por meio de ajuste fino em algumas centenas de sequências de vídeo com aumento de dados. Alcançamos uma melhoria de 3,3% e 1,6% na detecção e rastreamento de objetos ocluídos no TAO-Amodal. Quando avaliado em pessoas, nosso método produz melhorias dramáticas de 2x em comparação com as linhas de base modais state-of-the-art.
O Neural Radiance Field (NeRF) emergiu como uma técnica líder para síntese de novas visões, graças à sua impressionante capacidade de reconstrução e renderização fotorrealista. No entanto, alcançar a renderização em tempo real de NeRF em cenas de grande escala tem apresentado desafios, frequentemente levando à adoção de representações complexas de malhas pré-processadas com um número substancial de triângulos ou ao uso intensivo de recursos em representações pré-processadas por meio de ray marching. Nós questionamos essas convenções, observando que geometria de alta qualidade, representada por malhas com muitos triângulos, não é necessária para alcançar qualidade fotorrealista na renderização. Consequentemente, propomos o MixRT, uma nova representação de NeRF que inclui uma malha de baixa qualidade, um mapa de deslocamento dependente da visão e um modelo NeRF comprimido. Esse design aproveita efetivamente as capacidades do hardware gráfico existente, permitindo assim a renderização em tempo real de NeRF em dispositivos de borda. Utilizando um framework de renderização altamente otimizado baseado em WebGL, nosso MixRT proposto alcança velocidades de renderização em tempo real em dispositivos de borda (mais de 30 FPS em uma resolução de 1280 x 720 em um laptop MacBook M1 Pro), melhor qualidade de renderização (0,2 PSNR maior em cenas internas dos conjuntos de dados Unbounded-360) e um tamanho de armazenamento menor (menos de 80% em comparação com os métodos state-of-the-art).
Técnicas de super-resolução (SR) têm sido recentemente propostas para ampliar as saídas de campos de radiação neural (NeRF) e gerar imagens de alta qualidade com velocidades de inferência aprimoradas. No entanto, os métodos existentes de NeRF+SR aumentam a sobrecarga de treinamento ao utilizar recursos de entrada adicionais, funções de perda e/ou procedimentos de treinamento caros, como a destilação de conhecimento. Neste artigo, buscamos aproveitar a SR para ganhos de eficiência sem custos adicionais de treinamento ou alterações arquitetônicas. Especificamente, construímos um pipeline simples de NeRF+SR que combina diretamente módulos existentes e propomos uma técnica de aumento leve, a amostragem aleatória de patches, para o treinamento. Em comparação com os métodos existentes de NeRF+SR, nosso pipeline mitiga a sobrecarga computacional da SR e pode ser treinado até 23 vezes mais rápido, tornando viável sua execução em dispositivos de consumo, como o Apple MacBook. Experimentos mostram que nosso pipeline pode ampliar as saídas de NeRF em 2-4 vezes enquanto mantém alta qualidade, aumentando as velocidades de inferência em até 18 vezes em uma GPU NVIDIA V100 e 12,8 vezes em um chip M1 Pro. Concluímos que a SR pode ser uma técnica simples, mas eficaz, para melhorar a eficiência dos modelos NeRF em dispositivos de consumo.
Neste artigo, apresentamos uma nova abordagem em duas etapas que utiliza plenamente as informações fornecidas pela imagem de referência para estabelecer um conhecimento prévio personalizado para a geração de imagem-para-3D. Enquanto abordagens anteriores dependem principalmente de um prévio de difusão geral, que luta para produzir resultados consistentes com a imagem de referência, propomos um modelo de difusão específico para o sujeito e multimodal. Esse modelo não apenas auxilia a otimização do NeRF ao considerar o modo de sombreamento para melhorar a geometria, mas também aprimora a textura a partir dos resultados iniciais para alcançar um refinamento superior. Ambos os aspectos contribuem para alinhar fielmente o conteúdo 3D com o sujeito. Experimentos extensivos demonstram a superioridade do nosso método, Customize-It-3D, superando trabalhos anteriores por uma margem substancial. Ele produz reconstruções fiéis de 360 graus com qualidade visual impressionante, tornando-o bem adequado para várias aplicações, incluindo a criação de texto-para-3D.
Este artigo introduz uma nova abordagem para modelagem de tópicos utilizando codebooks latentes do Autoencoder Variacional Quantizado Vetorial (VQ-VAE), encapsulando discretamente as ricas informações dos embeddings pré-treinados, como os de modelos de linguagem pré-treinados. A partir de uma nova interpretação dos codebooks latentes e embeddings como um saco de palavras conceitual, propomos um novo modelo generativo de tópicos chamado Topic-VQ-VAE (TVQ-VAE), que gera inversamente os documentos originais relacionados ao respectivo codebook latente. O TVQ-VAE pode visualizar os tópicos com várias distribuições generativas, incluindo a distribuição tradicional de saco de palavras (BoW) e a geração autoregressiva de imagens. Nossos resultados experimentais em análise de documentos e geração de imagens demonstram que o TVQ-VAE captura efetivamente o contexto dos tópicos, revelando as estruturas subjacentes do conjunto de dados e suportando formas flexíveis de geração de documentos. A implementação oficial do TVQ-VAE proposto está disponível em https://github.com/clovaai/TVQ-VAE.
Modelos de difusão orientados por texto têm se tornado cada vez mais populares para diversas tarefas de edição de imagens, incluindo inpainting, estilização e substituição de objetos. No entanto, ainda permanece um problema de pesquisa em aberto adotar esse paradigma de linguagem-visão para tarefas de processamento de imagem em nível mais refinado, como remoção de ruído, super-resolução, desembaçamento e remoção de artefatos de compressão. Neste artigo, desenvolvemos o TIP, uma estrutura de Processamento de Imagem Orientado por Texto que aproveita a linguagem natural como uma interface amigável ao usuário para controlar o processo de restauração de imagem. Consideramos a capacidade da informação textual em duas dimensões. Primeiro, usamos prompts relacionados ao conteúdo para melhorar o alinhamento semântico, aliviando efetivamente a ambiguidade de identidade nos resultados de restauração. Segundo, nossa abordagem é a primeira estrutura que suporta instruções em nível refinado por meio de especificação quantitativa baseada em linguagem da intensidade de restauração, sem a necessidade de design explícito específico para a tarefa. Além disso, introduzimos um novo mecanismo de fusão que amplia a arquitetura existente do ControlNet ao aprender a redimensionar o prior generativo, alcançando assim uma melhor fidelidade de restauração. Nossos extensos experimentos demonstram o desempenho superior de restauração do TIP em comparação com o estado da arte, ao mesmo tempo em que oferece a flexibilidade de controle baseado em texto sobre os efeitos de restauração.
Vídeos são uma fonte de dados altamente redundante e, muitas vezes, é suficiente identificar alguns momentos-chave para resolver qualquer tarefa específica. Neste artigo, apresentamos um módulo de reamostragem de vídeo condicionado por texto (TCR) que utiliza um codificador visual pré-treinado e congelado, juntamente com um modelo de linguagem de grande escala (LLM), para processar sequências de vídeo longas para uma tarefa. O TCR localiza características visuais relevantes do vídeo com base em uma condição de texto e as fornece a um LLM para gerar uma resposta textual. Devido ao seu design leve e ao uso de atenção cruzada, o TCR pode processar mais de 100 quadros de uma vez, permitindo que o modelo utilize segmentos de vídeo muito mais longos do que trabalhos anteriores. Fazemos as seguintes contribuições: (i) projetamos uma arquitetura de amostragem baseada em transformadores que pode processar vídeos longos condicionados a uma tarefa, juntamente com um método de treinamento que permite a ponte entre modelos visuais e de linguagem pré-treinados; (ii) validamos empiricamente sua eficácia em uma ampla variedade de tarefas de avaliação, estabelecendo um novo estado da arte no NextQA, EgoSchema e no desafio EGO4D-LTA; e (iii) determinamos tarefas que exigem contextos de vídeo mais longos e que, portanto, podem ser usadas efetivamente para avaliação adicional de modelos de vídeo de longo alcance.