Artigos de pesquisa em IA selecionados diariamente com traduções
O conhecimento científico é predominantemente armazenado em livros e periódicos científicos, frequentemente no formato PDF. No entanto, o formato PDF resulta em uma perda de informação semântica, particularmente para expressões matemáticas. Propomos o Nougat (Neural Optical Understanding for Academic Documents), um modelo Visual Transformer que realiza uma tarefa de Reconhecimento Óptico de Caracteres (OCR) para processar documentos científicos em uma linguagem de marcação, e demonstramos a eficácia do nosso modelo em um novo conjunto de dados de documentos científicos. A abordagem proposta oferece uma solução promissora para melhorar a acessibilidade do conhecimento científico na era digital, ao preencher a lacuna entre documentos legíveis por humanos e textos legíveis por máquinas. Disponibilizamos os modelos e o código para acelerar trabalhos futuros sobre reconhecimento de textos científicos.
Os grandes modelos de linguagem (LLMs) revolucionaram as tarefas de processamento de linguagem natural. No entanto, sua implantação prática é dificultada por seus imensos requisitos de memória e computação. Embora os métodos recentes de quantização pós-treinamento (PTQ) sejam eficazes na redução da pegada de memória e na melhoria da eficiência computacional dos LLMs, eles criam manualmente os parâmetros de quantização, o que resulta em baixo desempenho e falha ao lidar com quantizações de bits extremamente baixos. Para resolver esse problema, introduzimos uma técnica de Quantização Calibrada Omnidirecional (OmniQuant) para LLMs, que alcança bom desempenho em diversas configurações de quantização, mantendo a eficiência computacional da PTQ ao otimizar eficientemente vários parâmetros de quantização. O OmniQuant compreende dois componentes inovadores, incluindo o Recorte de Peso Aprendível (LWC) e a Transformação Equivalente Aprendível (LET). O LWC modula os valores extremos dos pesos ao otimizar o limite de recorte. Enquanto isso, o LET aborda os valores atípicos das ativações ao transferir o desafio da quantização das ativações para os pesos por meio de uma transformação equivalente aprendível. Operando dentro de uma estrutura diferenciável usando minimização de erro em blocos, o OmniQuant pode otimizar o processo de quantização de forma eficiente tanto para quantização apenas de pesos quanto para quantização de pesos e ativações. Por exemplo, a família de modelos LLaMA-2 com tamanho de 7-70B pode ser processada com o OmniQuant em uma única GPU A100-40G dentro de 1-16 horas usando 128 amostras. Experimentos extensivos validam o desempenho superior do OmniQuant em diversas configurações de quantização, como W4A4, W6A6, W4A16, W3A16 e W2A16. Além disso, o OmniQuant demonstra eficácia em modelos ajustados por instrução e oferece melhorias notáveis na velocidade de inferência e na redução de memória em dispositivos reais. Códigos e modelos estão disponíveis em https://github.com/OpenGVLab/OmniQuant.
O desenvolvimento de software desempenha um papel crucial na promoção da inovação e da eficiência nas sociedades modernas. Para atender às demandas desse campo dinâmico, há uma necessidade crescente de um assistente eficaz de desenvolvimento de software. No entanto, os modelos de linguagem de grande escala existentes, representados pelo ChatGPT, sofrem com acessibilidade limitada, incluindo dados de treinamento e pesos do modelo. Embora outros modelos de código aberto de grande escala, como o LLaMA, tenham mostrado potencial, eles ainda enfrentam dificuldades para compreender a intenção humana. Neste artigo, apresentamos o SoTaNa, um assistente de desenvolvimento de software de código aberto. O SoTaNa utiliza o ChatGPT para gerar dados de alta qualidade baseados em instruções para o domínio da engenharia de software e emprega uma abordagem de ajuste fino eficiente em parâmetros para aprimorar o modelo de base de código aberto, o LLaMA. Avaliamos a eficácia do SoTaNa em responder a perguntas do Stack Overflow e demonstramos suas capacidades. Além disso, discutimos suas habilidades em sumarização e geração de código, bem como o impacto da variação do volume de dados gerados no desempenho do modelo. Notavelmente, o SoTaNa pode ser executado em uma única GPU, tornando-o acessível a uma gama mais ampla de pesquisadores. Nosso código, pesos do modelo e dados estão disponíveis publicamente em https://github.com/DeepSoftwareAnalytics/SoTaNa.
Os Vision Transformers alcançam precisão impressionante em uma variedade de tarefas de reconhecimento visual. Infelizmente, sua precisão frequentemente vem acompanhada de altos custos computacionais. Isso é um problema particular no reconhecimento de vídeos, onde os modelos são frequentemente aplicados repetidamente em quadros ou segmentos temporais. Neste trabalho, exploramos a redundância temporal entre entradas subsequentes para reduzir o custo dos Transformers no processamento de vídeos. Descrevemos um método para identificar e reprocessar apenas os tokens que mudaram significativamente ao longo do tempo. Nossa família proposta de modelos, os Eventful Transformers, pode ser convertida a partir de Transformers existentes (muitas vezes sem qualquer retreinamento) e oferece controle adaptativo sobre o custo computacional em tempo de execução. Avaliamos nosso método em conjuntos de dados em larga escala para detecção de objetos em vídeos (ImageNet VID) e reconhecimento de ações (EPIC-Kitchens 100). Nossa abordagem resulta em economias computacionais significativas (da ordem de 2-4x) com apenas pequenas reduções na precisão.
Este artigo apresenta uma nova representação neural implícita de radiância para reiluminação de ponto de vista livre a partir de um pequeno conjunto de fotografias não estruturadas de um objeto iluminado por uma fonte de luz pontual em movimento, diferente da posição de visualização. Expressamos a forma como uma função de distância sinalizada modelada por um perceptron multicamadas. Em contraste com representações neurais implícitas reilumináveis anteriores, não separamos os diferentes componentes de refletância, mas modelamos tanto a refletância local quanto global em cada ponto por meio de um segundo perceptron multicamadas que, além de características de densidade, da posição atual, da normal (obtida da função de distância sinalizada), da direção de visualização e da posição da luz, também utiliza sugestões de sombras e realces para auxiliar a rede na modelagem dos correspondentes efeitos de transporte de luz de alta frequência. Essas sugestões são fornecidas como uma indicação, e deixamos a cargo da rede decidir como incorporá-las no resultado final reiluminado. Demonstramos e validamos nossa representação neural implícita em cenas sintéticas e reais que exibem uma ampla variedade de formas, propriedades de materiais e transporte de luz de iluminação global.