Artigos de pesquisa em IA selecionados diariamente com traduções
Neste trabalho, propomos a Rede Retentiva (RetNet) como uma arquitetura fundamental para modelos de linguagem de grande escala, alcançando simultaneamente paralelismo de treinamento, inferência de baixo custo e bom desempenho. Derivamos teoricamente a conexão entre recorrência e atenção. Em seguida, propomos o mecanismo de retenção para modelagem de sequências, que suporta três paradigmas de computação: paralelo, recorrente e recorrente por blocos. Especificamente, a representação paralela permite o paralelismo de treinamento. A representação recorrente possibilita inferência de baixo custo O(1), o que melhora a taxa de decodificação, latência e uso de memória da GPU sem sacrificar o desempenho. A representação recorrente por blocos facilita a modelagem eficiente de sequências longas com complexidade linear, onde cada bloco é codificado em paralelo enquanto os blocos são resumidos de forma recorrente. Resultados experimentais em modelagem de linguagem mostram que a RetNet alcança resultados favoráveis de escalabilidade, treinamento paralelo, implantação de baixo custo e inferência eficiente. As propriedades intrigantes fazem da RetNet uma forte sucessora do Transformer para modelos de linguagem de grande escala. O código estará disponível em https://aka.ms/retnet.
Tabelas são predominantes em bancos de dados do mundo real, exigindo tempo e esforço significativos para que humanos as analisem e manipulem. Os avanços em modelos de linguagem de grande escala (LLMs) tornaram possível interagir com tabelas usando entrada de linguagem natural, aproximando essa capacidade da realidade. Neste artigo, apresentamos o TableGPT, um framework unificado e ajustado que permite que LLMs compreendam e operem em tabelas usando comandos funcionais externos. Ele introduz a capacidade de interagir de forma contínua com tabelas, permitindo uma ampla gama de funcionalidades, como resposta a perguntas, manipulação de dados (por exemplo, operações de inserção, exclusão, consulta e modificação), visualização de dados, geração de relatórios de análise e previsão automatizada. O TableGPT visa proporcionar conveniência e acessibilidade aos usuários, capacitando-os a aproveitar dados tabulares de forma simples. No cerne do TableGPT está o conceito inovador de representações tabulares globais, que capacita os LLMs a obter uma compreensão abrangente de toda a tabela, indo além das meta-informações. Ao treinar conjuntamente LLMs em modalidades de tabela e texto, o TableGPT alcança um entendimento profundo de dados tabulares e a capacidade de realizar operações complexas em tabelas por meio de instruções em cadeia de comandos. Importante destacar que o TableGPT oferece a vantagem de ser um sistema autossuficiente, em vez de depender de interfaces de API externas. Além disso, ele suporta um fluxo eficiente de processamento de dados, rejeição de consultas (quando apropriado) e implantação privada, permitindo ajustes rápidos de dados de domínio e garantindo a privacidade dos dados, o que aumenta a adaptabilidade do framework a casos de uso específicos.
Os LLMs (Modelos de Linguagem de Grande Escala) demonstraram habilidades notáveis na interação com humanos por meio da linguagem, especialmente com o uso de dados de seguimento de instruções. Avanços recentes em LLMs, como MiniGPT-4, LLaVA e X-LLM, ampliam ainda mais suas capacidades ao incorporar entradas multimodais, incluindo imagens, vídeos e fala. Apesar de sua eficácia na geração de compreensão precisa e detalhada da linguagem para o sinal modal fornecido, esses LLMs abrem mão da capacidade de fundamentar partes específicas das entradas, construindo apenas um mapeamento de granularidade grossa. No entanto, uma correspondência explícita e informativa entre texto e outras modalidades não apenas melhorará a experiência do usuário, mas também ajudará a expandir o cenário de aplicação dos LLMs multimodais. Portanto, propomos o BuboGPT, um LLM multimodal com fundamentação visual que pode realizar interação cruzada entre visão, áudio e linguagem, fornecendo uma compreensão refinada de objetos visuais e outras modalidades fornecidas. Como resultado, o BuboGPT é capaz de apontar a localização específica de um objeto na imagem ao gerar uma resposta ou descrição para esse objeto. Nossas contribuições são duplas: 1) Um módulo de fundamentação visual pronto para uso, baseado no SAM, que extrai entidades em uma frase e encontra máscaras correspondentes na imagem. 2) Um esquema de treinamento em duas etapas e um conjunto de dados de instrução para dotar o modelo de compreensão conjunta de texto, imagem e áudio. Nossos experimentos mostram que o BuboGPT alcança uma compreensão multimodal impressionante e habilidades de fundamentação visual durante a interação com humanos. Ele se sai consistentemente bem quando fornecido com combinações arbitrárias de modalidades (alinhadas ou não alinhadas). Nosso código, modelo e conjunto de dados estão disponíveis em https://bubo-gpt.github.io.
Modelos de linguagem de grande escala (LLMs) obtêm a capacidade de seguir instruções por meio de ajuste fino com instruções (IFT) em dados supervisionados de instrução/resposta. No entanto, conjuntos de dados IFT amplamente utilizados (por exemplo, os 52k dados do Alpaca) contêm, surpreendentemente, muitas instâncias de baixa qualidade com respostas incorretas ou irrelevantes, que são enganosas e prejudiciais ao IFT. Neste artigo, propomos uma estratégia simples e eficaz de seleção de dados que identifica e remove automaticamente dados de baixa qualidade usando um LLM robusto (por exemplo, ChatGPT). Para isso, introduzimos o AlpaGasus, que é ajustado em apenas 9k dados de alta qualidade filtrados dos 52k dados do Alpaca. O AlpaGasus supera significativamente o Alpaca original, conforme avaliado pelo GPT-4 em múltiplos conjuntos de teste, e sua variante de 13B corresponde a mais de 90% do desempenho de seu LLM professor (ou seja, Text-Davinci-003) em tarefas de teste. Ele também oferece um treinamento 5,7 vezes mais rápido, reduzindo o tempo de treinamento para uma variante de 7B de 80 minutos (para o Alpaca) para 14 minutos. Aplicamos IFT pelo mesmo número de épocas que o Alpaca(7B), mas em menos dados, utilizando 4 GPUs NVIDIA A100 (80GB) e seguindo as configurações e hiperparâmetros originais do Alpaca. No geral, o AlpaGasus demonstra um novo paradigma IFT centrado em dados que pode ser aplicado de forma geral a dados de ajuste fino com instruções, resultando em treinamento mais rápido e modelos com melhor capacidade de seguir instruções. Nossa página do projeto está disponível em: https://lichang-chen.github.io/AlpaGasus/.
Métodos para previsão de movimento em vídeo estimam conjuntamente o movimento instantâneo de todos os pontos em um determinado quadro de vídeo usando fluxo óptico ou rastreiam independentemente o movimento de pontos individuais ao longo do vídeo. Isso é verdade mesmo para métodos avançados de aprendizado profundo que conseguem rastrear pontos através de oclusões. Rastrear pontos individualmente ignora a forte correlação que pode existir entre os pontos, por exemplo, porque eles pertencem ao mesmo objeto físico, o que pode prejudicar o desempenho. Neste artigo, propomos, portanto, o CoTracker, uma arquitetura que rastreia conjuntamente múltiplos pontos ao longo de um vídeo inteiro. Essa arquitetura combina várias ideias da literatura de fluxo óptico e rastreamento em um novo design flexível e poderoso. Ela é baseada em uma rede transformer que modela a correlação de diferentes pontos no tempo por meio de camadas de atenção especializadas. O transformer atualiza iterativamente uma estimativa de várias trajetórias. Ele pode ser aplicado de maneira deslizante em vídeos muito longos, para os quais projetamos um loop de treinamento desenrolado. Ele pode rastrear de um a vários pontos conjuntamente e suporta a adição de novos pontos para rastrear a qualquer momento. O resultado é um algoritmo de rastreamento flexível e poderoso que supera métodos state-of-the-art em quase todos os benchmarks.
Enquanto muitos modelos de aprendizado não supervisionado se concentram em uma família de tarefas, seja gerativa ou discriminativa, exploramos a possibilidade de um modelo unificado de aprendizado de representação: um modelo que utiliza uma única etapa de pré-treinamento para abordar ambas as famílias de tarefas simultaneamente. Identificamos os modelos de difusão como um candidato ideal. Os modelos de difusão ganharam destaque como um método de ponta para geração de imagens, remoção de ruído, inpainting, super-resolução, manipulação, etc. Tais modelos envolvem o treinamento de uma U-Net para prever e remover ruído iterativamente, e o modelo resultante pode sintetizar imagens novas, diversas e de alta fidelidade. A arquitetura U-Net, como uma arquitetura baseada em convoluções, gera um conjunto diversificado de representações de características na forma de mapas de características intermediários. Apresentamos nossas descobertas de que esses embeddings são úteis além da tarefa de previsão de ruído, pois contêm informações discriminativas e também podem ser aproveitados para classificação. Exploramos métodos ótimos para extrair e usar esses embeddings em tarefas de classificação, demonstrando resultados promissores na tarefa de classificação do ImageNet. Descobrimos que, com uma seleção e pooling cuidadosos de características, os modelos de difusão superam métodos gerativo-discriminativos comparáveis, como o BigBiGAN, em tarefas de classificação. Investigamos os modelos de difusão no regime de transferência de aprendizado, examinando seu desempenho em vários conjuntos de dados de classificação visual de alta granularidade. Comparamos esses embeddings aos gerados por arquiteturas e pré-treinamentos concorrentes para tarefas de classificação.
Apresentamos o SEED, um elaborado tokenizador de imagens que capacita Modelos de Linguagem de Grande Escala (LLMs) com a habilidade emergente de VER e Desenhar simultaneamente. Pesquisas anteriores sobre tokenizadores de imagens atingiram um impasse, uma vez que frameworks que empregam tokens visuais quantizados perderam destaque devido ao desempenho e convergência insatisfatórios na compreensão multimodal (em comparação com BLIP-2, etc.) ou na geração (em comparação com Stable Diffusion, etc.). Apesar das limitações, mantemos a confiança em sua capacidade natural de unificar representações visuais e textuais, facilitando o treinamento multimodal escalável com a receita original dos LLMs. Neste estudo, identificamos dois princípios cruciais para a arquitetura e o treinamento do SEED que efetivamente facilitam o alinhamento subsequente com LLMs. (1) Os tokens de imagem devem ser independentes das posições físicas 2D dos patches e, em vez disso, serem produzidos com uma dependência causal 1D, exibindo interdependência intrínseca que se alinha com o mecanismo de previsão autoregressiva da esquerda para a direita nos LLMs. (2) Os tokens de imagem devem capturar semânticas de alto nível consistentes com o grau de abstração semântica das palavras e serem otimizados tanto para discriminatividade quanto para reconstrução durante a fase de treinamento do tokenizador. Como resultado, o LLM de prateleira é capaz de realizar tanto a geração de imagem-para-texto quanto de texto-para-imagem ao incorporar nosso SEED por meio de ajuste eficiente com LoRA. O pré-treinamento multimodal abrangente e o ajuste por instrução, que podem produzir resultados aprimorados, são reservados para investigações futuras. Esta versão do SEED foi treinada em 5,7 dias utilizando apenas 64 GPUs V100 e 5 milhões de pares de imagem-texto disponíveis publicamente. Nosso estudo preliminar enfatiza o grande potencial dos tokens visuais discretos em LLMs multimodais versáteis e a importância de tokenizadores de imagem adequados em pesquisas mais amplas.
Apresentamos o Interactive Neural Video Editing (INVE), uma solução de edição de vídeo em tempo real, que pode auxiliar o processo de edição propagando consistentemente edições esparsas de quadros para todo o clipe de vídeo. Nosso método é inspirado pelo trabalho recente sobre Layered Neural Atlas (LNA). No entanto, o LNA apresenta duas grandes limitações: (1) o método é muito lento para edição interativa, e (2) oferece suporte insuficiente para alguns casos de uso de edição, incluindo edição direta de quadros e rastreamento rígido de texturas. Para enfrentar esses desafios, aproveitamos e adotamos arquiteturas de rede altamente eficientes, impulsionadas por codificação de hash-grids, para melhorar substancialmente a velocidade de processamento. Além disso, aprendemos funções bidirecionais entre o atlas de imagens e introduzimos a edição vetorizada, o que, em conjunto, permite uma variedade muito maior de edições tanto no atlas quanto diretamente nos quadros. Em comparação com o LNA, nosso INVE reduz o tempo de aprendizado e inferência por um fator de 5 e suporta várias operações de edição de vídeo que o LNA não consegue. Demonstramos a superioridade do INVE sobre o LNA na edição interativa de vídeo por meio de uma análise quantitativa e qualitativa abrangente, destacando suas inúmeras vantagens e desempenho aprimorado. Para ver os resultados em vídeo, acesse https://gabriel-huang.github.io/inve/.
Nosso objetivo é investigar se o aprendizado de ponta a ponta para raciocínio visual pode ser alcançado com redes neurais de propósito geral, com o auxílio de pré-treinamento visual. Um resultado positivo refutaria a crença comum de que a abstração visual explícita (por exemplo, detecção de objetos) é essencial para a generalização composicional em raciocínio visual, e confirmaria a viabilidade de uma rede neural "generalista" para resolver tarefas de reconhecimento e raciocínio visual. Propomos uma estrutura simples e geral de auto-supervisão que "comprime" cada quadro de vídeo em um pequeno conjunto de tokens com uma rede transformadora, e reconstrói os quadros restantes com base no contexto temporal comprimido. Para minimizar a perda de reconstrução, a rede deve aprender uma representação compacta para cada imagem, além de capturar a dinâmica temporal e a permanência de objetos a partir do contexto temporal. Realizamos avaliações em dois benchmarks de raciocínio visual, CATER e ACRE. Observamos que o pré-treinamento é essencial para alcançar a generalização composicional no raciocínio visual de ponta a ponta. Nossa estrutura proposta supera o pré-treinamento supervisionado tradicional, incluindo classificação de imagens e detecção explícita de objetos, por amplas margens.
A simulação forma a espinha dorsal do desenvolvimento moderno de veículos autônomos. Os simuladores ajudam a desenvolver, testar e aprimorar sistemas de direção sem colocar humanos, veículos ou seu ambiente em risco. No entanto, os simuladores enfrentam um grande desafio: eles dependem de conteúdo realista, escalável e, ao mesmo tempo, interessante. Embora avanços recentes em renderização e reconstrução de cenas tenham feito grandes progressos na criação de ativos de cena estáticos, modelar seu layout, dinâmicas e comportamentos continua desafiador. Neste trabalho, recorremos à linguagem como uma fonte de supervisão para a geração dinâmica de cenas de tráfego. Nosso modelo, LCTGen, combina um modelo de linguagem de grande escala com uma arquitetura decodificadora baseada em transformadores que seleciona locais prováveis em mapas a partir de um conjunto de dados de mapas e produz uma distribuição inicial de tráfego, bem como a dinâmica de cada veículo. O LCTGen supera trabalhos anteriores tanto na geração incondicional quanto na condicional de cenas de tráfego em termos de realismo e fidelidade. Código e vídeo estarão disponíveis em https://ariostgx.github.io/lctgen.
Este artigo apresenta um novo Transformer de visão, o Scale-Aware Modulation Transformer (SMT), que pode lidar com diversas tarefas subsequentes de forma eficiente ao combinar a rede convolucional e o Transformer de visão. A proposta de Scale-Aware Modulation (SAM) no SMT inclui dois designs principais inovadores. Primeiramente, introduzimos o módulo Multi-Head Mixed Convolution (MHMC), que pode capturar características em múltiplas escalas e expandir o campo receptivo. Em segundo lugar, propomos o módulo Scale-Aware Aggregation (SAA), que é leve porém eficaz, permitindo a fusão de informações entre diferentes cabeças. Ao aproveitar esses dois módulos, a modulação convolucional é ainda mais aprimorada. Além disso, em contraste com trabalhos anteriores que utilizaram modulações em todos os estágios para construir uma rede sem atenção, propomos uma Rede Híbrida Evolutiva (EHN), que pode simular efetivamente a transição da captura de dependências locais para globais à medida que a rede se aprofunda, resultando em um desempenho superior. Experimentos extensivos demonstram que o SMT supera significativamente os modelos state-of-the-art existentes em uma ampla gama de tarefas visuais. Especificamente, o SMT com 11,5M / 2,4GFLOPs e 32M / 7,7GFLOPs pode alcançar 82,2% e 84,3% de precisão top-1 no ImageNet-1K, respectivamente. Após o pré-treinamento no ImageNet-22K em resolução 224^2, ele atinge 87,1% e 88,1% de precisão top-1 quando ajustado com resolução 224^2 e 384^2, respectivamente. Para detecção de objetos com Mask R-CNN, o SMT base treinado com cronograma 1x e 3x supera o Swin Transformer em 4,2 e 1,3 mAP no COCO, respectivamente. Para segmentação semântica com UPerNet, o SMT base testado em escala única e múltipla supera o Swin em 2,0 e 1,1 mIoU, respectivamente, no ADE20K.