Artigos de pesquisa em IA selecionados diariamente com traduções
Propomos um framework para classificar as capacidades e o comportamento de modelos de Inteligência Geral Artificial (AGI) e seus precursores. Este framework introduz níveis de desempenho, generalidade e autonomia da AGI. Esperamos que este framework seja útil de forma análoga aos níveis de direção autônoma, fornecendo uma linguagem comum para comparar modelos, avaliar riscos e medir o progresso ao longo do caminho para a AGI. Para desenvolver nosso framework, analisamos definições existentes de AGI e destilamos seis princípios que uma ontologia útil para AGI deve satisfazer. Esses princípios incluem focar nas capacidades em vez dos mecanismos; avaliar separadamente a generalidade e o desempenho; e definir estágios ao longo do caminho para a AGI, em vez de focar no ponto final. Com esses princípios em mente, propomos "Níveis de AGI" com base na profundidade (desempenho) e na amplitude (generalidade) das capacidades, e refletimos sobre como os sistemas atuais se encaixam nessa ontologia. Discutimos os requisitos desafiadores para benchmarks futuros que quantifiquem o comportamento e as capacidades de modelos de AGI em relação a esses níveis. Por fim, discutimos como esses níveis de AGI interagem com considerações de implantação, como autonomia e risco, e enfatizamos a importância de selecionar cuidadosamente paradigmas de Interação Humano-IA para a implantação responsável e segura de sistemas de IA altamente capazes.
Modelos Multimodais de Grande Escala (LMMs) estendem os Modelos de Linguagem de Grande Escala para o domínio visual. Os esforços iniciais em direção aos LMMs utilizaram imagens holísticas e prompts de texto para gerar respostas textuais não fundamentadas. Recentemente, LMMs em nível de região têm sido usados para gerar respostas visualmente fundamentadas. No entanto, eles estão limitados a referir apenas uma única categoria de objeto por vez, exigem que os usuários especifiquem as regiões nas entradas ou não conseguem oferecer uma fundamentação densa de objetos em nível de pixel. Neste trabalho, apresentamos o Grounding LMM (GLaMM), o primeiro modelo capaz de gerar respostas em linguagem natural entrelaçadas com máscaras de segmentação de objetos correspondentes. O GLaMM não apenas fundamenta objetos que aparecem nas conversas, mas também é flexível o suficiente para aceitar prompts textuais e visuais opcionais (região de interesse) como entrada. Isso capacita os usuários a interagir com o modelo em vários níveis de granularidade, tanto no domínio textual quanto visual. Devido à falta de benchmarks padrão para o novo cenário de geração de conversas detalhadas visualmente fundamentadas, introduzimos um protocolo de avaliação abrangente com nossas conversas fundamentadas curadas. Nossa tarefa proposta de Geração de Conversas Fundamentadas (GCG) exige conceitos densamente fundamentados em cenas naturais em grande escala. Para isso, propomos um conjunto de dados densamente anotado, o Grounding-anything Dataset (GranD), utilizando nosso pipeline de anotação automatizada proposto, que abrange 7,5 milhões de conceitos únicos fundamentados em um total de 810 milhões de regiões disponíveis com máscaras de segmentação. Além da GCG, o GLaMM também se desempenha efetivamente em várias tarefas subsequentes, como segmentação de expressões referenciais, legendagem de imagens e em nível de região, e conversas visão-linguagem. Página do Projeto: https://mbzuai-oryx.github.io/groundingLMM.
A síntese de vídeo tem recentemente alcançado avanços notáveis, beneficiando-se do rápido desenvolvimento dos modelos de difusão. No entanto, ainda enfrenta desafios em termos de precisão semântica, clareza e continuidade espaço-temporal. Esses desafios surgem principalmente da escassez de dados texto-vídeo bem alinhados e da complexa estrutura inerente aos vídeos, o que dificulta a capacidade do modelo de garantir simultaneamente excelência semântica e qualitativa. Neste relatório, propomos uma abordagem em cascata chamada I2VGen-XL, que melhora o desempenho do modelo ao desacoplar esses dois fatores e garante o alinhamento dos dados de entrada utilizando imagens estáticas como uma forma de orientação crucial. O I2VGen-XL consiste em dois estágios: i) o estágio base garante semântica coerente e preserva o conteúdo das imagens de entrada por meio de dois codificadores hierárquicos, e ii) o estágio de refinamento aprimora os detalhes do vídeo ao incorporar um breve texto adicional e melhora a resolução para 1280x720. Para aumentar a diversidade, coletamos cerca de 35 milhões de pares texto-vídeo de cena única e 6 bilhões de pares texto-imagem para otimizar o modelo. Dessa forma, o I2VGen-XL pode simultaneamente melhorar a precisão semântica, a continuidade dos detalhes e a clareza dos vídeos gerados. Por meio de extensos experimentos, investigamos os princípios subjacentes do I2VGen-XL e o comparamos com os principais métodos atuais, o que demonstra sua eficácia em diversos dados. O código-fonte e os modelos estarão publicamente disponíveis em https://i2vgen-xl.github.io.
O paradigma "pré-treinamento e depois ajuste fino" é comumente adotado na implantação de modelos de linguagem de grande escala. A Adaptação de Baixa Classificação (LoRA), um método de ajuste fino eficiente em parâmetros, é frequentemente empregada para adaptar um modelo base a uma multitude de tarefas, resultando em uma coleção substancial de adaptadores LoRA derivados de um único modelo base. Observamos que esse paradigma apresenta oportunidades significativas para inferência em lote durante o serviço. Para aproveitar essas oportunidades, apresentamos o S-LoRA, um sistema projetado para o serviço escalável de muitos adaptadores LoRA. O S-LoRA armazena todos os adaptadores na memória principal e busca os adaptadores usados pelas consultas atualmente em execução para a memória da GPU. Para usar eficientemente a memória da GPU e reduzir a fragmentação, o S-LoRA propõe a Paginação Unificada. A Paginação Unificada usa um pool de memória unificado para gerenciar pesos dinâmicos de adaptadores com diferentes classificações e tensores de cache KV com comprimentos de sequência variados. Além disso, o S-LoRA emprega uma nova estratégia de paralelismo de tensores e kernels CUDA altamente otimizados para o agrupamento heterogêneo de computação LoRA. Coletivamente, esses recursos permitem que o S-LoRA sirva milhares de adaptadores LoRA em uma única GPU ou em várias GPUs com uma pequena sobrecarga. Comparado a bibliotecas de ponta como HuggingFace PEFT e vLLM (com suporte ingênuo de serviço LoRA), o S-LoRA pode melhorar a taxa de transferência em até 4 vezes e aumentar o número de adaptadores servidos em várias ordens de magnitude. Como resultado, o S-LoRA permite o serviço escalável de muitos modelos ajustados para tarefas específicas e oferece o potencial para serviços de ajuste fino personalizados em grande escala.
Apresentamos o CogVLM, um poderoso modelo de base de linguagem visual de código aberto. Diferente do método popular de alinhamento superficial, que mapeia características de imagem para o espaço de entrada do modelo de linguagem, o CogVLM preenche a lacuna entre o modelo de linguagem pré-treinado congelado e o codificador de imagem por meio de um módulo especialista visual treinável nas camadas de atenção e FFN. Como resultado, o CogVLM permite uma fusão profunda de características de linguagem visual sem sacrificar o desempenho em tarefas de NLP. O CogVLM-17B alcança desempenho de ponta em 10 benchmarks clássicos de modalidade cruzada, incluindo NoCaps, Flicker30k captioning, RefCOCO, RefCOCO+, RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz VQA e TDIUC, e ocupa o 2º lugar em VQAv2, OKVQA, TextVQA, COCO captioning, etc., superando ou igualando o PaLI-X 55B. Códigos e checkpoints estão disponíveis em https://github.com/THUDM/CogVLM.
Cálculos dinâmicos de forma tornaram-se críticos em cargas de trabalho modernas de aprendizado de máquina, especialmente em modelos emergentes de linguagem em grande escala. O sucesso desses modelos tem impulsionado a demanda por sua implantação em um conjunto diversificado de ambientes de backend. Neste artigo, apresentamos o Relax, uma abstração de compilador para otimizar cargas de trabalho dinâmicas de aprendizado de máquina de ponta a ponta. O Relax introduz anotações simbólicas de forma de primeira classe para rastrear cálculos dinâmicos de forma globalmente em todo o programa. Ele também introduz uma abstração de nível cruzado que encapsula grafos computacionais, programas de tensores em nível de loop e chamadas de biblioteca em uma única representação para permitir otimizações de nível cruzado. Construímos uma estrutura de compilação de ponta a ponta usando a abordagem proposta para otimizar modelos de forma dinâmica. Resultados experimentais em modelos de linguagem em grande escala mostram que o Relax oferece desempenho competitivo com sistemas otimizados manualmente de última geração em várias plataformas e permite a implantação de modelos dinâmicos emergentes em um conjunto mais amplo de ambientes, incluindo telefones móveis, dispositivos embarcados e navegadores da web.
Vários modelos de linguagem de grande escala (LLMs) têm sido propostos nos últimos anos, incluindo modelos de código fechado e aberto, estabelecendo continuamente novos recordes em múltiplos benchmarks. No entanto, o desenvolvimento de LLMs ainda enfrenta diversos problemas, como o alto custo de treinar modelos do zero e o pré-treinamento contínuo que leva ao esquecimento catastrófico, entre outros. Embora muitos desses problemas sejam abordados ao longo da pesquisa em LLMs, uma limitação importante e prática é que muitos estudos buscam excessivamente aumentar o tamanho dos modelos sem analisar e otimizar de forma abrangente o uso de dados de pré-treinamento em seu processo de aprendizagem, bem como a organização e o aproveitamento adequados desses dados no treinamento de LLMs em configurações de custo-benefício. Neste trabalho, propomos o Ziya2, um modelo com 13 bilhões de parâmetros que adota o LLaMA2 como modelo base e é pré-treinado adicionalmente em 700 bilhões de tokens, onde nos concentramos em técnicas de pré-treinamento e usamos otimização centrada em dados para aprimorar o processo de aprendizagem do Ziya2 em diferentes estágios. Experimentos mostram que o Ziya2 supera significativamente outros modelos em múltiplos benchmarks, especialmente com resultados promissores em comparação com modelos de código aberto representativos. O Ziya2 (Base) está disponível em https://huggingface.co/IDEA-CCNL/Ziya2-13B-Base e https://modelscope.cn/models/Fengshenbang/Ziya2-13B-Base/summary.
Apresentamos um sistema de ponta a ponta para captura de alta fidelidade, reconstrução de modelos e renderização em tempo real de espaços caminháveis em realidade virtual utilizando campos de radiação neural. Para isso, projetamos e construímos um equipamento multicâmera personalizado para capturar densamente espaços caminháveis com alta fidelidade e imagens de alta faixa dinâmica (HDR) multivista de qualidade e densidade sem precedentes. Estendemos os primitivos gráficos neurais instantâneos com um novo espaço de cores perceptivo para aprender a aparência HDR precisa e um mecanismo eficiente de mip-mapping para renderização de nível de detalhe com anti-aliasing, otimizando cuidadosamente o equilíbrio entre qualidade e velocidade. Nosso renderizador multi-GPU permite a renderização volumétrica de alta fidelidade do nosso modelo de campo de radiação neural na resolução completa de VR de dual 2K×2K a 36 Hz em nossa máquina de demonstração personalizada. Demonstramos a qualidade dos nossos resultados em nossos conjuntos de dados desafiadores de alta fidelidade e comparamos nosso método e conjuntos de dados com as linhas de base existentes. Disponibilizamos nosso conjunto de dados no site do projeto.
Em artigos escritos por humanos, frequentemente utilizamos as sutilezas do estilo de texto, como negrito e itálico, para guiar a atenção dos leitores. Essas ênfases textuais são essenciais para que os leitores compreendam as informações transmitidas. Ao interagir com modelos de linguagem de grande escala (LLMs, na sigla em inglês), temos uma necessidade semelhante - direcionar o modelo a prestar mais atenção a informações especificadas pelo usuário, por exemplo, uma instrução. No entanto, os métodos existentes estão limitados a processar texto simples e não suportam tal mecanismo. Isso nos motiva a introduzir o PASTA - Post-hoc Attention STeering Approach, um método que permite que LLMs leiam texto com marcas de ênfase especificadas pelo usuário. Para isso, o PASTA identifica um pequeno subconjunto de cabeças de atenção e aplica um reajuste preciso de atenção nelas, direcionando a atenção do modelo para partes especificadas pelo usuário. Assim como o prompting, o PASTA é aplicado no momento da inferência e não requer alterações nos parâmetros do modelo. Experimentos demonstram que o PASTA pode aprimorar substancialmente a capacidade de um LLM de seguir instruções do usuário ou integrar novos conhecimentos a partir de entradas do usuário, resultando em uma melhoria significativa de desempenho em uma variedade de tarefas, por exemplo, uma melhoria média de 22% na precisão para o LLAMA-7B. Nosso código está disponível publicamente em https://github.com/QingruZhang/PASTA.
Os LLMs de código emergiram como um campo de pesquisa especializado, com estudos notáveis dedicados a aprimorar as capacidades de codificação dos modelos por meio de ajuste fino em modelos pré-treinados. As abordagens anteriores de ajuste fino eram tipicamente adaptadas a tarefas ou cenários específicos, o que significava ajustes separados para cada tarefa, exigindo recursos extensivos de treinamento e apresentando desafios em termos de implantação e manutenção. Além disso, essas abordagens não conseguiam aproveitar a interconexão inerente entre diferentes tarefas relacionadas a código. Para superar essas limitações, apresentamos um framework de ajuste fino multitarefa, o MFTcoder, que permite o ajuste simultâneo e paralelo em múltiplas tarefas. Ao incorporar várias funções de perda, abordamos efetivamente desafios comuns no aprendizado multitarefa, como desequilíbrio de dados, níveis variáveis de dificuldade e velocidades de convergência inconsistentes. Experimentos extensivos demonstraram conclusivamente que nossa abordagem de ajuste fino multitarefa supera tanto o ajuste fino individual em tarefas únicas quanto o ajuste fino em um conjunto misto de tarefas. Além disso, o MFTcoder oferece capacidades de treinamento eficientes, incluindo modos de tokenização de dados eficientes e ajuste fino PEFT, resultando em uma velocidade significativamente melhorada em comparação com métodos tradicionais de ajuste fino. O MFTcoder integra-se perfeitamente com vários LLMs de código-fonte aberto, como o CodeLLama e o Qwen. Aproveitando a base do CodeLLama, nosso modelo ajustado pelo MFTcoder, o CodeFuse-CodeLLama-34B, alcança uma pontuação pass@1 impressionante de 74,4% no benchmark HumaneEval, superando o desempenho do GPT-4 (67%, zero-shot). O MFTCoder é disponibilizado como código aberto em https://github.com/codefuse-ai/MFTCOder.
Os modelos de difusão latente têm se mostrado de ponta na criação e manipulação de saídas visuais. No entanto, até onde sabemos, a geração de mapas de profundidade em conjunto com RGB ainda é limitada. Apresentamos o LDM3D-VR, um conjunto de modelos de difusão voltados para o desenvolvimento de realidade virtual que inclui o LDM3D-pano e o LDM3D-SR. Esses modelos permitem a geração de RGBD panorâmico com base em prompts textuais e a ampliação de entradas de baixa resolução para RGBD de alta resolução, respectivamente. Nossos modelos são ajustados a partir de modelos pré-treinados existentes em conjuntos de dados contendo imagens RGB panorâmicas/de alta resolução, mapas de profundidade e legendas. Ambos os modelos são avaliados em comparação com métodos relacionados existentes.
A Distilação de Conhecimento (KD, do inglês Knowledge Distillation) comprime modelos de linguagem pré-treinados (PLMs, do inglês Pre-trained Language Models) computacionalmente caros ao transferir seu conhecimento para modelos menores, permitindo seu uso em ambientes com recursos limitados ou em tempo real. No entanto, a maioria dos modelos menores não consegue superar o desempenho do modelo original maior, resultando em um sacrifício de desempenho para melhorar a velocidade de inferência. Para resolver esse problema, propomos o Co-Treinamento e Co-Distilação (CTCD, do inglês Co-Training and Co-Distillation), uma nova estrutura que melhora o desempenho e a velocidade de inferência simultaneamente ao co-treinar dois modelos enquanto realiza a distilação mútua de conhecimento. O framework CTCD alcança esse objetivo com base em duas descobertas significativas: 1) A distilação de conhecimento do modelo menor para o modelo maior durante o co-treinamento melhora o desempenho do modelo maior. 2) O desempenho aprimorado do modelo maior impulsiona ainda mais o desempenho do modelo menor. O framework CTCD mostra-se promissor, pois pode ser combinado com técnicas existentes, como design de arquitetura ou aumento de dados, substituindo métodos de KD unidirecionais, para alcançar uma melhoria adicional de desempenho. Estudos abrangentes de ablação demonstram a eficácia do CTCD, e o modelo menor distilado por CTCD supera o modelo original maior por uma margem significativa de 1,66 no benchmark GLUE.
Neste artigo, demonstramos que um modelo de áudio pré-treinado auto-supervisionado simples pode alcançar eficiência de inferência comparável a modelos pré-treinados mais complexos com codificadores baseados em transformadores de fala. Esses transformadores de fala dependem da combinação de módulos convolucionais com módulos de auto-atenção, alcançando desempenho de ponta em reconhecimento automático de fala (ASR) com alta eficiência. Primeiro, mostramos que o uso desses transformadores de fala como codificador melhora significativamente a eficiência de modelos de áudio pré-treinados. No entanto, nosso estudo revela que é possível alcançar eficiência comparável utilizando apenas auto-atenção avançada. Demonstramos que essa abordagem mais simples é particularmente benéfica quando combinada com uma técnica de quantização de baixo bit dos pesos de uma rede neural para melhorar a eficiência. Nossa hipótese é que isso evita a propagação de erros entre diferentes módulos quantizados, em comparação com os transformadores de fala recentes que misturam convolução quantizada e módulos de auto-atenção quantizados.
Uma habilidade notável dos seres humanos reside no raciocínio composicional, ou seja, a capacidade de fazer "uso infinito de meios finitos". No entanto, os atuais modelos de base visão-linguagem (VLMs) de grande escala não possuem tais habilidades composicionais devido aos seus comportamentos de "saco de palavras" e à incapacidade de construir palavras que representem corretamente entidades visuais e as relações entre essas entidades. Para isso, propomos o CoVLM, que pode orientar o LLM a compor explicitamente entidades visuais e relações no texto e se comunicar dinamicamente com o codificador de visão e a rede de detecção para alcançar uma decodificação comunicativa visão-linguagem. Especificamente, primeiro projetamos um conjunto de tokens de comunicação inovadores para o LLM, para permitir a comunicação dinâmica entre o sistema de detecção visual e o sistema de linguagem. Um token de comunicação é gerado pelo LLM após uma entidade visual ou uma relação, para informar à rede de detecção que proponha regiões relevantes para a frase gerada até o momento. As regiões de interesse (ROIs) propostas são então retroalimentadas no LLM para uma melhor geração de linguagem condicionada às regiões relevantes. Assim, o LLM é capaz de compor as entidades visuais e relações por meio dos tokens de comunicação. A comunicação visão-para-linguagem e linguagem-para-visão é realizada iterativamente até que a frase completa seja gerada. Nosso framework conecta de forma contínua a lacuna entre a percepção visual e os LLMs e supera os VLMs anteriores por uma grande margem em benchmarks de raciocínio composicional (por exemplo, ~20% no mAP do HICO-DET, ~14% na acurácia top-1 do Cola e ~3% na acurácia top-1 do ARO). Também alcançamos desempenhos de ponta em tarefas tradicionais de visão-linguagem, como compreensão de expressões referenciais e resposta a perguntas visuais.
Modelos de linguagem de grande escala (LMs) são capazes de gerar racionalizações em texto livre para auxiliar na resposta a perguntas. No entanto, trabalhos anteriores 1) sugerem que a autorracionalização útil só emerge em escalas significativas (por exemplo, o GPT-3 com 175 bilhões de parâmetros); e 2) focam amplamente no desempenho em tarefas subsequentes, ignorando a semântica das próprias racionalizações, por exemplo, se elas são fiéis, verdadeiras e úteis para humanos? Neste trabalho, capacitamos LMs de pequena escala (aproximadamente 200 vezes menores que o GPT-3) a gerar racionalizações que não apenas melhoram o desempenho em tarefas subsequentes, mas também são mais plausíveis, consistentes e diversas, avaliadas tanto automaticamente quanto por humanos. Nosso método, MaRio (Multi-rewArd RatIOnalization), é um algoritmo de autorracionalização condicionado a múltiplas recompensas que otimiza diversas propriedades distintas, como plausibilidade, diversidade e consistência. Resultados em cinco conjuntos de dados difíceis de questionamento e resposta — StrategyQA, QuaRel, OpenBookQA, NumerSense e QASC — mostram que o MaRio não apenas melhora a precisão da tarefa, mas também melhora a qualidade da autorracionalização de LMs pequenos nas dimensões mencionadas, superando uma linha de base de ajuste fino supervisionado (SFT). Avaliações humanas extensas confirmam que as racionalizações do MaRio são preferidas em relação às racionalizações do SFT, além de melhorias qualitativas em plausibilidade e consistência.
In this paper, we present Consistent4D, a novel approach for generating 4D dynamic objects from uncalibrated monocular videos. Uniquely, we cast the 360-degree dynamic object reconstruction as a 4D generation problem, eliminating the need for tedious multi-view data collection and camera calibration. This is achieved by leveraging the object-level 3D-aware image diffusion model as the primary supervision signal for training Dynamic Neural Radiance Fields (DyNeRF). Specifically, we propose a Cascade DyNeRF to facilitate stable convergence and temporal continuity under the supervision signal which is discrete along the time axis. To achieve spatial and temporal consistency, we further introduce an Interpolation-driven Consistency Loss. It is optimized by minimizing the discrepancy between rendered frames from DyNeRF and interpolated frames from a pre-trained video interpolation model. Extensive experiments show that our Consistent4D can perform competitively to prior art alternatives, opening up new possibilities for 4D dynamic object generation from monocular videos, whilst also demonstrating advantage for conventional text-to-3D generation tasks. Our project page is https://consistent4d.github.io/.
Modelos Transformer treinados em sequências longas frequentemente alcançam maior precisão do que em sequências curtas. Infelizmente, os transformers convencionais enfrentam dificuldades no treinamento de sequências longas devido aos requisitos computacionais e de memória excessivos. Os métodos existentes para treinamento de sequências longas oferecem aceleração e redução de memória limitadas, podendo comprometer a precisão. Este artigo apresenta um método de treinamento distribuído novo e eficiente, o Long Short-Sequence Transformer (LSS Transformer), para treinar transformers com sequências longas. Ele distribui uma sequência longa em segmentos entre GPUs, com cada GPU calculando uma autoatenção parcial para seu segmento. Em seguida, utiliza uma comunicação fundida e uma nova técnica de média dupla de gradientes para evitar a necessidade de agregar a autoatenção parcial e minimizar a sobrecarga de comunicação. Avaliamos o desempenho entre o LSS Transformer e o paralelismo de sequência de última geração da Nvidia em um conjunto de dados Wikipedia enwik8. Os resultados mostram que nosso método proposto leva a uma implementação 5,6 vezes mais rápida e 10,2 vezes mais eficiente em memória em comparação com o paralelismo de sequência de última geração em 144 GPUs Nvidia V100. Além disso, nosso algoritmo escala para um comprimento de sequência extremo de 50.112 em 3.456 GPUs, alcançando 161% de eficiência paralela superlinear e uma taxa de transferência de 32 petaflops.