Artigos de pesquisa em IA selecionados diariamente com traduções
Modelos de linguagem de grande escala (LLMs) e modelos visão-linguagem (VLMs) têm se mostrado excelentes em diversas tarefas, como raciocínio de senso comum. Por mais poderosos que esses modelos possam ser, eles não estão fundamentados no mundo físico 3D, que envolve conceitos mais ricos, como relações espaciais, affordances, física, layout e assim por diante. Neste trabalho, propomos injetar o mundo 3D em modelos de linguagem de grande escala e introduzir uma nova família de 3D-LLMs. Especificamente, os 3D-LLMs podem receber nuvens de pontos 3D e suas características como entrada e executar um conjunto diversificado de tarefas relacionadas a 3D, incluindo legendagem, legendagem densa, questionamento e resposta em 3D, decomposição de tarefas, ancoragem em 3D, diálogo assistido por 3D, navegação e muito mais. Utilizando três tipos de mecanismos de prompt que projetamos, conseguimos coletar mais de 300 mil dados de linguagem 3D cobrindo essas tarefas. Para treinar eficientemente os 3D-LLMs, primeiro utilizamos um extrator de características 3D que obtém características 3D a partir de imagens renderizadas em múltiplas visões. Em seguida, usamos VLMs 2D como nossa base para treinar nossos 3D-LLMs. Ao introduzir um mecanismo de localização 3D, os 3D-LLMs podem capturar melhor as informações espaciais 3D. Experimentos no ScanQA mostram que nosso modelo supera as melhores baselines por uma grande margem (por exemplo, a pontuação BLEU-1 supera a pontuação state-of-the-art em 9%). Além disso, experimentos em nossos conjuntos de dados reservados para legendagem 3D, composição de tarefas e diálogo assistido por 3D mostram que nosso modelo supera os VLMs 2D. Exemplos qualitativos também mostram que nosso modelo pode executar mais tarefas além do escopo dos LLMs e VLMs existentes. Página do Projeto: https://vis-www.cs.umass.edu/3dllm/.
Modelos de linguagem grandes pré-treinados (LLMs) recentemente alcançaram melhor generalização e eficiência amostral na navegação autônoma na web. No entanto, o desempenho em sites do mundo real ainda sofre com (1) abertura de domínio, (2) comprimento limitado de contexto e (3) falta de viés indutivo em HTML. Apresentamos o WebAgent, um agente baseado em LLM que pode completar tarefas em sites reais seguindo instruções em linguagem natural. O WebAgent planeja antecipadamente, decompondo instruções em sub-instruções canônicas, resumindo documentos HTML longos em trechos relevantes para a tarefa e agindo em sites por meio de programas Python gerados a partir desses. Projetamos o WebAgent com Flan-U-PaLM, para geração de código fundamentado, e HTML-T5, novos LLMs pré-treinados para documentos HTML longos, utilizando mecanismos de atenção local e global e uma mistura de objetivos de desruído de longo alcance, para planejamento e sumarização. Demonstramos empiricamente que nossa abordagem melhora a taxa de sucesso em um site real em mais de 50%, e que o HTML-T5 é o melhor modelo para resolver tarefas baseadas em HTML; alcançando uma taxa de sucesso 14,9% maior que o estado da arte anterior no benchmark de navegação web MiniWoB e melhor precisão na avaliação de planejamento de tarefas offline.
Uma fronteira pouco explorada da geração e edição de imagens é a tarefa de interpolar entre duas imagens de entrada, uma funcionalidade ausente em todos os pipelines de geração de imagens atualmente implantados. Argumentamos que tal funcionalidade pode expandir as aplicações criativas desses modelos e propomos um método para interpolação zero-shot usando modelos de difusão latente. Aplicamos a interpolação no espaço latente em uma sequência de níveis decrescentes de ruído, em seguida, realizamos a remoção de ruído condicionada a embeddings de texto interpolados derivados de inversão textual e (opcionalmente) poses do sujeito. Para maior consistência, ou para especificar critérios adicionais, podemos gerar vários candidatos e usar o CLIP para selecionar a imagem de maior qualidade. Obtemos interpolações convincentes em diversas poses de sujeitos, estilos de imagem e conteúdo de imagem, e mostramos que métricas quantitativas padrão, como o FID, são insuficientes para medir a qualidade de uma interpolação. O código e os dados estão disponíveis em https://clintonjwang.github.io/interpolation.
Modelos de linguagem de grande escala demonstraram ser altamente flexíveis, capazes de resolver uma ampla gama de tarefas generativas, como sumarização abstrata e respostas a perguntas abertas. Neste artigo, estendemos as capacidades dos LLMs ao anexar diretamente um pequeno codificador de áudio, permitindo que ele realize reconhecimento de fala. Ao pré-adicionar diretamente uma sequência de embeddings auditivos aos embeddings de tokens de texto, o LLM pode ser convertido em um sistema de reconhecimento automático de fala (ASR) e ser usado exatamente da mesma maneira que sua contraparte textual. Experimentos no Multilingual LibriSpeech (MLS) mostram que a incorporação de um codificador conformer ao LLaMA-7B de código aberto permite que ele supere baselines monolíngues em 18% e realize reconhecimento de fala multilíngue, apesar do LLaMA ter sido treinado predominantemente em texto em inglês. Além disso, realizamos estudos de ablação para investigar se o LLM pode ser completamente congelado durante o treinamento para manter suas capacidades originais, escalando o codificador de áudio e aumentando o passo do codificador de áudio para gerar menos embeddings. Os resultados desses estudos mostram que o ASR multilíngue é possível mesmo quando o LLM está congelado ou quando passos de quase 1 segundo são usados no codificador de áudio, abrindo a possibilidade de LLMs operarem em áudios de longa duração.
Com o ChatGPT como representante, inúmeras empresas começaram a oferecer serviços baseados em grandes modelos Transformers. No entanto, o uso desses serviços inevitavelmente expõe os prompts dos usuários ao provedor do modelo. Estudos anteriores investigaram a inferência segura para modelos Transformers utilizando computação multipartidária segura (MPC), onde os parâmetros do modelo e os prompts dos clientes são mantidos em sigilo. Apesar disso, essas estruturas ainda são limitadas em termos de desempenho do modelo, eficiência e implantação. Para superar essas limitações, propomos o framework PUMA, que permite uma inferência rápida e segura em modelos Transformers. Nosso framework desenvolve aproximações de alta qualidade para funções computacionalmente caras, como GeLU e Softmax, reduzindo significativamente o custo da inferência segura enquanto mantém o desempenho do modelo. Além disso, projetamos procedimentos seguros para Embedding e LayerNorm que implementam fielmente a funcionalidade desejada sem comprometer a arquitetura Transformer. O PUMA é cerca de 2x mais rápido que o estado da arte em frameworks MPC, como o MPCFORMER (ICLR 2023), e possui precisão semelhante aos modelos em texto plano sem necessidade de ajuste fino (algo que os trabalhos anteriores não conseguiram alcançar). Outro ponto importante é que o PUMA consegue avaliar o LLaMA-7B em aproximadamente 5 minutos para gerar 1 token. Até onde sabemos, esta é a primeira vez que um modelo com esse tamanho de parâmetros pode ser avaliado sob MPC. O PUMA foi disponibilizado como código aberto no repositório Github do SecretFlow-SPU.
À medida que os modelos de linguagem de grande escala (LLMs) realizam tarefas mais complexas, torna-se mais difícil verificar a correção e a segurança de seu comportamento. Uma abordagem para ajudar com esse problema é solicitar que os LLMs externalizem seu raciocínio, por exemplo, fazendo com que gerem um raciocínio passo a passo ao responderem uma pergunta (Chain-of-Thought; CoT). Esse raciocínio pode nos permitir verificar o processo que os modelos usam para realizar tarefas. No entanto, essa abordagem depende de o raciocínio declarado refletir fielmente o raciocínio real do modelo, o que nem sempre é o caso. Para melhorar a fidelidade do raciocínio CoT, fazemos com que os modelos gerem raciocínios decompondo perguntas em subperguntas. Métodos baseados em decomposição alcançam um desempenho forte em tarefas de resposta a perguntas, às vezes se aproximando do CoT, enquanto melhoram a fidelidade do raciocínio declarado do modelo em várias métricas recentemente propostas. Ao forçar o modelo a responder subperguntas mais simples em contextos separados, aumentamos significativamente a fidelidade do raciocínio gerado pelo modelo em relação ao CoT, ao mesmo tempo em que mantemos parte dos ganhos de desempenho do CoT. Nossos resultados mostram que é possível melhorar a fidelidade do raciocínio gerado por modelos; melhorias contínuas podem levar a raciocínios que nos permitam verificar a correção e a segurança do comportamento dos LLMs.
Os modelos de linguagem modernos capturam um amplo conjunto de conhecimentos factuais. No entanto, alguns fatos podem ser incorretamente induzidos ou se tornar obsoletos ao longo do tempo, resultando em gerações factualmente incorretas. Isso levou ao desenvolvimento de diversos métodos de edição que permitem atualizar os fatos codificados pelo modelo. A avaliação desses métodos tem se concentrado principalmente em testar se um fato individual foi injetado com sucesso e se as previsões semelhantes para outros sujeitos não foram alteradas. Aqui, argumentamos que essa avaliação é limitada, pois a injeção de um fato (por exemplo, "Jack Depp é filho de Johnny Depp") introduz um "efeito cascata" na forma de fatos adicionais que o modelo precisa atualizar (por exemplo, "Jack Depp é irmão de Lily-Rose Depp"). Para abordar essa questão, propomos um novo conjunto de critérios de avaliação que consideram as implicações de uma edição em fatos relacionados. Usando esses critérios, construímos um benchmark diagnóstico de 5 mil edições factuais, capturando uma variedade de tipos de efeitos cascata. Avaliamos métodos de edição proeminentes nesse benchmark, mostrando que os métodos atuais falham em introduzir mudanças consistentes no conhecimento do modelo. Além disso, descobrimos que uma linha de base simples de edição em contexto obtém as melhores pontuações em nosso benchmark, sugerindo uma direção promissora de pesquisa para a edição de modelos.
Propomos o Aprendizado por Reforço a partir de Distilação de Contraste (RLCD), um método para alinhar modelos de linguagem a princípios de linguagem natural sem utilizar feedback humano. O RLCD treina um modelo de preferência utilizando pares de preferência simulados que contêm tanto um exemplo de alta qualidade quanto um de baixa qualidade, gerados por meio de prompts positivos e negativos contrastantes. O modelo de preferência é então utilizado para aprimorar um modelo de linguagem base não alinhado por meio de aprendizado por reforço. Empiricamente, o RLCD supera as linhas de base RLAIF (Bai et al., 2022b) e distilação de contexto (Huang et al., 2022) em três tarefas diversas de alinhamento—inocuidade, utilidade e geração de esboços de histórias—e em ambas as escalas de modelos de 7B e 30B para simulação de dados de preferência.
Este artigo desafia o paradigma bem estabelecido para a construção de redes any-to-any para o treinamento de Modelos de Linguagem de Grande Escala (LLMs). Demonstramos que os LLMs exibem um padrão de comunicação único, no qual apenas pequenos grupos de GPUs requerem comunicação any-to-any de alta largura de banda entre si para alcançar um desempenho de treinamento quase ideal. Entre esses grupos de GPUs, a comunicação é insignificante, esparsa e homogênea. Propomos uma nova arquitetura de rede que se assemelha de perto aos requisitos de comunicação dos LLMs. Nossa arquitetura particiona o cluster em conjuntos de GPUs interconectados com interconexões any-to-any de alta largura de banda e não bloqueantes, que chamamos de domínios HB. Entre os domínios HB, a rede conecta apenas as GPUs com demandas de comunicação. Chamamos essa conexão de "apenas trilho" e mostramos que nossa arquitetura proposta reduz o custo da rede em até 75% em comparação com as redes Clos any-to-any state-of-the-art, sem comprometer o desempenho do treinamento de LLMs.
Modelos do tipo DETR têm impulsionado significativamente o desempenho de detectores e até superado modelos convolucionais clássicos. No entanto, o tratamento igualitário de todos os tokens, sem discriminação, gera uma carga computacional redundante na estrutura tradicional do codificador. As estratégias recentes de esparsificação exploram um subconjunto de tokens informativos para reduzir a complexidade da atenção, mantendo o desempenho por meio do codificador esparso. Porém, esses métodos tendem a depender de estatísticas de modelo não confiáveis. Além disso, a simples redução da população de tokens prejudica em grande medida o desempenho da detecção, limitando a aplicação desses modelos esparsos. Propomos o Focus-DETR, que concentra a atenção em tokens mais informativos para um melhor equilíbrio entre eficiência computacional e precisão do modelo. Especificamente, reconstruímos o codificador com atenção dupla, que inclui um mecanismo de pontuação de tokens que considera tanto a localização quanto as informações semânticas de categoria dos objetos a partir de mapas de características multiescala. Abandonamos eficientemente as consultas de fundo e aprimoramos a interação semântica das consultas de objetos refinadas com base nas pontuações. Em comparação com os detectores esparsos do tipo DETR mais avançados sob a mesma configuração, nosso Focus-DETR obtém complexidade comparável enquanto alcança 50,4 AP (+2,2) no COCO. O código está disponível em https://github.com/huawei-noah/noah-research/tree/master/Focus-DETR e https://gitee.com/mindspore/models/tree/master/research/cv/Focus-DETR.
O aprendizado auto-supervisionado de representações visuais tem se concentrado na aprendizagem de características de conteúdo, que não capturam o movimento ou a localização de objetos, e se concentram em identificar e diferenciar objetos em imagens e vídeos. Por outro lado, a estimativa de fluxo óptico é uma tarefa que não envolve a compreensão do conteúdo das imagens nas quais é estimada. Nós unificamos as duas abordagens e introduzimos o MC-JEPA, uma arquitetura preditiva de incorporação conjunta e uma abordagem de aprendizado auto-supervisionado para aprender conjuntamente o fluxo óptico e as características de conteúdo dentro de um codificador compartilhado, demonstrando que os dois objetivos associados; o objetivo de estimativa de fluxo óptico e o objetivo de aprendizado auto-supervisionado; se beneficiam mutuamente e, assim, aprendem características de conteúdo que incorporam informações de movimento. A abordagem proposta alcança desempenho comparável aos benchmarks existentes de fluxo óptico não supervisionado, bem como às abordagens comuns de aprendizado auto-supervisionado em tarefas subsequentes, como a segmentação semântica de imagens e vídeos.
A previsão de atividades de longo prazo é um problema de pesquisa especialmente desafiador, pois requer a compreensão das relações temporais entre as ações observadas, bem como a variabilidade e complexidade das atividades humanas. Apesar de depender de supervisão forte por meio de anotações humanas caras, as abordagens de previsão mais avançadas frequentemente generalizam mal para dados não vistos. Para mitigar esse problema, propomos o Pré-treinamento Multiescala em Vídeo (MVP, na sigla em inglês), uma nova abordagem de pré-treinamento auto-supervisionado que aprende representações robustas para previsão ao aprender a prever representações contextualizadas de clipes de vídeo futuros em múltiplas escalas de tempo. O MVP é baseado em nossa observação de que as ações em vídeos têm uma natureza multiescala, onde ações atômicas geralmente ocorrem em uma escala de tempo curta, enquanto ações mais complexas podem abranger escalas de tempo mais longas. Comparamos o MVP com abordagens de aprendizado de vídeo auto-supervisionado de última geração em tarefas de previsão de longo prazo, incluindo antecipação de ações de longo prazo e previsão de resumos de vídeo. Nossos experimentos abrangentes nos conjuntos de dados Ego4D e Epic-Kitchens-55/100 demonstram que o MVP supera os métodos mais avançados por margens significativas. Notavelmente, o MVP obtém um ganho de desempenho relativo de mais de 20% em precisão na previsão de resumos de vídeo em comparação com os métodos existentes.