Artigos de pesquisa em IA selecionados diariamente com traduções
A otimização é onipresente. Embora os algoritmos baseados em derivadas tenham sido ferramentas poderosas para diversos problemas, a ausência de gradiente impõe desafios em muitas aplicações do mundo real. Neste trabalho, propomos a Otimização por PROmpting (OPRO), uma abordagem simples e eficaz para aproveitar modelos de linguagem de grande escala (LLMs) como otimizadores, onde a tarefa de otimização é descrita em linguagem natural. Em cada etapa de otimização, o LLM gera novas soluções a partir do prompt que contém soluções previamente geradas com seus valores, então as novas soluções são avaliadas e adicionadas ao prompt para a próxima etapa de otimização. Primeiro, demonstramos o OPRO em problemas de regressão linear e do caixeiro-viajante, depois passamos para a otimização de prompts, onde o objetivo é encontrar instruções que maximizem a precisão da tarefa. Com uma variedade de LLMs, mostramos que os melhores prompts otimizados pelo OPRO superam os prompts projetados por humanos em até 8% no GSM8K e em até 50% nas tarefas do Big-Bench Hard.
Modelos de linguagem de grande escala (LLMs, na sigla em inglês) alcançaram sucesso notável em tarefas de PLN e multimodais. Apesar desses avanços, seu desenvolvimento enfrenta dois desafios principais: (i) alto custo computacional; e (ii) dificuldade em realizar avaliações justas e objetivas. LLMs são proibitivamente caros, tornando viável seu treinamento apenas para alguns grandes players, limitando tanto oportunidades de pesquisa quanto de aplicação. Isso ressalta a importância de um treinamento de LLMs com custo eficiente. Neste artigo, utilizamos uma estratégia de crescimento para reduzir significativamente o custo de treinamento de LLMs. Demonstramos que um LLM com 101 bilhões de parâmetros e 0,31 trilhão de tokens pode ser treinado com um orçamento de 100 mil dólares. Também adotamos um paradigma de avaliação sistemática para a avaliação de QI de LLMs, complementando avaliações existentes que focam mais em habilidades orientadas a conhecimento. Introduzimos nosso benchmark, incluindo avaliações de aspectos importantes da inteligência, como mapeamento simbólico, compreensão de regras, mineração de padrões e anti-interferência. Tais avaliações minimizam o impacto potencial da memorização. Resultados experimentais mostram que nosso modelo FLM-101B, treinado com um orçamento de 100 mil dólares, alcança desempenho comparável a modelos poderosos e bem conhecidos, como GPT-3 e GLM-130B, especialmente nas avaliações de QI com contextos não vistos nos dados de treinamento. O checkpoint do FLM-101B será disponibilizado como código aberto em https://huggingface.co/CofeAI/FLM-101B.
Apesar de suas capacidades impressionantes, os grandes modelos de linguagem (LLMs) são propensos a alucinações, ou seja, gerar conteúdo que se desvia dos fatos vistos durante o pré-treinamento. Propomos uma estratégia simples de decodificação para reduzir alucinações em LLMs pré-treinados que não requer condicionamento em conhecimento externo recuperado nem ajuste fino adicional. Nossa abordagem obtém a distribuição do próximo token contrastando as diferenças nos logits obtidos da projeção das camadas posteriores versus as camadas anteriores no espaço de vocabulário, explorando o fato de que o conhecimento factual em LLMs geralmente foi mostrado estar localizado em camadas específicas do transformador. Descobrimos que essa abordagem de Decodificação por Contraste de Camadas (DoLa) é capaz de melhor evidenciar o conhecimento factual e reduzir a geração de fatos incorretos. O DoLa melhora consistentemente a veracidade em tarefas de múltipla escolha e tarefas de geração aberta, por exemplo, melhorando o desempenho dos modelos da família LLaMA no TruthfulQA em 12-17 pontos percentuais absolutos, demonstrando seu potencial em fazer com que LLMs gerem fatos verdadeiros de forma confiável.
A propagação baseada em fluxo e o Transformer espaço-temporal são dois mecanismos principais na restauração de vídeo (VI). Apesar da eficácia desses componentes, eles ainda sofrem com algumas limitações que afetam seu desempenho. Abordagens anteriores baseadas em propagação são realizadas separadamente, seja no domínio da imagem ou no domínio das características. A propagação global de imagens isolada do aprendizado pode causar desalinhamento espacial devido a fluxos ópticos imprecisos. Além disso, restrições de memória ou computação limitam o alcance temporal da propagação de características e do Transformer de vídeo, impedindo a exploração de informações de correspondência de quadros distantes. Para abordar esses problemas, propomos uma estrutura aprimorada, chamada ProPainter, que envolve uma propagação aprimorada e um Transformer eficiente. Especificamente, introduzimos a propagação em domínio duplo, que combina as vantagens da deformação de imagem e de características, explorando correspondências globais de forma confiável. Também propomos um Transformer de vídeo esparso guiado por máscara, que alcança alta eficiência ao descartar tokens desnecessários e redundantes. Com esses componentes, o ProPainter supera os métodos anteriores por uma grande margem de 1,46 dB em PSNR, mantendo uma eficiência atraente.
A anotação de dados de treinamento para segmentação de vídeo é dispendiosa. Isso dificulta a extensão de algoritmos de ponta a ponta para novas tarefas de segmentação de vídeo, especialmente em cenários de grande vocabulário. Para "rastrear qualquer coisa" sem treinar em dados de vídeo para cada tarefa individual, desenvolvemos uma abordagem de segmentação de vídeo desacoplada (DEVA), composta por segmentação em nível de imagem específica para a tarefa e propagação temporal bidirecional agnóstica à classe/tarefa. Devido a esse design, precisamos apenas de um modelo em nível de imagem para a tarefa alvo (que é mais barato de treinar) e de um modelo universal de propagação temporal que é treinado uma vez e generaliza entre tarefas. Para combinar efetivamente esses dois módulos, utilizamos propagação bidirecional para a fusão (semi)online de hipóteses de segmentação de diferentes quadros, gerando uma segmentação coerente. Demonstramos que essa formulação desacoplada se compara favoravelmente a abordagens de ponta a ponta em várias tarefas com escassez de dados, incluindo segmentação panóptica de vídeo de grande vocabulário, segmentação de vídeo em mundo aberto, segmentação de vídeo por referência e segmentação de objetos em vídeo não supervisionada. O código está disponível em: https://hkchengrex.github.io/Tracking-Anything-with-DEVA.
Apresentamos o ImageBind-LLM, um método de ajuste de instrução multimodal para grandes modelos de linguagem (LLMs) via ImageBind. Trabalhos existentes focam principalmente no ajuste de instruções de linguagem e imagem, ao contrário dos quais, nosso ImageBind-LLM pode responder a condições multimodais, incluindo áudio, nuvens de pontos 3D, vídeo e sua aritmética no espaço de incorporação, apenas com treinamento de alinhamento imagem-texto. Durante o treinamento, adotamos uma rede de ligação aprendível para alinhar o espaço de incorporação entre o LLaMA e o codificador de imagens do ImageBind. Em seguida, as características de imagem transformadas pela rede de ligação são adicionadas aos tokens de palavras de todas as camadas do LLaMA, o que injeta progressivamente instruções visuais por meio de um mecanismo de portão sem atenção e inicializado com zero. Auxiliado pela incorporação conjunta do ImageBind, o simples treinamento imagem-texto permite que nosso modelo exiba capacidades superiores de seguir instruções multimodais. Durante a inferência, as entradas multimodais são alimentadas nos codificadores correspondentes do ImageBind e processadas por um modelo de cache visual proposto para aprimoramento adicional de incorporação cruzada. O modelo de cache sem treinamento recupera de três milhões de características de imagem extraídas pelo ImageBind, o que efetivamente mitiga a discrepância de modalidade entre treinamento e inferência. Notavelmente, com nossa abordagem, o ImageBind-LLM pode responder a instruções de diversas modalidades e demonstrar qualidade significativa na geração de linguagem. O código está disponível em https://github.com/OpenGVLab/LLaMA-Adapter.
Apresentamos o InstructDiffusion, um framework unificador e genérico para alinhar tarefas de visão computacional com instruções humanas. Diferente das abordagens existentes que integram conhecimento prévio e predefinem o espaço de saída (por exemplo, categorias e coordenadas) para cada tarefa de visão, nós transformamos diversas tarefas de visão em um processo intuitivo de manipulação de imagens, cujo espaço de saída é um espaço de pixels flexível e interativo. Concretamente, o modelo é construído sobre o processo de difusão e é treinado para prever pixels de acordo com instruções do usuário, como circundar o ombro esquerdo do homem em vermelho ou aplicar uma máscara azul ao carro da esquerda. O InstructDiffusion é capaz de lidar com uma variedade de tarefas de visão, incluindo tarefas de compreensão (como segmentação e detecção de pontos-chave) e tarefas generativas (como edição e aprimoramento). Ele até mesmo demonstra a capacidade de lidar com tarefas não vistas anteriormente e supera métodos anteriores em novos conjuntos de dados. Isso representa um passo significativo em direção a uma interface de modelagem generalista para tarefas de visão, avançando a inteligência artificial geral no campo da visão computacional.
Neste artigo, apresentamos um novo modelo de difusão chamado SyncDreamer que gera imagens multivista consistentes a partir de uma imagem de vista única. Utilizando modelos de difusão 2D em larga escala pré-treinados, trabalhos recentes como o Zero123 demonstram a capacidade de gerar novas vistas plausíveis a partir de uma imagem de vista única de um objeto. No entanto, manter a consistência na geometria e nas cores das imagens geradas continua sendo um desafio. Para resolver esse problema, propomos um modelo de difusão multivista sincronizado que modela a distribuição de probabilidade conjunta de imagens multivista, permitindo a geração de imagens multivista consistentes em um único processo reverso. O SyncDreamer sincroniza os estados intermediários de todas as imagens geradas em cada etapa do processo reverso por meio de um mecanismo de atenção de características 3D que correlaciona as características correspondentes em diferentes vistas. Experimentos mostram que o SyncDreamer gera imagens com alta consistência entre diferentes vistas, tornando-o adequado para várias tarefas de geração 3D, como síntese de novas vistas, texto-para-3D e imagem-para-3D.
Avanços recentes em modelos de difusão, como o ControlNet, permitiram a geração de imagens de alta fidelidade a partir de texto com controle geométrico. No entanto, nenhum deles aborda a questão de adicionar tal controlabilidade à geração de texto para 3D. Em resposta, propomos o Text2Control3D, um método de geração de avatares 3D controláveis a partir de texto, cuja expressão facial é controlável dado um vídeo monocular capturado casualmente com uma câmera portátil. Nossa principal estratégia é construir o avatar 3D em Campos de Radiação Neural (NeRF) otimizados com um conjunto de imagens controladas e conscientes do ponto de vista que geramos a partir do ControlNet, cuja entrada de condição é o mapa de profundidade extraído do vídeo de entrada. Ao gerar as imagens conscientes do ponto de vista, utilizamos atenção de referência cruzada para injetar expressões faciais e aparências bem controladas e referenciais por meio de atenção cruzada. Também realizamos a filtragem passa-baixa do latente Gaussiano do modelo de difusão para amenizar o problema de textura agnóstica ao ponto de vista que observamos em nossa análise empírica, onde as imagens conscientes do ponto de vista contêm texturas idênticas em posições de pixel idênticas que são incompreensíveis em 3D. Por fim, para treinar o NeRF com as imagens que são conscientes do ponto de vista, mas não são estritamente consistentes em geometria, nossa abordagem considera a variação geométrica por imagem como uma visão de deformação de um espaço canônico 3D compartilhado. Consequentemente, construímos o avatar 3D em um espaço canônico de NeRF deformável aprendendo um conjunto de deformações por imagem por meio de uma tabela de campo de deformação. Demonstramos os resultados empíricos e discutimos a eficácia de nosso método.
Os Modelos de Linguagem de Grande Escala (LLMs) tornaram-se onipresentes em diversos domínios, transformando a forma como interagimos com informações e conduzimos pesquisas. No entanto, a maioria dos LLMs de alto desempenho permanece confinada atrás de barreiras proprietárias, dificultando o progresso científico. Por outro lado, a maioria dos LLMs de código aberto é limitada em sua capacidade de suportar comprimentos de sequência mais longos, um requisito essencial para muitas tarefas que exigem inferência sobre um contexto de entrada. Para abordar essa questão, treinamos o XGen, uma série de modelos com 7 bilhões de parâmetros, com comprimentos de sequência de até 8K e até 1,5 trilhão de tokens. Também ajustamos finamente os modelos XGen em dados instrucionais de domínio público, criando suas versões ajustadas para instruções (XGen-Inst). Disponibilizamos nossos modelos em código aberto tanto para avanços na pesquisa quanto para aplicações comerciais. Nossa avaliação em benchmarks padrão mostra que os modelos XGen alcançam resultados comparáveis ou superiores quando comparados com os LLMs de código aberto mais avançados. Nossa avaliação direcionada em tarefas de modelagem de sequências longas demonstra os benefícios de nossos modelos de 8K sequências em relação aos LLMs de código aberto com 2K sequências.
Apresentamos uma análise detalhada de um sistema de aprendizado robótico do mundo real que, em trabalhos anteriores, demonstrou ser capaz de realizar centenas de rebatidas de tênis de mesa com um humano e possui a habilidade de devolver a bola com precisão para alvos desejados. Este sistema integra um subsistema de percepção altamente otimizado, um controlador robótico de alta velocidade e baixa latência, um paradigma de simulação que pode prevenir danos no mundo real e também treinar políticas para transferência zero-shot, além de reinicializações automatizadas do ambiente real que permitem treinamento e avaliação autônomos em robôs físicos. Complementamos uma descrição completa do sistema, incluindo diversas decisões de projeto que normalmente não são amplamente divulgadas, com uma série de estudos que esclarecem a importância de mitigar várias fontes de latência, considerar desvios nas distribuições de treinamento e implantação, a robustez do sistema de percepção, a sensibilidade aos hiperparâmetros da política e a escolha do espaço de ação. Um vídeo demonstrando os componentes do sistema e detalhes dos resultados experimentais pode ser encontrado em https://youtu.be/uFcnWjB42I0.
Inspirados pelo notável sucesso dos Modelos de Difusão Latente (LDMs) para síntese de imagens, estudamos o uso de LDMs para geração de texto para vídeo, o que representa um desafio formidável devido às restrições computacionais e de memória durante o treinamento e a inferência do modelo. Um único LDM geralmente é capaz de gerar apenas um número muito limitado de quadros de vídeo. Alguns trabalhos existentes focam em modelos de predição separados para gerar mais quadros de vídeo, mas esses métodos sofrem com custos adicionais de treinamento e tremores em nível de quadro. Neste artigo, propomos uma estrutura chamada "Reuse and Diffuse" (Reutilizar e Difundir), apelidada de VidRD, para produzir mais quadros seguindo os quadros já gerados por um LDM. Condicionado a um clipe de vídeo inicial com um pequeno número de quadros, quadros adicionais são gerados iterativamente reutilizando as características latentes originais e seguindo o processo de difusão anterior. Além disso, para o autoencoder usado para tradução entre o espaço de pixels e o espaço latente, injetamos camadas temporais em seu decodificador e ajustamos essas camadas para maior consistência temporal. Também propomos um conjunto de estratégias para compor dados de vídeo-texto que envolvem conteúdo diversificado de vários conjuntos de dados existentes, incluindo conjuntos de dados de vídeo para reconhecimento de ações e conjuntos de dados de imagem-texto. Experimentações extensivas mostram que nosso método alcança bons resultados tanto em avaliações quantitativas quanto qualitativas. Nossa página do projeto está disponível em https://anonymous0x233.github.io/ReuseAndDiffuse/{aqui}.