Artigos de pesquisa em IA selecionados diariamente com traduções
Uma janela de contexto ampla é uma característica desejável em grandes modelos de linguagem (LLMs). No entanto, devido aos altos custos de ajuste fino, à escassez de textos longos e aos valores catastróficos introduzidos por novas posições de tokens, as janelas de contexto estendidas atuais são limitadas a cerca de 128 mil tokens. Este artigo apresenta o LongRoPE que, pela primeira vez, estende a janela de contexto de LLMs pré-treinados para impressionantes 2048 mil tokens, com até apenas 1 mil passos de ajuste fino em comprimentos de treinamento de até 256 mil tokens, mantendo o desempenho na janela de contexto original curta. Isso é alcançado por três inovações principais: (i) identificamos e exploramos duas formas de não uniformidades na interpolação posicional por meio de uma busca eficiente, fornecendo uma melhor inicialização para o ajuste fino e permitindo uma extensão de 8x em cenários sem ajuste fino; (ii) introduzimos uma estratégia de extensão progressiva que primeiro ajusta um LLM de 256 mil tokens e, em seguida, realiza uma segunda interpolação posicional no LLM estendido ajustado para alcançar uma janela de contexto de 2048 mil tokens; (iii) reajustamos o LongRoPE em comprimentos de 8 mil tokens para recuperar o desempenho da janela de contexto curta. Experimentos extensivos em LLaMA2 e Mistral em várias tarefas demonstram a eficácia do nosso método. Modelos estendidos via LongRoPE mantêm a arquitetura original com pequenas modificações na incorporação posicional e podem reutilizar a maioria das otimizações pré-existentes.
Os métodos atuais de aprendizado profundo concentram-se em como projetar as funções objetivo mais adequadas para que os resultados de previsão do modelo possam estar o mais próximo possível da verdade fundamental. Paralelamente, uma arquitetura apropriada que facilite a aquisição de informações suficientes para a previsão precisa ser projetada. Os métodos existentes ignoram o fato de que, quando os dados de entrada passam por extração de características camada por camada e transformação espacial, uma grande quantidade de informações será perdida. Este artigo se aprofundará nas questões importantes da perda de dados quando eles são transmitidos por redes profundas, nomeadamente o gargalo de informação e as funções reversíveis. Propomos o conceito de informação de gradiente programável (PGI) para lidar com as diversas mudanças exigidas pelas redes profundas para alcançar múltiplos objetivos. O PGI pode fornecer informações completas de entrada para a tarefa alvo, permitindo o cálculo da função objetivo, de modo que informações confiáveis de gradiente possam ser obtidas para atualizar os pesos da rede. Além disso, uma nova arquitetura de rede leve -- Rede de Agregação de Camadas Eficiente Generalizada (GELAN), baseada no planejamento de caminho de gradiente, foi projetada. A arquitetura da GELAN confirma que o PGI obteve resultados superiores em modelos leves. Verificamos a GELAN e o PGI propostos na detecção de objetos baseada no conjunto de dados MS COCO. Os resultados mostram que a GELAN utiliza apenas operadores de convolução convencionais para alcançar uma melhor utilização de parâmetros do que os métodos state-of-the-art desenvolvidos com base em convolução depth-wise. O PGI pode ser usado para uma variedade de modelos, desde os leves até os grandes. Ele pode ser usado para obter informações completas, de modo que modelos treinados do zero possam alcançar resultados melhores do que os modelos state-of-the-art pré-treinados usando grandes conjuntos de dados, os resultados da comparação são mostrados na Figura 1. Os códigos-fonte estão disponíveis em: https://github.com/WongKinYiu/yolov9.
Apresentamos o Conjunto de Dados Aria Everyday Activities (AEA), um conjunto de dados aberto e multimodal egocêntrico, gravado utilizando os óculos Project Aria. O AEA contém 143 sequências de atividades diárias registradas por múltiplos usuários em cinco locais internos geograficamente diversos. Cada gravação inclui dados de sensores multimodais capturados pelos óculos Project Aria. Além disso, o AEA fornece dados de percepção computacional, como trajetórias 3D alinhadas globalmente de alta frequência, nuvem de pontos da cena, vetor de direção do olhar 3D por quadro e transcrição de fala alinhada temporalmente. Neste artigo, demonstramos algumas aplicações de pesquisa exemplares possibilitadas por este conjunto de dados, incluindo reconstrução neural de cenas e segmentação por prompt. O AEA é um conjunto de dados de código aberto que pode ser baixado em projectaria.com. Também estamos disponibilizando implementações de código aberto e exemplos de como utilizar o conjunto de dados nas ferramentas do Project Aria.
Propomos um método de destilação por difusão que alcança um novo estado da arte na geração de imagens a partir de texto em uma etapa/poucas etapas com resolução de 1024px baseado no SDXL. Nosso método combina destilação progressiva e adversária para alcançar um equilíbrio entre qualidade e cobertura de modos. Neste artigo, discutimos a análise teórica, o design do discriminador, a formulação do modelo e as técnicas de treinamento. Disponibilizamos nossos modelos destilados SDXL-Lightning como código aberto, tanto como pesos LoRA quanto como pesos completos da UNet.
Os modelos contemporâneos para geração de imagens demonstram qualidade e versatilidade notáveis. Influenciados por essas vantagens, a comunidade de pesquisa os adapta para gerar vídeos. Como o conteúdo de vídeo é altamente redundante, argumentamos que a aplicação ingênua dos avanços dos modelos de imagem ao domínio da geração de vídeos reduz a fidelidade do movimento, a qualidade visual e prejudica a escalabilidade. Neste trabalho, desenvolvemos o Snap Video, um modelo voltado prioritariamente para vídeos que aborda sistematicamente esses desafios. Para isso, primeiro estendemos o framework EDM para levar em consideração pixels redundantes espacial e temporalmente, suportando naturalmente a geração de vídeos. Em segundo lugar, mostramos que uma U-Net — uma ferramenta essencial por trás da geração de imagens — escala de forma inadequada ao gerar vídeos, exigindo um custo computacional significativo. Portanto, propomos uma nova arquitetura baseada em transformers que treina 3,31 vezes mais rápido que as U-Nets (e é ~4,5 vezes mais rápida na inferência). Isso nos permite treinar de forma eficiente um modelo de texto para vídeo com bilhões de parâmetros pela primeira vez, alcançando resultados de ponta em diversos benchmarks e gerando vídeos com qualidade substancialmente maior, consistência temporal e complexidade de movimento. Os estudos com usuários mostraram que nosso modelo foi preferido por uma grande margem em relação aos métodos mais recentes. Consulte nosso site em https://snap-research.github.io/snapvideo/.
Os modelos de linguagem de grande escala (LLMs) revolucionaram o processamento de linguagem natural. No entanto, incorporar de forma eficaz dados de interação do usuário complexos e potencialmente ruidosos continua sendo um desafio. Para abordar isso, propomos o User-LLM, uma nova estrutura que utiliza embeddings de usuário para contextualizar LLMs. Esses embeddings, extraídos de diversas interações do usuário por meio de pré-treinamento auto-supervisionado, capturam preferências latentes do usuário e sua evolução ao longo do tempo. Integramos esses embeddings de usuário com LLMs por meio de atenção cruzada e soft-prompting, permitindo que os LLMs se adaptem dinamicamente ao contexto do usuário. Nossos experimentos abrangentes nos conjuntos de dados MovieLens, Amazon Review e Google Local Review demonstram ganhos significativos de desempenho em várias tarefas. Notavelmente, nossa abordagem supera a contextualização baseada em prompts de texto em tarefas de sequência longa e tarefas que exigem um profundo entendimento do usuário, ao mesmo tempo em que é computacionalmente eficiente. Além disso, incorporamos camadas Perceiver para simplificar a integração entre codificadores de usuário e LLMs, reduzindo as demandas computacionais.
Trabalhos recentes demonstraram que agentes de aprendizado por reforço profundo têm dificuldade em utilizar efetivamente seus parâmetros de rede. Aproveitamos insights anteriores sobre as vantagens de técnicas de treinamento esparso e mostramos que a poda gradual de magnitude permite que os agentes maximizem a eficácia dos parâmetros. Isso resulta em redes que proporcionam melhorias dramáticas de desempenho em comparação com redes tradicionais e exibem um tipo de "lei de escalonamento", utilizando apenas uma pequena fração dos parâmetros da rede completa.
Recentemente, foi demonstrado que ataques adversariais em modelos de linguagem de grande escala (LLMs) podem "desbloquear" o modelo, levando-o a fazer declarações prejudiciais. Neste trabalho, argumentamos que o espectro de ataques adversariais em LLMs é muito maior do que apenas o desbloqueio. Apresentamos uma visão ampla das possíveis superfícies de ataque e objetivos de ataque. Com base em uma série de exemplos concretos, discutimos, categorizamos e sistematizamos ataques que forçam comportamentos não intencionais variados, como desorientação, controle do modelo, negação de serviço ou extração de dados. Analisamos esses ataques em experimentos controlados e descobrimos que muitos deles decorrem da prática de pré-treinar LLMs com capacidades de codificação, bem como da existência contínua de "tokens de falha" estranhos nos vocabulários comuns de LLMs, que deveriam ser removidos por razões de segurança.
Com o desenvolvimento dos modelos de difusão, a transferência de estilo de imagem guiada por texto demonstrou resultados de síntese controlada de alta qualidade. No entanto, a utilização de texto para a transferência de estilo musical diversa apresenta desafios significativos, principalmente devido à disponibilidade limitada de conjuntos de dados de áudio-texto correspondentes. A música, sendo uma forma de arte abstrata e complexa, exibe variações e nuances mesmo dentro do mesmo gênero, tornando descrições textuais precisas desafiadoras. Este artigo apresenta uma abordagem de transferência de estilo musical que efetivamente captura atributos musicais utilizando dados mínimos. Introduzimos um novo módulo de inversão textual variável no tempo para capturar com precisão características de mel-espectrogramas em diferentes níveis. Durante a inferência, propomos uma técnica de estilização com redução de viés para obter resultados estáveis. Os resultados experimentais demonstram que nosso método pode transferir o estilo de instrumentos específicos, bem como incorporar sons naturais para compor melodias. Amostras e código-fonte estão disponíveis em https://lsfhuihuiff.github.io/MusicTI/.
O mecanismo de atenção tem sido crucial para modelos de difusão de imagens, no entanto, sua complexidade computacional quadrática limita os tamanhos de imagens que podemos processar dentro de restrições razoáveis de tempo e memória. Este artigo investiga a importância da atenção densa em modelos generativos de imagens, que frequentemente contêm características redundantes, tornando-os adequados para mecanismos de atenção mais esparsos. Propomos um novo método sem treinamento, chamado ToDo, que se baseia na redução de amostragem de tokens de chave e valor para acelerar a inferência do Stable Diffusion em até 2x para tamanhos comuns e até 4,5x ou mais para resoluções altas como 2048x2048. Demonstramos que nossa abordagem supera métodos anteriores no equilíbrio entre eficiência de processamento e fidelidade.
O raciocínio multimodal representa uma capacidade fundamental para grandes modelos de visão e linguagem (LVLMs, na sigla em inglês). A integração com Linguagens Específicas de Domínio (DSL, na sigla em inglês), que oferecem representações visuais precisas, capacita esses modelos a realizar raciocínios mais precisos em domínios complexos e especializados. No entanto, o método tradicional de prompt de Cadeia de Pensamento (CoT, na sigla em inglês) enfrenta desafios ao tentar aproveitar efetivamente as vantagens únicas das representações visuais e das DSLs, principalmente devido aos seus mecanismos de raciocínio distintos. Além disso, ele frequentemente falha em abordar etapas críticas em tarefas de raciocínio de múltiplos passos. Para mitigar esses desafios, introduzimos o método de prompt de Alinhamento Comportamental Bimodal (BBA, na sigla em inglês), projetado para maximizar o potencial das DSLs no aprimoramento de tarefas complexas de raciocínio multimodal. Esse método começa orientando os LVLMs a criar cadeias de raciocínio separadas para as representações visuais e das DSLs. Em seguida, ele alinha essas cadeias ao resolver quaisquer inconsistências, alcançando assim uma integração coesa dos comportamentos de diferentes modalidades. Nossos experimentos demonstram que o BBA melhora substancialmente o desempenho do GPT-4V(ision) na resolução de problemas de geometria (de 28,34% para 34,22%), na previsão de vantagem posicional no xadrez (de 42,08% para 46,99%) e na previsão de propriedades moleculares (de 77,47% para 83,52%).
Domar o resultado da geração de modelos de última geração de Difusão e Flow-Matching (FM) sem a necessidade de re-treinar um modelo específico para a tarefa libera uma ferramenta poderosa para resolver problemas inversos, geração condicional e geração controlada em geral. Neste trabalho, introduzimos o D-Flow, uma estrutura simples para controlar o processo de geração ao diferenciar através do fluxo, otimizando o ponto de origem (ruído). Motivamos essa estrutura por nossa observação chave, que afirma que, para modelos de Difusão/FM treinados com caminhos de probabilidade gaussiana, diferenciar através do processo de geração projeta o gradiente na variedade de dados, injetando implicitamente o prior no processo de otimização. Validamos nossa estrutura em problemas de geração controlada linear e não linear, incluindo: problemas inversos de imagem e áudio e geração condicional de moléculas, alcançando desempenho de última geração em todos.
Métodos de decodificação do tipo "rascunhar-depois-verificar", como a decodificação especulativa, são amplamente adotados como métodos livres de treinamento para acelerar a inferência de modelos de linguagem de grande escala (LLMs, na sigla em inglês). Em vez de empregar um processo autoregressivo para decodificar tokens sequencialmente, a decodificação especulativa inicialmente cria rascunhos com um modelo pequeno e eficiente. Em seguida, os LLMs são necessários para realizar a verificação e correção de forma não autoregressiva, a fim de minimizar o tempo adicional. Gerar rascunhos mais longos pode levar a acelerações ainda mais significativas uma vez verificados, mas também incorre em custos substanciais de tentativa e erro caso falhe. Sofrendo com a alta probabilidade de falha na verificação, os métodos de decodificação existentes não podem rascunhar muito conteúdo para verificação de uma só vez, alcançando uma aceleração de inferência subótima. Neste artigo, apresentamos o Ouroboros, que constrói um pool de candidatos de frases a partir do processo de verificação dos LLMs para fornecer candidatos à geração de rascunhos do modelo pequeno. Assim, o Ouroboros pode melhorar ainda mais a eficiência e a eficácia dos rascunhos iniciais. Os resultados experimentais em tarefas típicas de geração de texto mostram que o Ouroboros alcança acelerações de até 1,9x e 2,8x em comparação com a decodificação antecipada e a decodificação especulativa, respectivamente. O código-fonte do Ouroboros está disponível em https://github.com/thunlp/Ouroboros.