Artigos de pesquisa em IA selecionados diariamente com traduções
A crescente demanda por geração de vídeos de alta fidelidade a partir de descrições textuais tem catalisado pesquisas significativas nesse campo. Neste trabalho, apresentamos o MagicVideo-V2, que integra o modelo de texto para imagem, o gerador de movimento de vídeo, o módulo de incorporação de imagem de referência e o módulo de interpolação de quadros em um pipeline de geração de vídeo de ponta a ponta. Beneficiando-se desses designs de arquitetura, o MagicVideo-V2 é capaz de gerar vídeos esteticamente agradáveis, de alta resolução, com fidelidade e suavidade notáveis. Ele demonstra desempenho superior em relação a sistemas líderes de Texto para Vídeo, como Runway, Pika 1.0, Morph, Moon Valley e o modelo Stable Video Diffusion, por meio de avaliações de usuários em grande escala.
Apresentamos o MAGNeT, um método de modelagem de sequências generativas mascaradas que opera diretamente sobre vários fluxos de tokens de áudio. Diferente de trabalhos anteriores, o MAGNeT é composto por um transformer de estágio único e não autorregressivo. Durante o treinamento, prevemos trechos de tokens mascarados obtidos de um agendador de mascaramento, enquanto, durante a inferência, construímos gradualmente a sequência de saída usando várias etapas de decodificação. Para aprimorar ainda mais a qualidade do áudio gerado, introduzimos um novo método de reavaliação no qual aproveitamos um modelo pré-treinado externo para reavaliar e classificar as previsões do MAGNeT, que serão então usadas em etapas posteriores de decodificação. Por fim, exploramos uma versão híbrida do MAGNeT, na qual fundimos modelos autorregressivos e não autorregressivos para gerar os primeiros segundos de maneira autorregressiva, enquanto o restante da sequência é decodificado em paralelo. Demonstramos a eficiência do MAGNeT para a tarefa de geração de texto-para-música e texto-para-áudio e realizamos uma avaliação empírica extensa, considerando tanto métricas objetivas quanto estudos com humanos. A abordagem proposta é comparável às baselines avaliadas, sendo significativamente mais rápida (7x mais rápida que a baseline autorregressiva). Por meio de estudos de ablação e análise, destacamos a importância de cada um dos componentes que compõem o MAGNeT, juntamente com a indicação das compensações entre modelagem autorregressiva e não autorregressiva, considerando latência, taxa de transferência e qualidade de geração. Amostras estão disponíveis em nossa página de demonstração https://pages.cs.huji.ac.il/adiyoss-lab/MAGNeT.
A atenção linear é um mecanismo de atenção eficiente que recentemente surgiu como uma alternativa promissora à atenção softmax convencional. Com sua capacidade de processar tokens em complexidades computacionais lineares, a atenção linear, em teoria, pode lidar com sequências de comprimento ilimitado sem sacrificar a velocidade, ou seja, mantendo uma velocidade de treinamento constante para vários comprimentos de sequência com um consumo de memória fixo. No entanto, devido ao problema com a soma cumulativa (cumsum), os algoritmos atuais de atenção linear não conseguem demonstrar sua vantagem teórica em um cenário causal. Neste artigo, apresentamos o Lightning Attention-2, a primeira implementação de atenção linear que permite que a atenção linear realize seus benefícios computacionais teóricos. Para alcançar isso, aproveitamos a ideia de tiling, tratando separadamente os componentes intra-bloco e inter-bloco no cálculo da atenção linear. Especificamente, utilizamos o mecanismo convencional de computação de atenção para os intra-blocos e aplicamos truques de kernel de atenção linear para os inter-blocos. Uma técnica de tiling é adotada tanto nos procedimentos de forward quanto de backward para aproveitar ao máximo o hardware da GPU. Implementamos nosso algoritmo em Triton para torná-lo consciente de IO e amigável ao hardware. Vários experimentos são conduzidos em diferentes tamanhos de modelo e comprimentos de sequência. O Lightning Attention-2 mantém uma velocidade de treinamento e inferência consistente, independentemente do comprimento da sequência de entrada, e é significativamente mais rápido do que outros mecanismos de atenção. O código-fonte está disponível em https://github.com/OpenNLPLab/lightning-attention.
A raciocínio baseado em tabelas com modelos de linguagem de grande escala (LLMs) é uma direção promissora para abordar diversas tarefas de compreensão de tabelas, como resposta a perguntas baseadas em tabelas e verificação de fatos. Em comparação com o raciocínio genérico, o raciocínio baseado em tabelas requer a extração de semânticas subjacentes tanto de perguntas em formato livre quanto de dados tabulares semiestruturados. A abordagem Chain-of-Thought e suas variações incorporam a cadeia de raciocínio na forma de contexto textual, mas ainda é uma questão em aberto como aproveitar efetivamente os dados tabulares na cadeia de raciocínio. Propomos o framework Chain-of-Table, onde os dados tabulares são explicitamente utilizados na cadeia de raciocínio como um proxy para pensamentos intermediários. Especificamente, orientamos os LLMs usando aprendizado em contexto para gerar iterativamente operações e atualizar a tabela, representando assim uma cadeia de raciocínio tabular. Os LLMs podem, portanto, planejar dinamicamente a próxima operação com base nos resultados das anteriores. Essa evolução contínua da tabela forma uma cadeia, mostrando o processo de raciocínio para um problema tabular específico. A cadeia carrega informações estruturadas dos resultados intermediários, permitindo previsões mais precisas e confiáveis. O Chain-of-Table alcança novos recordes de desempenho de última geração nos benchmarks WikiTQ, FeTaQA e TabFact em múltiplas escolhas de LLMs.
Um corte abrupto oferece uma mudança repentina, às vezes indesejada, na experiência de visualização. Apresentamos uma nova estrutura para suavizar esses cortes abruptos, no contexto de vídeos de cabeças falantes. Aproveitamos a aparência do sujeito a partir dos outros quadros de origem no vídeo, fundindo-a com uma representação de nível médio impulsionada por pontos-chave do DensePose e marcos faciais. Para alcançar movimento, interpolamos os pontos-chave e os marcos entre os quadros finais ao redor do corte. Em seguida, usamos uma rede de tradução de imagem a partir dos pontos-chave e dos quadros de origem para sintetizar pixels. Como os pontos-chave podem conter erros, propomos um esquema de atenção multimodal para selecionar e escolher a fonte mais apropriada entre várias opções para cada ponto-chave. Ao aproveitar essa representação de nível médio, nosso método pode alcançar resultados mais robustos do que uma linha de base forte de interpolação de vídeo. Demonstramos nosso método em vários cortes abruptos em vídeos de cabeças falantes, como cortar palavras de preenchimento, pausas e até cortes aleatórios. Nossos experimentos mostram que podemos alcançar transições suaves, mesmo nos casos desafiadores em que a cabeça falante gira ou se move drasticamente no corte abrupto.
Aplicações de redes neurais em visão e visão-linguagem, como classificação de imagens e geração de legendas, dependem de grandes conjuntos de dados anotados que exigem processos não triviais de coleta de dados. Esse esforço demorado dificulta o surgimento de conjuntos de dados em grande escala, limitando pesquisadores e profissionais a um número reduzido de opções. Portanto, buscamos maneiras mais eficientes de coletar e anotar imagens. Iniciativas anteriores coletaram legendas a partir de textos alternativos (alt-texts) em HTML e postagens de mídias sociais, mas essas fontes de dados sofrem com ruído, esparsidade ou subjetividade. Por esse motivo, voltamo-nos para sites comerciais de compras, cujos dados atendem a três critérios: limpeza, informatividade e fluência. Apresentamos o conjunto de dados Let's Go Shopping (LGS), um grande conjunto de dados público com 15 milhões de pares imagem-legenda obtidos de sites de e-commerce disponíveis publicamente. Quando comparado com conjuntos de dados existentes de domínio geral, as imagens do LGS focam no objeto em primeiro plano e possuem fundos menos complexos. Nossos experimentos com o LGS mostram que classificadores treinados em conjuntos de dados de referência existentes não generalizam facilmente para dados de e-commerce, enquanto extratores de características visuais auto-supervisionados específicos podem generalizar melhor. Além disso, as imagens de alta qualidade focadas em e-commerce e a natureza bimodal do LGS o tornam vantajoso para tarefas bimodais de visão-linguagem: o LGS permite que modelos de geração de legendas produzam descrições mais ricas e ajuda modelos de geração de texto para imagem a alcançar transferência de estilo no contexto de e-commerce.
Perguntas factuais geralmente podem ser respondidas corretamente em diferentes níveis de granularidade. Por exemplo, tanto "4 de agosto de 1961" quanto "1961" são respostas corretas para a pergunta "Quando Barack Obama nasceu?". No entanto, os protocolos padrão de avaliação de question answering (QA) não levam isso explicitamente em consideração e comparam uma resposta prevista com respostas de um único nível de granularidade. Neste trabalho, propomos o GRANOLA QA, um novo cenário de avaliação em que uma resposta prevista é avaliada em termos de precisão e informatividade em relação a um conjunto de respostas de múltiplas granularidades. Apresentamos uma metodologia simples para enriquecer conjuntos de dados existentes com respostas de múltiplas granularidades e criamos o GRANOLA-EQ, uma versão de múltiplas granularidades do conjunto de dados EntityQuestions. Avaliamos uma variedade de métodos de decodificação no GRANOLA-EQ, incluindo um novo algoritmo, chamado Decoding with Response Aggregation (DRAG), que visa alinhar a granularidade da resposta com a incerteza do modelo. Nossos experimentos mostram que modelos de linguagem grandes com decodificação padrão tendem a gerar respostas específicas, que frequentemente estão incorretas. Em contraste, quando avaliados em respostas de múltiplas granularidades, o DRAG resulta em um aumento médio de quase 20 pontos na precisão, que aumenta ainda mais para entidades raras. No geral, isso revela que os esquemas padrão de avaliação e decodificação podem subestimar significativamente o conhecimento encapsulado nos modelos de linguagem.
Apesar do potencial dos modelos de difusão no aprimoramento de fala, sua implantação no Cancelamento de Eco Acústico (AEC) tem sido limitada. Neste artigo, propomos o DI-AEC, pioneiro em uma abordagem de regeneração estocástica baseada em difusão dedicada ao AEC. Além disso, propomos o FADI-AEC, um framework rápido de AEC baseado em difusão de pontuação para reduzir as demandas computacionais, tornando-o favorável para dispositivos de borda. Ele se destaca por executar o modelo de pontuação uma vez por quadro, alcançando um aumento significativo na eficiência de processamento. Além disso, introduzimos uma nova técnica de geração de ruído em que sinais do lado remoto são utilizados, incorporando tanto sinais do lado remoto quanto do lado próximo para refinar a precisão do modelo de pontuação. Testamos nosso método proposto no conjunto de dados de avaliação do desafio de cancelamento de eco profundo da Microsoft do ICASSP2023, onde nosso método supera alguns dos métodos end-to-end e outros métodos de cancelamento de eco baseados em difusão.