Artigos de pesquisa em IA selecionados diariamente com traduções
Modelos como o GPT-4o permitem interação em tempo real com grandes modelos de linguagem (LLMs) por meio da fala, melhorando significativamente a experiência do usuário em comparação com a interação tradicional baseada em texto. No entanto, ainda há uma falta de exploração sobre como construir modelos de interação por fala com base em LLMs de código aberto. Para abordar isso, propomos o LLaMA-Omni, uma arquitetura de modelo inovadora projetada para interação por fala de baixa latência e alta qualidade com LLMs. O LLaMA-Omni integra um codificador de fala pré-treinado, um adaptador de fala, um LLM e um decodificador de fala em streaming. Ele elimina a necessidade de transcrição de fala e pode gerar textos e respostas de fala simultaneamente diretamente a partir de instruções de fala com latência extremamente baixa. Construímos nosso modelo com base no último modelo Llama-3.1-8B-Instruct. Para alinhar o modelo com cenários de interação por fala, construímos um conjunto de dados chamado InstructS2S-200K, que inclui 200 mil instruções de fala e respostas de fala correspondentes. Os resultados experimentais mostram que, em comparação com modelos anteriores de linguagem por fala, o LLaMA-Omni fornece respostas melhores tanto em conteúdo quanto em estilo, com uma latência de resposta tão baixa quanto 226ms. Além disso, o treinamento do LLaMA-Omni leva menos de 3 dias em apenas 4 GPUs, abrindo caminho para o desenvolvimento eficiente de modelos de linguagem por fala no futuro.
A Geração com Recuperação Aprimorada (RAG) surgiu como um paradigma comum para usar Modelos de Linguagem Grandes (LLMs) ao lado de bases de conhecimento privadas e atualizadas. Neste trabalho, abordamos os desafios de usar LLM-como-Juíz ao avaliar respostas fundamentadas geradas por sistemas RAG. Para avaliar as capacidades de calibração e discriminação dos modelos de juízes, identificamos 7 modos de falha do gerador e introduzimos o GroUSE (Pontuação Unitária de Avaliação Fundamentada de Perguntas e Respostas), um benchmark de meta-avaliação de 144 testes unitários. Este benchmark revela que os frameworks de avaliação automatizada de RAG existentes frequentemente ignoram modos de falha importantes, mesmo ao usar o GPT-4 como juiz. Para melhorar o design atual dos frameworks de avaliação automatizada de RAG, propomos um novo pipeline e descobrimos que, embora os modelos fechados tenham um bom desempenho no GroUSE, os juízes de código aberto de última geração não se generalizam para nossos critérios propostos, apesar da forte correlação com a avaliação do GPT-4. Nossas descobertas sugerem que a correlação com o GPT-4 é um proxy incompleto para o desempenho prático dos modelos de juízes e deve ser complementada com avaliações em testes unitários para detecção precisa de modos de falha. Além disso, demonstramos que o ajuste fino do Llama-3 nos rastros de raciocínio do GPT-4 aumenta significativamente suas capacidades de avaliação, melhorando tanto a correlação com as avaliações do GPT-4 quanto a calibração em situações de referência.
A affordance denota as interações potenciais inerentes aos objetos. A percepção de affordance pode capacitar agentes inteligentes a navegar e interagir com novos ambientes de forma eficiente. O enraizamento de affordance fracamente supervisionado ensina aos agentes o conceito de affordance sem anotações caras a nível de pixel, mas com imagens exocêntricas. Embora avanços recentes no enraizamento de affordance fracamente supervisionado tenham produzido resultados promissores, ainda existem desafios, incluindo a necessidade de conjuntos de dados de imagens exocêntricas e egocêntricas em pares, e a complexidade em enraizar diversas affordances para um único objeto. Para abordá-los, propomos o enraizamento de Affordance fracamente supervisionado INTRA (INTRA) ciente do Relacionamento de Interação. Ao contrário de trabalhos anteriores, o INTRA reformula esse problema como aprendizado de representação para identificar características únicas de interações por meio de aprendizado contrastivo apenas com imagens exocêntricas, eliminando a necessidade de conjuntos de dados em pares. Além disso, aproveitamos os embeddings de modelos de visão e linguagem para realizar o enraizamento de affordance de forma flexível com qualquer texto, projetando a geração de mapas de affordance condicionados a texto para refletir o relacionamento de interação para aprendizado contrastivo e aprimorando a robustez com nossa ampliação de sinônimos de texto. Nosso método superou trabalhos anteriores em diversos conjuntos de dados, como AGD20K, IIT-AFF, CAD e UMD. Além disso, os resultados experimentais demonstram que nosso método possui uma notável escalabilidade de domínio para imagens/ilustrações sintetizadas e é capaz de realizar o enraizamento de affordance para interações e objetos novos.
A música é uma parte integral da cultura humana, incorporando a inteligência e criatividade humanas, das quais as canções compõem uma parte essencial. Enquanto vários aspectos da geração de músicas foram explorados por trabalhos anteriores, como a voz cantada, a composição vocal e o arranjo instrumental, etc., gerar músicas com vocais e acompanhamento a partir de letras continua sendo um desafio significativo, dificultando a aplicação de modelos de geração de música no mundo real. Nesse sentido, propomos o SongCreator, um sistema de geração de músicas projetado para enfrentar esse desafio. O modelo apresenta dois designs inovadores: um modelo de linguagem de dupla sequência (DSLM) meticulosamente projetado para capturar as informações de vocais e acompanhamento para a geração de músicas, e uma estratégia adicional de máscara de atenção para o DSLM, que permite que nosso modelo compreenda, gere e edite músicas, tornando-o adequado para várias tarefas de geração relacionadas a músicas. Experimentos extensos demonstram a eficácia do SongCreator ao alcançar desempenhos de ponta ou competitivos em todas as oito tarefas. Notavelmente, ele supera significativamente trabalhos anteriores em letras-para-música e letras-para-vocais. Além disso, é capaz de controlar independentemente as condições acústicas dos vocais e do acompanhamento na música gerada por meio de diferentes prompts, exibindo sua aplicabilidade potencial. Nossas amostras estão disponíveis em https://songcreator.github.io/.
Foley é um termo comumente utilizado na produção cinematográfica, referindo-se à adição de efeitos sonoros diários a filmes silenciosos ou vídeos para aprimorar a experiência auditiva. O Video-to-Audio (V2A), como um tipo específico de tarefa automática de foley, apresenta desafios inerentes relacionados à sincronização áudio-visual. Esses desafios abrangem a manutenção da consistência de conteúdo entre o vídeo de entrada e o áudio gerado, bem como o alinhamento das propriedades temporais e de volume dentro do vídeo. Para lidar com essas questões, construímos um modelo de síntese de vídeo para áudio controlável, denominado Draw an Audio, que suporta múltiplas instruções de entrada por meio de máscaras desenhadas e sinais de volume. Para garantir a consistência de conteúdo entre o áudio sintetizado e o vídeo alvo, introduzimos o Módulo de Atenção de Máscara (MAM), que utiliza instruções de vídeo mascaradas para permitir que o modelo se concentre em regiões de interesse. Adicionalmente, implementamos o Módulo de Tempo-Volume (TLM), que utiliza um sinal de volume auxiliar para garantir a síntese de som que se alinha com o vídeo em ambas as dimensões de volume e temporal. Além disso, estendemos um conjunto de dados V2A em grande escala, denominado VGGSound-Caption, por meio da anotação de prompts de legenda. Experimentos extensivos em benchmarks desafiadores em dois conjuntos de dados V2A em grande escala confirmam que o Draw an Audio alcança o estado da arte. Página do projeto: https://yannqi.github.io/Draw-an-Audio/.
Nos últimos anos, o desenvolvimento de modelos de difusão tem levado a avanços significativos em tarefas de geração de imagens e vídeos, com modelos pré-treinados como a série Stable Diffusion desempenhando um papel crucial. Inspirados pela poda de modelos, que reduz modelos pré-treinados grandes removendo parâmetros não importantes, propomos um novo método de ajuste fino de modelos para aproveitar ao máximo esses parâmetros ineficazes e capacitar o modelo pré-treinado com novas capacidades especificadas para tarefas. Neste trabalho, investigamos primeiramente a importância dos parâmetros em modelos de difusão pré-treinados e descobrimos que os 10% a 20% menores de parâmetros em termos absolutos não contribuem para o processo de geração. Com base nessa observação, propomos um método chamado SaRA que reutiliza esses parâmetros temporariamente ineficazes, otimizando uma matriz de pesos esparsa para aprender o conhecimento específico da tarefa. Para mitigar o overfitting, propomos um esquema de treinamento esparsa de baixa patente baseado na norma nuclear para ajuste fino eficiente. Além disso, projetamos uma nova estratégia de ajuste progressivo de parâmetros para aproveitar ao máximo os parâmetros retrabalhados/ajustados finamente. Por fim, propomos uma nova estratégia de retropropagação não estruturada, que reduz significativamente os custos de memória durante o ajuste fino. Nosso método aprimora as capacidades generativas de modelos pré-treinados em aplicações posteriores e supera métodos tradicionais de ajuste fino como o LoRA na manutenção da capacidade de generalização do modelo. Validamos nossa abordagem por meio de experimentos de ajuste fino em modelos SD, demonstrando melhorias significativas. O SaRA também oferece uma vantagem prática que requer apenas uma única modificação de linha de código para implementação eficiente e é perfeitamente compatível com métodos existentes.
Os Campos de Radiância Neural (NeRFs) revolucionaram a reconstrução de cenas e objetos estáticos em 3D, oferecendo uma qualidade sem precedentes. No entanto, estender os NeRFs para modelar objetos dinâmicos ou articulações de objetos continua sendo um problema desafiador. Trabalhos anteriores abordaram essa questão ao se concentrar na reconstrução em nível de partes e na estimativa de movimento para objetos, mas frequentemente dependem de heurísticas em relação ao número de partes móveis ou categorias de objetos, o que pode limitar seu uso prático. Neste trabalho, apresentamos LEIA, uma abordagem inovadora para representar objetos 3D dinâmicos. Nosso método envolve observar o objeto em diferentes etapas de tempo ou "estados" e condicionar uma hipernetwork no estado atual, utilizando isso para parametrizar nosso NeRF. Essa abordagem nos permite aprender uma representação latente invariante à vista para cada estado. Demonstramos ainda que, ao interpolar entre esses estados, podemos gerar novas configurações de articulação no espaço 3D que não foram vistas anteriormente. Nossos resultados experimentais destacam a eficácia de nosso método em articular objetos de uma maneira independente do ângulo de visão e da configuração das articulações. Notavelmente, nossa abordagem supera métodos anteriores que dependem de informações de movimento para registro de articulação.