Artigos de pesquisa em IA selecionados diariamente com traduções
Com a introdução de técnicas de geração de vídeo baseadas em difusão, a geração de vídeo humano condicionada por áudio alcançou recentemente avanços significativos tanto na naturalidade do movimento quanto na síntese de detalhes de retrato. Devido ao controle limitado dos sinais de áudio na condução do movimento humano, os métodos existentes frequentemente adicionam sinais espaciais auxiliares para estabilizar os movimentos, o que pode comprometer a naturalidade e liberdade de movimento. Neste artigo, propomos um modelo de difusão de vídeo condicionado apenas por áudio de ponta a ponta chamado Loopy. Especificamente, projetamos um módulo temporal inter e intra-clip e um módulo de áudio para latentes, permitindo que o modelo aproveite informações de movimento de longo prazo dos dados para aprender padrões de movimento naturais e melhorar a correlação entre áudio e movimento de retrato. Este método elimina a necessidade de modelos de movimento espacial especificados manualmente usados em métodos existentes para restringir o movimento durante a inferência. Experimentos extensos mostram que o Loopy supera os modelos de difusão de retrato conduzidos por áudio recentes, fornecendo resultados mais realistas e de alta qualidade em vários cenários.
Expandir as capacidades de longo contexto dos Modelos de Linguagem Multimodal Grande~(MLLMs) é crucial para a compreensão de vídeo, compreensão de imagens de alta resolução e agentes multimodais. Isso envolve uma série de otimizações sistemáticas, incluindo arquitetura do modelo, construção de dados e estratégia de treinamento, abordando especialmente desafios como desempenho degradado com mais imagens e altos custos computacionais. Neste artigo, adaptamos a arquitetura do modelo para um híbrido de blocos Mamba e Transformer, abordamos a construção de dados com dependências temporais e espaciais entre múltiplas imagens e empregamos uma estratégia de treinamento progressiva. O modelo liberado LongLLaVA~(Assistente de Linguagem e Visão de Longo Contexto) é o primeiro MLLM híbrido, que alcançou um melhor equilíbrio entre eficiência e eficácia. LongLLaVA não apenas alcança resultados competitivos em vários benchmarks, mas também mantém alta taxa de processamento e baixo consumo de memória. Especialmente, ele pode processar quase mil imagens em uma única GPU A100 de 80GB, mostrando perspectivas promissoras de aplicação para uma ampla gama de tarefas.
Embora os atuais modelos de linguagem de longo contexto (LLMs) tenham demonstrado capacidades impressionantes ao responder perguntas dos usuários com base em extenso texto, a falta de citações em suas respostas dificulta a verificação pelo usuário, levando a preocupações sobre sua confiabilidade devido a possíveis alucinações. Neste trabalho, temos como objetivo capacitar os LLMs de longo contexto a gerar respostas com citações detalhadas ao nível de sentença, melhorando sua fidelidade e verificabilidade. Primeiramente, apresentamos o LongBench-Cite, um benchmark automatizado para avaliar o desempenho dos atuais LLMs em Respostas a Perguntas de Longo Contexto com Citações (LQAC), revelando um espaço considerável para melhorias. Para isso, propomos o CoF (Coarse to Fine), um novo pipeline que utiliza LLMs prontos para gerar automaticamente instâncias de QA de longo contexto com citações precisas ao nível de sentença, e aproveitamos esse pipeline para construir o LongCite-45k, um conjunto de dados de grande escala para LQAC. Por fim, treinamos o LongCite-8B e o LongCite-9B usando o conjunto de dados LongCite-45k, possibilitando com sucesso a geração de respostas precisas e citações detalhadas ao nível de sentença em uma única saída. Os resultados de avaliação no LongBench-Cite mostram que nossos modelos treinados alcançam qualidade de citação de ponta, superando modelos proprietários avançados, incluindo o GPT-4o.
Este artigo apresenta o MMMU-Pro, uma versão robusta do benchmark Massive Multi-discipline Multimodal Understanding and Reasoning (MMMU). O MMMU-Pro avalia rigorosamente as verdadeiras capacidades de compreensão e raciocínio de modelos multimodais por meio de um processo de três etapas baseado no MMMU: (1) filtragem de perguntas respondíveis por modelos apenas de texto, (2) aumento de opções de candidatos e (3) introdução de um cenário de entrada apenas de visão, onde as perguntas são incorporadas em imagens. Esse cenário desafia a IA a verdadeiramente "ver" e "ler" simultaneamente, testando uma habilidade cognitiva humana fundamental de integrar visual e informações textuais de forma contínua. Os resultados mostram que o desempenho do modelo é substancialmente menor no MMMU-Pro do que no MMMU, variando de 16,8% a 26,9% entre os modelos. Exploramos o impacto das sugestões de OCR e do raciocínio Chain of Thought (CoT), constatando que as sugestões de OCR têm efeito mínimo, enquanto o CoT geralmente melhora o desempenho. O MMMU-Pro fornece uma ferramenta de avaliação mais rigorosa, imitando de perto cenários do mundo real e oferecendo direções valiosas para pesquisas futuras em IA multimodal.
Apresentamos um framework para manipulação de robôs assistentes, que se concentra em dois desafios fundamentais: primeiro, adaptar de forma eficiente modelos em grande escala para tarefas de compreensão de affordances de cena em cascata, especialmente em cenários de vida diária nos quais a coleta de dados multitarefa envolvendo humanos requer esforço extenuante; segundo, aprender efetivamente trajetórias de robôs fundamentadas no modelo visual de affordance. Abordamos o primeiro desafio empregando um método de ajuste eficiente de prompts que antecede prompts de texto aprendíveis ao modelo de visão congelado para prever affordances de manipulação em cenários multitarefa. Em seguida, propomos aprender trajetórias de robôs guiadas por affordances em um método supervisionado de Correspondência de Fluxo. A correspondência de fluxo representa uma política visuomotora de robô como um processo condicional de fluir pontos de passagem aleatórios para trajetórias desejadas de robô. Por fim, introduzimos um conjunto de dados do mundo real com 10 tarefas em Atividades da Vida Diária para testar nosso framework. Nossa extensa avaliação destaca que o método de ajuste de prompts proposto para aprender affordances de manipulação com prompter de linguagem alcança desempenho competitivo e até supera outros protocolos de ajuste fino em escalas de dados, ao mesmo tempo em que satisfaz a eficiência de parâmetros. Aprender trajetórias multitarefa de robô com uma única política de correspondência de fluxo também resulta em desempenho consistentemente melhor do que métodos alternativos de clonagem de comportamento, especialmente considerando distribuições de ação de robô multimodais. Nosso framework unifica de forma contínua a aprendizagem do modelo de affordance e a geração de trajetórias com correspondência de fluxo para manipulação de robôs.
Estudos recentes têm demonstrado cada vez mais que dados de alta qualidade são cruciais para o pré-treinamento eficaz de modelos de linguagem. No entanto, a definição precisa de "alta qualidade" ainda não foi explorada em profundidade. Focando no domínio do código, apresentamos o Arctic-SnowCoder-1.3B, um modelo de código base eficiente em dados pré-treinado em 555B de tokens por meio de três fases de dados progressivamente refinados: (1) pré-treinamento geral com 500B de tokens de código de qualidade padrão, pré-processados por meio de filtragem básica, deduplicação e descontaminação, (2) continuação do pré-treinamento com 50B de tokens de alta qualidade, selecionados da fase um por um anotador de qualidade no estilo BERT treinado para distinguir bom código de dados aleatórios, usando exemplos positivos retirados de arquivos de código de alta qualidade, juntamente com dados de instrução do Magicoder e StarCoder2-Instruct, e (3) aprimoramento do pré-treinamento com 5B de dados sintéticos criados pelo Llama-3.1-70B usando os dados da fase dois como sementes, adaptando a abordagem do Magicoder para pré-treinamento. Apesar de ser treinado em um conjunto de dados limitado, o Arctic-SnowCoder alcança desempenho de ponta no BigCodeBench, um benchmark de codificação focado em tarefas de programação práticas e desafiadoras, em comparação com modelos de tamanho semelhante treinados em não mais que 1T de tokens, superando o Phi-1.5-1.3B em 36%. Em todos os benchmarks avaliados, o Arctic-SnowCoder-1.3B supera o StarCoderBase-3B pré-treinado em 1T de tokens. Além disso, ele iguala o desempenho dos principais modelos de código base pequeno treinados em trilhões de tokens. Por exemplo, o Arctic-SnowCoder-1.3B supera o StarCoder2-3B, pré-treinado em mais de 3.3T de tokens, no HumanEval+, um benchmark que avalia a geração de código em nível de função, e permanece competitivo no BigCodeBench. Nossa avaliação apresenta uma análise abrangente justificando várias escolhas de design para o Arctic-SnowCoder. Mais importante ainda, descobrimos que a chave para dados de alta qualidade é sua alinhamento com a distribuição de aplicações futuras.
Os cientistas sociais rapidamente adotaram grandes modelos de linguagem devido à capacidade de anotar documentos sem treinamento supervisionado, uma habilidade conhecida como aprendizado de zero-shot. No entanto, devido às suas demandas computacionais, custo e frequentemente natureza proprietária, esses modelos frequentemente entram em conflito com os padrões de replicação e ciência aberta. Este artigo apresenta os modelos de linguagem Político DEBATE (DeBERTa Algorithm for Textual Entailment) para classificação de documentos políticos de zero-shot e few-shot. Esses modelos não são apenas tão bons, ou melhores do que, os grandes modelos de linguagem de última geração em classificação de zero e few-shot, mas são ordens de magnitude mais eficientes e completamente de código aberto. Ao treinar os modelos em uma amostra aleatória simples de 10-25 documentos, eles podem superar classificadores supervisionados treinados em centenas ou milhares de documentos e modelos generativos de última geração com prompts complexos e elaborados. Além disso, disponibilizamos o conjunto de dados PolNLI usado para treinar esses modelos - um corpus com mais de 200.000 documentos políticos com rótulos altamente precisos em mais de 800 tarefas de classificação.
Técnicas de conversão de voz baseadas em difusão, como o VoiceGrad, têm atraído interesse devido ao seu alto desempenho em termos de qualidade de fala e similaridade de locutor. No entanto, uma limitação notável é a inferência lenta causada pela difusão reversa em múltiplas etapas. Portanto, propomos o FastVoiceGrad, uma nova técnica de conversão de voz baseada em difusão de uma etapa que reduz o número de iterações de dezenas para uma, ao mesmo tempo que herda o alto desempenho de conversão de voz das técnicas baseadas em difusão de múltiplas etapas. Obtemos o modelo usando a destilação de difusão condicional adversarial (ACDD), aproveitando a capacidade de redes adversariais generativas e modelos de difusão, enquanto reconsideramos os estados iniciais na amostragem. Avaliações de conversão de voz de qualquer para qualquer em uma única etapa demonstram que o FastVoiceGrad alcança um desempenho de conversão de voz superior ou comparável ao das técnicas anteriores baseadas em difusão de múltiplas etapas, ao mesmo tempo que aprimora a velocidade de inferência. Amostras de áudio estão disponíveis em https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/fastvoicegrad/.