Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos uma abordagem para modelar um prior no espaço de imagem sobre a dinâmica de cenas. Nosso prior é aprendido a partir de uma coleção de trajetórias de movimento extraídas de sequências de vídeo reais que contêm movimentos naturais e oscilatórios, como árvores, flores, velas e roupas balançando ao vento. Dada uma única imagem, nosso modelo treinado utiliza um processo de amostragem de difusão coordenado por frequência para prever uma representação de movimento de longo prazo por pixel no domínio de Fourier, que denominamos textura de movimento estocástico neural. Essa representação pode ser convertida em trajetórias de movimento densas que abrangem um vídeo inteiro. Juntamente com um módulo de renderização baseado em imagem, essas trajetórias podem ser utilizadas para diversas aplicações subsequentes, como transformar imagens estáticas em vídeos dinâmicos que se repetem de forma contínua, ou permitir que os usuários interajam de maneira realista com objetos em fotografias reais.
Os recentes avanços em modelos de linguagem de grande escala (LLMs, na sigla em inglês) permitem que pesquisadores e desenvolvedores construam agentes de linguagem autônomos capazes de resolver automaticamente diversas tarefas e interagir com ambientes, humanos e outros agentes por meio de interfaces de linguagem natural. Consideramos os agentes de linguagem como uma direção promissora rumo à inteligência artificial geral e lançamos o Agents, uma biblioteca de código aberto com o objetivo de tornar esses avanços acessíveis a um público mais amplo e não especializado. O Agents foi cuidadosamente projetado para suportar recursos importantes, incluindo planejamento, memória, uso de ferramentas, comunicação entre múltiplos agentes e controle simbólico detalhado. O Agents é amigável ao usuário, pois permite que não especialistas construam, personalizem, testem, ajustem e implantem agentes de linguagem autônomos de última geração sem a necessidade de muita codificação. A biblioteca também é amigável para pesquisa, pois seu design modularizado a torna facilmente extensível para pesquisadores. O Agents está disponível em https://github.com/aiwaves-cn/agents.
A super-resolução de áudio é uma tarefa fundamental que prevê componentes de alta frequência para áudio de baixa resolução, melhorando a qualidade do áudio em aplicações digitais. Métodos anteriores têm limitações, como o escopo restrito de tipos de áudio (por exemplo, música, fala) e configurações específicas de largura de banda que podem ser tratadas (por exemplo, 4kHz a 8kHz). Neste artigo, introduzimos um modelo generativo baseado em difusão, o AudioSR, que é capaz de realizar super-resolução de áudio robusta em diversos tipos de áudio, incluindo efeitos sonoros, música e fala. Especificamente, o AudioSR pode aumentar a resolução de qualquer sinal de áudio de entrada dentro da faixa de largura de banda de 2kHz a 16kHz para um sinal de áudio de alta resolução com largura de banda de 24kHz e taxa de amostragem de 48kHz. Uma avaliação objetiva extensa em vários benchmarks de super-resolução de áudio demonstra os resultados robustos alcançados pelo modelo proposto. Além disso, nossa avaliação subjetiva mostra que o AudioSR pode atuar como um módulo plug-and-play para melhorar a qualidade de geração de uma ampla gama de modelos generativos de áudio, incluindo AudioLDM, Fastspeech2 e MusicGen. Nosso código e demonstração estão disponíveis em https://audioldm.github.io/audiosr.
A triagem de grandes volumes de dados textuais e a sumarização de informações-chave impõem uma carga significativa sobre a alocação de tempo dos profissionais clínicos. Embora os grandes modelos de linguagem (LLMs, do inglês *Large Language Models*) tenham demonstrado grande potencial em tarefas de processamento de linguagem natural (PLN, do inglês *Natural Language Processing*), sua eficácia em diversas tarefas de sumarização clínica ainda não foi rigorosamente examinada. Neste trabalho, empregamos métodos de adaptação de domínio em oito LLMs, abrangendo seis conjuntos de dados e quatro tarefas distintas de sumarização: relatórios de radiologia, perguntas de pacientes, notas de evolução e diálogos médico-paciente. Nossa avaliação quantitativa detalhada revela trade-offs entre modelos e métodos de adaptação, além de casos em que avanços recentes em LLMs podem não levar a resultados melhores. Além disso, em um estudo de leitura clínica com seis médicos, demonstramos que os resumos gerados pelo LLM melhor adaptado são preferíveis aos resumos humanos em termos de completude e correção. Nossa análise qualitativa subsequente delineia desafios comuns enfrentados tanto por LLMs quanto por especialistas humanos. Por fim, correlacionamos métricas quantitativas tradicionais de PLN com as pontuações do estudo de leitura para aprimorar nossa compreensão de como essas métricas se alinham com as preferências dos médicos. Nossa pesquisa marca a primeira evidência de LLMs superando especialistas humanos na sumarização de textos clínicos em múltiplas tarefas. Isso sugere que a integração de LLMs nos fluxos de trabalho clínicos poderia aliviar a carga de documentação, capacitando os profissionais clínicos a se concentrarem mais no cuidado personalizado do paciente e em outros aspectos insubstituíveis da medicina.
A matização de vídeo tem amplas aplicações, desde a adição de efeitos interessantes a filmagens casuais até o auxílio a profissionais de produção de vídeo. A matização com efeitos associados, como sombras e reflexos, também tem atraído crescente atividade de pesquisa, e métodos como o Omnimatte foram propostos para separar objetos dinâmicos de interesse em primeiro plano em suas próprias camadas. No entanto, trabalhos anteriores representam os fundos de vídeo como camadas de imagem 2D, limitando sua capacidade de expressar cenas mais complexas, dificultando assim a aplicação em vídeos do mundo real. Neste artigo, propomos um novo método de matização de vídeo, o OmnimatteRF, que combina camadas dinâmicas 2D em primeiro plano e um modelo de fundo 3D. As camadas 2D preservam os detalhes dos objetos, enquanto o fundo 3D reconstrói robustamente cenas em vídeos do mundo real. Experimentos extensivos demonstram que nosso método reconstrói cenas com melhor qualidade em diversos vídeos.
O aprendizado em contexto (ICL, do inglês in-context learning), ou seja, mostrar aos LLMs (Large Language Models) apenas algumas demonstrações específicas da tarefa, tem levado a ganhos subsequentes sem a necessidade de ajuste fino específico para a tarefa. No entanto, os LLMs são sensíveis à escolha dos prompts e, portanto, uma questão crucial de pesquisa é como selecionar boas demonstrações para o ICL. Uma estratégia eficaz é aproveitar a similaridade semântica entre as demonstrações do ICL e as entradas de teste usando um recuperador de texto, o que, no entanto, é subótimo, pois não considera o conhecimento prévio do LLM sobre essa tarefa. A partir de trabalhos anteriores (Min et al., 2022), já sabemos que os rótulos associados às demonstrações enviesam as previsões do modelo. Isso nos leva à nossa hipótese de que considerar o conhecimento existente do LLM sobre a tarefa, especialmente em relação ao espaço de rótulos de saída, pode ajudar em uma estratégia melhor de seleção de demonstrações. Por meio de experimentação extensa em três tarefas de classificação de texto, descobrimos que é benéfico não apenas escolher demonstrações de ICL semanticamente semelhantes, mas também selecionar aquelas que ajudam a resolver a ambiguidade inerente dos rótulos em torno do exemplo de teste. Curiosamente, descobrimos que incluir demonstrações que o LLM classificou erroneamente anteriormente e que também estão na fronteira de decisão do exemplo de teste traz o maior ganho de desempenho.
Os Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês) têm demonstrado desempenho impressionante em tarefas de Processamento de Linguagem Natural (PLN), como Resposta a Perguntas, Sumarização e Classificação. O uso de LLMs como avaliadores, capazes de classificar ou pontuar a saída de outros modelos (geralmente LLMs), tem se tornado cada vez mais popular, devido às limitações das técnicas de avaliação atuais, incluindo a falta de benchmarks apropriados, métricas, custo e acesso a anotadores humanos. Embora os LLMs sejam capazes de lidar com aproximadamente 100 idiomas, a maioria das línguas além das 20 mais faladas carece de avaliação sistemática em diversas tarefas, métricas e benchmarks. Isso cria uma necessidade urgente de ampliar a avaliação multilíngue para garantir uma compreensão precisa do desempenho dos LLMs em diversos idiomas. Os avaliadores baseados em LLMs parecem ser a solução perfeita para esse problema, pois não exigem anotadores humanos, referências criadas por humanos ou benchmarks e podem, teoricamente, ser usados para avaliar qualquer idioma coberto pelo LLM. Neste artigo, investigamos se os avaliadores baseados em LLMs podem ajudar a escalar a avaliação multilíngue. Especificamente, calibramos a avaliação baseada em LLMs com 20 mil julgamentos humanos de cinco métricas em três tarefas de geração de texto em oito idiomas. Nossos resultados indicam que os avaliadores baseados em LLMs podem apresentar tendência a pontuações mais altas e devem ser usados com cautela, sempre calibrados com um conjunto de dados de julgamentos de falantes nativos, especialmente em idiomas de baixos recursos e que não utilizam o alfabeto latino.