Artigos de pesquisa em IA selecionados diariamente com traduções
Apesar de suas capacidades notáveis, os grandes modelos de linguagem (LLMs) frequentemente produzem respostas contendo imprecisões factuais devido à sua dependência exclusiva do conhecimento paramétrico que encapsulam. A Geração Aumentada por Recuperação (RAG), uma abordagem ad hoc que aumenta os modelos de linguagem com a recuperação de conhecimento relevante, reduz tais problemas. No entanto, recuperar e incorporar indiscriminadamente um número fixo de passagens recuperadas, independentemente de a recuperação ser necessária ou das passagens serem relevantes, diminui a versatilidade do modelo de linguagem ou pode levar à geração de respostas inúteis. Introduzimos uma nova estrutura chamada Geração Aumentada por Recuperação com Auto-Reflexão (Self-RAG) que melhora a qualidade e a factualidade de um modelo de linguagem por meio de recuperação e auto-reflexão. Nossa estrutura treina um único modelo de linguagem arbitrário que recupera passagens de forma adaptativa sob demanda, e gera e reflete sobre as passagens recuperadas e suas próprias gerações usando tokens especiais, chamados tokens de reflexão. A geração de tokens de reflexão torna o modelo de linguagem controlável durante a fase de inferência, permitindo que ele ajuste seu comportamento a diversas exigências de tarefas. Experimentos mostram que o Self-RAG (com 7B e 13B parâmetros) supera significativamente os LLMs e modelos aumentados por recuperação de última geração em um conjunto diversificado de tarefas. Especificamente, o Self-RAG supera o ChatGPT e o Llama2-chat aumentado por recuperação em tarefas de QA de domínio aberto, raciocínio e verificação de fatos, e mostra ganhos significativos na melhoria da factualidade e precisão de citações para gerações de longo formato em relação a esses modelos.
O processamento de música impulsionado por IA é um campo diversificado que abrange dezenas de tarefas, desde tarefas de geração (por exemplo, síntese de timbre) até tarefas de compreensão (por exemplo, classificação de música). Para desenvolvedores e amadores, é muito difícil dominar todas essas tarefas para atender às suas necessidades em processamento de música, especialmente considerando as grandes diferenças nas representações de dados musicais e a aplicabilidade dos modelos em diferentes plataformas entre as várias tarefas. Consequentemente, é necessário construir um sistema para organizar e integrar essas tarefas, ajudando assim os profissionais a analisar automaticamente suas demandas e a chamar ferramentas adequadas como soluções para atender às suas necessidades. Inspirados pelo recente sucesso dos modelos de linguagem de grande escala (LLMs) na automação de tarefas, desenvolvemos um sistema, chamado MusicAgent, que integra inúmeras ferramentas relacionadas à música e um fluxo de trabalho autônomo para atender às necessidades dos usuários. Mais especificamente, construímos 1) um conjunto de ferramentas que coleta ferramentas de diversas fontes, incluindo Hugging Face, GitHub e APIs da web, entre outras; 2) um fluxo de trabalho autônomo impulsionado por LLMs (por exemplo, ChatGPT) para organizar essas ferramentas e decompor automaticamente as solicitações dos usuários em várias subtarefas e invocar as ferramentas musicais correspondentes. O objetivo principal deste sistema é libertar os usuários das complexidades das ferramentas de IA para música, permitindo que se concentrem no aspecto criativo. Ao conceder aos usuários a liberdade de combinar ferramentas sem esforço, o sistema oferece uma experiência musical fluida e enriquecedora.
Métodos recentes de geração de texto para 3D alcançam uma impressionante capacidade de criação de conteúdo 3D graças aos avanços nos modelos de difusão de imagens e estratégias de otimização. No entanto, os métodos atuais enfrentam dificuldades para gerar conteúdo 3D correto para prompts complexos em termos de semântica, ou seja, um prompt que descreve múltiplos objetos interagindo com diferentes atributos. Neste trabalho, propomos um framework geral chamado Progressive3D, que decompõe a geração completa em uma série de etapas de edição localmente progressivas para criar conteúdo 3D preciso para prompts complexos, e restringimos a mudança de conteúdo a ocorrer apenas em regiões determinadas por prompts de região definidos pelo usuário em cada etapa de edição. Além disso, propomos uma técnica de supressão de componentes semânticos sobrepostos para incentivar o processo de otimização a focar mais nas diferenças semânticas entre os prompts. Experimentos extensivos demonstram que o framework Progressive3D proposto gera conteúdo 3D preciso para prompts com semântica complexa e é geral para vários métodos de texto para 3D impulsionados por diferentes representações 3D.