Artigos de pesquisa em IA selecionados diariamente com traduções
Construir sistemas de IA incorporada que possam seguir instruções linguísticas arbitrárias em qualquer ambiente 3D é um desafio fundamental para a criação de IA geral. Alcançar esse objetivo requer aprender a fundamentar a linguagem na percepção e em ações incorporadas, a fim de realizar tarefas complexas. O projeto Scalable, Instructable, Multiworld Agent (SIMA) aborda isso treinando agentes para seguir instruções de forma livre em uma ampla gama de ambientes virtuais 3D, incluindo ambientes de pesquisa curados e videogames comerciais de mundo aberto. Nosso objetivo é desenvolver um agente instruível que possa realizar qualquer coisa que um humano possa fazer em qualquer ambiente 3D simulado. Nossa abordagem se concentra na generalidade orientada pela linguagem, impondo suposições mínimas. Nossos agentes interagem com os ambientes em tempo real usando uma interface genérica e semelhante à humana: as entradas são observações de imagem e instruções linguísticas, e as saídas são ações de teclado e mouse. Essa abordagem geral é desafiadora, mas permite que os agentes fundamentem a linguagem em muitos ambientes visualmente complexos e semanticamente ricos, além de nos permitir executar agentes prontamente em novos ambientes. Neste artigo, descrevemos nossa motivação e objetivo, o progresso inicial que alcançamos e resultados preliminares promissores em diversos ambientes de pesquisa e uma variedade de videogames comerciais.
Modelos generativos baseados em áudio para música têm apresentado avanços significativos recentemente, mas até agora não conseguiram produzir faixas musicais completas com uma estrutura musical coerente. Demonstramos que, ao treinar um modelo generativo com contextos temporais longos, é possível produzir música de longa duração de até 4m45s. Nosso modelo consiste em um transformer de difusão que opera em uma representação latente contínua altamente reduzida (taxa latente de 21,5Hz). Ele alcança gerações de última geração de acordo com métricas de qualidade de áudio e alinhamento com prompts, e testes subjetivos revelam que ele produz música de longa duração com estrutura coerente.