Artigos de pesquisa em IA selecionados diariamente com traduções
Embora a geração de áudio compartilhe características comuns entre diferentes tipos de som, como fala, música e efeitos sonoros, o desenvolvimento de modelos para cada tipo exige uma consideração cuidadosa de objetivos e vieses específicos que podem diferir significativamente daqueles de outros tipos. Para nos aproximarmos de uma perspectiva unificada sobre a geração de áudio, este artigo propõe um framework que utiliza o mesmo método de aprendizado para a geração de fala, música e efeitos sonoros. Nosso framework introduz uma representação geral do áudio, chamada de linguagem do áudio (LOA, do inglês *Language of Audio*). Qualquer áudio pode ser traduzido para LOA com base no AudioMAE, um modelo de aprendizado de representação pré-treinado de forma autossupervisionada. No processo de geração, traduzimos qualquer modalidade para LOA usando um modelo GPT-2 e realizamos o aprendizado de geração de áudio autossupervisionado com um modelo de difusão latente condicionado à LOA. O framework proposto traz naturalmente vantagens, como capacidades de aprendizado em contexto e a reutilização dos modelos pré-treinados autossupervisionados AudioMAE e de difusão latente. Experimentos nos principais benchmarks de texto-para-áudio, texto-para-música e texto-para-fala demonstram um desempenho novo e de ponta ou competitivo em relação às abordagens anteriores. Nossa demonstração e código estão disponíveis em https://audioldm.github.io/audioldm2.
Garantir o alinhamento, que se refere a fazer com que os modelos se comportem de acordo com as intenções humanas [1,2], tornou-se uma tarefa crítica antes de implantar modelos de linguagem de grande escala (LLMs) em aplicações do mundo real. Por exemplo, a OpenAI dedicou seis meses para alinhar iterativamente o GPT-4 antes de seu lançamento [3]. No entanto, um grande desafio enfrentado pelos profissionais é a falta de orientações claras sobre como avaliar se as saídas dos LLMs estão alinhadas com normas sociais, valores e regulamentações. Esse obstáculo dificulta a iteração sistemática e a implantação dos LLMs. Para abordar essa questão, este artigo apresenta uma pesquisa abrangente sobre as principais dimensões que são cruciais para considerar ao avaliar a confiabilidade dos LLMs. A pesquisa cobre sete grandes categorias de confiabilidade dos LLMs: confiabilidade, segurança, justiça, resistência ao uso indevido, explicabilidade e raciocínio, adesão às normas sociais e robustez. Cada categoria principal é ainda dividida em várias subcategorias, resultando em um total de 29 subcategorias. Além disso, um subconjunto de 8 subcategorias é selecionado para investigação adicional, onde estudos de medição correspondentes são projetados e conduzidos em vários LLMs amplamente utilizados. Os resultados das medições indicam que, em geral, modelos mais alinhados tendem a ter um desempenho melhor em termos de confiabilidade geral. No entanto, a eficácia do alinhamento varia entre as diferentes categorias de confiabilidade consideradas. Isso destaca a importância de realizar análises mais detalhadas, testes e melhorias contínuas no alinhamento dos LLMs. Ao esclarecer essas dimensões-chave da confiabilidade dos LLMs, este artigo visa fornecer insights valiosos e orientações para os profissionais da área. Compreender e abordar essas preocupações será crucial para alcançar uma implantação confiável e eticamente sólida dos LLMs em várias aplicações.
Alinhamentos múltiplos de sequências (MSAs, na sigla em inglês) de proteínas codificam informações biológicas ricas e têm sido ferramentas essenciais em métodos bioinformáticos para tarefas como design de proteínas e predição de estrutura proteica há décadas. Avanços recentes, como o AlphaFold2, que utiliza transformers para processar diretamente grandes quantidades de MSAs brutos, reafirmaram sua importância. No entanto, a geração de MSAs é altamente intensiva em termos computacionais, e nenhum conjunto de dados comparável aos usados para treinar o AlphaFold2 foi disponibilizado para a comunidade de pesquisa, dificultando o progresso no aprendizado de máquina aplicado a proteínas. Para resolver esse problema, apresentamos o OpenProteinSet, um corpus de código aberto com mais de 16 milhões de MSAs, homologias estruturais associadas do Protein Data Bank e predições de estrutura proteica do AlphaFold2. Demonstramos anteriormente a utilidade do OpenProteinSet ao retreinar com sucesso o AlphaFold2 com ele. Esperamos que o OpenProteinSet seja amplamente útil como dados de treinamento e validação para 1) diversas tarefas focadas em estrutura, função e design de proteínas e 2) pesquisas em aprendizado de máquina multimodal em larga escala.
O rastreamento e seguimento de objetos de interesse é crucial para diversos casos de uso em robótica, desde automação industrial até logística e armazenamento, passando por saúde e segurança. Neste artigo, apresentamos um sistema robótico para detectar, rastrear e seguir qualquer objeto em tempo real. Nossa abordagem, denominada "follow anything" (FAn), é um modelo de vocabulário aberto e multimodal — não está restrita a conceitos vistos durante o treinamento e pode ser aplicada a novas classes no momento da inferência usando texto, imagens ou consultas por clique. Aproveitando descritores visuais ricos de modelos pré-treinados em larga escala (modelos de base), o FAn pode detectar e segmentar objetos ao corresponder consultas multimodais (texto, imagens, cliques) a uma sequência de imagens de entrada. Esses objetos detectados e segmentados são rastreados ao longo dos quadros de imagem, levando em consideração oclusão e o reaparecimento do objeto. Demonstramos o FAn em um sistema robótico do mundo real (um veículo aéreo micro) e relatamos sua capacidade de seguir de forma contínua os objetos de interesse em um loop de controle em tempo real. O FAn pode ser implantado em um laptop com uma placa gráfica leve (6-8 GB), alcançando uma taxa de processamento de 6-20 quadros por segundo. Para permitir adoção rápida, implantação e extensibilidade, disponibilizamos todo o nosso código como código aberto em nossa página do projeto em https://github.com/alaamaalouf/FollowAnything. Também incentivamos o leitor a assistir ao nosso vídeo explicativo de 5 minutos neste link: https://www.youtube.com/watch?v=6Mgt3EPytrw.
Este trabalho considera a otimização de malhas baseada em gradientes, onde iterativamente otimizamos uma malha de superfície 3D representando-a como a isosuperfície de um campo escalar, um paradigma cada vez mais comum em aplicações como fotogrametria, modelagem generativa e física inversa. As implementações existentes adaptam algoritmos clássicos de extração de isosuperfícies, como Marching Cubes ou Dual Contouring; essas técnicas foram projetadas para extrair malhas de campos fixos e conhecidos, e no contexto de otimização, elas carecem dos graus de liberdade necessários para representar malhas de alta qualidade que preservam características, ou sofrem de instabilidades numéricas. Introduzimos o FlexiCubes, uma representação de isosuperfície especificamente projetada para otimizar uma malha desconhecida em relação a objetivos geométricos, visuais ou até mesmo físicos. Nossa principal percepção é a introdução de parâmetros adicionais cuidadosamente escolhidos na representação, que permitem ajustes locais flexíveis na geometria e conectividade da malha extraída. Esses parâmetros são atualizados juntamente com o campo escalar subjacente por meio de diferenciação automática ao otimizar para uma tarefa subsequente. Baseamos nosso esquema de extração no Dual Marching Cubes para melhorar as propriedades topológicas e apresentamos extensões para gerar opcionalmente malhas tetraédricas e hierarquicamente adaptativas. Experimentos extensivos validam o FlexiCubes tanto em benchmarks sintéticos quanto em aplicações do mundo real, mostrando que ele oferece melhorias significativas na qualidade da malha e na fidelidade geométrica.
O programa Alexa Prize capacitou inúmeros estudantes universitários a explorar, experimentar e demonstrar seus talentos na construção de agentes conversacionais por meio de desafios como o SocialBot Grand Challenge e o TaskBot Challenge. À medida que os agentes conversacionais aparecem cada vez mais em contextos multimodais e corporificados, é importante explorar as possibilidades da interação conversacional aprimorada com visão computacional e incorporação física. Este artigo descreve o SimBot Challenge, um novo desafio no qual equipes universitárias competem para construir assistentes robóticos que realizam tarefas em um ambiente físico simulado. O artigo fornece uma visão geral do SimBot Challenge, que incluiu fases de desafio online e offline. Descrevemos a infraestrutura e o suporte fornecidos às equipes, incluindo o Alexa Arena, o ambiente simulado e o kit de ferramentas de aprendizado de máquina fornecido para acelerar a construção de modelos de visão e linguagem. Resumimos as abordagens que as equipes participantes adotaram para superar os desafios de pesquisa e extraímos as principais lições aprendidas. Por fim, fornecemos uma análise do desempenho dos SimBots competidores durante a competição.
Equações diferenciais parciais (EDPs) dependentes do tempo são ubíquas na ciência e na engenharia. Recentemente, principalmente devido ao alto custo computacional das técnicas tradicionais de solução, substitutos baseados em redes neurais profundas têm ganhado crescente interesse. A utilidade prática desses solucionadores de EDPs neurais depende de sua capacidade de fornecer previsões precisas e estáveis em horizontes temporais longos, o que é um problema notoriamente difícil. Neste trabalho, apresentamos uma análise em larga escala de estratégias comuns de desdobramento temporal, identificando a negligência de informações de frequência espacial não dominantes, frequentemente associadas a altas frequências em soluções de EDPs, como a principal armadilha que limita o desempenho estável e preciso do desdobramento. Com base nessas percepções, inspiramo-nos em avanços recentes em modelos de difusão para introduzir o PDE-Refiner; uma nova classe de modelos que permite uma modelagem mais precisa de todos os componentes de frequência por meio de um processo de refinamento em múltiplas etapas. Validamos o PDE-Refiner em benchmarks desafiadores de dinâmica de fluidos complexa, demonstrando desdobramentos estáveis e precisos que consistentemente superam modelos state-of-the-art, incluindo arquiteturas neurais, numéricas e híbridas neurais-numéricas. Além disso, demonstramos que o PDE-Refiner aumenta significativamente a eficiência de dados, uma vez que o objetivo de remoção de ruído induz implicitamente uma nova forma de aumento espectral de dados. Por fim, a conexão do PDE-Refiner com modelos de difusão permite uma avaliação precisa e eficiente da incerteza preditiva do modelo, possibilitando estimar quando o substituto se torna impreciso.