HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

7 papers found

AudioLDM 2: Aprendizado de Geração de Áudio Holística com Pré-treinamento Autossupervisionado
AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining

Aug 10

ByHaohe Liu, Qiao Tian, Yi Yuan, Xubo Liu, Xinhao Mei, Qiuqiang Kong, Yuping Wang, Wenwu Wang, Yuxuan Wang, Mark D. Plumbley

Embora a geração de áudio compartilhe características comuns entre diferentes tipos de som, como fala, música e efeitos sonoros, o desenvolvimento de modelos para cada tipo exige uma consideração cuidadosa de objetivos e vieses específicos que podem diferir significativamente daqueles de outros tipos. Para nos aproximarmos de uma perspectiva unificada sobre a geração de áudio, este artigo propõe um framework que utiliza o mesmo método de aprendizado para a geração de fala, música e efeitos sonoros. Nosso framework introduz uma representação geral do áudio, chamada de linguagem do áudio (LOA, do inglês *Language of Audio*). Qualquer áudio pode ser traduzido para LOA com base no AudioMAE, um modelo de aprendizado de representação pré-treinado de forma autossupervisionada. No processo de geração, traduzimos qualquer modalidade para LOA usando um modelo GPT-2 e realizamos o aprendizado de geração de áudio autossupervisionado com um modelo de difusão latente condicionado à LOA. O framework proposto traz naturalmente vantagens, como capacidades de aprendizado em contexto e a reutilização dos modelos pré-treinados autossupervisionados AudioMAE e de difusão latente. Experimentos nos principais benchmarks de texto-para-áudio, texto-para-música e texto-para-fala demonstram um desempenho novo e de ponta ou competitivo em relação às abordagens anteriores. Nossa demonstração e código estão disponíveis em https://audioldm.github.io/audioldm2.

LLMs Confiáveis: Uma Análise e Diretrizes para Avaliar o Alinhamento de Modelos de Linguagem de Grande Escala
Trustworthy LLMs: a Survey and Guideline for Evaluating Large Language Models' Alignment

Aug 10

ByYang Liu, Yuanshun Yao, Jean-Francois Ton, Xiaoying Zhang, Ruocheng Guo Hao Cheng, Yegor Klochkov, Muhammad Faaiz Taufiq, Hang Li

Garantir o alinhamento, que se refere a fazer com que os modelos se comportem de acordo com as intenções humanas [1,2], tornou-se uma tarefa crítica antes de implantar modelos de linguagem de grande escala (LLMs) em aplicações do mundo real. Por exemplo, a OpenAI dedicou seis meses para alinhar iterativamente o GPT-4 antes de seu lançamento [3]. No entanto, um grande desafio enfrentado pelos profissionais é a falta de orientações claras sobre como avaliar se as saídas dos LLMs estão alinhadas com normas sociais, valores e regulamentações. Esse obstáculo dificulta a iteração sistemática e a implantação dos LLMs. Para abordar essa questão, este artigo apresenta uma pesquisa abrangente sobre as principais dimensões que são cruciais para considerar ao avaliar a confiabilidade dos LLMs. A pesquisa cobre sete grandes categorias de confiabilidade dos LLMs: confiabilidade, segurança, justiça, resistência ao uso indevido, explicabilidade e raciocínio, adesão às normas sociais e robustez. Cada categoria principal é ainda dividida em várias subcategorias, resultando em um total de 29 subcategorias. Além disso, um subconjunto de 8 subcategorias é selecionado para investigação adicional, onde estudos de medição correspondentes são projetados e conduzidos em vários LLMs amplamente utilizados. Os resultados das medições indicam que, em geral, modelos mais alinhados tendem a ter um desempenho melhor em termos de confiabilidade geral. No entanto, a eficácia do alinhamento varia entre as diferentes categorias de confiabilidade consideradas. Isso destaca a importância de realizar análises mais detalhadas, testes e melhorias contínuas no alinhamento dos LLMs. Ao esclarecer essas dimensões-chave da confiabilidade dos LLMs, este artigo visa fornecer insights valiosos e orientações para os profissionais da área. Compreender e abordar essas preocupações será crucial para alcançar uma implantação confiável e eticamente sólida dos LLMs em várias aplicações.

OpenProteinSet: Dados de treinamento para biologia estrutural em escala
OpenProteinSet: Training data for structural biology at scale

Aug 10

ByGustaf Ahdritz, Nazim Bouatta, Sachin Kadyan, Lukas Jarosch, Daniel Berenberg, Ian Fisk, Andrew M. Watkins, Stephen Ra, Richard Bonneau, Mohammed AlQuraishi

Alinhamentos múltiplos de sequências (MSAs, na sigla em inglês) de proteínas codificam informações biológicas ricas e têm sido ferramentas essenciais em métodos bioinformáticos para tarefas como design de proteínas e predição de estrutura proteica há décadas. Avanços recentes, como o AlphaFold2, que utiliza transformers para processar diretamente grandes quantidades de MSAs brutos, reafirmaram sua importância. No entanto, a geração de MSAs é altamente intensiva em termos computacionais, e nenhum conjunto de dados comparável aos usados para treinar o AlphaFold2 foi disponibilizado para a comunidade de pesquisa, dificultando o progresso no aprendizado de máquina aplicado a proteínas. Para resolver esse problema, apresentamos o OpenProteinSet, um corpus de código aberto com mais de 16 milhões de MSAs, homologias estruturais associadas do Protein Data Bank e predições de estrutura proteica do AlphaFold2. Demonstramos anteriormente a utilidade do OpenProteinSet ao retreinar com sucesso o AlphaFold2 com ele. Esperamos que o OpenProteinSet seja amplamente útil como dados de treinamento e validação para 1) diversas tarefas focadas em estrutura, função e design de proteínas e 2) pesquisas em aprendizado de máquina multimodal em larga escala.

Siga Qualquer Coisa: Detecção, rastreamento e seguimento em tempo real em cenários abertos
Follow Anything: Open-set detection, tracking, and following in real-time

Aug 10

ByAlaa Maalouf, Ninad Jadhav, Krishna Murthy Jatavallabhula, Makram Chahine, Daniel M. Vogt, Robert J. Wood, Antonio Torralba, Daniela Rus

O rastreamento e seguimento de objetos de interesse é crucial para diversos casos de uso em robótica, desde automação industrial até logística e armazenamento, passando por saúde e segurança. Neste artigo, apresentamos um sistema robótico para detectar, rastrear e seguir qualquer objeto em tempo real. Nossa abordagem, denominada "follow anything" (FAn), é um modelo de vocabulário aberto e multimodal — não está restrita a conceitos vistos durante o treinamento e pode ser aplicada a novas classes no momento da inferência usando texto, imagens ou consultas por clique. Aproveitando descritores visuais ricos de modelos pré-treinados em larga escala (modelos de base), o FAn pode detectar e segmentar objetos ao corresponder consultas multimodais (texto, imagens, cliques) a uma sequência de imagens de entrada. Esses objetos detectados e segmentados são rastreados ao longo dos quadros de imagem, levando em consideração oclusão e o reaparecimento do objeto. Demonstramos o FAn em um sistema robótico do mundo real (um veículo aéreo micro) e relatamos sua capacidade de seguir de forma contínua os objetos de interesse em um loop de controle em tempo real. O FAn pode ser implantado em um laptop com uma placa gráfica leve (6-8 GB), alcançando uma taxa de processamento de 6-20 quadros por segundo. Para permitir adoção rápida, implantação e extensibilidade, disponibilizamos todo o nosso código como código aberto em nossa página do projeto em https://github.com/alaamaalouf/FollowAnything. Também incentivamos o leitor a assistir ao nosso vídeo explicativo de 5 minutos neste link: https://www.youtube.com/watch?v=6Mgt3EPytrw.

Extração Flexível de Isosuperfícies para Otimização de Malhas Baseada em Gradiente
Flexible Isosurface Extraction for Gradient-Based Mesh Optimization

Aug 10

ByTianchang Shen, Jacob Munkberg, Jon Hasselgren, Kangxue Yin, Zian Wang, Wenzheng Chen, Zan Gojcic, Sanja Fidler, Nicholas Sharp, Jun Gao

Este trabalho considera a otimização de malhas baseada em gradientes, onde iterativamente otimizamos uma malha de superfície 3D representando-a como a isosuperfície de um campo escalar, um paradigma cada vez mais comum em aplicações como fotogrametria, modelagem generativa e física inversa. As implementações existentes adaptam algoritmos clássicos de extração de isosuperfícies, como Marching Cubes ou Dual Contouring; essas técnicas foram projetadas para extrair malhas de campos fixos e conhecidos, e no contexto de otimização, elas carecem dos graus de liberdade necessários para representar malhas de alta qualidade que preservam características, ou sofrem de instabilidades numéricas. Introduzimos o FlexiCubes, uma representação de isosuperfície especificamente projetada para otimizar uma malha desconhecida em relação a objetivos geométricos, visuais ou até mesmo físicos. Nossa principal percepção é a introdução de parâmetros adicionais cuidadosamente escolhidos na representação, que permitem ajustes locais flexíveis na geometria e conectividade da malha extraída. Esses parâmetros são atualizados juntamente com o campo escalar subjacente por meio de diferenciação automática ao otimizar para uma tarefa subsequente. Baseamos nosso esquema de extração no Dual Marching Cubes para melhorar as propriedades topológicas e apresentamos extensões para gerar opcionalmente malhas tetraédricas e hierarquicamente adaptativas. Experimentos extensivos validam o FlexiCubes tanto em benchmarks sintéticos quanto em aplicações do mundo real, mostrando que ele oferece melhorias significativas na qualidade da malha e na fidelidade geométrica.

Alexa, brinque com o robô: Apresentando o Primeiro Desafio Alexa Prize SimBot em IA Embarcada
Alexa, play with robot: Introducing the First Alexa Prize SimBot Challenge on Embodied AI

Aug 9

ByHangjie Shi, Leslie Ball, Govind Thattai, Desheng Zhang, Lucy Hu, Qiaozi Gao, Suhaila Shakiah, Xiaofeng Gao, Aishwarya Padmakumar, Bofei Yang, Cadence Chung, Dinakar Guthy, Gaurav Sukhatme, Karthika Arumugam, Matthew Wen, Osman Ipek, Patrick Lange, Rohan Khanna, Shreyas Pansare, Vasu Sharma, Chao Zhang, Cris Flagg, Daniel Pressel, Lavina Vaz, Luke Dai, Prasoon Goyal, Sattvik Sahai, Shaohua Liu, Yao Lu, Anna Gottardi, Shui Hu, Yang Liu, Dilek Hakkani-Tur, Kate Bland, Heather Rocker, James Jeun, Yadunandana Rao, Michael Johnston, Akshaya Iyengar, Arindam Mandal, Prem Natarajan, Reza Ghanadan

O programa Alexa Prize capacitou inúmeros estudantes universitários a explorar, experimentar e demonstrar seus talentos na construção de agentes conversacionais por meio de desafios como o SocialBot Grand Challenge e o TaskBot Challenge. À medida que os agentes conversacionais aparecem cada vez mais em contextos multimodais e corporificados, é importante explorar as possibilidades da interação conversacional aprimorada com visão computacional e incorporação física. Este artigo descreve o SimBot Challenge, um novo desafio no qual equipes universitárias competem para construir assistentes robóticos que realizam tarefas em um ambiente físico simulado. O artigo fornece uma visão geral do SimBot Challenge, que incluiu fases de desafio online e offline. Descrevemos a infraestrutura e o suporte fornecidos às equipes, incluindo o Alexa Arena, o ambiente simulado e o kit de ferramentas de aprendizado de máquina fornecido para acelerar a construção de modelos de visão e linguagem. Resumimos as abordagens que as equipes participantes adotaram para superar os desafios de pesquisa e extraímos as principais lições aprendidas. Por fim, fornecemos uma análise do desempenho dos SimBots competidores durante a competição.

PDE-Refiner: Alcançando Simulações Longas e Precisas com Solucionadores Neurais de EDPs
PDE-Refiner: Achieving Accurate Long Rollouts with Neural PDE Solvers

Aug 10

ByPhillip Lippe, Bastiaan S. Veeling, Paris Perdikaris, Richard E. Turner, Johannes Brandstetter

Equações diferenciais parciais (EDPs) dependentes do tempo são ubíquas na ciência e na engenharia. Recentemente, principalmente devido ao alto custo computacional das técnicas tradicionais de solução, substitutos baseados em redes neurais profundas têm ganhado crescente interesse. A utilidade prática desses solucionadores de EDPs neurais depende de sua capacidade de fornecer previsões precisas e estáveis em horizontes temporais longos, o que é um problema notoriamente difícil. Neste trabalho, apresentamos uma análise em larga escala de estratégias comuns de desdobramento temporal, identificando a negligência de informações de frequência espacial não dominantes, frequentemente associadas a altas frequências em soluções de EDPs, como a principal armadilha que limita o desempenho estável e preciso do desdobramento. Com base nessas percepções, inspiramo-nos em avanços recentes em modelos de difusão para introduzir o PDE-Refiner; uma nova classe de modelos que permite uma modelagem mais precisa de todos os componentes de frequência por meio de um processo de refinamento em múltiplas etapas. Validamos o PDE-Refiner em benchmarks desafiadores de dinâmica de fluidos complexa, demonstrando desdobramentos estáveis e precisos que consistentemente superam modelos state-of-the-art, incluindo arquiteturas neurais, numéricas e híbridas neurais-numéricas. Além disso, demonstramos que o PDE-Refiner aumenta significativamente a eficiência de dados, uma vez que o objetivo de remoção de ruído induz implicitamente uma nova forma de aumento espectral de dados. Por fim, a conexão do PDE-Refiner com modelos de difusão permite uma avaliação precisa e eficiente da incerteza preditiva do modelo, possibilitando estimar quando o substituto se torna impreciso.

LLMs Confiáveis: Uma Análise e Diretrizes para Avaliar o Alinhamento de Modelos de Linguagem de Grande Escala
Trustworthy LLMs: a Survey and Guideline for Evaluating Large Language Models' Alignment

Aug 10

ByYang Liu, Yuanshun Yao, Jean-Francois Ton, Xiaoying Zhang, Ruocheng Guo Hao Cheng, Yegor Klochkov, Muhammad Faaiz Taufiq, Hang Li