Artigos de pesquisa em IA selecionados diariamente com traduções
A separação universal de fontes (USS) é uma tarefa fundamental de pesquisa para a análise computacional de cenas auditivas, que visa separar gravações mono em faixas de fontes individuais. Existem três desafios potenciais aguardando a solução para a tarefa de separação de fontes de áudio. Primeiro, os sistemas anteriores de separação de fontes de áudio concentram-se principalmente na separação de uma ou de um número limitado de fontes específicas. Há uma falta de pesquisa sobre a construção de um sistema unificado que possa separar fontes arbitrárias por meio de um único modelo. Segundo, a maioria dos sistemas anteriores requer dados de fontes limpos para treinar um separador, enquanto dados de fontes limpos são escassos. Terceiro, há uma falta de sistema USS que possa detectar e separar automaticamente classes de sons ativos em um nível hierárquico. Para utilizar dados de áudio em grande escala fracamente rotulados/não rotulados para a separação de fontes de áudio, propomos uma estrutura universal de separação de fontes de áudio contendo: 1) um modelo de etiquetagem de áudio treinado em dados fracamente rotulados como uma rede de consulta; e 2) um modelo de separação de fontes condicional que toma as saídas da rede de consulta como condições para separar fontes de som arbitrárias. Investigamos várias redes de consulta, modelos de separação de fontes e estratégias de treinamento e propomos uma estratégia hierárquica de USS para detectar e separar automaticamente classes de sons da ontologia AudioSet. Ao utilizar apenas o AudioSet fracamente rotulado, nosso sistema USS é bem-sucedido na separação de uma ampla variedade de classes de sons, incluindo separação de eventos sonoros, separação de fontes musicais e aprimoramento de fala. O sistema USS alcança uma melhoria média na relação sinal-distorção (SDRi) de 5,57 dB em 527 classes de sons do AudioSet; 10,57 dB no conjunto de dados DCASE 2018 Task 2; 8,12 dB no conjunto de dados MUSDB18; um SDRi de 7,28 dB no conjunto de dados Slakh2100; e um SSNR de 9,00 dB no conjunto de dados voicebank-demand. Disponibilizamos o código-fonte em https://github.com/bytedance/uss.
Os modelos de difusão emergiram como um paradigma poderoso para geração, obtendo desempenho robusto em diversos domínios com entradas de valor contínuo. Apesar das promessas da geração de texto totalmente não autorregressiva, a aplicação de modelos de difusão à linguagem natural permanece desafiadora devido à sua natureza discreta. Neste trabalho, propomos o Text-to-text Self-conditioned Simplex Diffusion (TESS), um modelo de difusão de texto que é totalmente não autorregressivo, emprega uma nova forma de autocondicionamento e aplica o processo de difusão no espaço simplex de logits em vez do espaço de embeddings aprendido típico. Por meio de experimentos extensivos em tarefas de compreensão e geração de linguagem natural, incluindo sumarização, simplificação de texto, geração de paráfrases e geração de perguntas, demonstramos que o TESS supera os modelos não autorregressivos de última geração e é competitivo com modelos autorregressivos pré-treinados de sequência para sequência.
Neste artigo, estudamos um novo problema no reconhecimento de ações egocêntricas, que denominamos como "Generalização Multimodal" (MMG). A MMG visa investigar como os sistemas podem generalizar quando os dados de certas modalidades são limitados ou até mesmo completamente ausentes. Investigamos minuciosamente a MMG no contexto do reconhecimento de ações supervisionado padrão e no cenário mais desafiador de aprendizado de poucos exemplos para novas categorias de ações. A MMG consiste em dois cenários inéditos, projetados para apoiar considerações de segurança e eficiência em aplicações do mundo real: (1) generalização com modalidade ausente, onde algumas modalidades presentes durante o treinamento estão ausentes durante a inferência, e (2) generalização zero-shot multimodal, onde as modalidades presentes durante a inferência e o treinamento são disjuntas. Para viabilizar essa investigação, construímos um novo conjunto de dados, o MMG-Ego4D, contendo pontos de dados com modalidades de vídeo, áudio e sensores de movimento inercial (IMU). Nosso conjunto de dados é derivado do conjunto de dados Ego4D, mas processado e minuciosamente reanotado por especialistas humanos para facilitar a pesquisa no problema de MMG. Avaliamos uma variedade diversificada de modelos no MMG-Ego4D e propomos novos métodos com capacidade de generalização aprimorada. Em particular, introduzimos um novo módulo de fusão com treinamento de dropout de modalidade, treinamento de alinhamento baseado em contraste e uma nova função de perda prototípica multimodal para melhor desempenho em poucos exemplos. Esperamos que este estudo sirva como um benchmark e oriente pesquisas futuras em problemas de generalização multimodal. O benchmark e o código estarão disponíveis em https://github.com/facebookresearch/MMG_Ego4D.
Os modelos de difusão de imagem e vídeo orientados por texto alcançaram um sucesso sem precedentes na geração de conteúdo realista e diversificado. Recentemente, a edição e variação de imagens e vídeos existentes em modelos generativos baseados em difusão têm recebido atenção significativa. No entanto, trabalhos anteriores limitam-se a editar conteúdo com texto ou fornecer personalização grosseira usando uma única pista visual, tornando-os inadequados para conteúdo indescritível que requer controle refinado e detalhado. Nesse sentido, propomos uma estrutura genérica de edição de vídeo chamada Make-A-Protagonist, que utiliza pistas textuais e visuais para editar vídeos com o objetivo de capacitar indivíduos a se tornarem protagonistas. Especificamente, aproveitamos múltiplos especialistas para analisar o vídeo de origem, pistas visuais e textuais alvo, e propomos um modelo de geração de vídeo baseado em texto e imagem que emprega amostragem de redução de ruído guiada por máscara para gerar o resultado desejado. Resultados extensivos demonstram as capacidades versáteis e notáveis de edição do Make-A-Protagonist.
Embora o pré-treinamento em grandes conjuntos de dados de imagem-texto da web tenha impulsionado avanços rápidos em muitas tarefas de visão e linguagem (V&L), trabalhos recentes demonstraram que modelos pré-treinados carecem de compreensão "detalhada", como a capacidade de reconhecer relações, verbos e números em imagens. Isso resultou em um interesse crescente na comunidade para desenvolver novos benchmarks ou modelos para tais capacidades. Para entender e quantificar melhor o progresso nessa direção, investigamos quatro modelos competitivos de V&L em quatro benchmarks detalhados. Por meio de nossa análise, descobrimos que o X-VLM (Zeng et al., 2022) supera consistentemente outras abordagens de referência, e que inovações na modelagem podem impactar o desempenho mais do que a escalabilidade de dados da web, que, por vezes, até degrada o desempenho. Através de uma investigação mais aprofundada do X-VLM, destacamos a importância tanto de novas funções de perda quanto de fontes de dados ricas para o aprendizado de habilidades detalhadas. Por fim, examinamos a dinâmica de treinamento e descobrimos que, para algumas tarefas, o desempenho atinge o pico no início do treinamento ou flutua significativamente, sem nunca convergir.
O agendamento e alocação de recursos é um componente crítico de muitos sistemas de alto impacto, desde o controle de congestionamento até a computação em nuvem. Encontrar soluções mais ótimas para esses problemas frequentemente tem um impacto significativo na economia de recursos e tempo, na redução do desgaste de dispositivos e até mesmo na potencial melhoria das emissões de carbono. Neste artigo, focamos em uma instância específica de um problema de agendamento, especificamente o problema de mapeamento de memória que ocorre durante a compilação de programas de aprendizado de máquina: ou seja, o mapeamento de tensores para diferentes camadas de memória para otimizar o tempo de execução. Introduzimos uma abordagem para resolver o problema de mapeamento de memória usando Aprendizado por Reforço (RL). O RL é um paradigma de solução bem adequado para problemas de tomada de decisão sequencial que são passíveis de planejamento e para espaços de busca combinatórios com entradas de dados de alta dimensionalidade. Formulamos o problema como um jogo de um único jogador, que chamamos de mallocGame, de modo que trajetórias de alta recompensa do jogo correspondam a mapeamentos de memória eficientes no hardware alvo. Também introduzimos um agente de Aprendizado por Reforço, mallocMuZero, e mostramos que ele é capaz de jogar esse jogo para descobrir novas e aprimoradas soluções de mapeamento de memória que levam a tempos de execução mais rápidos em cargas de trabalho reais de ML em aceleradores de ML. Comparamos o desempenho do mallocMuZero com o solucionador padrão usado pelo compilador de Álgebra Linear Acelerada (XLA) em um benchmark de cargas de trabalho realistas de ML. Além disso, mostramos que o mallocMuZero é capaz de melhorar o tempo de execução do modelo de multiplicação de matrizes AlphaTensor, recentemente publicado.
Garantir que os grandes modelos de linguagem (LMs) sejam justos, robustos e úteis requer uma compreensão de como diferentes modificações em suas entradas impactam o comportamento do modelo. No contexto de tarefas de geração de texto aberto, no entanto, essa avaliação não é trivial. Por exemplo, ao apresentar a um modelo um texto de entrada e uma versão perturbada e "contrastiva" dele, diferenças significativas nas previsões do próximo token podem não ser reveladas com estratégias de decodificação padrão. Com essa motivação em mente, propomos o Contrastive Input Decoding (CID): um algoritmo de decodificação para gerar texto a partir de duas entradas, onde o texto gerado é provável dada uma entrada, mas improvável dada a outra. Dessa forma, as gerações contrastivas podem destacar diferenças potencialmente sutis em como a saída do LM varia para as duas entradas de maneira simples e interpretável. Utilizamos o CID para destacar vieses específicos de contexto que são difíceis de detectar com estratégias de decodificação padrão e quantificar o efeito de diferentes perturbações de entrada.
Modelos de sumarização frequentemente geram textos mal calibrados em relação a métricas de qualidade porque são treinados para maximizar a verossimilhança de uma única referência (MLE). Para resolver isso, trabalhos recentes adicionaram uma etapa de calibração, que expõe o modelo às suas próprias saídas ranqueadas para melhorar a relevância ou, em uma linha de pesquisa separada, contrastam conjuntos positivos e negativos para melhorar a fidelidade. Embora eficazes, grande parte desses trabalhos tem se concentrado em como gerar e otimizar esses conjuntos. Menos se sabe sobre por que uma configuração é mais eficaz do que outra. Neste trabalho, descobrimos as características subjacentes dos conjuntos eficazes. Para cada instância de treinamento, formamos um grande e diversificado conjunto de candidatos e variamos sistematicamente os subconjuntos usados para o ajuste fino de calibração. Cada estratégia de seleção visa aspectos distintos dos conjuntos, como diversidade lexical ou o tamanho da lacuna entre positivos e negativos. Em três conjuntos de dados diversos de sumarização científica de longo formato (abrangendo domínios biomédicos, clínicos e químicos), descobrimos, entre outras coisas, que a calibração de fidelidade é ideal quando os conjuntos negativos são extrativos e mais propensos a serem gerados, enquanto para a calibração de relevância, a margem da métrica entre os candidatos deve ser maximizada e a surpresa—o desacordo entre o modelo e as classificações dos candidatos definidas pela métrica—minimizada. O código para criar, selecionar e otimizar conjuntos de calibração está disponível em https://github.com/griff4692/calibrating-summaries.
Gerar visualizações fiéis de rostos humanos requer capturar tanto detalhes grosseiros quanto refinados da geometria e aparência facial. Os métodos existentes são baseados em dados, exigindo um extenso corpus de informações não acessível publicamente à comunidade de pesquisa, ou falham em capturar detalhes refinados porque dependem de modelos geométricos faciais que não conseguem representar texturas com granularidade fina, utilizando uma discretização de malha e deformação linear projetada apenas para modelar uma geometria facial grosseira. Introduzimos um método que preenche essa lacuna ao se inspirar em técnicas tradicionais de computação gráfica. Expressões não vistas são modeladas pela combinação de aparências a partir de um conjunto esparso de poses extremas. Essa combinação é realizada medindo mudanças volumétricas locais nessas expressões e reproduzindo localmente sua aparência sempre que uma expressão similar é realizada durante o teste. Mostramos que nosso método generaliza para expressões não vistas, adicionando efeitos de granularidade fina sobre deformações volumétricas suaves de um rosto, e demonstramos como ele se generaliza além de rostos.
Várias empresas líderes em IA, incluindo OpenAI, Google DeepMind e Anthropic, têm como objetivo declarado construir inteligência artificial geral (IAG) - sistemas de IA que alcançam ou superam o desempenho humano em uma ampla gama de tarefas cognitivas. Ao perseguir esse objetivo, elas podem desenvolver e implantar sistemas de IA que apresentam riscos particularmente significativos. Embora já tenham tomado algumas medidas para mitigar esses riscos, as melhores práticas ainda não foram estabelecidas. Para apoiar a identificação dessas melhores práticas, enviamos uma pesquisa para 92 especialistas líderes de laboratórios de IAG, academia e sociedade civil e recebemos 51 respostas. Os participantes foram questionados sobre o quanto concordavam com 50 declarações sobre o que os laboratórios de IAG deveriam fazer. Nossa principal descoberta é que os participantes, em média, concordaram com todas elas. Muitas declarações receberam níveis extremamente altos de concordância. Por exemplo, 98% dos entrevistados concordaram parcial ou totalmente que os laboratórios de IAG devem realizar avaliações de risco antes da implantação, avaliações de capacidades perigosas, auditorias de modelos por terceiros, restrições de segurança no uso de modelos e testes de red teaming. Por fim, nossa lista de declarações pode servir como uma base útil para esforços de desenvolvimento de melhores práticas, padrões e regulamentações para laboratórios de IAG.