Artigos de pesquisa em IA selecionados diariamente com traduções
Amphion é um kit de ferramentas para Geração de Áudio, Música e Fala. Seu objetivo é apoiar pesquisas reproduzíveis e ajudar pesquisadores e engenheiros iniciantes a ingressar no campo de pesquisa e desenvolvimento de geração de áudio, música e fala. O Amphion oferece um recurso único: visualizações de modelos ou arquiteturas clássicas. Acreditamos que essas visualizações são benéficas para pesquisadores e engenheiros iniciantes que desejam obter uma melhor compreensão do modelo. O objetivo principal do Amphion é oferecer uma plataforma para estudar a conversão de qualquer entrada em áudio geral. O Amphion foi projetado para apoiar tarefas individuais de geração. Além das tarefas específicas de geração, o Amphion também inclui vários vocoders e métricas de avaliação. Um vocoder é um módulo importante para produzir sinais de áudio de alta qualidade, enquanto as métricas de avaliação são essenciais para garantir consistência nas métricas das tarefas de geração. Neste artigo, fornecemos uma visão geral de alto nível do Amphion.
Responder a perguntas complexas em linguagem natural frequentemente exige raciocínio em múltiplas etapas e a integração de informações externas. Vários sistemas combinaram a recuperação de conhecimento com um modelo de linguagem de grande escala (LLM) para responder a tais perguntas. No entanto, esses sistemas enfrentam diversos casos de falha, e não podemos treiná-los diretamente de ponta a ponta para corrigir essas falhas, pois a interação com o conhecimento externo não é diferenciável. Para abordar essas deficiências, definimos um agente LLM no estilo ReAct com a capacidade de raciocinar e agir sobre o conhecimento externo. Além disso, refinamos o agente por meio de um método semelhante ao ReST que treina iterativamente em trajetórias anteriores, empregando aprendizado por reforço com lote crescente e feedback de IA para autodistilação e autodesenvolvimento contínuos. Partindo de um modelo grande pré-configurado e após apenas duas iterações do algoritmo, conseguimos produzir um modelo pequeno ajustado que alcança desempenho comparável em benchmarks desafiadores de respostas a perguntas composicionais, com duas ordens de magnitude a menos de parâmetros.
Os modelos de difusão têm demonstrado sucesso notável em uma variedade de tarefas generativas subsequentes, mas ainda são pouco explorados na importante e desafiadora geração de cabeças falantes expressivas. Neste trabalho, propomos uma estrutura chamada DreamTalk para preencher essa lacuna, que emprega um design meticuloso para desbloquear o potencial dos modelos de difusão na geração de cabeças falantes expressivas. Especificamente, o DreamTalk consiste em três componentes cruciais: uma rede de remoção de ruído, um especialista em lábios consciente do estilo e um preditor de estilo. A rede de remoção de ruído baseada em difusão é capaz de sintetizar consistentemente movimentos faciais de alta qualidade impulsionados por áudio em diversas expressões. Para aprimorar a expressividade e a precisão dos movimentos labiais, introduzimos um especialista em lábios consciente do estilo que pode guiar a sincronização labial enquanto considera os estilos de fala. Para eliminar a necessidade de vídeo ou texto de referência de expressão, um preditor de estilo adicional baseado em difusão é utilizado para prever a expressão alvo diretamente do áudio. Dessa forma, o DreamTalk pode aproveitar modelos de difusão poderosos para gerar rostos expressivos de maneira eficaz e reduzir a dependência de referências de estilo caras. Resultados experimentais demonstram que o DreamTalk é capaz de gerar rostos falantes foto-realísticos com diversos estilos de fala e alcançar movimentos labiais precisos, superando as contrapartes state-of-the-art existentes.
O modelo Segment Anything (SAM) aborda duas tarefas práticas, porém desafiadoras, de segmentação: segmentar qualquer coisa (SegAny), que utiliza um ponto específico para prever a máscara de um único objeto de interesse, e segmentar tudo (SegEvery), que prevê as máscaras para todos os objetos na imagem. O que torna o SegAny lento para o SAM é seu codificador de imagem pesado, que foi otimizado pelo MobileSAM por meio de destilação de conhecimento desacoplada. No entanto, o gargalo de eficiência do SegEvery com o SAM está em seu decodificador de máscaras, pois ele precisa primeiro gerar várias máscaras com prompts redundantes de busca em grade e, em seguida, realizar filtragem para obter as máscaras válidas finais. Propomos melhorar sua eficiência gerando diretamente as máscaras finais com apenas prompts válidos, que podem ser obtidos por meio de descoberta de objetos. Nossa abordagem proposta não apenas ajuda a reduzir o tempo total no decodificador de máscaras em pelo menos 16 vezes, mas também alcança um desempenho superior. Especificamente, nossa abordagem resulta em um aumento médio de desempenho de 3,6% (42,5% vs. 38,9%) para a proposta de objetos zero-shot no conjunto de dados LVIS com a métrica AR@K de máscaras. Resultados qualitativos mostram que nossa abordagem gera máscaras de granularidade fina, evitando a super-segmentação de objetos. Este projeto, que visa um SegEvery mais rápido que o SAM original, é denominado MobileSAMv2 para diferenciá-lo do MobileSAM, que visa um SegAny mais rápido. Além disso, demonstramos que nossa nova amostragem de prompts também é compatível com os codificadores de imagem destilados no MobileSAM, contribuindo para um framework unificado para SegAny e SegEvery eficientes. O código está disponível no mesmo link do Projeto MobileSAM: https://github.com/ChaoningZhang/MobileSAM.
Este artigo não tem como objetivo buscar inovação no mecanismo de atenção. Em vez disso, concentra-se em superar as compensações existentes entre precisão e eficiência no contexto do processamento de nuvens de pontos, aproveitando o poder da escala. Inspirados pelos recentes avanços na aprendizagem de representações em grande escala 3D, reconhecemos que o desempenho do modelo é mais influenciado pela escala do que por um design intrincado. Portanto, apresentamos o Point Transformer V3 (PTv3), que prioriza a simplicidade e a eficiência em detrimento da precisão de certos mecanismos que são secundários para o desempenho geral após o escalonamento, como a substituição da busca precisa de vizinhos por KNN por um mapeamento serializado eficiente de vizinhos em nuvens de pontos organizadas com padrões específicos. Esse princípio permite um escalonamento significativo, expandindo o campo receptivo de 16 para 1024 pontos enquanto mantém a eficiência (um aumento de 3x na velocidade de processamento e uma melhoria de 10x na eficiência de memória em comparação com seu predecessor, PTv2). O PTv3 alcança resultados de ponta em mais de 20 tarefas subsequentes que abrangem cenários tanto internos quanto externos. Aprimorado ainda mais com o treinamento conjunto em múltiplos conjuntos de dados, o PTv3 eleva esses resultados a um nível superior.
Um dos componentes-chave nos modelos de difusão é a UNet para previsão de ruído. Embora vários trabalhos tenham explorado as propriedades básicas do decodificador da UNet, seu codificador permanece amplamente inexplorado. Neste trabalho, realizamos o primeiro estudo abrangente do codificador da UNet. Analisamos empiricamente as características do codificador e fornecemos insights para questões importantes sobre suas mudanças durante o processo de inferência. Em particular, descobrimos que as características do codificador mudam suavemente, enquanto as características do decodificador exibem variações substanciais em diferentes passos de tempo. Essa descoberta nos inspirou a omitir o codificador em certos passos de tempo adjacentes e reutilizar ciclicamente as características do codificador dos passos de tempo anteriores para o decodificador. Com base nessa observação, introduzimos um esquema de propagação do codificador simples, porém eficaz, para acelerar a amostragem de difusão em um conjunto diversificado de tarefas. Ao nos beneficiarmos do nosso esquema de propagação, conseguimos executar em paralelo o decodificador em certos passos de tempo adjacentes. Além disso, introduzimos um método de injeção de ruído prévio para melhorar os detalhes de textura na imagem gerada. Além da tarefa padrão de texto para imagem, também validamos nossa abordagem em outras tarefas: texto para vídeo, geração personalizada e geração guiada por referência. Sem utilizar nenhuma técnica de destilação de conhecimento, nossa abordagem acelera a amostragem dos modelos Stable Diffusion (SD) e DeepFloyd-IF em 41% e 24%, respectivamente, mantendo um desempenho de geração de alta qualidade. Nosso código está disponível em https://github.com/hutaiHang/Faster-Diffusion{FasterDiffusion}.
Modelos de Linguagem de Grande Escala (LLMs) baseados em Transformers frequentemente impõem limitações no comprimento do texto de entrada para garantir a geração de respostas fluentes e relevantes. Essa restrição limita sua aplicabilidade em cenários que envolvem textos longos. Propomos um novo método de compressão semântica que permite a generalização para textos 6 a 8 vezes mais longos, sem incorrer em custos computacionais significativos ou exigir ajuste fino. Nosso framework proposto se inspira na codificação de fontes da teoria da informação e emprega um modelo pré-treinado para reduzir a redundância semântica de entradas longas antes de passá-las aos LLMs para tarefas subsequentes. Resultados experimentais demonstram que nosso método estende efetivamente a janela de contexto dos LLMs em uma variedade de tarefas, incluindo resposta a perguntas, sumarização, aprendizado com poucos exemplos e recuperação de informações. Além disso, o método de compressão semântica proposto exibe fluência consistente na geração de textos enquanto reduz a sobrecarga computacional associada.
Conjuntos de dados conversacionais de alta qualidade são essenciais para o desenvolvimento de modelos de IA que possam se comunicar com os usuários. Uma maneira de promover interações mais profundas entre um chatbot e seu usuário é por meio de personas, aspectos do caráter do usuário que fornecem insights sobre sua personalidade, motivações e comportamentos. Treinar modelos de Processamento de Linguagem Natural (NLP) em um conjunto de dados diversificado e abrangente baseado em personas pode levar a modelos conversacionais que criam uma conexão mais profunda com o usuário e mantêm seu engajamento. Neste artigo, aproveitamos o poder dos Modelos de Linguagem de Grande Escala (LLMs) para criar um grande conjunto de dados conversacionais de alta qualidade a partir de um conjunto de dados inicial. Propomos uma arquitetura de framework Gerador-Crítico para expandir o conjunto de dados inicial, ao mesmo tempo em que melhoramos a qualidade de suas conversas. O Gerador é um LLM instruído a gerar conversas. O Crítico consiste em uma mistura de LLMs especializados que controlam a qualidade das conversas geradas. Esses especialistas selecionam as melhores conversas geradas, que então usamos para melhorar o Gerador. Lançamos o Synthetic-Persona-Chat, composto por 20 mil conversas originadas do Persona-Chat. Avaliamos a qualidade do Synthetic-Persona-Chat e nosso framework de geração em diferentes dimensões por meio de extensos experimentos, e observamos que a taxa de perda do Synthetic-Persona-Chat em relação ao Persona-Chat durante o teste de Turing diminui de 17,2% para 8,8% ao longo de três iterações.
Demonstramos que os métodos não supervisionados existentes aplicados às ativações de modelos de linguagem de grande escala (LLM) não descobrem conhecimento — em vez disso, eles parecem descobrir qualquer característica mais proeminente das ativações. A ideia por trás da elicitação de conhecimento não supervisionada é que o conhecimento satisfaz uma estrutura de consistência, que pode ser usada para descobrir conhecimento. Primeiro, provamos teoricamente que características arbitrárias (não apenas conhecimento) satisfazem a estrutura de consistência de um método específico e líder de elicitação de conhecimento não supervisionada, a busca consistente por contraste (Burns et al. - arXiv:2212.03827). Em seguida, apresentamos uma série de experimentos mostrando cenários em que métodos não supervisionados resultam em classificadores que não preveem conhecimento, mas sim uma característica proeminente diferente. Concluímos que os métodos não supervisionados existentes para descobrir conhecimento latente são insuficientes e contribuímos com verificações de sanidade para aplicar na avaliação de futuros métodos de elicitação de conhecimento. Conceitualmente, hipotetizamos que os problemas de identificação explorados aqui, por exemplo, distinguir o conhecimento de um modelo do conhecimento de um personagem simulado, persistirão para futuros métodos não supervisionados.
A Amostragem por Destilação de Pontuação (Score Distillation Sampling - SDS) tem demonstrado desempenho notável na geração condicional de conteúdo 3D. No entanto, uma compreensão abrangente da formulação do SDS ainda é insuficiente, o que dificulta o avanço na geração 3D. Neste trabalho, apresentamos uma interpretação do SDS como uma combinação de três componentes funcionais: termos de desengajamento de modos, busca de modos e redução de variância, e analisamos as propriedades de cada um. Mostramos que problemas como suavização excessiva e saturação de cores resultam da deficiência intrínseca dos termos de supervisão e revelamos que o termo de redução de variância introduzido pelo SDS é subótimo. Além disso, esclarecemos a adoção de uma escala grande de Orientação Livre de Classificador (Classifier-Free Guidance - CFG) para a geração 3D. Com base na análise, propomos uma abordagem simples, porém eficaz, denominada Destilação de Pontuação Estável (Stable Score Distillation - SSD), que orquestra estrategicamente cada termo para a geração de conteúdo 3D de alta qualidade. Experimentos extensivos validam a eficácia da nossa abordagem, demonstrando sua capacidade de gerar conteúdo 3D de alta fidelidade sem sucumbir a problemas como suavização excessiva e saturação, mesmo sob condições de baixa CFG com a representação NeRF mais desafiadora.
Neural Radiance Field (NeRF) e suas variantes surgiram recentemente como métodos bem-sucedidos para síntese de novas visões e reconstrução de cenas 3D. No entanto, a maioria dos modelos NeRF atuais ou alcança alta precisão usando tamanhos de modelo grandes, ou obtém alta eficiência de memória em detrimento da precisão. Isso limita o escopo de aplicação de qualquer modelo individual, já que modelos de alta precisão podem não caber em dispositivos com pouca memória, e modelos eficientes em memória podem não atender a requisitos de alta qualidade. Para isso, apresentamos o SlimmeRF, um modelo que permite trade-offs instantâneos em tempo de teste entre o tamanho do modelo e a precisão por meio de sliming, tornando o modelo simultaneamente adequado para cenários com diferentes orçamentos de computação. Isso é alcançado por meio de um novo algoritmo proposto chamado Incrementação de Rank Tensorial (TRaIn), que aumenta gradualmente o rank da representação tensorial do modelo durante o treinamento. Também observamos que nosso modelo permite trade-offs mais eficazes em cenários de visão esparsa, às vezes até alcançando maior precisão após o sliming. Atribuímos isso ao fato de que informações errôneas, como floaters, tendem a ser armazenadas em componentes correspondentes a ranks mais altos. Nossa implementação está disponível em https://github.com/Shiran-Yuan/SlimmeRF.
O objetivo desta série é documentar opiniões e questões no campo de aprendizado de máquina como elas se apresentam hoje e como mudam ao longo do tempo. O plano é realizar essa pesquisa periodicamente até o apocalipse impulsionado pela singularidade da IA e pela obsessão por clipes de papel, mantendo uma lista atualizada de perguntas relevantes e entrevistando novos membros da comunidade para cada edição. Nesta edição, investigamos as opiniões das pessoas sobre IA interpretável, o valor de benchmarks em PLN moderno, o estado do progresso em direção à compreensão do aprendizado profundo e o futuro da academia.