Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos um modelo de texto-para-fala (TTS, do inglês Text-To-Speech) chamado BASE TTS, que significa Big Adaptive Streamable TTS with Emergent Abilities (TTS Grande, Adaptável e Transmissível com Habilidades Emergentes). O BASE TTS é o maior modelo TTS já desenvolvido, treinado com 100 mil horas de dados de fala de domínio público, alcançando um novo estado da arte em naturalidade de fala. Ele emprega um Transformer autorregressivo de 1 bilhão de parâmetros que converte textos brutos em códigos discretos ("speechcodes"), seguido por um decodificador baseado em convolução que transforma esses speechcodes em formas de onda de maneira incremental e transmissível. Além disso, nossos speechcodes são construídos usando uma nova técnica de tokenização de fala que apresenta desacoplamento de ID de falante e compressão com codificação byte-pair. Ecoando as amplamente relatadas "habilidades emergentes" de grandes modelos de linguagem quando treinados com volumes crescentes de dados, mostramos que variantes do BASE TTS construídas com mais de 10 mil horas e mais de 500 milhões de parâmetros começam a demonstrar prosódia natural em frases textualmente complexas. Projetamos e compartilhamos um conjunto de dados especializado para medir essas habilidades emergentes no contexto de texto-para-fala. Demonstramos a naturalidade de ponta do BASE TTS ao avaliá-lo em comparação com baselines que incluem sistemas de texto-para-fala em larga escala disponíveis publicamente: YourTTS, Bark e TortoiseTTS. Amostras de áudio geradas pelo modelo podem ser ouvidas em https://amazon-ltts-paper.com/.
Os modelos de linguagem atuais têm dificuldades em compreender aspectos do mundo que não são facilmente descritos em palavras e lutam com tarefas complexas e de longa duração. Sequências de vídeo oferecem informações temporais valiosas que estão ausentes na linguagem e em imagens estáticas, tornando-as atraentes para modelagem conjunta com a linguagem. Tais modelos poderiam desenvolver uma compreensão tanto do conhecimento textual humano quanto do mundo físico, permitindo capacidades mais amplas de IA para auxiliar os humanos. No entanto, aprender a partir de milhões de tokens de sequências de vídeo e linguagem apresenta desafios devido a restrições de memória, complexidade computacional e conjuntos de dados limitados. Para enfrentar esses desafios, organizamos um grande conjunto de dados de vídeos e livros diversos, utilizamos a técnica RingAttention para treinar de forma escalável em sequências longas e aumentamos gradualmente o tamanho do contexto de 4K para 1M de tokens. Este artigo faz as seguintes contribuições: (a) Maior tamanho de contexto em redes neurais: Treinamos um dos maiores transformers em termos de tamanho de contexto em sequências longas de vídeo e linguagem, estabelecendo novos benchmarks em tarefas difíceis de recuperação e compreensão de vídeos longos. (b) Soluções para superar os desafios do treinamento de visão e linguagem, incluindo o uso de empacotamento de sequências mascaradas para misturar diferentes comprimentos de sequência, ponderação de perda para equilibrar linguagem e visão, e um conjunto de dados de perguntas e respostas gerado pelo modelo para chat em sequências longas. (c) Uma implementação altamente otimizada com RingAttention, empacotamento de sequências mascaradas e outras características-chave para treinamento em sequências multimodais de milhões de tokens. (d) Modelos de 7B de parâmetros totalmente de código aberto, capazes de processar documentos de texto longos (LWM-Text, LWM-Text-Chat) e vídeos (LWM, LWM-Chat) com mais de 1M de tokens. Este trabalho abre caminho para o treinamento em grandes conjuntos de dados de vídeo e linguagem de longa duração, desenvolvendo a compreensão tanto do conhecimento humano quanto do mundo multimodal, e capacidades mais amplas.
O rápido progresso recente em modelos de aprendizado (auto) supervisionado é em grande parte previsto por leis de escalonamento empíricas: o desempenho de um modelo escala proporcionalmente ao seu tamanho. Leis de escalonamento análogas permanecem elusivas para domínios de aprendizado por reforço, no entanto, onde o aumento do número de parâmetros de um modelo frequentemente prejudica seu desempenho final. Neste artigo, demonstramos que a incorporação de módulos de Mistura de Especialistas (MoE), e em particular Soft MoEs (Puigcerver et al., 2023), em redes baseadas em valor resulta em modelos mais escaláveis em termos de parâmetros, evidenciado por aumentos substanciais de desempenho em uma variedade de regimes de treinamento e tamanhos de modelos. Este trabalho, portanto, fornece fortes evidências empíricas para o desenvolvimento de leis de escalonamento para aprendizado por reforço.
Apresentamos o Lumos, o primeiro sistema de resposta a perguntas multimodal de ponta a ponta com capacidades de compreensão de texto. No núcleo do Lumos está um componente de Reconhecimento de Texto em Cena (STR, na sigla em inglês) que extrai texto de imagens em primeira pessoa, cuja saída é usada para enriquecer a entrada de um Modelo de Linguagem Multimodal de Grande Escala (MM-LLM, na sigla em inglês). Durante o desenvolvimento do Lumos, enfrentamos diversos desafios relacionados à qualidade do STR, à latência geral e à inferência do modelo. Neste artigo, exploramos esses desafios e discutimos a arquitetura do sistema, as escolhas de design e as técnicas de modelagem empregadas para superar esses obstáculos. Também fornecemos uma avaliação abrangente de cada componente, demonstrando alta qualidade e eficiência.
Apresentamos o UFO, um agente inovador focado em interface do usuário (UI) para atender solicitações dos usuários, adaptado a aplicativos no sistema operacional Windows, aproveitando as capacidades do GPT-Vision. O UFO emprega uma estrutura de agente duplo para observar e analisar meticulosamente a interface gráfica do usuário (GUI) e as informações de controle de aplicativos do Windows. Isso permite que o agente navegue e opere de forma contínua dentro de aplicativos individuais e entre eles para atender solicitações dos usuários, mesmo quando envolvem múltiplos aplicativos. A estrutura incorpora um módulo de interação de controle, facilitando a fundamentação de ações sem intervenção humana e permitindo execução totalmente automatizada. Consequentemente, o UFO transforma processos árduos e demorados em tarefas simples realizáveis apenas por meio de comandos em linguagem natural. Testamos o UFO em 9 aplicativos populares do Windows, abrangendo uma variedade de cenários que refletem o uso diário dos usuários. Os resultados, derivados de métricas quantitativas e estudos de casos reais, destacam a eficácia superior do UFO no atendimento às solicitações dos usuários. Até onde sabemos, o UFO é o primeiro agente de UI especificamente adaptado para a conclusão de tarefas no ambiente do Windows. O código-fonte aberto do UFO está disponível em https://github.com/microsoft/UFO.
Redes Neurais em Grafos (GNNs) têm demonstrado um potencial promissor no aprendizado de representações em grafos. A maioria das GNNs define um mecanismo local de passagem de mensagens, propagando informações pelo grafo por meio da empilhamento de múltiplas camadas. Esses métodos, no entanto, são conhecidos por sofrer de duas grandes limitações: sobrecompressão e dificuldade em capturar dependências de longo alcance. Recentemente, Transformers em Grafos (GTs) surgiram como uma alternativa poderosa às Redes Neurais de Passagem de Mensagens (MPNNs). GTs, porém, têm um custo computacional quadrático, carecem de vieses indutivos sobre estruturas de grafos e dependem de Codificações Posicionais/Estruturais (SE/PE) complexas. Neste artigo, mostramos que, embora Transformers, passagem de mensagens complexa e SE/PE sejam suficientes para um bom desempenho na prática, nenhum deles é necessário. Motivados pelo recente sucesso dos Modelos de Espaço de Estados (SSMs), como o Mamba, apresentamos as Redes Mamba em Grafos (GMNs), uma estrutura geral para uma nova classe de GNNs baseada em SSMs seletivos. Discutimos e categorizamos os novos desafios ao adotar SSMs para dados estruturados em grafos e apresentamos quatro etapas necessárias e uma opcional para projetar GMNs, onde escolhemos (1) Tokenização de Vizinhança, (2) Ordenação de Tokens, (3) Arquitetura do Codificador Bidirecional de SSM Seletivo, (4) Codificação Local, e dispensável (5) PE e SE. Além disso, fornecemos justificativas teóricas para o poder das GMNs. Experimentos demonstram que, apesar de um custo computacional muito menor, as GMNs alcançam um desempenho excepcional em conjuntos de dados de referência de longo alcance, pequena escala, grande escala e heterofílicos.
À medida que os Modelos de Linguagem de Grande Escala (LLMs) evoluem rapidamente, sua influência na ciência está se tornando cada vez mais proeminente. As capacidades emergentes dos LLMs em generalização de tarefas e diálogo de forma livre podem avançar significativamente áreas como química e biologia. No entanto, o campo da biologia de célula única, que forma os blocos fundamentais dos organismos vivos, ainda enfrenta vários desafios. Altas barreiras de conhecimento e escalabilidade limitada nos métodos atuais restringem a exploração plena dos LLMs no domínio de dados de célula única, dificultando a acessibilidade direta e a iteração rápida. Para isso, apresentamos o ChatCell, que representa uma mudança de paradigma ao facilitar a análise de célula única com linguagem natural. Aproveitando a adaptação de vocabulário e a geração unificada de sequências, o ChatCell adquiriu profunda expertise em biologia de célula única e a capacidade de acomodar uma ampla gama de tarefas de análise. Experimentos extensivos demonstram ainda o desempenho robusto do ChatCell e seu potencial para aprofundar os insights em célula única, abrindo caminho para uma exploração mais acessível e intuitiva nesse campo crucial. A página inicial do nosso projeto está disponível em https://zjunlp.github.io/project/ChatCell.
A maioria dos geradores de texto-para-3D se baseia em modelos pré-treinados de texto-para-imagem, treinados em bilhões de imagens. Eles utilizam variantes de Amostragem por Distilação de Pontuação (SDS, na sigla em inglês), que é lenta, um tanto instável e propensa a artefatos. Uma mitigação é ajustar o gerador 2D para ser consciente de múltiplas visões, o que pode auxiliar na destilação ou ser combinado com redes de reconstrução para gerar objetos 3D diretamente. Neste artigo, exploramos ainda mais o espaço de design dos modelos de texto-para-3D. Melhoramos significativamente a geração de múltiplas visões ao considerar geradores de vídeo em vez de geradores de imagem. Combinado com um algoritmo de reconstrução 3D que, ao usar splatting Gaussiano, pode otimizar uma função de perda robusta baseada em imagem, produzimos diretamente saídas 3D de alta qualidade a partir das visões geradas. Nosso novo método, IM-3D, reduz o número de avaliações da rede geradora 2D em 10 a 100 vezes, resultando em um pipeline muito mais eficiente, melhor qualidade, menos inconsistências geométricas e um maior rendimento de ativos 3D utilizáveis.
Os controles atuais sobre modelos de difusão (por exemplo, através de texto ou ControlNet) para geração de imagens são insuficientes para reconhecer atributos abstratos e contínuos, como a direção da iluminação ou mudanças de forma não rígidas. Neste artigo, apresentamos uma abordagem que permite aos usuários de modelos de texto para imagem ter controle refinado sobre vários atributos em uma imagem. Isso é feito através da engenharia de conjuntos especiais de tokens de entrada que podem ser transformados de maneira contínua — os chamamos de Palavras 3D Contínuas. Esses atributos podem, por exemplo, ser representados como controles deslizantes e aplicados em conjunto com prompts de texto para um controle refinado sobre a geração de imagens. Dado apenas um único mesh e um motor de renderização, mostramos que nossa abordagem pode ser adotada para fornecer controle contínuo do usuário sobre vários atributos 3D, incluindo iluminação ao longo do dia, orientação das asas de um pássaro, efeito dollyzoom e poses de objetos. Nosso método é capaz de condicionar a criação de imagens com múltiplas Palavras 3D Contínuas e descrições de texto simultaneamente, sem adicionar sobrecarga ao processo generativo. Página do Projeto: https://ttchengab.github.io/continuous_3d_words
A natureza autoregressiva dos modelos de linguagem grandes (LLMs) convencionais limita inerentemente a velocidade de inferência, uma vez que os tokens são gerados sequencialmente. Embora técnicas de decodificação especulativa e paralela tentem mitigar isso, elas enfrentam limitações: ou dependem de modelos menores e menos precisos para geração ou falham em aproveitar totalmente as representações do LLM base. Introduzimos uma nova arquitetura, os Tandem transformers, para abordar essas questões. Essa arquitetura combina de forma única (1) um pequeno modelo autoregressivo e (2) um modelo grande operando em modo de bloco (processando múltiplos tokens simultaneamente). A precisão preditiva do modelo pequeno é substancialmente aprimorada ao permitir que ele atente para as representações mais ricas do modelo grande. No conjunto de dados de pré-treinamento do PaLM2, um tandem de PaLM2-Bison e PaLM2-Gecko demonstra uma melhoria de 3,3% na precisão de previsão do próximo token em relação a um PaLM2-Gecko autônomo, oferecendo um aumento de velocidade de 1,16x em comparação com um modelo PaLM2-Otter com desempenho comparável em tarefas subsequentes. Além disso, incorporamos o modelo tandem dentro do framework de decodificação especulativa (SPEED), onde o modelo grande valida os tokens do modelo pequeno. Isso garante que o Tandem de PaLM2-Bison e PaLM2-Gecko alcance um aumento substancial de velocidade (cerca de 1,14x mais rápido do que usar o PaLM2-Gecko padrão no SPEED) enquanto mantém a precisão idêntica em tarefas subsequentes.
O reconhecimento de gestos manuais está se tornando um modo mais prevalente de interação humano-computador, especialmente com a proliferação de câmeras em dispositivos do cotidiano. Apesar dos avanços contínuos nesse campo, a personalização de gestos é frequentemente pouco explorada. A personalização é crucial, pois permite que os usuários definam e demonstrem gestos que são mais naturais, memoráveis e acessíveis. No entanto, a personalização requer o uso eficiente dos dados fornecidos pelo usuário. Apresentamos um método que permite aos usuários projetar facilmente gestos personalizados com uma câmera monocul a partir de uma única demonstração. Empregamos técnicas de transformers e meta-aprendizado para abordar os desafios do aprendizado com poucos exemplos. Diferente de trabalhos anteriores, nosso método suporta qualquer combinação de gestos com uma mão, duas mãos, estáticos e dinâmicos, incluindo diferentes pontos de vista. Avaliamos nosso método de personalização por meio de um estudo com usuários, coletando 20 gestos de 21 participantes, alcançando até 97% de precisão média de reconhecimento a partir de uma única demonstração. Nosso trabalho fornece um caminho viável para a personalização de gestos baseada em visão, estabelecendo as bases para avanços futuros nesse domínio.
Um Neural Radiance Field (NeRF) codifica a relação específica entre a geometria 3D e a aparência de uma cena. Aqui, questionamos se é possível transferir a aparência de um NeRF de origem para uma geometria 3D de destino de forma semanticamente significativa, de modo que o novo NeRF resultante mantenha a geometria do destino, mas tenha uma aparência que seja uma analogia ao NeRF de origem. Para isso, generalizamos as analogias clássicas de imagens 2D para NeRFs. Aproveitamos a transferência de correspondência ao longo da afinidade semântica, impulsionada por características semânticas de modelos de imagem 2D pré-treinados em larga escala, para alcançar uma transferência de aparência consistente em múltiplas visualizações. Nosso método permite explorar o espaço de produtos de combinação de geometria 3D e aparência. Demonstramos que nosso método supera os métodos tradicionais baseados em estilização e que a grande maioria dos usuários prefere nosso método em relação a várias linhas de base típicas.