Artigos de pesquisa em IA selecionados diariamente com traduções
Os sistemas modernos de recomendação utilizam modelos de recuperação em larga escala que consistem em duas etapas: o treinamento de um modelo de codificador duplo para incorporar consultas e candidatos no mesmo espaço, seguido por uma busca de vizinhos mais próximos aproximada (ANN, do inglês Approximate Nearest Neighbor) para selecionar os principais candidatos com base na incorporação de uma consulta. Neste artigo, propomos um novo paradigma de estágio único: um modelo de recuperação generativo que decodifica de forma autoregressiva os identificadores dos candidatos alvo em uma única fase. Para isso, em vez de atribuir IDs atômicos gerados aleatoriamente a cada item, geramos IDs Semânticos: uma tupla de palavras-código semanticamente significativas para cada item que serve como seu identificador único. Utilizamos um método hierárquico chamado RQ-VAE para gerar essas palavras-código. Uma vez que temos os IDs Semânticos para todos os itens, um modelo sequência-para-sequência baseado em Transformer é treinado para prever o ID Semântico do próximo item. Como esse modelo prevê a tupla de palavras-código que identifica o próximo item diretamente de forma autoregressiva, ele pode ser considerado um modelo de recuperação generativo. Mostramos que nosso sistema de recomendação treinado nesse novo paradigma melhora os resultados alcançados pelos modelos SOTA atuais no conjunto de dados da Amazon. Além disso, demonstramos que o modelo sequência-para-sequência combinado com IDs Semânticos hierárquicos oferece melhor generalização e, portanto, melhora a recuperação de itens de início frio para recomendações.
Redes neurais profundas demonstraram desempenho notável em tarefas de aprendizado supervisionado, mas exigem grandes quantidades de dados rotulados. O aprendizado auto-supervisionado oferece um paradigma alternativo, permitindo que o modelo aprenda a partir de dados sem rótulos explícitos. A teoria da informação tem sido fundamental para compreender e otimizar redes neurais profundas. Especificamente, o princípio do gargalo de informação tem sido aplicado para otimizar a relação entre compressão e preservação de informações relevantes em cenários supervisionados. No entanto, o objetivo ideal de informação no aprendizado auto-supervisionado ainda não está claro. Neste artigo, revisamos diversas abordagens de aprendizado auto-supervisionado sob a perspectiva da teoria da informação e apresentamos uma estrutura unificada que formaliza o problema de aprendizado auto-supervisionado baseado em teoria da informação. Integramos pesquisas existentes em uma estrutura coerente, examinamos métodos recentes de aprendizado auto-supervisionado e identificamos oportunidades e desafios de pesquisa. Além disso, discutimos a medição empírica de quantidades teóricas da informação e seus estimadores. Este artigo oferece uma revisão abrangente da interseção entre teoria da informação, aprendizado auto-supervisionado e redes neurais profundas.
Os modelos de linguagem mais recentes, como o ChatGPT e o GPT-4, têm atraído atenção significativa por serem capazes de gerar respostas de alta qualidade para entradas humanas. Apesar dos extensos testes realizados com o ChatGPT e o GPT-4 em corpora de texto genéricos, que demonstram suas impressionantes capacidades, ainda não foi realizado um estudo focado em corpora financeiros. Neste estudo, buscamos preencher essa lacuna ao examinar o potencial do ChatGPT e do GPT-4 como solucionadores de problemas típicos de análise de texto financeiro em cenários de zero-shot ou few-shot. Especificamente, avaliamos suas capacidades em quatro tarefas representativas utilizando cinco conjuntos de dados textuais financeiros distintos. O estudo preliminar mostra que o ChatGPT e o GPT-4 enfrentam dificuldades em tarefas como reconhecimento de entidades nomeadas (NER) financeiras e análise de sentimentos, onde é necessário conhecimento específico do domínio, enquanto se destacam em tarefas de raciocínio numérico. Relatamos tanto os pontos fortes quanto as limitações das versões atuais do ChatGPT e do GPT-4, comparando-os com modelos ajustados (finetuned) de última geração, bem como com modelos generativos pré-treinados específicos do domínio. Nossos experimentos fornecem estudos qualitativos, por meio dos quais esperamos contribuir para a compreensão das capacidades dos modelos existentes e facilitar melhorias futuras.
Em uma série de trabalhos recentes, arquiteturas centradas em objetos têm se mostrado adequadas para a decomposição não supervisionada de cenas no domínio da visão. Inspirados por esses métodos, apresentamos o AudioSlots, um modelo generativo centrado em slots para a separação cega de fontes no domínio do áudio. O AudioSlots é construído utilizando redes codificadoras e decodificadoras permutação-equivariantes. A rede codificadora, baseada na arquitetura Transformer, aprende a mapear um espectrograma de áudio misto para um conjunto não ordenado de embeddings de fontes independentes. A rede decodificadora de difusão espacial aprende a gerar os espectrogramas das fontes a partir dos embeddings das fontes. Treinamos o modelo de ponta a ponta utilizando uma função de perda invariante à permutação. Nossos resultados na separação de fala do Libri2Mix constituem uma prova de conceito de que essa abordagem é promissora. Discutimos os resultados e as limitações de nossa abordagem em detalhes, e ainda delineamos possíveis maneiras de superar as limitações e direções para trabalhos futuros.
Nos últimos anos, grandes modelos de linguagem pré-treinados (LLMs) demonstraram a capacidade de seguir instruções e realizar tarefas novas a partir de poucos exemplos. A possibilidade de parametrizar um LLM por meio de tais exemplos em contexto amplia sua capacidade a um custo muito menor do que o ajuste fino. Estendemos essa linha de raciocínio e apresentamos um método que expande ainda mais as capacidades de um LLM ao incorporá-lo em um algoritmo ou programa. Para demonstrar os benefícios dessa abordagem, apresentamos um exemplo ilustrativo de resposta a perguntas com suporte em evidências. Obtivemos uma melhoria de 6,4% em relação à linha de base de cadeia de pensamento por meio de uma abordagem mais algorítmica, sem qualquer ajuste fino. Além disso, destacamos trabalhos recentes sob essa perspectiva e discutimos as vantagens e desvantagens em comparação com as abordagens padrão.
A execução de código é um aspecto fundamental da semântica das linguagens de programação que reflete o comportamento exato do código. No entanto, a maioria dos modelos pré-treinados para inteligência de código ignora o rastreamento de execução e depende apenas do código-fonte e das estruturas sintáticas. Neste artigo, investigamos quão bem os modelos pré-treinados podem entender e realizar a execução de código. Desenvolvemos uma técnica de aumento de dados baseada em mutação para criar um conjunto de dados e uma tarefa de execução de código em Python em grande escala e realista, que desafia modelos existentes como o Codex. Em seguida, apresentamos o CodeExecutor, um modelo Transformer que aproveita o pré-treinamento em execução de código e a aprendizagem curricular para aprimorar sua compreensão semântica. Avaliamos o CodeExecutor na execução de código e mostramos seu desempenho promissor e suas limitações. Também demonstramos seus benefícios potenciais para tarefas de inteligência de código, como busca de código a código em zero-shot e geração de texto para código. Nossa análise fornece insights sobre as habilidades de aprendizagem e generalização dos modelos pré-treinados para execução de código.
A otimização e renderização de Campos de Radiação Neural (NeRF) são computacionalmente caras devido ao grande número de amostras necessárias para a renderização volumétrica. Trabalhos recentes incluíram abordagens alternativas de amostragem para acelerar seus métodos, porém, elas frequentemente não são o foco principal do estudo. Neste artigo, investigamos e comparamos múltiplas abordagens de amostragem e demonstramos que a melhoria na amostragem é geralmente aplicável em variantes de NeRF sob um conceito unificado de estimador de transmitância. Para facilitar experimentos futuros, desenvolvemos o NerfAcc, uma caixa de ferramentas em Python que fornece APIs flexíveis para incorporar métodos avançados de amostragem em métodos relacionados a NeRF. Demonstramos sua flexibilidade ao mostrar que ele pode reduzir o tempo de treinamento de vários métodos recentes de NeRF em 1,5x a 20x com modificações mínimas na base de código existente. Além disso, NeRFs altamente personalizados, como o Instant-NGP, podem ser implementados em PyTorch nativo usando o NerfAcc.
A proliferação de conteúdo em vídeo exige abordagens eficientes e flexíveis baseadas em redes neurais para a geração de novos conteúdos audiovisuais. Neste artigo, propomos uma abordagem inovadora que combina a geração de texto para vídeo zero-shot com o ControlNet para aprimorar a saída desses modelos. Nosso método utiliza múltiplos esboços de quadros como entrada e gera uma saída de vídeo que corresponde ao fluxo desses quadros, construindo sobre a arquitetura Text-to-Video Zero e incorporando o ControlNet para permitir condições de entrada adicionais. Primeiro, interpolamos quadros entre os esboços fornecidos e, em seguida, executamos o Text-to-Video Zero utilizando o vídeo com os novos quadros interpolados como técnica de controle, aproveitando os benefícios tanto da geração de texto para vídeo zero-shot quanto do controle robusto oferecido pelo ControlNet. Experimentos demonstram que nosso método se destaca na produção de conteúdo de vídeo de alta qualidade e notavelmente consistente, que se alinha com maior precisão ao movimento pretendido pelo usuário para o objeto dentro do vídeo. Disponibilizamos um pacote abrangente de recursos, incluindo um vídeo demonstrativo, site do projeto, repositório GitHub de código aberto e um ambiente Colab para playground, visando fomentar pesquisas e aplicações adicionais do método proposto.
Após o notável sucesso dos modelos de difusão na geração de imagens, trabalhos recentes também demonstraram sua impressionante capacidade de resolver diversos problemas inversos de maneira não supervisionada, ao restringir adequadamente o processo de amostragem com base em uma entrada condicionante. Motivados por isso, neste artigo, apresentamos a primeira abordagem que utiliza modelos de difusão como um prior para a reconstrução altamente precisa do BRDF facial 3D a partir de uma única imagem. Começamos aproveitando um conjunto de dados UV de alta qualidade de reflectância facial (albedo difuso e especular, além de normais), que renderizamos sob diferentes configurações de iluminação para simular texturas RGB naturais e, em seguida, treinamos um modelo de difusão incondicional em pares concatenados de texturas renderizadas e componentes de reflectância. No momento do teste, ajustamos um modelo morfável 3D à imagem fornecida e desenrolamos o rosto em uma textura UV parcial. Ao amostrar do modelo de difusão, mantendo intacta a parte observada da textura, o modelo preenche não apenas as áreas auto-oclusas, mas também os componentes de reflectância desconhecidos, em uma única sequência de etapas de remoção de ruído. Em contraste com os métodos existentes, adquirimos diretamente a textura observada a partir da imagem de entrada, resultando, assim, em uma estimativa de reflectância mais fiel e consistente. Por meio de uma série de comparações qualitativas e quantitativas, demonstramos um desempenho superior tanto na tarefa de completação de textura quanto na reconstrução de reflectância.
Para que um robô personalize efetivamente a assistência física, ele deve aprender as preferências do usuário que podem ser geralmente reaplicadas a cenários futuros. Neste trabalho, investigamos a personalização da limpeza doméstica com robôs que podem arrumar cômodos pegando objetos e guardando-os. Um desafio crucial é determinar o local adequado para colocar cada objeto, já que as preferências das pessoas podem variar significativamente dependendo do gosto pessoal ou do contexto cultural. Por exemplo, uma pessoa pode preferir guardar camisas na gaveta, enquanto outra pode preferir colocá-las na prateleira. Nosso objetivo é construir sistemas que possam aprender tais preferências a partir de apenas alguns exemplos, por meio de interações anteriores com uma pessoa específica. Mostramos que os robôs podem combinar planejamento e percepção baseados em linguagem com as capacidades de sumarização few-shot de modelos de linguagem de grande escala (LLMs) para inferir preferências generalizadas do usuário que são amplamente aplicáveis a interações futuras. Essa abordagem permite uma adaptação rápida e alcança 91,2% de precisão em objetos não vistos em nosso conjunto de dados de referência. Também demonstramos nossa abordagem em um manipulador móvel do mundo real chamado TidyBot, que consegue guardar 85,0% dos objetos em cenários de teste do mundo real.
As páginas da web têm sido um recurso valioso para tarefas de linguagem e visão-linguagem. No entanto, apenas partes das páginas são mantidas: pares de imagem-legenda, artigos de texto longo ou HTML bruto, nunca todos em um só lugar. Como resultado, as tarefas relacionadas a páginas da web receberam pouca atenção, e os dados estruturados de imagem-texto foram subutilizados. Para estudar a compreensão multimodal de páginas da web, introduzimos o conjunto Wikipedia Webpage 2M (WikiWeb2M); o primeiro a reter o conjunto completo de imagens, texto e dados de estrutura disponíveis em uma página. O WikiWeb2M pode ser usado para tarefas como geração de descrição de página, resumo de seção e legendagem contextual de imagens.