Artigos de pesquisa em IA selecionados diariamente com traduções
Propomos o MVDream, um modelo de difusão multi-visão capaz de gerar imagens multi-visão geometricamente consistentes a partir de um prompt de texto dado. Ao aproveitar modelos de difusão de imagens pré-treinados em grandes conjuntos de dados da web e um conjunto de dados multi-visão renderizado a partir de ativos 3D, o modelo de difusão multi-visão resultante pode alcançar tanto a generalização da difusão 2D quanto a consistência dos dados 3D. Tal modelo pode, portanto, ser aplicado como um prior multi-visão para geração 3D via Amostragem de Distilação de Pontuação (Score Distillation Sampling), onde ele melhora significativamente a estabilidade dos métodos existentes de elevação 2D ao resolver o problema de consistência 3D. Por fim, mostramos que o modelo de difusão multi-visão também pode ser ajustado em um cenário de poucas amostras para geração 3D personalizada, ou seja, na aplicação DreamBooth3D, onde a consistência pode ser mantida após o aprendizado da identidade do sujeito.
Modelos semelhantes a Transformers para tarefas visuais têm se mostrado recentemente eficazes para uma ampla gama de aplicações downstream, como segmentação e detecção. Trabalhos anteriores demonstraram que propriedades de segmentação emergem em Transformers visuais (ViTs) treinados usando métodos auto-supervisionados como o DINO, mas não naqueles treinados em tarefas de classificação supervisionada. Neste estudo, investigamos se a segmentação emerge em modelos baseados em Transformers unicamente como resultado de mecanismos intrincados de aprendizado auto-supervisionado, ou se a mesma emergência pode ser alcançada sob condições muito mais amplas através de um design adequado da arquitetura do modelo. Por meio de resultados experimentais extensivos, demonstramos que, ao empregar uma arquitetura semelhante a Transformer conhecida como CRATE, cujo design modela e busca explicitamente estruturas de baixa dimensão na distribuição de dados, propriedades de segmentação, tanto em nível global quanto de partes, já emergem com uma receita de treinamento supervisionado minimalista. Análises mais refinadas camada por camada revelam que as propriedades emergentes corroboram fortemente as funções matemáticas projetadas da rede de caixa branca. Nossos resultados sugerem um caminho para projetar modelos fundamentais de caixa branca que são simultaneamente altamente performáticos e matematicamente totalmente interpretáveis. O código está disponível em https://github.com/Ma-Lab-Berkeley/CRATE.
Modelos de linguagem pré-treinados como o ChatGPT melhoraram significativamente a geração de código. À medida que esses modelos aumentam em escala, há uma necessidade crescente de que a saída seja capaz de lidar com tarefas mais complexas. Além disso, em bioinformática, a geração de programas funcionais apresenta desafios adicionais notáveis devido à quantidade de conhecimento de domínio necessário, à necessidade de operações de dados complicadas e às dependências funcionais intrincadas entre essas operações. Aqui, apresentamos o BioCoder, um benchmark desenvolvido para avaliar modelos pré-treinados existentes na geração de código de bioinformática. Em relação à geração de código de funções, o BioCoder abrange possíveis dependências de pacotes, declarações de classes e variáveis globais. Ele incorpora 1026 funções e 1243 métodos em Python e Java do GitHub e 253 exemplos do Projeto Rosalind. O BioCoder incorpora um framework de fuzz-testing para avaliação, e o aplicamos para avaliar diversos modelos, incluindo InCoder, CodeGen, CodeGen2, SantaCoder, StarCoder, StarCoder+, InstructCodeT5+ e ChatGPT. Nossa análise detalhada desses modelos enfatiza a importância do conhecimento de domínio, da geração pragmática de código e da compreensão contextual. Nosso conjunto de dados, benchmark, imagens Docker e scripts necessários para testes estão todos disponíveis em https://github.com/gersteinlab/biocoder.
O Stable Diffusion, um modelo generativo utilizado na síntese de texto para imagem, frequentemente enfrenta problemas de composição induzidos por resolução ao gerar imagens de tamanhos variados. Esse problema decorre principalmente do fato de o modelo ter sido treinado em pares de imagens de escala única e suas descrições textuais correspondentes. Além disso, o treinamento direto em imagens de tamanhos ilimitados é inviável, pois exigiria um número imenso de pares texto-imagem e acarretaria custos computacionais substanciais. Para superar esses desafios, propomos um pipeline de duas etapas chamado Any-Size-Diffusion (ASD), projetado para gerar de forma eficiente imagens bem compostas de qualquer tamanho, minimizando a necessidade de recursos de GPU de alta memória. Especificamente, a etapa inicial, denominada Any Ratio Adaptability Diffusion (ARAD), utiliza um conjunto selecionado de imagens com uma faixa restrita de proporções para otimizar o modelo de difusão condicionado por texto, melhorando assim sua capacidade de ajustar a composição para acomodar diversos tamanhos de imagem. Para apoiar a criação de imagens em qualquer tamanho desejado, introduzimos ainda uma técnica chamada Fast Seamless Tiled Diffusion (FSTD) na etapa subsequente. Esse método permite a ampliação rápida da saída do ASD para qualquer tamanho de alta resolução, evitando artefatos de emenda ou sobrecarga de memória. Resultados experimentais nos benchmarks LAION-COCO e MM-CelebA-HQ demonstram que o ASD pode produzir imagens bem estruturadas de tamanhos arbitrários, reduzindo o tempo de inferência em 2x em comparação com o algoritmo tradicional de divisão em blocos.
Quando programadores humanos dominam uma linguagem de programação, torna-se mais fácil aprender uma nova linguagem de programação. Neste relatório, focamos em explorar se as linguagens de programação podem se reforçar mutuamente durante a fase de ajuste fino de instruções em modelos de linguagem de código de grande escala. Realizamos extensos experimentos com 8 linguagens de programação populares (Python, JavaScript, TypeScript, C, C++, Java, Go, HTML) no StarCoder. Os resultados demonstram que as linguagens de programação podem melhorar significativamente umas às outras. Por exemplo, o CodeM-Python 15B treinado em Python é capaz de aumentar o desempenho em Java em um absoluto de 17,95% pass@1 no HumanEval-X. Mais surpreendentemente, descobrimos que o CodeM-HTML 7B treinado no corpus de HTML pode melhorar o Java em um absoluto de 15,24% pass@1. Nossos dados de treinamento estão disponíveis em https://github.com/NL2Code/CodeM.
Abordamos o problema de mapeamento ativo com uma representação neural de cena aprendida continuamente, denominada Mapeamento Neural Ativo. A chave reside em encontrar ativamente o espaço alvo a ser explorado com movimentos eficientes do agente, minimizando assim a incerteza do mapa em tempo real dentro de um ambiente previamente desconhecido. Neste artigo, examinamos o espaço de pesos do campo neural aprendido continuamente e mostramos empiricamente que a variabilidade neural, a robustez da previsão contra perturbações aleatórias nos pesos, pode ser diretamente utilizada para medir a incerteza instantânea do mapa neural. Juntamente com a informação geométrica contínua herdada no mapa neural, o agente pode ser guiado para encontrar um caminho transponível e gradualmente adquirir conhecimento do ambiente. Apresentamos pela primeira vez um sistema de mapeamento ativo com uma representação neural implícita baseada em coordenadas para reconstrução de cena online. Experimentos nos ambientes visualmente realistas Gibson e Matterport3D demonstram a eficácia do método proposto.
É um problema de longa data na robótica desenvolver agentes capazes de executar diversas tarefas de manipulação a partir de observações visuais em ambientes reais não estruturados. Para alcançar esse objetivo, o robô precisa ter um entendimento abrangente da estrutura 3D e da semântica da cena. Neste trabalho, apresentamos o GNFactor, um agente de clonagem comportamental visual para manipulação robótica multitarefa com Campos de Características Neurais Generalizáveis. O GNFactor otimiza conjuntamente um campo neural generalizável (GNF) como módulo de reconstrução e um Perceiver Transformer como módulo de tomada de decisão, aproveitando uma representação de voxel 3D profunda compartilhada. Para incorporar semântica em 3D, o módulo de reconstrução utiliza um modelo de base visão-linguagem (por exemplo, Stable Diffusion) para destilar informações semânticas ricas no voxel 3D profundo. Avaliamos o GNFactor em 3 tarefas reais de robô e realizamos ablações detalhadas em 10 tarefas do RLBench com um número limitado de demonstrações. Observamos uma melhoria substancial do GNFactor em relação aos métodos state-of-the-art atuais em tarefas conhecidas e desconhecidas, demonstrando a forte capacidade de generalização do GNFactor. O site do nosso projeto é https://yanjieze.com/GNFactor/.
Apresentamos o Belebele, um conjunto de dados de compreensão de leitura automatizada (MRC) de múltipla escolha que abrange 122 variantes linguísticas. Expandindo significativamente a cobertura linguística de benchmarks de compreensão de linguagem natural (NLU), este conjunto de dados permite a avaliação de modelos de texto em idiomas de alta, média e baixa disponibilidade de recursos. Cada questão é baseada em um trecho curto do conjunto de dados Flores-200 e possui quatro opções de resposta. As questões foram cuidadosamente elaboradas para discriminar entre modelos com diferentes níveis de compreensão geral da linguagem. O conjunto de dados em inglês, por si só, prova-se desafiador o suficiente para testar modelos de linguagem state-of-the-art. Sendo totalmente paralelo, este conjunto de dados permite a comparação direta do desempenho dos modelos em todos os idiomas. Utilizamos este conjunto de dados para avaliar as capacidades de modelos de linguagem mascarados multilingues (MLMs) e modelos de linguagem de grande escala (LLMs). Apresentamos resultados extensivos e constatamos que, apesar da significativa transferência interlinguística em LLMs centrados no inglês, MLMs muito menores pré-treinados com dados multilingues equilibrados ainda compreendem muito mais idiomas. Também observamos que um tamanho maior de vocabulário e uma construção consciente do vocabulário estão correlacionados com um melhor desempenho em idiomas de baixa disponibilidade de recursos. No geral, o Belebele abre novas possibilidades para avaliar e analisar as capacidades multilingues de sistemas de processamento de linguagem natural (NLP).
A interpolação de quadros de vídeo centrada no ser humano tem um grande potencial para melhorar as experiências de entretenimento das pessoas e encontrar aplicações comerciais na indústria de análise esportiva, por exemplo, na síntese de vídeos em câmera lenta. Embora existam vários conjuntos de dados de referência disponíveis na comunidade, nenhum deles é dedicado a cenários centrados no ser humano. Para preencher essa lacuna, apresentamos o SportsSloMo, um benchmark composto por mais de 130 mil clipes de vídeo e 1 milhão de quadros de vídeo de alta resolução (≥720p) de vídeos esportivos em câmera lenta coletados do YouTube. Re-treinamos vários métodos state-of-the-art em nosso benchmark, e os resultados mostram uma diminuição em sua precisão em comparação com outros conjuntos de dados. Isso destaca a dificuldade do nosso benchmark e sugere que ele apresenta desafios significativos mesmo para os métodos de melhor desempenho, já que os corpos humanos são altamente deformáveis e as oclusões são frequentes em vídeos esportivos. Para melhorar a precisão, introduzimos dois termos de perda considerando os priors conscientes do ser humano, onde adicionamos supervisão auxiliar à segmentação panóptica e à detecção de pontos-chave humanos, respectivamente. Os termos de perda são agnósticos ao modelo e podem ser facilmente integrados em qualquer abordagem de interpolação de quadros de vídeo. Os resultados experimentais validam a eficácia dos nossos termos de perda propostos, levando a uma melhoria consistente de desempenho em 5 modelos existentes, que estabelecem modelos de linha de base fortes em nosso benchmark. O conjunto de dados e o código podem ser encontrados em: https://neu-vi.github.io/SportsSlomo/.