Artigos de pesquisa em IA selecionados diariamente com traduções
Uma capacidade impressionante emergente dos grandes modelos de linguagem (LLMs) é a geração de código, incluindo a Linguagem de Consulta Estruturada (SQL) para bancos de dados. Para a tarefa de converter texto em linguagem natural em consultas SQL, conhecida como Text-to-SQL, a adaptação de LLMs é de extrema importância, tanto no aprendizado em contexto quanto em configurações de ajuste fino, dependendo da quantidade de dados de adaptação utilizados. Neste artigo, propomos um modelo Text-to-SQL baseado em LLM chamado SQL-PaLM, que utiliza o PaLM-2 e avança o estado da arte em ambas as configurações. O SQL-PaLM em poucos exemplos é baseado em uma abordagem de prompt de autocoerência baseada em execução projetada para Text-to-SQL e alcança 77,3% de precisão no conjunto de testes do Spider, o que, até onde sabemos, é o primeiro a superar significativamente o estado da arte anterior com ajuste fino por uma margem de 4%. Além disso, demonstramos que o SQL-PaLM ajustado supera ainda mais esse desempenho em mais 1%. Para aplicar o SQL-PaLM em cenários do mundo real, avaliamos ainda mais sua robustez em outras variantes desafiadoras do Spider e demonstramos a capacidade de generalização superior do SQL-PaLM. Adicionalmente, por meio de estudos de caso extensivos, demonstramos as impressionantes capacidades inteligentes e os diversos fatores de sucesso dos modelos Text-to-SQL baseados em LLM.
Modelos de difusão texto-imagem podem criar imagens impressionantes a partir de descrições em linguagem natural que rivalizam com o trabalho de artistas e fotógrafos profissionais. No entanto, esses modelos são grandes, com arquiteturas de rede complexas e dezenas de iterações de remoção de ruído, tornando-os computacionalmente caros e lentos para executar. Como resultado, GPUs de alto desempenho e inferência baseada em nuvem são necessários para executar modelos de difusão em escala. Isso é custoso e tem implicações de privacidade, especialmente quando os dados do usuário são enviados para terceiros. Para superar esses desafios, apresentamos uma abordagem genérica que, pela primeira vez, permite a execução de modelos de difusão texto-imagem em dispositivos móveis em menos de 2 segundos. Conseguimos isso introduzindo uma arquitetura de rede eficiente e melhorando a destilação de passos. Especificamente, propomos uma UNet eficiente ao identificar a redundância do modelo original e reduzir a computação do decodificador de imagem por meio de destilação de dados. Além disso, aprimoramos a destilação de passos explorando estratégias de treinamento e introduzindo regularização a partir da orientação livre de classificador. Nossos extensos experimentos no MS-COCO mostram que nosso modelo com 8 passos de remoção de ruído alcança melhores pontuações FID e CLIP do que o Stable Diffusion v1.5 com 50 passos. Nosso trabalho democratiza a criação de conteúdo ao levar poderosos modelos de difusão texto-imagem para as mãos dos usuários.
Apresentamos o Wuerstchen, uma técnica inovadora para síntese de texto em imagem que combina desempenho competitivo com uma eficiência de custo sem precedentes e facilidade de treinamento em hardware limitado. Baseando-se em avanços recentes em aprendizado de máquina, nossa abordagem, que utiliza estratégias de difusão latente com altas taxas de compressão de imagem latente, reduz significativamente a carga computacional tipicamente associada aos modelos de última geração, preservando, ou até mesmo melhorando, a qualidade das imagens geradas. O Wuerstchen alcança melhorias notáveis de velocidade no tempo de inferência, tornando aplicações em tempo real mais viáveis. Uma das principais vantagens do nosso método reside em seus requisitos modestos de treinamento, exigindo apenas 9.200 horas de GPU, reduzindo drasticamente os custos habituais sem comprometer o desempenho final. Em uma comparação com os modelos de última geração, verificamos que a abordagem apresenta forte competitividade. Este artigo abre caminho para uma nova linha de pesquisa que prioriza tanto o desempenho quanto a acessibilidade computacional, democratizando assim o uso de tecnologias de IA sofisticadas. Através do Wuerstchen, demonstramos um avanço convincente no campo da síntese de texto em imagem, oferecendo um caminho inovador a ser explorado em pesquisas futuras.
Apresentamos o GenMM, um modelo generativo que "extrai" o maior número possível de movimentos diversos a partir de uma única ou poucas sequências de exemplo. Em contraste marcante com os métodos baseados em dados existentes, que geralmente exigem um longo tempo de treinamento offline, são propensos a artefatos visuais e tendem a falhar em esqueletos grandes e complexos, o GenMM herda a natureza livre de treinamento e a qualidade superior do conhecido método Motion Matching. O GenMM pode sintetizar um movimento de alta qualidade em uma fração de segundo, mesmo com estruturas esqueléticas altamente complexas e grandes. No cerne de nossa estrutura generativa está o módulo de correspondência de movimento generativo, que utiliza a similaridade visual bidirecional como uma função de custo generativa para a correspondência de movimento e opera em uma estrutura de múltiplos estágios para refinar progressivamente uma estimativa aleatória usando correspondências de movimento exemplares. Além da geração de movimentos diversos, mostramos a versatilidade de nossa estrutura generativa ao estendê-la para vários cenários que não são possíveis com a correspondência de movimento sozinha, incluindo conclusão de movimento, geração guiada por quadros-chave, looping infinito e remontagem de movimento. O código e os dados deste artigo estão disponíveis em https://wyysf-98.github.io/GenMM/.
As abordagens modernas de aprendizado profundo geralmente transformam as entradas em uma forma específica à modalidade. Por exemplo, a abordagem mais comum de aprendizado profundo para classificação de imagens envolve decodificar os bytes do arquivo de imagem em um tensor RGB, que é então passado para uma rede neural. Em vez disso, investigamos a realização de classificação diretamente nos bytes do arquivo, sem a necessidade de decodificar os arquivos no momento da inferência. Usar bytes de arquivo como entradas do modelo permite o desenvolvimento de modelos que podem operar em múltiplas modalidades de entrada. Nosso modelo, ByteFormer, alcança uma precisão de classificação Top-1 no ImageNet de 77,33% ao treinar e testar diretamente em bytes de arquivos TIFF, utilizando uma arquitetura de transformer com configuração semelhante ao DeiT-Ti (72,2% de precisão ao operar em imagens RGB). Sem modificações ou ajuste de hiperparâmetros, o ByteFormer alcança 95,42% de precisão de classificação ao operar em arquivos WAV do conjunto de dados Speech Commands v2 (em comparação com a precisão state-of-the-art de 98,7%). Além disso, demonstramos que o ByteFormer tem aplicações em inferência que preserva a privacidade. O ByteFormer é capaz de realizar inferência em representações de entrada ofuscadas específicas sem perda de precisão. Também demonstramos a capacidade do ByteFormer de realizar inferência com uma câmera hipotética que preserva a privacidade, evitando a formação de imagens completas ao mascarar consistentemente 90% dos canais de pixels, enquanto ainda alcança 71,35% de precisão no ImageNet. Nosso código estará disponível em https://github.com/apple/ml-cvnets/tree/main/examples/byteformer.
Criar um vídeo vívido a partir de um evento ou cenário em nossa imaginação é uma experiência verdadeiramente fascinante. Avanços recentes na síntese de texto para vídeo revelaram o potencial de alcançar isso apenas com prompts. Embora o texto seja conveniente para transmitir o contexto geral da cena, ele pode ser insuficiente para um controle preciso. Neste artigo, exploramos a geração de vídeos personalizados utilizando o texto como descrição de contexto e a estrutura de movimento (por exemplo, profundidade quadro a quadro) como orientação concreta. Nosso método, denominado Make-Your-Video, envolve a geração de vídeo com condicionamento conjunto usando um Modelo de Difusão Latente que é pré-treinado para síntese de imagens estáticas e, em seguida, aprimorado para geração de vídeo com a introdução de módulos temporais. Esse esquema de aprendizado em duas etapas não apenas reduz os recursos computacionais necessários, mas também melhora o desempenho ao transferir os conceitos ricos disponíveis em conjuntos de dados de imagens exclusivamente para a geração de vídeo. Além disso, usamos uma estratégia simples, porém eficaz, de máscara de atenção causal para permitir a síntese de vídeos mais longos, o que mitiga efetivamente a possível degradação de qualidade. Os resultados experimentais mostram a superioridade de nosso método em relação às linhas de base existentes, particularmente em termos de coerência temporal e fidelidade à orientação do usuário. Além disso, nosso modelo possibilita várias aplicações intrigantes que demonstram potencial para uso prático.
Modelos de difusão texto-imagem demonstraram uma capacidade incomparável de gerar imagens de alta qualidade e diversidade a partir de um conceito textual (por exemplo, "um médico", "amor"). No entanto, o processo interno de mapeamento de texto para uma representação visual rica permanece um enigma. Neste trabalho, enfrentamos o desafio de entender as representações de conceitos em modelos texto-imagem, decompondo um prompt de texto de entrada em um pequeno conjunto de elementos interpretáveis. Isso é alcançado aprendendo um pseudo-token que é uma combinação ponderada e esparsa de tokens do vocabulário do modelo, com o objetivo de reconstruir as imagens geradas para o conceito dado. Aplicada ao modelo de última geração Stable Diffusion, essa decomposição revela estruturas não triviais e surpreendentes nas representações dos conceitos. Por exemplo, descobrimos que alguns conceitos, como "um presidente" ou "um compositor", são dominados por instâncias específicas (por exemplo, "Obama", "Biden") e suas interpolações. Outros conceitos, como "felicidade", combinam termos associados que podem ser concretos ("família", "riso") ou abstratos ("amizade", "emoção"). Além de espiar o funcionamento interno do Stable Diffusion, nosso método também permite aplicações como decomposição de imagem única em tokens, detecção e mitigação de viés e manipulação semântica de imagens. Nosso código estará disponível em: https://hila-chefer.github.io/Conceptor/
Investigamos o potencial de aprender representações visuais utilizando imagens sintéticas geradas por modelos de texto para imagem. Esta é uma questão natural diante do excelente desempenho desses modelos na geração de imagens de alta qualidade. Consideramos especificamente o Stable Diffusion, um dos principais modelos de texto para imagem de código aberto. Mostramos que (1) quando o modelo generativo é configurado com uma escala adequada de orientação sem classificador, métodos de auto-supervisão treinados em imagens sintéticas podem igualar ou superar o desempenho de suas contrapartes treinadas em imagens reais; (2) ao tratar as múltiplas imagens geradas a partir do mesmo prompt de texto como positivas umas para as outras, desenvolvemos um método de aprendizado contrastivo multi-positivo, que chamamos de StableRep. Com apenas imagens sintéticas, as representações aprendidas pelo StableRep superam o desempenho das representações aprendidas por SimCLR e CLIP utilizando o mesmo conjunto de prompts de texto e imagens reais correspondentes, em grandes conjuntos de dados. Quando adicionamos ainda mais supervisão de linguagem, o StableRep treinado com 20 milhões de imagens sintéticas alcança uma precisão melhor do que o CLIP treinado com 50 milhões de imagens reais.
A geração personalizada de imagens a partir de texto usando modelos de difusão foi recentemente proposta e tem atraído muita atenção. Dado um pequeno conjunto de imagens contendo um conceito novo (por exemplo, um brinquedo único), nosso objetivo é ajustar o modelo generativo para capturar detalhes visuais refinados desse conceito e gerar imagens foto-realistas seguindo uma condição de texto. Apresentamos um método plug-in, denominado ViCo, para geração personalizada rápida e leve. Especificamente, propomos um módulo de atenção de imagem para condicionar o processo de difusão na semântica visual baseada em patches. Introduzimos uma máscara de objeto baseada em atenção que é obtida praticamente sem custo adicional a partir do módulo de atenção. Além disso, projetamos uma regularização simples baseada nas propriedades intrínsecas dos mapas de atenção texto-imagem para aliviar a degradação comum por sobreajuste. Diferente de muitos modelos existentes, nosso método não ajusta nenhum parâmetro do modelo de difusão original. Isso permite uma implantação de modelo mais flexível e transferível. Com apenas um treinamento leve de parâmetros (~6% da U-Net de difusão), nosso método alcança desempenho comparável ou até superior a todos os modelos state-of-the-art, tanto qualitativa quanto quantitativamente.
O aprendizado auto-supervisionado (SSL, do inglês Self-Supervised Learning) surgiu recentemente como um paradigma promissor para treinar modelos generalizáveis em dados em larga escala nas áreas de visão, texto e fala. Embora o SSL tenha se mostrado eficaz em fala e áudio, sua aplicação em áudio musical ainda não foi amplamente explorada. Isso se deve principalmente aos desafios distintos associados à modelagem do conhecimento musical, particularmente suas características tonais e de afinação. Para abordar essa lacuna de pesquisa, propomos um modelo de Compreensão Musical Acústica com Treinamento Auto-Supervisionado em Larga Escala (MERT, do inglês Music undERstanding model with large-scale self-supervised Training), que incorpora modelos professores para fornecer rótulos pseudo no pré-treinamento acústico no estilo de modelagem de linguagem mascarada (MLM, do inglês Masked Language Modelling). Em nossa exploração, identificamos uma combinação superior de modelos professores, que supera abordagens convencionais de fala e áudio em termos de desempenho. Essa combinação inclui um professor acústico baseado em Autoencoder Variacional com Quantização Vetorial Residual (RVQ-VAE, do inglês Residual Vector Quantization - Variational AutoEncoder) e um professor musical baseado na Transformada Constante-Q (CQT, do inglês Constant-Q Transform). Esses professores orientam efetivamente nosso modelo estudante, um codificador transformador no estilo BERT, a modelar melhor o áudio musical. Além disso, introduzimos uma técnica de aumento de dados com mistura de ruído intra-lote para aprimorar a robustez das representações. Adicionalmente, exploramos uma ampla gama de configurações para superar a instabilidade no pré-treinamento de modelos de linguagem acústica, o que permite que nosso paradigma projetado escale de 95 milhões para 330 milhões de parâmetros. Resultados experimentais indicam que nosso modelo pode generalizar e ter um bom desempenho em 14 tarefas de compreensão musical, alcançando pontuações gerais de estado da arte (SOTA, do inglês State-Of-The-Art). O código e os modelos estão disponíveis online: https://github.com/yizhilll/MERT.
Existe uma demanda refinada por personalizar modelos pré-treinados de texto para imagem em grande escala, como o Stable Diffusion, para gerar conceitos inovadores, como os próprios usuários. No entanto, o conceito recém-adicionado por métodos de personalização anteriores frequentemente apresenta habilidades de combinação mais fracas do que os originais, mesmo quando várias imagens são fornecidas durante o treinamento. Assim, propomos um novo método de personalização que permite a integração perfeita de um indivíduo único no modelo de difusão pré-treinado utilizando apenas uma fotografia facial e apenas 1024 parâmetros aprendíveis em menos de 3 minutos. Dessa forma, podemos gerar facilmente imagens impressionantes dessa pessoa em qualquer pose ou posição, interagindo com qualquer pessoa e realizando qualquer ação imaginável a partir de prompts de texto. Para alcançar isso, primeiro analisamos e construímos uma base de celebridades bem definida a partir do espaço de incorporação do grande codificador de texto pré-treinado. Em seguida, dada uma foto facial como a identidade alvo, geramos sua própria incorporação otimizando o peso dessa base e bloqueando todos os outros parâmetros. Potencializada pela base de celebridades proposta, a nova identidade em nosso modelo personalizado demonstra uma melhor capacidade de combinação de conceitos do que os métodos de personalização anteriores. Além disso, nosso modelo também pode aprender várias novas identidades simultaneamente e interagir entre si, algo que o modelo de personalização anterior não conseguia. O código será liberado.
Modelos generativos em larga escala são capazes de produzir imagens de alta qualidade a partir de descrições textuais detalhadas. No entanto, muitos aspectos de uma imagem são difíceis ou impossíveis de transmitir por meio de texto. Introduzimos a autoguiada, um método que oferece maior controle sobre as imagens geradas ao guiar as representações internas de modelos de difusão. Demonstramos que propriedades como a forma, localização e aparência de objetos podem ser extraídas dessas representações e usadas para direcionar a amostragem. A autoguiada funciona de maneira semelhante à orientação por classificador, mas utiliza sinais presentes no próprio modelo pré-treinado, sem a necessidade de modelos adicionais ou treinamento. Mostramos como um conjunto simples de propriedades pode ser composto para realizar manipulações desafiadoras de imagens, como modificar a posição ou o tamanho de objetos, fundir a aparência de objetos de uma imagem com o layout de outra, compor objetos de várias imagens em uma única, e muito mais. Também mostramos que a autoguiada pode ser usada para editar imagens reais. Para resultados e uma demonstração interativa, consulte nossa página do projeto em https://dave.ml/selfguidance/.
Gerar música a partir de descrições textais é um modo amigável ao usuário, já que o texto é uma interface relativamente fácil para o engajamento do usuário. Embora algumas abordagens utilizem textos para controlar a geração de áudio musical, editar elementos musicais em áudio gerado é desafiador para os usuários. Em contraste, a música simbólica oferece facilidade de edição, tornando-a mais acessível para os usuários manipularem elementos musicais específicos. Neste artigo, propomos o MuseCoco, que gera música simbólica a partir de descrições textais com atributos musicais como ponte para dividir a tarefa em estágios de compreensão de texto para atributos e geração de música a partir de atributos. MuseCoco significa Copiloto de Composição Musical, que capacita músicos a gerar música diretamente a partir de descrições textais fornecidas, oferecendo uma melhoria significativa na eficiência em comparação com a criação de música totalmente do zero. O sistema tem duas vantagens principais: Em primeiro lugar, ele é eficiente em termos de dados. No estágio de geração de música a partir de atributos, os atributos podem ser extraídos diretamente de sequências musicais, tornando o treinamento do modelo auto-supervisionado. No estágio de compreensão de texto para atributos, o texto é sintetizado e refinado pelo ChatGPT com base em modelos de atributos definidos. Em segundo lugar, o sistema pode alcançar controle preciso com atributos específicos em descrições textais e oferece múltiplas opções de controle por meio de abordagens condicionadas por atributos ou por texto. O MuseCoco supera sistemas de linha de base em termos de musicalidade, controlabilidade e pontuação geral em pelo menos 1,27, 1,08 e 1,32, respectivamente. Além disso, há uma melhoria notável de cerca de 20% na precisão de controle objetivo. Adicionalmente, desenvolvemos um modelo robusto em larga escala com 1,2 bilhão de parâmetros, demonstrando excepcional controlabilidade e musicalidade.
Modelos de linguagem de grande escala baseados em transformers têm alcançado grandes sucessos empíricos. No entanto, à medida que são implantados de forma mais ampla, há uma crescente necessidade de compreender melhor seus mecanismos internos para torná-los mais confiáveis. Esses modelos parecem armazenar grandes quantidades de conhecimento proveniente de seus dados de treinamento e se adaptar rapidamente a novas informações fornecidas em seu contexto ou prompt. Estudamos como os transformers equilibram esses dois tipos de conhecimento ao considerar uma configuração sintética em que os tokens são gerados a partir de distribuições de bigramas globais ou específicas ao contexto. Por meio de uma análise empírica cuidadosa do processo de treinamento em um transformer simplificado de duas camadas, ilustramos a rápida aprendizagem de bigramas globais e o desenvolvimento mais lento de um mecanismo de "cabeça de indução" para os bigramas no contexto. Destacamos o papel das matrizes de pesos como memórias associativas, fornecemos insights teóricos sobre como os gradientes permitem sua aprendizagem durante o treinamento e estudamos o papel das propriedades distribucionais dos dados.
A inteligência de código desempenha um papel fundamental na transformação da engenharia de software moderna. Recentemente, modelos baseados em aprendizado profundo, especialmente modelos de linguagem grandes (LLMs) baseados em Transformers, demonstraram um potencial notável no enfrentamento dessas tarefas ao aproveitar dados massivos de código aberto e características de linguagens de programação. No entanto, o desenvolvimento e a implantação desses modelos frequentemente exigem expertise tanto em aprendizado de máquina quanto em engenharia de software, criando uma barreira para a adoção dos modelos. Neste artigo, apresentamos o CodeTF, uma biblioteca de código aberto baseada em Transformers para LLMs de código de última geração e inteligência de código. Seguindo os princípios de design modular e estrutura extensível, projetamos o CodeTF com uma interface unificada para permitir acesso rápido e desenvolvimento em diferentes tipos de modelos, conjuntos de dados e tarefas. Nossa biblioteca suporta uma coleção de modelos de LLMs de código pré-treinados e benchmarks de código populares, incluindo uma interface padronizada para treinar e servir LLMs de código de forma eficiente, e recursos de dados como parsers específicos de linguagem e funções utilitárias para extrair atributos de código. Neste artigo, descrevemos os princípios de design, a arquitetura, os módulos e componentes principais, e fazemos uma comparação com outras ferramentas de biblioteca relacionadas. Por fim, esperamos que o CodeTF seja capaz de preencher a lacuna entre aprendizado de máquina/IA generativa e engenharia de software, fornecendo uma solução abrangente de código aberto para desenvolvedores, pesquisadores e profissionais.
Os Transformers são centrais para os recentes sucessos em processamento de linguagem natural e visão computacional. Os Transformers possuem uma estrutura principal majoritariamente uniforme, onde as camadas alternam entre feed-forward e self-attention para construir uma rede profunda. Aqui, investigamos essa escolha de design e descobrimos que blocos mais complexos, com diferentes permutações de primitivas de camadas, podem ser mais eficientes. Com base nessa percepção, desenvolvemos um bloco complexo, chamado Brainformer, que consiste em um conjunto diversificado de camadas, como camadas feed-forward com portas esparsas, camadas feed-forward densas, camadas de atenção e várias formas de normalização de camadas e funções de ativação. O Brainformer supera consistentemente os Transformers densos e esparsos de última geração, tanto em qualidade quanto em eficiência. Um modelo Brainformer com 8 bilhões de parâmetros ativados por token demonstra convergência de treinamento 2x mais rápida e tempo de passo 5x mais rápido em comparação com sua contraparte GLaM. Na avaliação de tarefas subsequentes, o Brainformer também demonstra um aumento de 3% na pontuação SuperGLUE com ajuste fino em comparação com o GLaM, com um número semelhante de parâmetros ativados. Por fim, o Brainformer supera amplamente um modelo denso Primer derivado com NAS (Neural Architecture Search) com computação semelhante por token em avaliações few-shot.
Modelos de difusão condicionados por texto são capazes de gerar imagens de alta fidelidade com conteúdos diversos. No entanto, as representações linguísticas frequentemente exibem descrições ambíguas da imagética objetiva pretendida, exigindo a incorporação de sinais de controle adicionais para reforçar a eficácia dos modelos de difusão guiados por texto. Neste trabalho, propomos o Cocktail, um pipeline para misturar várias modalidades em um único embedding, combinado com um ControlNet generalizado (gControlNet), uma normalização controlável (ControlNorm) e um método de amostragem com orientação espacial, para realizar o controle multimodal e refinado espacialmente em modelos de difusão condicionados por texto. Especificamente, introduzimos um hiper-rede gControlNet, dedicado ao alinhamento e infusão dos sinais de controle de modalidades distintas no modelo de difusão pré-treinado. O gControlNet é capaz de aceitar sinais de modalidade flexíveis, abrangendo a recepção simultânea de qualquer combinação de sinais de modalidade ou a fusão suplementar de múltiplos sinais de modalidade. Os sinais de controle são então fundidos e injetados no modelo principal de acordo com o nosso ControlNorm proposto. Além disso, nossa metodologia avançada de amostragem com orientação espacial incorpora proficuamente o sinal de controle na região designada, evitando assim a manifestação de objetos indesejados na imagem gerada. Demonstramos os resultados do nosso método no controle de várias modalidades, comprovando a síntese de alta qualidade e a fidelidade a múltiplos sinais externos.
Abordagens baseadas em modelos de difusão têm mostrado potencial no planejamento orientado por dados, mas não oferecem garantias de segurança, o que dificulta sua aplicação em cenários críticos. Para enfrentar esses desafios, propomos um novo método, chamado SafeDiffuser, que assegura que modelos probabilísticos de difusão atendam a especificações por meio de uma classe de funções de barreira de controle. A ideia central de nossa abordagem é incorporar a invariância de difusão em tempo finito proposta no processo de difusão de remoção de ruído, o que possibilita a geração confiável de dados por difusão. Além disso, demonstramos que nosso método de invariância de difusão em tempo finito, aplicado a modelos generativos, não apenas mantém o desempenho de generalização, mas também cria robustez na geração segura de dados. Testamos nosso método em uma série de tarefas de planejamento seguro, incluindo geração de caminhos em labirintos, locomoção de robôs com pernas e manipulação em espaço 3D, com resultados que mostram vantagens em robustez e garantias em comparação com modelos de difusão convencionais.
Apresentamos o ObjectFolder Benchmark, um conjunto de benchmarks composto por 10 tarefas para aprendizado multissensorial centrado em objetos, focado em reconhecimento, reconstrução e manipulação de objetos utilizando visão, som e tato. Também introduzimos o conjunto de dados ObjectFolder Real, que inclui medições multissensoriais de 100 objetos domésticos do mundo real, desenvolvido com base em um pipeline recém-projetado para coletar malhas 3D, vídeos, sons de impacto e leituras táteis de objetos reais. Realizamos uma avaliação sistemática tanto nos 1.000 objetos neurais multissensoriais do ObjectFolder quanto nos dados multissensoriais reais do ObjectFolder Real. Nossos resultados demonstram a importância da percepção multissensorial e revelam os papéis respectivos da visão, áudio e tato em diferentes tarefas de aprendizado centrado em objetos. Ao disponibilizar publicamente nosso conjunto de dados e suíte de benchmarks, esperamos catalisar e possibilitar novas pesquisas em aprendizado multissensorial centrado em objetos na visão computacional, robótica e além. Página do projeto: https://objectfolder.stanford.edu