Artigos de pesquisa em IA selecionados diariamente com traduções
Grandes avanços foram alcançados utilizando modelos de visão e linguagem de grande escala, como o Stable Diffusion (SD), para uma variedade de tarefas subsequentes, incluindo edição de imagens, correspondência de imagens e geração de formas 3D. Inspirados por esses progressos, exploramos a utilização desses extensos modelos de visão e linguagem para segmentar imagens em qualquer granularidade desejada, utilizando tão pouco quanto uma amostra anotada, por meio da proposta do SLiMe. O SLiMe enquadra esse problema como uma tarefa de otimização. Especificamente, dada uma única imagem de treinamento e sua máscara de segmentação, primeiro extraímos mapas de atenção, incluindo nosso novo "mapa de auto-atenção acumulada ponderada", a partir do prior do SD. Em seguida, utilizando os mapas de atenção extraídos, os embeddings de texto do Stable Diffusion são otimizados de forma que cada um deles aprenda sobre uma única região segmentada da imagem de treinamento. Esses embeddings aprendidos destacam então a região segmentada nos mapas de atenção, que por sua vez podem ser usados para derivar o mapa de segmentação. Isso permite que o SLiMe segmentar qualquer imagem do mundo real durante a inferência com a granularidade da região segmentada na imagem de treinamento, utilizando apenas um exemplo. Além disso, aproveitar dados de treinamento adicionais, quando disponíveis, ou seja, few-shot, melhora o desempenho do SLiMe. Realizamos um conjunto rico de experimentos examinando vários fatores de design e mostramos que o SLiMe supera outros métodos existentes de segmentação one-shot e few-shot.
Estudos anteriores geralmente assumiram que modelos de linguagem de grande escala são incapazes de realizar operações aritméticas com precisão, especialmente multiplicações com mais de 8 dígitos e operações envolvendo decimais e frações, sem o uso de ferramentas de calculadora. Este artigo tem como objetivo desafiar essa concepção equivocada. Com dados de treinamento suficientes, um modelo de linguagem com 2 bilhões de parâmetros pode realizar operações aritméticas com múltiplos dígitos com quase 100% de precisão sem vazamento de dados, superando significativamente o GPT-4 (cuja precisão em multiplicações com múltiplos dígitos é de apenas 4,3%). Também demonstramos que nosso MathGLM, ajustado a partir do GLM-10B em um conjunto de dados com operações aritméticas de múltiplos passos adicionais e problemas matemáticos descritos em texto, alcança desempenho semelhante ao GPT-4 em um conjunto de testes de 5.000 amostras de problemas matemáticos em chinês.
Apresentamos o CM3Leon (pronunciado "Camaleão"), um modelo de linguagem multimodal baseado em tokens, apenas decodificador e aumentado por recuperação, capaz de gerar e preencher tanto texto quanto imagens. O CM3Leon utiliza a arquitetura multimodal CM3, mas também demonstra os benefícios extremos de escalonar e ajustar com dados mais diversos no estilo de instruções. É o primeiro modelo multimodal treinado com uma receita adaptada de modelos de linguagem exclusivamente textuais, incluindo uma etapa de pré-treinamento em grande escala aumentada por recuperação e uma segunda etapa de ajuste fino supervisionado (SFT) multitarefa. Também é um modelo de propósito geral que pode realizar tanto geração de texto para imagem quanto geração de imagem para texto, permitindo-nos introduzir métodos de decodificação contrastiva autossuficientes que produzem saídas de alta qualidade. Experimentos extensivos demonstram que essa receita é altamente eficaz para modelos multimodais. O CM3Leon alcança desempenho de ponta em geração de texto para imagem com 5 vezes menos computação de treinamento do que métodos comparáveis (FID zero-shot no MS-COCO de 4,88). Após o SFT, o CM3Leon também pode demonstrar níveis sem precedentes de controlabilidade em tarefas que variam desde edição de imagens guiada por linguagem até geração e segmentação controlada por imagem.
Apresentamos o Matcha-TTS, uma nova arquitetura codificador-decodificador para modelagem acústica de TTS rápida, treinada utilizando correspondência de fluxo condicional com transporte ótimo (OT-CFM). Isso resulta em um decodificador baseado em EDO capaz de gerar saídas de alta qualidade em menos etapas de síntese do que modelos treinados com correspondência de pontuação. Escolhas de design cuidadosas garantem ainda que cada etapa de síntese seja executada rapidamente. O método é probabilístico, não autorregressivo e aprende a falar do zero sem alinhamentos externos. Comparado a modelos de linha de base pré-treinados robustos, o sistema Matcha-TTS possui a menor pegada de memória, rivaliza com a velocidade dos modelos mais rápidos em enunciados longos e atinge a maior pontuação média de opinião em um teste de audição. Consulte https://shivammehta25.github.io/Matcha-TTS/ para exemplos de áudio, código e modelos pré-treinados.
Avanços recentes em modelos de visão e linguagem (VLMs) levaram a melhorias no desempenho em tarefas como resposta a perguntas visuais e legendagem de imagens. Consequentemente, esses modelos estão agora bem posicionados para raciocinar sobre o mundo físico, particularmente em domínios como a manipulação robótica. No entanto, os VLMs atuais são limitados em sua compreensão dos conceitos físicos (por exemplo, material, fragilidade) de objetos comuns, o que restringe sua utilidade para tarefas de manipulação robótica que envolvem interação e raciocínio físico sobre tais objetos. Para abordar essa limitação, propomos o PhysObjects, um conjunto de dados centrado em objetos com 36,9K anotações de conceitos físicos coletadas por meio de crowdsourcing e 417K anotações automatizadas de objetos domésticos comuns. Demonstramos que o ajuste fino de um VLM no PhysObjects melhora sua compreensão dos conceitos físicos dos objetos, capturando os conhecimentos prévios humanos desses conceitos a partir da aparência visual. Incorporamos esse VLM fundamentado fisicamente em uma estrutura interativa com um planejador robótico baseado em um grande modelo de linguagem, e mostramos um desempenho aprimorado no planejamento de tarefas que exigem raciocínio sobre conceitos físicos de objetos, em comparação com baselines que não utilizam VLMs fundamentados fisicamente. Além disso, ilustramos os benefícios do nosso VLM fundamentado fisicamente em um robô real, onde ele melhora as taxas de sucesso das tarefas. Disponibilizamos nosso conjunto de dados e fornecemos mais detalhes e visualizações dos nossos resultados em https://iliad.stanford.edu/pg-vlm/.
Campos neurais, uma categoria de redes neurais treinadas para representar sinais de alta frequência, têm ganhado atenção significativa nos últimos anos devido ao seu desempenho impressionante na modelagem de dados 3D complexos, especialmente grandes campos de distância assinada neural (SDFs) ou campos de radiação (NeRFs) por meio de um único perceptron multicamadas (MLP). No entanto, apesar do poder e da simplicidade de representar sinais com um MLP, esses métodos ainda enfrentam desafios ao modelar sinais temporais grandes e complexos devido à capacidade limitada dos MLPs. Neste artigo, propomos uma abordagem eficaz para superar essa limitação ao incorporar camadas residuais temporais em campos neurais, denominadas ResFields, uma nova classe de redes projetadas especificamente para representar eficazmente sinais temporais complexos. Realizamos uma análise abrangente das propriedades dos ResFields e propomos uma técnica de fatoração de matrizes para reduzir o número de parâmetros treináveis e aprimorar as capacidades de generalização. Importante destacar que nossa formulação se integra perfeitamente com técnicas existentes e melhora consistentemente os resultados em várias tarefas desafiadoras: aproximação de vídeos 2D, modelagem de formas dinâmicas via SDFs temporais e reconstrução dinâmica de NeRFs. Por fim, demonstramos a utilidade prática dos ResFields ao mostrar sua eficácia na captura de cenas 3D dinâmicas a partir de entradas sensoriais esparsas de um sistema de captura leve.
Campos de Radiação Neural (NeRFs) têm demonstrado potencial em aplicações como síntese de visão e estimativa de profundidade, mas o aprendizado a partir de imagens multiview enfrenta incertezas inerentes. Os métodos atuais para quantificá-las são heurísticos ou computacionalmente exigentes. Apresentamos o BayesRays, uma estrutura pós-treinamento para avaliar a incerteza em qualquer NeRF pré-treinado sem modificar o processo de treinamento. Nosso método estabelece um campo de incerteza volumétrica utilizando perturbações espaciais e uma aproximação de Laplace Bayesiana. Derivamos nosso algoritmo estatisticamente e demonstramos seu desempenho superior em métricas-chave e aplicações. Resultados adicionais estão disponíveis em: https://bayesrays.github.io.
A destreza humana é uma marca registrada do controle motor. Nossas mãos podem sintetizar rapidamente novos comportamentos, apesar da complexidade (multiarticular e com múltiplas juntas, com 23 articulações controladas por mais de 40 músculos) dos circuitos sensório-motores musculoesqueléticos. Neste trabalho, nos inspiramos em como a destreza humana se baseia em uma diversidade de experiências prévias, em vez de ser adquirida por meio de uma única tarefa. Motivados por essa observação, buscamos desenvolver agentes que possam se apoiar em suas experiências anteriores para adquirir rapidamente novos comportamentos (anteriormente inatingíveis). Especificamente, nossa abordagem aproveita o aprendizado multitarefa para capturar implicitamente priors comportamentais independentes de tarefa (MyoDex) para destreza humana, utilizando um modelo de mão humana fisiologicamente realista - MyoHand. Demonstramos a eficácia do MyoDex na generalização com poucos exemplos, bem como na transferência positiva para um grande repertório de tarefas de manipulação destra nunca vistas. Agentes que utilizam o MyoDex podem resolver aproximadamente 3 vezes mais tarefas e 4 vezes mais rápido em comparação com uma linha de base de destilação. Embora trabalhos anteriores tenham sintetizado comportamentos únicos de controle musculoesquelético, o MyoDex é o primeiro prior de manipulação generalizável que catalisa o aprendizado de controle fisiológico destra em uma grande variedade de comportamentos ricos em contato. Também demonstramos a eficácia de nossos paradigmas além do controle musculoesquelético, em direção à aquisição de destreza na mão Adroit de 24 graus de liberdade. Site: https://sites.google.com/view/myodex