Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o Kosmos-2, um Modelo de Linguagem de Grande Escala Multimodal (MLLM), que habilita novas capacidades de percepção de descrições de objetos (por exemplo, caixas delimitadoras) e ancoragem de texto ao mundo visual. Especificamente, representamos expressões referenciais como links em Markdown, ou seja, ``[texto](caixas delimitadoras)'', onde as descrições de objetos são sequências de tokens de localização. Juntamente com corpora multimodais, construímos dados em grande escala de pares imagem-texto ancorados (chamados GrIT) para treinar o modelo. Além das capacidades existentes dos MLLMs (por exemplo, percepção de modalidades gerais, seguimento de instruções e aprendizado em contexto), o Kosmos-2 integra a capacidade de ancoragem em aplicações subsequentes. Avaliamos o Kosmos-2 em uma ampla gama de tarefas, incluindo (i) ancoragem multimodal, como compreensão de expressões referenciais e ancoragem de frases, (ii) referência multimodal, como geração de expressões referenciais, (iii) tarefas de percepção-linguagem e (iv) compreensão e geração de linguagem. Este trabalho estabelece a base para o desenvolvimento da Inteligência Artificial Embarcada e lança luz sobre a grande convergência de linguagem, percepção multimodal, ação e modelagem do mundo, que é um passo crucial em direção à inteligência artificial geral. Dados, demonstrações e modelos pré-treinados estão disponíveis em https://aka.ms/kosmos-2.
Embora o avanço dos grandes modelos de linguagem pré-treinados continue a evoluir, a exploração da construção de um modelo unificado para linguagem e outros dados multimodais, como movimento, permanece desafiadora e inexplorada até o momento. Felizmente, o movimento humano exibe um acoplamento semântico semelhante à linguagem humana, frequentemente percebido como uma forma de linguagem corporal. Ao fundir dados de linguagem com modelos de movimento em larga escala, o pré-treinamento de movimento e linguagem que pode melhorar o desempenho de tarefas relacionadas ao movimento torna-se viável. Motivados por essa percepção, propomos o MotionGPT, um modelo unificado, versátil e amigável para lidar com múltiplas tarefas relevantes ao movimento. Especificamente, empregamos a quantização vetorial discreta para o movimento humano e transferimos o movimento 3D para tokens de movimento, semelhante ao processo de geração de tokens de palavras. Com base nesse "vocabulário de movimento", realizamos a modelagem de linguagem tanto no movimento quanto no texto de maneira unificada, tratando o movimento humano como uma linguagem específica. Além disso, inspirados pelo aprendizado por prompts, pré-treinamos o MotionGPT com uma mistura de dados de movimento e linguagem e o ajustamos para tarefas de perguntas e respostas baseadas em prompts. Experimentos extensivos demonstram que o MotionGPT alcança desempenhos de ponta em múltiplas tarefas de movimento, incluindo geração de movimento orientada por texto, legendagem de movimento, previsão de movimento e interpolação de movimento.
A edição precisa e controlável de imagens é uma tarefa desafiadora que tem atraído atenção significativa. Recentemente, o DragGAN possibilitou uma estrutura interativa de edição de imagens baseada em pontos e alcançou resultados impressionantes com precisão em nível de pixel. No entanto, como esse método é baseado em redes adversariais generativas (GANs), sua generalidade é limitada pela capacidade dos modelos GAN pré-treinados. Neste trabalho, estendemos essa estrutura de edição para modelos de difusão e propomos o DragDiffusion. Ao aproveitar modelos de difusão pré-treinados em grande escala, melhoramos consideravelmente a aplicabilidade da edição interativa baseada em pontos em cenários do mundo real. Enquanto a maioria dos métodos existentes de edição de imagens baseados em difusão trabalha com embeddings de texto, o DragDiffusion otimiza o latente de difusão para alcançar controle espacial preciso. Embora os modelos de difusão gerem imagens de maneira iterativa, mostramos empiricamente que otimizar o latente de difusão em um único passo é suficiente para gerar resultados coerentes, permitindo que o DragDiffusion complete edições de alta qualidade de forma eficiente. Experimentos extensos em uma ampla gama de casos desafiadores (por exemplo, múltiplos objetos, diversas categorias de objetos, vários estilos, etc.) demonstram a versatilidade e generalidade do DragDiffusion.
O Segment Anything Model (SAM) é um modelo de base de visão guiado por prompts para destacar o objeto de interesse de seu fundo. Desde que a equipe de pesquisa da Meta lançou o projeto SA, o SAM atraiu significativa atenção devido ao seu impressionante desempenho de transferência zero-shot e alta versatilidade, sendo compatível com outros modelos para aplicações avançadas de visão, como edição de imagens com controle refinado. Muitos desses casos de uso precisam ser executados em dispositivos de borda com recursos limitados, como aplicativos móveis. Neste trabalho, buscamos tornar o SAM amigável para dispositivos móveis substituindo o codificador de imagem pesado por um leve. Uma abordagem ingênua para treinar um novo SAM, como no artigo original, resulta em desempenho insatisfatório, especialmente quando há fontes de treinamento limitadas. Descobrimos que isso é causado principalmente pela otimização acoplada do codificador de imagem e do decodificador de máscara, o que nos motivou a propor a destilação desacoplada. Concretamente, destilamos o conhecimento do codificador de imagem ViT-H no SAM original para um codificador de imagem leve, que pode ser automaticamente compatível com o decodificador de máscara do SAM original. O treinamento pode ser concluído em uma única GPU em menos de um dia, e o SAM leve resultante é denominado MobileSAM, que é mais de 60 vezes menor, mas com desempenho equivalente ao SAM original. Em termos de velocidade de inferência, o MobileSAM processa cerca de 10ms por imagem: 8ms no codificador de imagem e 2ms no decodificador de máscara. Com desempenho superior e maior versatilidade, nosso MobileSAM é 7 vezes menor e 4 vezes mais rápido que o FastSAM concorrente, tornando-o mais adequado para aplicações móveis. O código do projeto MobileSAM está disponível em https://github.com/ChaoningZhang/MobileSAM.
Os Modelos de Linguagem de Grande Escala (LLMs), apesar de seus recentes e impressionantes feitos, são notavelmente caros para implantar, especialmente para aplicações que envolvem geração de conteúdo extenso, como sistemas de diálogo e escrita de histórias. Frequentemente, uma grande quantidade de informações de estado transitório, conhecida como cache KV, é armazenada na memória da GPU, além dos parâmetros do modelo, escalando linearmente com o comprimento da sequência e o tamanho do lote. Neste artigo, introduzimos uma nova abordagem para implementar o cache KV que reduz significativamente sua pegada de memória. Nossa abordagem é baseada na observação notável de que uma pequena porção de tokens contribui com a maior parte do valor ao calcular os escores de atenção. Chamamos esses tokens de Heavy Hitters (H_2). Por meio de uma investigação abrangente, descobrimos que (i) o surgimento de H_2 é natural e está fortemente correlacionado com a coocorrência frequente de tokens no texto, e (ii) removê-los resulta em uma degradação significativa do desempenho. Com base nessas percepções, propomos o Heavy Hitter Oracle (H_2O), uma política de evicção do cache KV que retém dinamicamente um equilíbrio entre tokens recentes e H_2. Formulamos a evicção do cache KV como um problema submodular dinâmico e provamos (sob suposições leves) uma garantia teórica para nosso novo algoritmo de evicção, que pode ajudar a orientar trabalhos futuros. Validamos a precisão do nosso algoritmo com OPT, LLaMA e GPT-NeoX em uma ampla gama de tarefas. Nossa implementação do H_2O com 20% de heavy hitters melhora a taxa de transferência em até 29 vezes, 29 vezes e 3 vezes em relação a três sistemas de inferência líderes: DeepSpeed Zero-Inference, Hugging Face Accelerate e FlexGen, em OPT-6.7B e OPT-30B. Com o mesmo tamanho de lote, o H2O pode reduzir a latência em até 1,9 vezes. O código está disponível em https://github.com/FMInference/H2O.
As tendências atuais para pré-treinar modelos de linguagem de grande escala (LLMs, na sigla em inglês) capacitados concentram-se principalmente na escalabilidade do tamanho do modelo e do conjunto de dados. No entanto, a qualidade dos dados de pré-treinamento é um fator importante para treinar LLMs poderosos, embora seja um conceito nebuloso que ainda não foi totalmente caracterizado. Portanto, utilizamos o coeficiente de diversidade Task2Vec, proposto recentemente, para fundamentar e compreender aspectos formais da qualidade dos dados, indo além da escala por si só. Especificamente, medimos o coeficiente de diversidade de conjuntos de dados de pré-treinamento publicamente disponíveis para demonstrar que sua diversidade formal é alta quando comparada aos limites teóricos inferiores e superiores. Além disso, para aumentar a confiança no coeficiente de diversidade, realizamos experimentos de interpretabilidade e descobrimos que o coeficiente está alinhado com propriedades intuitivas da diversidade, por exemplo, ele aumenta à medida que o número de conceitos latentes cresce. Concluímos que o coeficiente de diversidade é confiável, mostramos que ele é alto para conjuntos de dados de LLMs disponíveis publicamente e conjecturamos que ele pode ser usado para construir conjuntos de dados diversos e úteis para LLMs.
Um conceito central no aprendizado de máquina prático e teórico é o de um aprendiz fraco, classificadores que alcançam desempenho melhor que o aleatório (em qualquer distribuição de dados), mesmo que por uma pequena margem. Tais aprendizes fracos formam a base prática para métodos canônicos de aprendizado de máquina, como o boosting. Neste trabalho, ilustramos que modelos de linguagem grandes (LLMs) baseados em prompts podem operar efetivamente como ditos aprendizes fracos. Especificamente, ilustramos o uso de um LLM como um aprendiz fraco em um algoritmo de boosting aplicado a dados tabulares. Mostramos que, ao fornecer (devidamente amostrados de acordo com a distribuição de interesse) descrições textuais de amostras de dados tabulares, LLMs podem produzir um resumo das amostras que serve como um modelo para classificação e alcança o objetivo de atuar como um aprendiz fraco nessa tarefa. Incorporamos esses modelos em uma abordagem de boosting, que, em alguns cenários, pode aproveitar o conhecimento dentro do LLM para superar o boosting tradicional baseado em árvores. O modelo supera tanto o aprendizado few-shot quanto, ocasionalmente, procedimentos de ajuste fino mais elaborados, particularmente para tarefas que envolvem um pequeno número de pontos de dados. Os resultados ilustram o potencial dos LLMs baseados em prompts para funcionar não apenas como aprendizes few-shot, mas como componentes de pipelines maiores de aprendizado de máquina.
Grandes modelos de transformadores treinados em conjuntos de dados diversos têm demonstrado uma habilidade notável de aprender em contexto, alcançando alto desempenho em poucos exemplos (few-shot) em tarefas para as quais não foram explicitamente treinados. Neste artigo, estudamos as capacidades de aprendizado em contexto de transformadores em problemas de tomada de decisão, ou seja, aprendizado por reforço (RL) para bandidos e processos de decisão de Markov. Para isso, introduzimos e estudamos o Transformador Pré-treinado para Decisão (Decision-Pretrained Transformer - DPT), um método de pré-treinamento supervisionado no qual o transformador prevê uma ação ótima dado um estado de consulta e um conjunto de dados de interações em contexto, em uma variedade de tarefas. Esse procedimento, embora simples, produz um modelo com várias capacidades surpreendentes. Descobrimos que o transformador pré-treinado pode ser usado para resolver uma gama de problemas de RL em contexto, exibindo tanto exploração online quanto conservadorismo offline, apesar de não ter sido explicitamente treinado para isso. O modelo também generaliza além da distribuição de pré-treinamento para novas tarefas e adapta automaticamente suas estratégias de tomada de decisão a estruturas desconhecidas. Teoricamente, mostramos que o DPT pode ser visto como uma implementação eficiente de amostragem posterior bayesiana, um algoritmo de RL comprovadamente eficiente em termos de amostras. Aproveitamos ainda essa conexão para fornecer garantias sobre o arrependimento (regret) do algoritmo em contexto gerado pelo DPT, e provamos que ele pode aprender mais rápido do que os algoritmos usados para gerar os dados de pré-treinamento. Esses resultados sugerem um caminho promissor e simples para instilar fortes habilidades de tomada de decisão em contexto em transformadores.
Conjuntos de dados em grande escala são essenciais para o aprendizado profundo moderno. Defensores argumentam que a compreensão desses métodos requer transparência dos conjuntos de dados (por exemplo, "curadoria do conjunto de dados, motivação, composição, processo de coleta, etc."). No entanto, quase ninguém sugeriu a divulgação das definições detalhadas e exemplos visuais de categorias fornecidos aos anotadores - informações cruciais para entender a estrutura das anotações presentes em cada conjunto de dados. Esses rótulos estão no cerne dos conjuntos de dados públicos, mas poucos conjuntos de dados incluem as instruções que foram usadas para gerá-los. Introduzimos uma nova tarefa, Geração de Instruções de Rotulagem, para abordar a falta de instruções de rotulagem disponíveis publicamente. Na Geração de Instruções de Rotulagem, tomamos um conjunto de dados razoavelmente anotado e: 1) geramos um conjunto de exemplos que são visualmente representativos de cada categoria no conjunto de dados; 2) fornecemos um rótulo textual que corresponde a cada um dos exemplos. Introduzimos um framework que não requer treinamento de modelos para resolver essa tarefa e inclui um sistema de recuperação rápida recém-criado que aproveita um grande modelo de visão e linguagem pré-treinado. Esse framework atua como um proxy para anotadores humanos que pode ajudar tanto a gerar um conjunto final de instruções de rotulagem quanto a avaliar sua qualidade. Nosso framework gera múltiplas representações visuais e textuais diversas das categorias do conjunto de dados. O conjunto de instruções otimizado supera nossa linha de base mais forte em 5 folds por 7,06 mAP para NuImages e 12,9 mAP para COCO.
Modelos pré-treinados de propósito geral ("modelos de base") permitiram que profissionais produzissem soluções generalizáveis para problemas individuais de aprendizado de máquina com conjuntos de dados significativamente menores do que os necessários para aprender do zero. Tais modelos são tipicamente treinados em grandes e diversos conjuntos de dados com supervisão fraca, consumindo muito mais dados de treinamento do que está disponível para qualquer aplicação individual subsequente. Neste artigo, descrevemos o Visual Navigation Transformer (ViNT), um modelo de base que visa trazer o sucesso dos modelos pré-treinados de propósito geral para a navegação robótica baseada em visão. O ViNT é treinado com um objetivo geral de alcance de metas que pode ser usado com qualquer conjunto de dados de navegação, e emprega uma arquitetura flexível baseada em Transformers para aprender affordances de navegação e permitir uma adaptação eficiente a uma variedade de tarefas de navegação subsequentes. O ViNT é treinado em vários conjuntos de dados de navegação existentes, compreendendo centenas de horas de navegação robótica de uma variedade de plataformas robóticas diferentes, e exibe transferência positiva, superando modelos especialistas treinados em conjuntos de dados únicos. O ViNT pode ser aprimorado com propostas de submetas baseadas em difusão para explorar ambientes novos, e pode resolver problemas de navegação em escala de quilômetros quando equipado com heurísticas de longo alcance. O ViNT também pode ser adaptado a novas especificações de tarefas com uma técnica inspirada no prompt-tuning, onde o codificador de metas é substituído por uma codificação de outra modalidade de tarefa (por exemplo, waypoints GPS ou comandos de roteamento) incorporada no mesmo espaço de tokens de metas. Essa flexibilidade e capacidade de acomodar uma variedade de domínios de problemas subsequentes estabelecem o ViNT como um modelo de base eficaz para robótica móvel. Para vídeos, código e checkpoints do modelo, consulte nossa página do projeto em https://visualnav-transformer.github.io.
Os seres humanos se destacam em tarefas complexas de manipulação de corpos moles de longo horizonte por meio do uso flexível de ferramentas: assar pão exige uma faca para cortar a massa e um rolo para achatar. Frequentemente considerado uma marca registrada da cognição humana, o uso de ferramentas em robôs autônomos permanece limitado devido aos desafios na compreensão das interações entre ferramentas e objetos. Aqui, desenvolvemos um sistema robótico inteligente, o RoboCook, que percebe, modela e manipula objetos elasto-plásticos com diversas ferramentas. O RoboCook utiliza representações de cena baseadas em nuvens de pontos, modela interações ferramenta-objeto com Redes Neurais de Grafos (GNNs) e combina classificação de ferramentas com aprendizado de políticas auto-supervisionado para elaborar planos de manipulação. Demonstramos que, a partir de apenas 20 minutos de dados de interação do mundo real por ferramenta, um braço robótico de propósito geral pode aprender tarefas complexas de manipulação de objetos moles de longo horizonte, como fazer bolinhos e biscoitos em forma de letras. Avaliações extensivas mostram que o RoboCook supera substancialmente as abordagens state-of-the-art, exibe robustez contra distúrbios externos severos e demonstra adaptabilidade a diferentes materiais.
Modelos probabilísticos de difusão de denoising (DDPMs) têm se mostrado capazes de sintetizar imagens de alta qualidade com uma diversidade notável quando treinados em grandes quantidades de dados. Modelos de difusão típicos e modelos generativos condicionais modernos em larga escala, como modelos de geração de texto para imagem, são vulneráveis a overfitting quando ajustados com dados extremamente limitados. Trabalhos existentes exploraram a geração orientada por sujeitos usando um conjunto de referência contendo algumas imagens. No entanto, poucos trabalhos anteriores exploram a geração orientada por domínio baseada em DDPMs, que visa aprender as características comuns de domínios-alvo enquanto mantém a diversidade. Este artigo propõe uma nova abordagem chamada DomainStudio para adaptar DDPMs pré-treinados em grandes conjuntos de dados de origem para domínios-alvo usando dados limitados. Ela foi projetada para manter a diversidade de sujeitos fornecida pelos domínios de origem e obter amostras adaptadas de alta qualidade e diversificadas em domínios-alvo. Propomos manter as distâncias relativas entre as amostras adaptadas para alcançar uma diversidade de geração considerável. Além disso, aprimoramos ainda mais o aprendizado de detalhes de alta frequência para melhorar a qualidade da geração. Nossa abordagem é compatível com modelos de difusão tanto incondicionais quanto condicionais. Este trabalho faz a primeira tentativa de realizar a geração de imagens incondicional com poucas amostras usando modelos de difusão, alcançando melhor qualidade e maior diversidade do que as abordagens atuais baseadas em GANs. Além disso, este trabalho também alivia significativamente o overfitting para geração condicional e realiza geração orientada por domínio de alta qualidade, expandindo ainda mais os cenários aplicáveis dos modernos modelos de texto para imagem em larga escala.
Modelos de difusão de texto para imagem em grande escala melhoraram significativamente o estado da arte na modelagem generativa de imagens e permitem uma interface de usuário intuitiva e poderosa para direcionar o processo de geração de imagens. Expressar restrições espaciais, por exemplo, para posicionar objetos específicos em locais particulares, é complicado usando texto; e os modelos atuais de geração de imagens baseados em texto não são capazes de seguir tais instruções com precisão. Neste artigo, consideramos a geração de imagens a partir de texto associado a segmentos na tela da imagem, o que combina uma interface intuitiva de linguagem natural com controle espacial preciso sobre o conteúdo gerado. Propomos o ZestGuide, uma abordagem de orientação de segmentação zero-shot que pode ser integrada a modelos de difusão de texto para imagem pré-treinados e não requer nenhum treinamento adicional. Ele aproveita mapas de segmentação implícitos que podem ser extraídos das camadas de atenção cruzada e os utiliza para alinhar a geração com máscaras de entrada. Nossos resultados experimentais combinam alta qualidade de imagem com alinhamento preciso do conteúdo gerado com as segmentações de entrada e melhoram o trabalho anterior tanto quantitativa quanto qualitativamente, incluindo métodos que exigem treinamento em imagens com segmentações correspondentes. Em comparação com o Paint with Words, o estado da arte anterior em geração de imagens com condicionamento de segmentação zero-shot, melhoramos de 5 a 10 pontos mIoU no conjunto de dados COCO com pontuações FID semelhantes.
Apesar dos avanços promissores em tarefas multimodais, os atuais modelos multimodais de grande escala (LMM) tendem a alucinar descrições inconsistentes em relação à imagem associada e às instruções humanas. Este artigo aborda essa questão introduzindo o primeiro conjunto de dados de ajuste de instruções visuais grande e diversificado, denominado Large-scale Robust Visual (LRV)-Instruction. Nosso conjunto de dados consiste em 120 mil instruções visuais geradas pelo GPT4, abrangendo 16 tarefas de visão e linguagem com instruções e respostas de formato aberto. Diferentemente de estudos existentes que se concentram principalmente em amostras de instruções positivas, projetamos o LRV-Instruction para incluir tanto instruções positivas quanto negativas, visando um ajuste de instruções visuais mais robusto. Nossas instruções negativas são projetadas em dois níveis semânticos: (i) Manipulação de Elementos Inexistentes e (ii) Manipulação de Elementos Existentes. Para medir eficientemente a alucinação gerada pelos LMMs, propomos o GPT4-Assisted Visual Instruction Evaluation (GAVIE), uma abordagem inovadora para avaliar o ajuste de instruções visuais sem a necessidade de respostas verdadeiras anotadas por humanos e que pode se adaptar a diversos formatos de instrução. Realizamos experimentos abrangentes para investigar a alucinação dos LMMs. Nossos resultados demonstram que os LMMs existentes exibem alucinação significativa quando apresentados com nossas instruções negativas, particularmente com instruções de Manipulação de Elementos Existentes. Além disso, ao ajustar o MiniGPT4 no LRV-Instruction, conseguimos mitigar a alucinação enquanto melhoramos o desempenho em conjuntos de dados públicos, utilizando menos dados de treinamento em comparação com métodos state-of-the-art. Adicionalmente, observamos que uma proporção equilibrada de instâncias positivas e negativas nos dados de treinamento resulta em um modelo mais robusto. O link do nosso projeto está disponível em https://fuxiaoliu.github.io/LRV/.
Processos generativos que envolvem a resolução de equações diferenciais, como modelos de difusão, frequentemente exigem um equilíbrio entre velocidade e qualidade. Amostradores baseados em EDOs (Equações Diferenciais Ordinárias) são rápidos, mas atingem um platô de desempenho, enquanto amostradores baseados em EDEs (Equações Diferenciais Estocásticas) oferecem maior qualidade de amostragem ao custo de um tempo de amostragem maior. Atribuímos essa diferença aos erros de amostragem: amostradores de EDOs envolvem erros de discretização menores, enquanto a estocasticidade nas EDEs contrai os erros acumulados. Com base nessas descobertas, propomos um novo algoritmo de amostragem chamado Restart para equilibrar melhor os erros de discretização e a contração. O método de amostragem alterna entre adicionar ruído substancial em passos adicionais para frente e seguir estritamente uma EDO para trás. Empiricamente, o amostrador Restart supera os amostradores de EDE e EDO anteriores tanto em velocidade quanto em precisão. Restart não apenas supera os melhores resultados anteriores de EDE, mas também acelera a velocidade de amostragem em 10 vezes / 2 vezes em CIFAR-10 / ImageNet 64x64. Além disso, ele obtém uma qualidade de amostragem significativamente melhor do que os amostradores de EDO dentro de tempos de amostragem comparáveis. Além disso, Restart equilibra melhor o alinhamento texto-imagem/qualidade visual versus diversidade do que os amostradores anteriores no modelo de difusão estável de texto para imagem em larga escala pré-treinado em LAION 512x512. O código está disponível em https://github.com/Newbeeer/diffusion_restart_sampling.
Os modelos Transformer têm demonstrado grande potencial em visão computacional, seguindo seu sucesso em tarefas de linguagem. O Swin Transformer é um deles que supera arquiteturas baseadas em convolução em termos de precisão, ao mesmo tempo em que melhora a eficiência quando comparado ao Vision Transformer (ViT) e suas variantes, que possuem complexidade quadrática em relação ao tamanho da entrada. O Swin Transformer apresenta janelas deslizantes que permitem a conexão entre janelas, ao mesmo tempo em que limita o cálculo de autoatenção a janelas locais não sobrepostas. No entanto, as janelas deslizantes introduzem operações de cópia de memória, que representam uma parcela significativa do tempo de execução. Para mitigar esse problema, propomos o Swin-Free, no qual aplicamos janelas de tamanho variável entre os estágios, em vez de janelas deslizantes, para alcançar a conexão cruzada entre as janelas locais. Com essa simples mudança de design, o Swin-Free é executado mais rápido que o Swin Transformer na inferência, com melhor precisão. Além disso, também propomos algumas variantes do Swin-Free que são mais rápidas que suas contrapartes do Swin Transformer.
Para manipulação de objetos 3D, métodos que constroem uma representação 3D explícita apresentam desempenho superior em comparação com aqueles que dependem apenas de imagens de câmera. No entanto, o uso de representações 3D explícitas, como voxels, acarreta um alto custo computacional, afetando negativamente a escalabilidade. Neste trabalho, propomos o RVT, um transformador multiview para manipulação 3D que é tanto escalável quanto preciso. Algumas características-chave do RVT incluem um mecanismo de atenção para agregar informações entre diferentes visões e a re-renderização da entrada da câmera a partir de visões virtuais ao redor do espaço de trabalho do robô. Em simulações, observamos que um único modelo RVT funciona bem em 18 tarefas do RLBench com 249 variações de tarefas, alcançando um sucesso relativo 26% maior do que o método state-of-the-art existente (PerAct). Além disso, o RVT treina 36 vezes mais rápido que o PerAct para atingir o mesmo desempenho e alcança uma velocidade de inferência 2,3 vezes maior que a do PerAct. Adicionalmente, o RVT é capaz de realizar uma variedade de tarefas de manipulação no mundo real com apenas algumas demonstrações (sim10) por tarefa. Resultados visuais, código e o modelo treinado estão disponíveis em https://robotic-view-transformer.github.io/.
A previsão probabilística é crucial para a tomada de decisões sob incerteza sobre o clima futuro. A abordagem predominante é usar um conjunto de previsões para representar e quantificar a incerteza na previsão numérica operacional do tempo. No entanto, a geração de conjuntos é computacionalmente custosa. Neste artigo, propomos gerar previsões de conjunto em escala, aproveitando os avanços recentes em inteligência artificial generativa. Nossa abordagem aprende um modelo probabilístico de difusão baseado em dados a partir do conjunto de reanálise de 5 membros do GEFS. O modelo pode então ser amostrado de forma eficiente para produzir previsões meteorológicas realistas, condicionadas a alguns membros do sistema operacional de previsão do GEFS. Os conjuntos gerados têm habilidade preditiva semelhante ao conjunto completo de 31 membros do GEFS, avaliado em relação à reanálise ERA5, e emulam bem as estatísticas de grandes conjuntos baseados em física. Também aplicamos a mesma metodologia para desenvolver um modelo de difusão para pós-processamento generativo: o modelo aprende diretamente a corrigir vieses presentes no sistema de previsão emulado, utilizando dados de reanálise como rótulos durante o treinamento. Os conjuntos gerados por este modelo de pós-processamento generativo mostram maior confiabilidade e precisão, particularmente na classificação de eventos extremos. Em geral, eles são mais confiáveis e preveem a probabilidade de clima extremo com maior precisão do que o conjunto operacional do GEFS. Nossos modelos alcançam esses resultados com menos de 1/10 do custo computacional incorrido pelo sistema operacional do GEFS.