Artigos de pesquisa em IA selecionados diariamente com traduções
Sintetizar conteúdo visual que atenda às necessidades dos usuários frequentemente requer controle flexível e preciso sobre a pose, forma, expressão e layout dos objetos gerados. As abordagens existentes obtêm controle sobre redes adversariais generativas (GANs) por meio de dados de treinamento anotados manualmente ou de um modelo 3D pré-existente, que muitas vezes carecem de flexibilidade, precisão e generalidade. Neste trabalho, estudamos uma forma poderosa, porém muito menos explorada, de controlar GANs, que consiste em "arrastar" quaisquer pontos da imagem para alcançar pontos-alvo de maneira precisa e interativa, conforme ilustrado na Fig.1. Para alcançar isso, propomos o DragGAN, que consiste em dois componentes principais: 1) uma supervisão de movimento baseada em características que direciona o ponto de manipulação a se mover em direção à posição-alvo, e 2) uma nova abordagem de rastreamento de pontos que utiliza as características discriminativas do gerador para localizar continuamente a posição dos pontos de manipulação. Com o DragGAN, qualquer pessoa pode deformar uma imagem com controle preciso sobre o destino dos pixels, manipulando assim a pose, forma, expressão e layout de diversas categorias, como animais, carros, humanos, paisagens, etc. Como essas manipulações são realizadas na variedade gerativa de imagens aprendida por uma GAN, elas tendem a produzir resultados realistas, mesmo em cenários desafiadores, como a alucinação de conteúdo ocluído e a deformação de formas que seguem consistentemente a rigidez do objeto. Comparações qualitativas e quantitativas demonstram a vantagem do DragGAN sobre abordagens anteriores nas tarefas de manipulação de imagens e rastreamento de pontos. Também exemplificamos a manipulação de imagens reais por meio de inversão de GAN.
Os modelos de linguagem estão sendo cada vez mais implantados para a resolução geral de problemas em uma ampla gama de tarefas, mas ainda estão confinados a processos de tomada de decisão em nível de token, da esquerda para a direita, durante a inferência. Isso significa que eles podem falhar em tarefas que exigem exploração, antecipação estratégica ou onde as decisões iniciais desempenham um papel crucial. Para superar esses desafios, introduzimos um novo framework para inferência de modelos de linguagem, chamado Árvore de Pensamentos (Tree of Thoughts, ToT), que generaliza a abordagem popular de Cadeia de Pensamentos (Chain of Thought) para a solicitação de modelos de linguagem e permite a exploração de unidades coerentes de texto (pensamentos) que servem como etapas intermediárias para a resolução de problemas. O ToT permite que os modelos de linguagem realizem tomadas de decisão deliberadas, considerando múltiplos caminhos de raciocínio e autoavaliando escolhas para decidir o próximo curso de ação, além de antecipar ou retroceder quando necessário para fazer escolhas globais. Nossos experimentos mostram que o ToT melhora significativamente as habilidades de resolução de problemas dos modelos de linguagem em três tarefas novas que exigem planejamento ou busca não triviais: Jogo de 24, Escrita Criativa e Mini Palavras Cruzadas. Por exemplo, no Jogo de 24, enquanto o GPT-4 com a abordagem de cadeia de pensamentos resolveu apenas 4% das tarefas, nosso método alcançou uma taxa de sucesso de 74%. Repositório de código com todos os prompts: https://github.com/ysymyth/tree-of-thought-llm.
Este artigo de pesquisa propõe um Modelo de Difusão Latente para 3D (LDM3D) que gera tanto imagens quanto mapas de profundidade a partir de um prompt de texto, permitindo que os usuários criem imagens RGBD a partir de prompts textuais. O modelo LDM3D é ajustado em um conjunto de dados contendo tuplas de uma imagem RGB, um mapa de profundidade e uma legenda, e é validado por meio de extensos experimentos. Também desenvolvemos um aplicativo chamado DepthFusion, que utiliza as imagens RGB e mapas de profundidade gerados para criar experiências imersivas e interativas de visão em 360 graus usando o TouchDesigner. Essa tecnologia tem o potencial de transformar uma ampla gama de indústrias, desde entretenimento e jogos até arquitetura e design. No geral, este artigo apresenta uma contribuição significativa para o campo da IA generativa e visão computacional, e demonstra o potencial do LDM3D e do DepthFusion para revolucionar a criação de conteúdo e as experiências digitais. Um vídeo curto que resume a abordagem pode ser encontrado em https://t.ly/tdi2.
Apresentamos o OpenShape, um método para aprender representações conjuntas multimodais de texto, imagem e nuvens de pontos. Adotamos o framework de aprendizado contrastivo multimodal comumente utilizado para alinhamento de representações, mas com um foco específico em escalar representações 3D para permitir a compreensão de formas 3D em cenários de mundo aberto. Para alcançar isso, escalamos os dados de treinamento ao combinar múltiplos conjuntos de dados 3D e propomos várias estratégias para filtrar e enriquecer automaticamente descrições textuais ruidosas. Também exploramos e comparamos estratégias para escalar redes de backbone 3D e introduzimos um novo módulo de mineração de negativos difíceis para um treinamento mais eficiente. Avaliamos o OpenShape em benchmarks de classificação 3D zero-shot e demonstramos suas capacidades superiores para reconhecimento em mundo aberto. Especificamente, o OpenShape alcança uma precisão zero-shot de 46,8% no benchmark Objaverse-LVIS com 1.156 categorias, em comparação com menos de 10% para métodos existentes. O OpenShape também alcança uma precisão de 85,3% no ModelNet40, superando métodos baselines zero-shot anteriores em 20% e desempenhando de forma equivalente a alguns métodos totalmente supervisionados. Além disso, mostramos que nossos embeddings aprendidos codificam uma ampla gama de conceitos visuais e semânticos (por exemplo, subcategorias, cor, forma, estilo) e facilitam interações textuais-3D e imagem-3D de granularidade fina. Devido ao seu alinhamento com embeddings CLIP, nossas representações de forma aprendidas também podem ser integradas com modelos baseados em CLIP prontos para uso em diversas aplicações, como legendagem de nuvens de pontos e geração de imagens condicionadas por nuvens de pontos.
Modelos de linguagem multimodal de grande escala são considerados um passo crucial em direção à Inteligência Geral Artificial (AGI) e têm atraído um interesse significativo com o surgimento do ChatGPT. No entanto, os modelos atuais de fala e linguagem geralmente adotam o paradigma em cascata, impedindo a transferência de conhecimento intermodal. Neste artigo, propomos o SpeechGPT, um modelo de linguagem de grande escala com habilidades intrínsecas de conversação multimodal, capaz de perceber e gerar conteúdo multimodelo. Com representações discretas de fala, primeiro construímos o SpeechInstruct, um conjunto de dados de instruções de fala multimodal em grande escala. Além disso, empregamos uma estratégia de treinamento em três estágios que inclui pré-treinamento de adaptação modal, ajuste fino de instruções multimodais e ajuste fino de instruções em cadeia de modalidades. Os resultados experimentais demonstram que o SpeechGPT possui uma capacidade impressionante de seguir instruções humanas multimodais e destacam o potencial de lidar com múltiplas modalidades com um único modelo. Demonstrações estão disponíveis em https://0nutation.github.io/SpeechGPT.github.io/.
Alcançar autonomia da máquina e controle humano frequentemente representam objetivos divergentes no design de sistemas de IA interativos. Modelos generativos visuais de base, como o Stable Diffusion, mostram potencial para navegar essas metas, especialmente quando instruídos com linguagens arbitrárias. No entanto, eles frequentemente falham em gerar imagens com controles espaciais, estruturais ou geométricos. A integração de tais controles, que podem acomodar diversas condições visuais em um único modelo unificado, permanece um desafio não resolvido. Em resposta, apresentamos o UniControl, um novo modelo generativo de base que consolida uma ampla gama de tarefas controláveis de condição-para-imagem (C2I) em um único framework, enquanto ainda permite instruções de linguagem arbitrárias. O UniControl possibilita a geração de imagens com precisão em nível de pixel, onde as condições visuais influenciam principalmente as estruturas geradas e as instruções de linguagem guiam o estilo e o contexto. Para capacitar o UniControl a lidar com diversas condições visuais, aprimoramos modelos de difusão texto-para-imagem pré-treinados e introduzimos uma HyperNet consciente da tarefa para modular os modelos de difusão, permitindo a adaptação a diferentes tarefas C2I simultaneamente. Treinado em nove tarefas C2I únicas, o UniControl demonstra impressionantes habilidades de geração zero-shot com condições visuais não vistas. Resultados experimentais mostram que o UniControl frequentemente supera o desempenho de métodos controlados por tarefa única de tamanhos de modelo comparáveis. Essa versatilidade de controle posiciona o UniControl como um avanço significativo no domínio da geração visual controlável.
Os modelos de linguagem de grande escala (LLMs) têm acelerado significativamente o progresso em direção à inteligência artificial geral (AGI), com sua impressionante capacidade de zero-shot para tarefas personalizadas pelo usuário, dotando-os de um imenso potencial em uma variedade de aplicações. No entanto, no campo da visão computacional, apesar da disponibilidade de numerosos modelos de base de visão (VFMs) poderosos, eles ainda estão restritos a tarefas em um formato pré-definido, lutando para igualar as capacidades de tarefas abertas dos LLMs. Neste trabalho, apresentamos um framework baseado em LLM para tarefas centradas em visão, denominado VisionLLM. Este framework oferece uma perspectiva unificada para tarefas de visão e linguagem, tratando imagens como uma linguagem estrangeira e alinhando tarefas centradas em visão com tarefas de linguagem que podem ser flexivelmente definidas e gerenciadas usando instruções de linguagem. Um decodificador baseado em LLM pode então fazer previsões apropriadas com base nessas instruções para tarefas abertas. Experimentos extensivos mostram que o VisionLLM proposto pode alcançar diferentes níveis de personalização de tarefas por meio de instruções de linguagem, desde a personalização em nível de objeto, mais granular, até a personalização em nível de tarefa, mais abrangente, todos com bons resultados. É notável que, com um framework generalista baseado em LLM, nosso modelo pode alcançar mais de 60\% de mAP no COCO, em paridade com modelos específicos para detecção. Esperamos que este modelo possa estabelecer uma nova referência para modelos generalistas de visão e linguagem. A demonstração será lançada com base em https://github.com/OpenGVLab/InternGPT. O código será lançado em https://github.com/OpenGVLab/VisionLLM.
Os modelos de difusão têm ganhado crescente atenção por suas impressionantes habilidades de geração, mas atualmente enfrentam dificuldades para renderizar textos precisos e coerentes. Para abordar essa questão, apresentamos o TextDiffuser, focado na geração de imagens com textos visualmente atraentes e coerentes com os fundos. O TextDiffuser consiste em dois estágios: primeiro, um modelo Transformer gera o layout de palavras-chave extraídas de prompts de texto, e então modelos de difusão geram imagens condicionadas ao prompt de texto e ao layout gerado. Além disso, contribuímos com o primeiro conjunto de dados em larga escala de imagens de texto com anotações OCR, o MARIO-10M, contendo 10 milhões de pares imagem-texto com anotações de reconhecimento de texto, detecção e segmentação em nível de caractere. Também coletamos o benchmark MARIO-Eval para servir como uma ferramenta abrangente para avaliar a qualidade de renderização de texto. Por meio de experimentos e estudos com usuários, mostramos que o TextDiffuser é flexível e controlável para criar imagens de texto de alta qualidade usando apenas prompts de texto ou em conjunto com imagens de modelo de texto, e realiza inpainting de texto para reconstruir imagens incompletas com texto. O código, o modelo e o conjunto de dados estarão disponíveis em https://aka.ms/textdiffuser.
A melhoria da representação de texto tem atraído muita atenção para alcançar uma síntese de fala (TTS) mais expressiva. No entanto, os trabalhos existentes aprendem apenas implicitamente a prosódia com tarefas de reconstrução de tokens mascarados, o que resulta em baixa eficiência de treinamento e dificuldade na modelagem da prosódia. Propomos o CLAPSpeech, uma estrutura de pré-treinamento contrastivo multimodal que aprende explicitamente a variação prosódica do mesmo token de texto em diferentes contextos. Especificamente, 1) Incentivamos o modelo a conectar o contexto do texto com seu padrão prosódico correspondente no espaço multimodal conjunto, com o design elaborado das entradas do codificador e da função de perda contrastiva; 2) Introduzimos um pipeline de pré-treinamento multiescala para capturar padrões prosódicos em múltiplos níveis. Mostramos como incorporar o CLAPSpeech em modelos TTS existentes para melhorar a prosódia. Experimentos em três conjuntos de dados não apenas demonstram que o CLAPSpeech pode melhorar a previsão de prosódia para métodos TTS existentes, mas também evidenciam sua capacidade de generalização para se adaptar a múltiplos idiomas e TTS com múltiplos falantes. Também analisamos profundamente o princípio por trás do desempenho do CLAPSpeech. Estudos de ablação demonstram a necessidade de cada componente em nosso método. O código-fonte e amostras de áudio estão disponíveis em https://clapspeech.github.io.
Modelos de difusão, como o Stable Diffusion, têm demonstrado desempenho incrível na geração de imagens a partir de texto. Como a geração de imagens a partir de texto frequentemente exige que os modelos gerem conceitos visuais com detalhes refinados e atributos especificados em prompts textuais, podemos aproveitar as poderosas representações aprendidas por modelos de difusão pré-treinados para tarefas discriminativas, como a correspondência entre imagem e texto? Para responder a essa pergunta, propomos uma nova abordagem, o Stable Diffusion Discriminativo (DSD), que transforma modelos de difusão pré-treinados para geração de imagens a partir de texto em aprendizes discriminativos de poucos exemplos. Nossa abordagem utiliza o score de atenção cruzada de um modelo Stable Diffusion para capturar a influência mútua entre informações visuais e textuais e ajusta o modelo por meio de aprendizado de prompts baseado em atenção para realizar a correspondência entre imagem e texto. Ao comparar o DSD com métodos state-of-the-art em vários conjuntos de dados de referência, demonstramos o potencial de usar modelos de difusão pré-treinados para tarefas discriminativas, com resultados superiores na correspondência entre imagem e texto com poucos exemplos.
O texto visual evoca uma imagem na mente de uma pessoa, enquanto o texto não visual não consegue fazer isso. Um método para detectar automaticamente a visualidade em textos desbloqueará a capacidade de aumentar textos com imagens relevantes, já que os modelos neurais de geração e recuperação de texto para imagem operam sob a suposição implícita de que o texto de entrada é visual por natureza. Nós organizamos um conjunto de dados de 3.620 frases em inglês e suas pontuações de visualidade fornecidas por múltiplos anotadores humanos. Além disso, usamos documentos que contêm texto e recursos visuais para criar um corpus supervisionado à distância de texto de documento e imagens associadas. Também propomos uma estratégia de ajuste fino que adapta grandes modelos de visão e linguagem, como o CLIP, que assumem uma correspondência um-para-um entre texto e imagem, para a tarefa de pontuar a visualidade do texto apenas a partir da entrada de texto. Nossa estratégia envolve modificar o objetivo de aprendizado contrastivo do modelo para mapear textos identificados como não visuais para uma imagem NULL comum, enquanto textos visuais são correspondidos às suas imagens correspondentes no documento. Avaliamos a abordagem proposta em sua capacidade de (i) classificar com precisão textos visuais e não visuais, e (ii) atentar para palavras que são identificadas como visuais em estudos psicolinguísticos. A avaliação empírica indica que nossa abordagem tem um desempenho melhor do que várias heurísticas e modelos de linha de base para a tarefa proposta. Além disso, para destacar a importância de modelar a visualidade do texto, realizamos análises qualitativas de sistemas de geração de texto para imagem, como o DALL-E.
A geração simbólica de música visa criar notas musicais, o que pode auxiliar usuários na composição de músicas, como gerar faixas instrumentais alvo do zero ou com base em faixas de origem fornecidas pelo usuário. Considerando a combinação diversa e flexível entre faixas de origem e alvo, um modelo unificado capaz de gerar qualquer faixa arbitrária é de extrema necessidade. Trabalhos anteriores não conseguiram atender a essa necessidade devido a limitações intrínsecas nas representações musicais e arquiteturas de modelos. Para resolver essa questão, propomos uma representação unificada e um framework de difusão chamado GETMusic (onde "GET" significa GEnerate music Tracks), que inclui uma nova representação musical chamada GETScore e um modelo de difusão chamado GETDiff. O GETScore representa notas como tokens e as organiza em uma estrutura 2D, com faixas empilhadas verticalmente e progredindo horizontalmente ao longo do tempo. Durante o treinamento, as faixas são selecionadas aleatoriamente como alvo ou origem. No processo direto, as faixas alvo são corrompidas ao mascarar seus tokens, enquanto as faixas de origem permanecem como verdade absoluta. No processo de remoção de ruído, o GETDiff aprende a prever os tokens mascarados das faixas alvo, condicionado às faixas de origem. Com faixas separadas no GETScore e o comportamento não autorregressivo do modelo, o GETMusic pode controlar explicitamente a geração de qualquer faixa alvo, seja do zero ou condicionada a faixas de origem. Realizamos experimentos de geração de música envolvendo seis faixas instrumentais, resultando em um total de 665 combinações. O GETMusic fornece resultados de alta qualidade em diversas combinações e supera trabalhos anteriores propostos para algumas combinações específicas.
A detecção de objetos foi expandida de um número limitado de categorias para vocabulário aberto. Avançando, um sistema de visão inteligente completo requer a compreensão de descrições de objetos mais refinadas e de partes de objetos. Neste artigo, propomos um detector com a capacidade de prever tanto objetos de vocabulário aberto quanto sua segmentação de partes. Essa capacidade vem de dois designs. Primeiro, treinamos o detector na junção de dados em nível de parte, nível de objeto e nível de imagem para construir o alinhamento multigranular entre linguagem e imagem. Segundo, analisamos o novo objeto em suas partes por meio de sua correspondência semântica densa com o objeto base. Esses dois designs permitem que o detector se beneficie amplamente de várias fontes de dados e modelos fundamentais. Nos experimentos de segmentação de partes de vocabulário aberto, nosso método supera a linha de base em 3,3 a 7,3 mAP na generalização entre conjuntos de dados no PartImageNet, e melhora a linha de base em 7,3 AP_{50} na generalização entre categorias no Pascal Part. Por fim, treinamos um detector que generaliza para uma ampla gama de conjuntos de dados de segmentação de partes, ao mesmo tempo em que alcança um desempenho melhor do que o treinamento específico para cada conjunto de dados.
A avaliação de consistência factual é frequentemente realizada usando modelos de Inferência em Linguagem Natural (NLI, do inglês Natural Language Inference), porém esses modelos apresentam sucesso limitado na avaliação de resumos. Trabalhos anteriores melhoraram tais modelos com dados de treinamento sintéticos. No entanto, os dados são tipicamente baseados em resumos escritos por humanos e perturbados, que muitas vezes diferem em suas características dos resumos gerados por modelos reais e têm cobertura limitada de possíveis erros factuais. Alternativamente, modelos de linguagem de grande escala (LLMs, do inglês Large Language Models) recentemente mostraram resultados promissores na avaliação direta de tarefas generativas, mas são computacionalmente caros demais para uso prático. Motivados por essas limitações, introduzimos o TrueTeacher, um método para gerar dados sintéticos anotando diversos resumos gerados por modelos usando um LLM. Diferente de trabalhos anteriores, o TrueTeacher não depende de resumos escritos por humanos e é multilingue por natureza. Experimentos no benchmark TRUE mostram que um modelo estudante treinado usando nossos dados supera substancialmente tanto o modelo estado da arte com capacidade similar, quanto o LLM professor. Em um estudo sistemático, comparamos o TrueTeacher a métodos existentes de geração de dados sintéticos e demonstramos sua superioridade e robustez a mudanças de domínio. Usando o conjunto de dados mFACE, também mostramos que nosso método generaliza para cenários multilingues. Por fim, disponibilizamos um grande conjunto de dados sintéticos com 1,4 milhão de exemplos gerados usando o TrueTeacher.
Apresentamos nosso trabalho no desenvolvimento de um transformador texto-para-texto multilíngue e eficiente, adequado para o processamento de entradas longas. Esse modelo, denominado mLongT5, é baseado na arquitetura do LongT5, ao mesmo tempo que aproveita os conjuntos de dados multilíngues utilizados para o pré-treinamento do mT5 e as tarefas de pré-treinamento do UL2. Avaliamos esse modelo em uma variedade de tarefas de sumarização e resposta a perguntas multilíngues, e os resultados mostram um desempenho superior do mLongT5 quando comparado a modelos multilíngues existentes, como mBART ou M-BERT.
O Transformer pré-treinado generativo (GPT) demonstrou grande sucesso no processamento de linguagem natural, e técnicas relacionadas foram adaptadas para a modelagem molecular. Considerando que o texto é o registro mais importante para descobertas científicas, neste artigo, propomos o MolXPT, um modelo de linguagem unificado de texto e moléculas pré-treinado em SMILES (uma representação sequencial de moléculas) encapsulada por texto. Resumidamente, detectamos os nomes das moléculas em cada sequência e os substituímos pelos SMILES correspondentes. Dessa forma, os SMILES podem aproveitar as informações do texto ao redor, e vice-versa. As sequências encapsuladas, as sequências de texto do PubMed e as sequências de SMILES do PubChem são todas alimentadas em um modelo de linguagem para pré-treinamento. Os resultados experimentais demonstram que o MolXPT supera fortes baselines de previsão de propriedades moleculares no MoleculeNet, tem desempenho comparável ao melhor modelo em tradução texto-molécula enquanto utiliza menos da metade dos parâmetros, e permite geração molecular zero-shot sem ajuste fino.
Apesar dos avanços significativos na geração de imagens de alta qualidade usando modelos de difusão, a síntese de uma sequência de quadros animados que sejam tanto foto-realistas quanto temporalmente coerentes ainda está em seus estágios iniciais. Embora conjuntos de dados de bilhões de imagens estejam disponíveis para geração de imagens, a coleta de dados de vídeo em escala semelhante ainda é um desafio. Além disso, treinar um modelo de difusão de vídeo é computacionalmente muito mais caro do que sua contraparte de imagem. Neste trabalho, exploramos o ajuste fino de um modelo de difusão de imagem pré-treinado com dados de vídeo como uma solução prática para a tarefa de síntese de vídeo. Descobrimos que a extensão ingênua do ruído de imagem para o ruído de vídeo na difusão de vídeo leva a um desempenho subótimo. Nosso ruído de vídeo cuidadosamente projetado resulta em um desempenho substancialmente melhor. A validação experimental extensa mostra que nosso modelo, Preserve Your Own Correlation (PYoCo), atinge resultados state-of-the-art (SOTA) em zero-shot de texto para vídeo nos benchmarks UCF-101 e MSR-VTT. Ele também alcança a qualidade de geração de vídeo SOTA no benchmark de pequena escala UCF-101 com um modelo 10 vezes menor, usando significativamente menos computação do que o estado da arte anterior.
Apresentamos o VideoFactory, uma estrutura inovadora para a geração de vídeos de alta qualidade em domínio aberto. O VideoFactory se destaca na produção de vídeos em alta definição (1376x768), em formato widescreen (16:9) e sem marcas d'água, proporcionando uma experiência envolvente ao usuário. A geração de vídeos guiada por instruções textuais apresenta desafios significativos, como a modelagem da complexa relação entre espaço e tempo, e a escassez de dados em grande escala de pares texto-vídeo. Abordagens anteriores estendem modelos pré-treinados de geração de texto para imagem, adicionando módulos de convolução/atenção 1D temporal para a geração de vídeos. No entanto, essas abordagens negligenciam a importância da modelagem conjunta de espaço e tempo, resultando inevitavelmente em distorções temporais e desalinhamento entre textos e vídeos. Neste artigo, propomos uma nova abordagem que fortalece a interação entre percepções espaciais e temporais. Especificamente, utilizamos um mecanismo de atenção cruzada alternada em janelas 3D que alterna o papel de "consulta" entre blocos espaciais e temporais, permitindo o reforço mútuo entre eles. Para liberar totalmente as capacidades do modelo na geração de vídeos de alta qualidade, organizamos um grande conjunto de dados de vídeo chamado HD-VG-130M. Esse conjunto de dados compreende 130 milhões de pares texto-vídeo de domínio aberto, garantindo características de alta definição, formato widescreen e ausência de marcas d'água. Métricas objetivas e estudos com usuários demonstram a superioridade de nossa abordagem em termos de qualidade por quadro, correlação temporal e alinhamento texto-vídeo, com margens claras.
Investigamos o uso de modelos de sequência baseados em transformers como modelos de dinâmica (TDMs) para controle. Em uma série de experimentos no conjunto de controle da DeepMind, descobrimos que, primeiro, os TDMs têm um bom desempenho em um cenário de aprendizado em um único ambiente quando comparados a modelos de referência. Segundo, os TDMs exibem fortes capacidades de generalização para ambientes não vistos, tanto em um cenário de poucos exemplos, onde um modelo generalista é ajustado com pequenas quantidades de dados do ambiente alvo, quanto em um cenário de zero-shot, onde um modelo generalista é aplicado a um ambiente não visto sem qualquer treinamento adicional. Demonstramos ainda que generalizar a dinâmica do sistema pode funcionar muito melhor do que generalizar o comportamento ótimo diretamente como uma política. Isso torna os TDMs um componente promissor para um modelo base de controle.