Artigos de pesquisa em IA selecionados diariamente com traduções
Este relatório apresenta uma nova família de modelos multimodais, Gemini, que exibem capacidades notáveis em compreensão de imagens, áudio, vídeo e texto. A família Gemini é composta pelos tamanhos Ultra, Pro e Nano, adequados para aplicações que variam desde tarefas complexas de raciocínio até casos de uso com restrições de memória em dispositivos. A avaliação em uma ampla gama de benchmarks mostra que nosso modelo mais capaz, o Gemini Ultra, avança o estado da arte em 30 dos 32 benchmarks analisados - destacando-se como o primeiro modelo a alcançar desempenho de especialista humano no bem-estudado benchmark de exames MMLU, além de melhorar o estado da arte em cada um dos 20 benchmarks multimodais examinados. Acreditamos que as novas capacidades dos modelos Gemini em raciocínio cross-modal e compreensão de linguagem permitirão uma ampla variedade de casos de uso, e discutimos nossa abordagem para implantá-los de forma responsável aos usuários.
Apresentamos o VecFusion, uma nova arquitetura neural capaz de gerar fontes vetoriais com estruturas topológicas variadas e posições precisas de pontos de controle. Nossa abordagem é um modelo de difusão em cascata que consiste em um modelo de difusão raster seguido por um modelo de difusão vetorial. O modelo raster gera fontes rasterizadas de baixa resolução com informações auxiliares de pontos de controle, capturando o estilo global e a forma da fonte, enquanto o modelo vetorial sintetiza fontes vetoriais condicionadas às fontes raster de baixa resolução da primeira etapa. Para sintetizar curvas longas e complexas, nosso modelo de difusão vetorial utiliza uma arquitetura transformer e uma nova representação vetorial que permite a modelagem de geometria vetorial diversa e a previsão precisa de pontos de controle. Nossos experimentos mostram que, em contraste com modelos generativos anteriores para gráficos vetoriais, nosso novo modelo de difusão vetorial em cascata gera fontes vetoriais de maior qualidade, com estruturas complexas e estilos diversificados.
Os grandes modelos de linguagem (LLMs) têm demonstrado uma proficiência notável em capacidades de raciocínio e geração em nível humano, o que incentiva pesquisas extensas sobre sua aplicação na resolução de problemas matemáticos. No entanto, o trabalho atual tem se concentrado principalmente em problemas matemáticos baseados em texto, com investigação limitada em problemas que envolvem informações geométricas. Para abordar essa lacuna, nosso objetivo é capacitar os LLMs a resolver problemas geométricos compreendendo entradas de imagens. Primeiro, analisamos as limitações dos atuais Modelos Multimodais de Grande Linguagem (MLLMs) nessa área: eles têm dificuldade em compreender com precisão elementos geométricos básicos e suas relações. Para superar esses desafios, aproveitamos as características únicas dos problemas geométricos (como a forma lógica geométrica única e a escalabilidade geométrica) e a capacidade dos LLMs textuais para construir um conjunto de dados multimodais enriquecido com base em dados existentes. O conjunto de dados aumentado, Geo170K, contém mais de 170K pares de imagem-legenda e pergunta-resposta geométricos. Utilizando nosso conjunto de dados Geo170K construído, desenvolvemos o G-LLaVA, que demonstra um desempenho excepcional na resolução de problemas geométricos, superando significativamente o GPT-4-V no benchmark MathVista com apenas 7B parâmetros.
Modelos de difusão de imagens têm sido utilizados em diversas tarefas, como geração de texto para imagem e síntese de imagem controlável. Pesquisas recentes introduziram métodos de ajuste que fazem alterações sutis nos modelos originais, obtendo resultados promissores em adaptações específicas de modelos generativos de difusão fundamentais. Em vez de modificar a estrutura principal do modelo de difusão, investigamos o papel da conexão skip na U-Net e revelamos que características hierárquicas que agregam informações de longa distância entre o codificador e o decodificador têm um impacto significativo no conteúdo e na qualidade da geração de imagens. Com base nessa observação, propomos um framework eficiente de ajuste generativo, denominado SCEdit, que integra e edita a conexão skip utilizando um módulo leve de ajuste chamado SC-Tuner. Além disso, o framework proposto permite uma extensão direta para síntese de imagem controlável ao injetar diferentes condições com o Controllable SC-Tuner, simplificando e unificando o design da rede para entradas de múltiplas condições. Nosso SCEdit reduz substancialmente os parâmetros de treinamento, o uso de memória e o custo computacional devido aos seus ajustadores leves, com a propagação reversa passando apenas para os blocos do decodificador. Experimentos extensivos realizados em tarefas de geração de texto para imagem e síntese de imagem controlável demonstram a superioridade do nosso método em termos de eficiência e desempenho. Página do projeto: https://scedit.github.io/
Modelos recentes de geração de Texto para Imagem (T2I), como Stable Diffusion e Imagen, fizeram progressos significativos na criação de imagens de alta resolução com base em descrições textuais. No entanto, muitas imagens geradas ainda apresentam problemas como artefatos/implausibilidade, desalinhamento com as descrições textuais e baixa qualidade estética. Inspirados pelo sucesso do Aprendizado por Reforço com Feedback Humano (RLHF) para grandes modelos de linguagem, trabalhos anteriores coletaram pontuações fornecidas por humanos como feedback sobre as imagens geradas e treinaram um modelo de recompensa para melhorar a geração T2I. Neste artigo, enriquecemos o sinal de feedback (i) marcando regiões da imagem que são implausíveis ou desalinhadas com o texto e (ii) anotando quais palavras no prompt textual estão mal representadas ou ausentes na imagem. Coletamos esse feedback humano detalhado em 18 mil imagens geradas e treinamos um transformador multimodal para prever automaticamente o feedback detalhado. Mostramos que o feedback humano detalhado previsto pode ser utilizado para melhorar a geração de imagens, por exemplo, selecionando dados de treinamento de alta qualidade para ajustar e aprimorar os modelos generativos ou criando máscaras com mapas de calor previstos para reconstruir as regiões problemáticas. Notavelmente, as melhorias generalizam para modelos (Muse) além daqueles usados para gerar as imagens nas quais os dados de feedback humano foram coletados (variantes do Stable Diffusion).
O splatting gaussiano emergiu como uma poderosa representação 3D que aproveita as vantagens tanto das representações 3D explícitas (malha) quanto implícitas (NeRF). Neste artigo, buscamos utilizar o splatting gaussiano para gerar avatares animáveis realistas a partir de descrições textuais, abordando as limitações (por exemplo, flexibilidade e eficiência) impostas pelas representações baseadas em malha ou NeRF. No entanto, uma aplicação ingênua do splatting gaussiano não consegue gerar avatares animáveis de alta qualidade e sofre de instabilidade no aprendizado; também não consegue capturar geometrias finas dos avatares e frequentemente resulta em partes do corpo degeneradas. Para resolver esses problemas, primeiro propomos uma representação 3D gaussiana baseada em primitivas, onde as gaussianas são definidas dentro de primitivas orientadas por pose para facilitar a animação. Segundo, para estabilizar e amortizar o aprendizado de milhões de gaussianas, propomos o uso de campos implícitos neurais para prever os atributos das gaussianas (por exemplo, cores). Por fim, para capturar geometrias finas dos avatares e extrair malhas detalhadas, propomos uma nova abordagem de aprendizado de malha implícita baseada em SDF para gaussianas 3D que regulariza as geometrias subjacentes e extrai malhas texturizadas altamente detalhadas. Nosso método proposto, GAvatar, permite a geração em larga escala de diversos avatares animáveis usando apenas prompts de texto. O GAvatar supera significativamente os métodos existentes em termos de qualidade de aparência e geometria, e alcança renderização extremamente rápida (100 fps) em resolução 1K.
Recentemente, a compreensão 3D tornou-se popular para facilitar que agentes autônomos realizem tomadas de decisão mais avançadas. No entanto, os conjuntos de dados e métodos 3D existentes são frequentemente limitados a tarefas específicas. Por outro lado, os avanços recentes em Modelos de Linguagem de Grande Escala (LLMs) e Modelos de Linguagem Multimodal (MLMs) demonstraram desempenho excepcional em tarefas gerais de linguagem e imagens. Portanto, é interessante desbloquear o potencial dos MLMs para se tornarem generalistas 3D capazes de realizar uma gama mais ampla de tarefas. No entanto, as pesquisas atuais em MLMs têm se concentrado menos em tarefas 3D devido à falta de conjuntos de dados em grande escala que envolvam instruções em 3D. Neste trabalho, introduzimos um conjunto de dados abrangente de instruções em 3D chamado M3DBench, que possui as seguintes características: 1) Ele suporta instruções multimodais gerais intercaladas com texto, imagens, objetos 3D e outros prompts visuais. 2) Ele unifica diversas tarefas 3D tanto em nível de região quanto de cena, cobrindo uma variedade de habilidades fundamentais em ambientes 3D do mundo real. 3) É um conjunto de dados de instruções em 3D em grande escala, com mais de 320 mil pares de instrução-resposta. Além disso, estabelecemos um novo benchmark para avaliar o desempenho de modelos de grande escala na compreensão de prompts multimodais em 3D. Experimentos extensivos demonstram a eficácia do nosso conjunto de dados e da linha de base, suportando tarefas gerais centradas em 3D, o que pode inspirar pesquisas futuras.
A narrativa visual frequentemente utiliza imagens com proporções atípicas, como pinturas em rolo, tiras de quadrinhos e panoramas, para criar uma narrativa expressiva e envolvente. Embora a IA generativa tenha alcançado grande sucesso e demonstrado o potencial de transformar a indústria criativa, ainda é um desafio gerar conteúdo coerente e cativante com tamanho arbitrário e estilo, conceito e layout controláveis, todos essenciais para a narrativa visual. Para superar as limitações dos métodos anteriores, incluindo conteúdo repetitivo, inconsistência de estilo e falta de controlabilidade, propomos o MagicScroll, um framework de geração de imagens baseado em difusão progressiva e multicamadas, com um novo processo de remoção de ruído semântico. O modelo permite controle refinado sobre a imagem gerada em níveis de objeto, cena e fundo, com condições de texto, imagem e layout. Também estabelecemos o primeiro benchmark para geração de imagens com proporções atípicas para narrativa visual, incluindo mídias como pinturas, quadrinhos e panoramas cinematográficos, com métricas personalizadas para avaliação sistemática. Por meio de estudos comparativos e de ablação, o MagicScroll demonstra resultados promissores em alinhar-se ao texto narrativo, melhorar a coerência visual e engajar o público. Planejamos liberar o código e o benchmark na esperança de uma melhor colaboração entre pesquisadores de IA e profissionais criativos envolvidos em narrativa visual.
O crescente interesse pelos Modelos de Linguagem Multimodais de Grande Escala (MLLMs), como o GPT-4V(ision) da OpenAI, tem marcado uma tendência significativa tanto na academia quanto na indústria. Esses modelos dotam os Modelos de Linguagem de Grande Escala (LLMs) com capacidades poderosas de compreensão visual, permitindo que eles lidem com diversas tarefas multimodais. Recentemente, a Google lançou o Gemini, seu mais novo e mais capaz MLLM, construído desde o início para a multimodalidade. Diante das superiores capacidades de raciocínio, o Gemini pode desafiar a posição de liderança do GPT-4V no aprendizado multimodal? Neste artigo, apresentamos uma exploração preliminar da proficiência de compreensão visual do Gemini Pro, que abrange de forma abrangente quatro domínios: percepção fundamental, cognição avançada, tarefas visuais desafiadoras e várias capacidades especializadas. Comparamos o Gemini Pro com o estado da arte GPT-4V para avaliar seus limites superiores, juntamente com o mais recente MLLM de código aberto, Sphinx, que revela a lacuna entre os esforços manuais e os sistemas de caixa preta. As amostras qualitativas indicam que, embora o GPT-4V e o Gemini apresentem estilos e preferências de resposta diferentes, eles podem exibir capacidades comparáveis de raciocínio visual, e o Sphinx ainda fica atrás deles em termos de generalização de domínio. Especificamente, o GPT-4V tende a elaborar explicações detalhadas e etapas intermediárias, enquanto o Gemini prefere fornecer uma resposta direta e concisa. A avaliação quantitativa no popular benchmark MME também demonstra o potencial do Gemini para ser um forte concorrente ao GPT-4V. Nossa investigação inicial do Gemini também observa alguns problemas comuns dos MLLMs, indicando que ainda há uma distância considerável até a inteligência artificial geral. Nosso projeto para acompanhar o progresso dos MLLMs está disponível em https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models.
Modelos de linguagem (LMs) comumente relatam perplexidade em dados monolíticos retidos do treinamento. Implícita ou explicitamente, esses dados são compostos por domíniosx2013distribuições variadas de linguagem. Em vez de assumir que a perplexidade em uma distribuição se extrapola para outras, a Análise de Perplexidade para Avaliação de Modelos de Linguagem (Paloma) mede o ajuste do LM a 585 domínios de texto, variando desde nytimes.com até r/depression no Reddit. Convidamos submissões ao nosso benchmark e organizamos os resultados por comparabilidade com base no cumprimento de diretrizes, como a remoção de contaminação do benchmark do pré-treinamento. As submissões também podem registrar a contagem de parâmetros e tokens de treinamento para permitir comparações de eficiência de Pareto em relação ao desempenho como função dessas medidas de custo. Populamos nosso benchmark com resultados de 6 modelos de referência pré-treinados em corpora populares. Em estudos de caso, demonstramos análises possíveis com o Paloma, como a descoberta de que o pré-treinamento sem dados além do Common Crawl resulta em um ajuste inconsistente a muitos domínios.
Abordagens recentes de edição de imagens baseadas em difusão têm demonstrado capacidades impressionantes de edição em imagens com composições simples. No entanto, a edição localizada em cenários complexos não tem sido bem estudada na literatura, apesar de suas crescentes demandas no mundo real. Os métodos existentes de inpainting baseados em máscaras não conseguem reter a estrutura subjacente dentro da região editada. Enquanto isso, métodos baseados em atenção sem máscara frequentemente apresentam vazamento de edição e desalinhamento em composições mais complexas. Neste trabalho, desenvolvemos o MAG-Edit, um método de otimização em fase de inferência que não requer treinamento, permitindo a edição localizada de imagens em cenários complexos. Em particular, o MAG-Edit otimiza o recurso latente de ruído em modelos de difusão maximizando duas restrições de atenção cruzada baseadas em máscara do token de edição, o que, por sua vez, gradualmente melhora o alinhamento local com o prompt desejado. Experimentos quantitativos e qualitativos extensivos demonstram a eficácia do nosso método em alcançar tanto o alinhamento de texto quanto a preservação da estrutura para edição localizada em cenários complexos.
Este artigo explora a destilação de preferências para grandes modelos de linguagem e visão (LVLMs), aprimorando sua capacidade de gerar respostas úteis e fiéis ancoradas no contexto visual. Primeiramente, construímos um conjunto de dados de feedback visão-linguagem (VLFeedback) utilizando anotação por IA. Especificamente, as respostas são geradas por modelos amostrados de 12 LVLMs, condicionados a instruções multimodais provenientes de diversos conjuntos de dados. Adotamos o GPT-4V para avaliar as saídas geradas em termos de utilidade, fidelidade visual e considerações éticas. Além disso, a supervisão de preferências é destilada no Qwen-VL-Chat por meio do método de otimização direta de preferências (DPO). O modelo resultante, Silkie, alcança uma melhoria relativa de 6,9% e 9,5% no benchmark MME em relação às capacidades de percepção e cognição, respectivamente. O Silkie também demonstra redução de alucinação ao estabelecer uma nova pontuação de referência de 3,02 no benchmark MMHal-Bench. Análises adicionais mostram que o DPO com nosso conjunto de dados VLFeedback impulsiona principalmente as habilidades de percepção detalhada e cognição complexa dos LVLMs, resultando em melhorias mais abrangentes em comparação com conjuntos de dados de preferências anotados por humanos.
Os modelos de difusão têm feito avanços significativos na geração de imagens de alta qualidade, mas sua aplicação na geração de vídeos tem se mostrado desafiadora devido à complexidade do movimento temporal. A edição de vídeo zero-shot oferece uma solução ao utilizar modelos de difusão de imagens pré-treinados para traduzir vídeos originais em novos vídeos. No entanto, os métodos existentes lutam para manter uma consistência temporal rigorosa e um consumo eficiente de memória. Neste trabalho, propomos uma nova abordagem para melhorar a consistência temporal em vídeos gerados, mesclando tokens de autoatenção entre quadros. Ao alinhar e comprimir tokens temporalmente redundantes entre quadros, nosso método melhora a coerência temporal e reduz o consumo de memória nos cálculos de autoatenção. A estratégia de mesclagem combina e alinha os tokens de acordo com a correspondência temporal entre os quadros, facilitando uma consistência temporal natural nos quadros de vídeo gerados. Para gerenciar a complexidade do processamento de vídeo, dividimos os vídeos em segmentos e desenvolvemos a mesclagem local de tokens intra-segmento e a mesclagem global de tokens inter-segmento, garantindo tanto a continuidade de curto prazo do vídeo quanto a consistência de conteúdo de longo prazo. Nossa abordagem de edição de vídeo estende de forma contínua os avanços na edição de imagens para a edição de vídeo, produzindo resultados favoráveis em consistência temporal em comparação com os métodos mais avançados atuais.
A decodificação especulativa aumenta a eficiência dos modelos de linguagem de grande escala (LLMs) ao utilizar um modelo de rascunho para gerar propostas que são revisadas por um modelo alvo maior. No entanto, a geração de rascunhos na decodificação especulativa envolve uma geração autoregressiva lenta e a alocação de tempo igual para tokens de diferentes importâncias. Essas duas ineficiências resultam em um desempenho subótimo. Para resolver esse problema, introduzimos a Geração de Rascunho Especulativa em Cascata (CS. Drafting), uma abordagem inovadora que emprega dois tipos de cascatas. A Cascata Vertical elimina a geração autoregressiva dos modelos neurais. A Cascata Horizontal estabelece uma alocação eficiente de tempo na geração de rascunhos, com sua otimalidade respaldada por nossa análise teórica. Combinando ambas as cascatas, nosso algoritmo CS. Drafting alcançou um aumento de velocidade adicional de até 72% em relação à decodificação especulativa em nossos experimentos, mantendo a mesma distribuição de saída.
O sucesso dos grandes modelos de linguagem mudou os paradigmas de avaliação no processamento de linguagem natural (PLN). O interesse da comunidade tem se voltado para a comparação de modelos de PLN em diversas tarefas, domínios e conjuntos de dados, muitas vezes em uma escala extrema. Isso impõe novos desafios de engenharia: os esforços na construção de conjuntos de dados e modelos têm sido fragmentados, e seus formatos e interfaces são incompatíveis. Como resultado, muitas vezes são necessários esforços extensos de (re)implementação para fazer comparações justas e controladas em larga escala. O Catwalk visa resolver esses problemas. O Catwalk fornece uma interface unificada para uma ampla gama de conjuntos de dados e modelos de PLN existentes, desde o treinamento supervisionado canônico e o ajuste fino, até paradigmas mais modernos, como o aprendizado em contexto. Suas abstrações cuidadosamente projetadas permitem extensões fáceis para muitos outros. O Catwalk reduz substancialmente as barreiras para a realização de experimentos controlados em larga escala. Por exemplo, ajustamos e avaliamos mais de 64 modelos em mais de 86 conjuntos de dados com um único comando, sem escrever nenhum código. Mantido pela equipe do AllenNLP no Allen Institute for Artificial Intelligence (AI2), o Catwalk é um esforço contínuo de código aberto: https://github.com/allenai/catwalk.
Modelos de linguagem de grande escala (LLMs) estão sendo cada vez mais empregados para tarefas complexas de planejamento em múltiplas etapas, onde a etapa de recuperação de ferramentas (TR) é crucial para alcançar resultados bem-sucedidos. Duas abordagens predominantes para TR são a recuperação em etapa única, que utiliza a consulta completa, e a recuperação sequencial usando decomposição de tarefas (TD), onde uma consulta completa é segmentada em subtarefas atômicas discretas. Enquanto a recuperação em etapa única carece da flexibilidade para lidar com a "dependência entre ferramentas", a abordagem TD exige a manutenção do "alinhamento de atomicidade subtarefa-ferramenta", já que o conjunto de ferramentas pode evoluir dinamicamente. Para abordar essas limitações, introduzimos o framework Progressive Tool retrieval to Improve Planning (ProTIP). O ProTIP é um framework leve baseado em aprendizado contrastivo que realiza implicitamente a TD sem a necessidade explícita de rótulos de subtarefas, mantendo simultaneamente a atomicidade subtarefa-ferramenta. No conjunto de dados ToolBench, o ProTIP supera a abordagem baseada em decomposição de tarefas do ChatGPT por uma margem notável, alcançando uma melhoria de 24% em Recall@K=10 para TR e um aumento de 41% na precisão de ferramentas para geração de planos.
Métodos de destilação de conhecimento têm se mostrado recentemente uma direção promissora para acelerar a síntese de modelos de difusão em larga escala, exigindo apenas algumas etapas de inferência. Embora vários métodos poderosos de destilação tenham sido propostos recentemente, a qualidade geral das amostras do estudante é tipicamente inferior em comparação com as do professor, o que dificulta seu uso prático. Neste trabalho, investigamos a qualidade relativa das amostras produzidas pelo modelo de difusão texto-imagem professor e sua versão estudante destilada. Como nossa principal descoberta empírica, descobrimos que uma parcela significativa das amostras do estudante exibe fidelidade superior em comparação com as do professor, apesar da natureza "aproximada" do estudante. Com base nessa descoberta, propomos uma colaboração adaptativa entre os modelos de difusão estudante e professor para uma síntese eficaz de texto-imagem. Especificamente, o modelo destilado produz a amostra inicial, e então um oráculo decide se ela precisa de melhorias adicionais com o modelo professor lento. Experimentos extensivos demonstram que o pipeline projetado supera as alternativas estado da arte em síntese texto-imagem para vários orçamentos de inferência em termos de preferência humana. Além disso, a abordagem proposta pode ser naturalmente utilizada em aplicações populares, como edição de imagens guiada por texto e geração controlável.
Este artigo apresenta um codificador volumétrico 3D pioneiro projetado para geração de texto-para-3D. Para ampliar os dados de treinamento do modelo de difusão, uma rede leve foi desenvolvida para adquirir eficientemente volumes de características a partir de imagens de múltiplas vistas. Os volumes 3D são então treinados em um modelo de difusão para geração de texto-para-3D utilizando uma U-Net 3D. Esta pesquisa aborda ainda os desafios de legendas de objetos imprecisas e volumes de características de alta dimensionalidade. O modelo proposto, treinado no conjunto de dados público Objaverse, demonstra resultados promissores na produção de amostras diversas e reconhecíveis a partir de prompts de texto. Notavelmente, ele permite um controle mais refinado sobre as características das partes dos objetos por meio de pistas textuais, fomentando a criatividade do modelo ao combinar de forma fluida múltiplos conceitos em um único objeto. Esta pesquisa contribui significativamente para o avanço da geração 3D ao introduzir uma metodologia de representação eficiente, flexível e escalável. O código está disponível em https://github.com/tzco/VolumeDiffusion.
A amostragem guiada sem treinamento em modelos de difusão aproveita redes pré-treinadas prontas para uso, como um modelo de avaliação estética, para orientar o processo de geração. Os algoritmos atuais de amostragem guiada sem treinamento obtêm a função de energia de orientação com base em uma estimativa de um passo da imagem limpa. No entanto, como as redes pré-treinadas prontas para uso são treinadas em imagens limpas, o procedimento de estimativa de um passo da imagem limpa pode ser impreciso, especialmente nos estágios iniciais do processo de geração em modelos de difusão. Isso faz com que a orientação nos primeiros passos de tempo seja imprecisa. Para superar esse problema, propomos o Symplectic Adjoint Guidance (SAG), que calcula a orientação do gradiente em dois estágios internos. Primeiramente, o SAG estima a imagem limpa por meio de n chamadas de função, onde n serve como um hiperparâmetro flexível que pode ser ajustado para atender a requisitos específicos de qualidade de imagem. Em segundo lugar, o SAG utiliza o método adjunto simplético para obter os gradientes de forma precisa e eficiente em termos de requisitos de memória. Experimentos extensivos demonstram que o SAG gera imagens com qualidades superiores em comparação com as linhas de base em tarefas de geração guiada de imagens e vídeos.
Propomos um método para reconstrução dinâmica de cenas utilizando Gaussianas 3D deformáveis, especialmente projetado para vídeos monoculares. Baseando-se na eficiência do *splatting* Gaussiano, nossa abordagem estende a representação para acomodar elementos dinâmicos por meio de um conjunto deformável de Gaussianas localizadas em um espaço canônico e um campo de deformação dependente do tempo, definido por um perceptron multicamadas (MLP). Além disso, sob a suposição de que a maioria das cenas naturais possui grandes regiões que permanecem estáticas, permitimos que o MLP concentre seu poder de representação ao incluir adicionalmente uma nuvem de pontos Gaussiana estática. As nuvens de pontos dinâmicas e estáticas concatenadas formam a entrada para o rasterizador de *Gaussian Splatting*, permitindo renderização em tempo real. O pipeline diferenciável é otimizado de ponta a ponta com uma perda de renderização auto-supervisionada. Nosso método alcança resultados comparáveis aos métodos de campos de radiação neural dinâmicos de última geração, permitindo otimização e renderização significativamente mais rápidas. Site do projeto: https://lynl7130.github.io/gaufre/index.html.