Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o StreamDiffusion, um pipeline de difusão em tempo real projetado para geração interativa de imagens. Os modelos de difusão existentes são habilidosos em criar imagens a partir de prompts de texto ou imagem, mas frequentemente falham em interações em tempo real. Essa limitação torna-se particularmente evidente em cenários que envolvem entrada contínua, como Metaverso, transmissão ao vivo de vídeo e broadcasting, onde alta taxa de transferência é essencial. Para resolver isso, apresentamos uma abordagem inovadora que transforma o processo original de desnaturação sequencial em um processo de desnaturação em lote. O Stream Batch elimina a abordagem convencional de esperar e interagir, permitindo fluxos fluidos e de alta taxa de transferência. Para lidar com a disparidade de frequência entre a entrada de dados e a taxa de transferência do modelo, projetamos uma nova fila de entrada-saída para paralelizar o processo de streaming. Além disso, o pipeline de difusão existente utiliza orientação livre de classificador (CFG), que requer cálculos adicionais da U-Net. Para mitigar os cálculos redundantes, propomos um novo algoritmo de orientação residual livre de classificador (RCFG) que reduz o número de etapas de desnaturação condicional negativa para apenas uma ou até mesmo zero. Adicionalmente, introduzimos um filtro de similaridade estocástica (SSF) para otimizar o consumo de energia. Nosso Stream Batch alcança um aumento de velocidade de aproximadamente 1,5x em comparação com o método de desnaturação sequencial em diferentes níveis de desnaturação. O RCFG proposto resulta em velocidades até 2,05x maiores que o CFG convencional. Combinando as estratégias propostas e ferramentas de aceleração maduras existentes, a geração de imagem para imagem alcança até 91,07 fps em uma RTX4090, melhorando a taxa de transferência do AutoPipeline desenvolvido pelo Diffusers em mais de 59,56x. Além disso, nosso StreamDiffusion proposto também reduz significativamente o consumo de energia em 2,39x em uma RTX3060 e 1,99x em uma RTX4090, respectivamente.
Apresentamos o VideoPoet, um modelo de linguagem capaz de sintetizar vídeos de alta qualidade, com áudio correspondente, a partir de uma grande variedade de sinais de condicionamento. O VideoPoet emprega uma arquitetura de transformador apenas com decodificador que processa entradas multimodais — incluindo imagens, vídeos, texto e áudio. O protocolo de treinamento segue o dos Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês), consistindo em duas etapas: pré-treinamento e adaptação específica para tarefas. Durante o pré-treinamento, o VideoPoet incorpora uma mistura de objetivos generativos multimodais dentro de uma estrutura de Transformador autorregressivo. O LLM pré-treinado serve como uma base que pode ser adaptada para uma variedade de tarefas de geração de vídeo. Apresentamos resultados empíricos que demonstram as capacidades de última geração do modelo na geração de vídeos zero-shot, destacando especificamente a habilidade do VideoPoet de gerar movimentos de alta fidelidade. Página do projeto: http://sites.research.google/videopoet/
Este artigo apresenta o PowerInfer, um motor de inferência de alta velocidade para modelos de linguagem de grande escala (LLM) em um computador pessoal (PC) equipado com uma única GPU de nível consumidor. A base do design do PowerInfer é a exploração da alta localidade inerente à inferência de LLMs, caracterizada por uma distribuição de lei de potência na ativação de neurônios. Essa distribuição indica que um pequeno subconjunto de neurônios, denominados neurônios quentes, é consistentemente ativado em diferentes entradas, enquanto a maioria, os neurônios frios, varia de acordo com entradas específicas. O PowerInfer aproveita essa percepção para projetar um motor de inferência híbrido GPU-CPU: os neurônios quentes são pré-carregados na GPU para acesso rápido, enquanto os neurônios frios são computados na CPU, reduzindo significativamente as demandas de memória da GPU e as transferências de dados entre CPU e GPU. O PowerInfer ainda integra preditores adaptativos e operadores esparsos conscientes dos neurônios, otimizando a eficiência da ativação de neurônios e da esparsidade computacional. A avaliação mostra que o PowerInfer atinge uma taxa média de geração de tokens de 13,20 tokens/s, com um pico de 29,08 tokens/s, em vários LLMs (incluindo o OPT-175B) em uma única GPU NVIDIA RTX 4090, apenas 18% menor do que a alcançada por uma GPU de servidor de alto desempenho A100. Isso supera significativamente o llama.cpp em até 11,69x, mantendo a precisão do modelo.
A capacidade humana de resolver facilmente tarefas multimodais em contexto (ou seja, com apenas algumas demonstrações ou instruções simples) é algo que os sistemas multimodais atuais têm lutado para imitar. Neste trabalho, demonstramos que as capacidades de aprendizado em contexto, independente de tarefa, de modelos multimodais grandes podem ser significativamente aprimoradas por meio de um escalonamento eficaz. Apresentamos o Emu2, um modelo generativo multimodal com 37 bilhões de parâmetros, treinado em sequências multimodais em grande escala com um objetivo autoregressivo unificado. O Emu2 exibe fortes habilidades de aprendizado em contexto multimodal, chegando até mesmo a resolver tarefas que exigem raciocínio imediato, como prompt visual e geração baseada em objetos. O modelo estabelece um novo recorde em várias tarefas de compreensão multimodal em configurações de poucos exemplos. Quando ajustado por instrução para seguir comandos específicos, o Emu2 alcança ainda novos estados da arte em tarefas desafiadoras, como benchmarks de resposta a perguntas para grandes modelos multimodais e geração aberta orientada por assunto. Essas conquistas demonstram que o Emu2 pode servir como um modelo base e interface de propósito geral para uma ampla gama de tarefas multimodais. Códigos e modelos estão disponíveis publicamente para facilitar pesquisas futuras.
A geração de rostos falantes emocionais a partir de uma única imagem de retrato continua sendo um desafio significativo. A conquista simultânea de uma fala emocional expressiva e uma sincronização labial precisa é particularmente difícil, pois a expressividade é frequentemente comprometida em favor da precisão da sincronização labial. Como amplamente adotado por muitos trabalhos anteriores, a rede LSTM frequentemente falha em capturar as sutilezas e variações das expressões emocionais. Para abordar esses desafios, introduzimos o DREAM-Talk, um framework baseado em difusão e dirigido por áudio em dois estágios, projetado para gerar expressões diversas e sincronização labial precisa simultaneamente. No primeiro estágio, propomos o EmoDiff, um novo módulo de difusão que gera expressões emocionais altamente dinâmicas e diversas, juntamente com poses da cabeça, de acordo com o áudio e o estilo emocional de referência. Dada a forte correlação entre o movimento labial e o áudio, refinamos a dinâmica com uma precisão aprimorada de sincronização labial usando características de áudio e estilo emocional. Para isso, implantamos um módulo de renderização de vídeo para vídeo para transferir as expressões e movimentos labiais do nosso avatar 3D proxy para um retrato arbitrário. Tanto quantitativa quanto qualitativamente, o DREAM-Talk supera os métodos state-of-the-art em termos de expressividade, precisão de sincronização labial e qualidade perceptual.
Modelos baseados em difusão têm demonstrado capacidades impressionantes para geração de imagens a partir de texto e são esperados para aplicações personalizadas de geração orientada por sujeitos, que exigem a criação de conceitos customizados com uma ou poucas imagens de referência. No entanto, os métodos existentes baseados em ajuste fino falham em equilibrar a relação entre o aprendizado do sujeito e a manutenção das capacidades de geração dos modelos pré-treinados. Além disso, outros métodos que utilizam codificadores de imagem adicionais tendem a perder detalhes importantes do sujeito devido à compressão da codificação. Para enfrentar esses desafios, propomos o DreamTurner, um método novo que injeta informações de referência de forma gradual, do geral ao detalhado, para alcançar a geração de imagens orientada por sujeito de maneira mais eficaz. O DreamTurner introduz um codificador de sujeito para preservar a identidade geral do sujeito, onde as características gerais comprimidas do sujeito são introduzidas por meio de uma camada de atenção antes da atenção cruzada visual-texto. Em seguida, modificamos as camadas de auto-atenção dentro dos modelos pré-treinados de texto para imagem para camadas de auto-atenção do sujeito, a fim de refinar os detalhes do sujeito alvo. A imagem gerada consulta características detalhadas tanto da imagem de referência quanto de si mesma na auto-atenção do sujeito. Vale enfatizar que a auto-atenção do sujeito é um método eficaz, elegante e sem necessidade de treinamento para manter as características detalhadas de sujeitos customizados e pode servir como uma solução plug-and-play durante a inferência. Por fim, com um ajuste fino adicional orientado por sujeito, o DreamTurner alcança um desempenho notável na geração de imagens orientada por sujeito, que pode ser controlada por texto ou outras condições, como pose. Para mais detalhes, visite a página do projeto em https://dreamtuner-diffusion.github.io/.
Embora os métodos para estimativa de profundidade monocular tenham avançado significativamente em benchmarks padrão, a estimativa de profundidade métrica zero-shot permanece sem solução. Os desafios incluem a modelagem conjunta de cenas internas e externas, que frequentemente exibem distribuições significativamente diferentes de RGB e profundidade, e a ambiguidade de escala de profundidade devido às intrínsecas desconhecidas da câmera. Trabalhos recentes propuseram arquiteturas especializadas de múltiplas cabeças para modelar conjuntamente cenas internas e externas. Em contraste, defendemos um modelo de difusão genérico e agnóstico à tarefa, com vários avanços, como a parametrização de profundidade em escala logarítmica para permitir a modelagem conjunta de cenas internas e externas, o condicionamento no campo de visão (FOV) para lidar com a ambiguidade de escala e a ampliação sintética do FOV durante o treinamento para generalizar além das intrínsecas limitadas da câmera nos conjuntos de dados de treinamento. Além disso, ao empregar uma mistura de treinamento mais diversificada do que o comum e uma parametrização eficiente de difusão, nosso método, DMD (Difusão para Profundidade Métrica), alcança uma redução de 25% no erro relativo (REL) em conjuntos de dados zero-shot internos e uma redução de 33% em conjuntos de dados zero-shot externos em relação ao estado da arte atual, utilizando apenas um pequeno número de etapas de remoção de ruído. Para uma visão geral, consulte https://diffusion-vision.github.io/dmd.
Neste artigo, apresentamos o Fairy, uma adaptação minimalista, porém robusta, de modelos de difusão para edição de imagens, aprimorando-os para aplicações de edição de vídeo. Nossa abordagem centra-se no conceito de atenção entre quadros baseada em âncoras, um mecanismo que propaga implicitamente características de difusão entre os quadros, garantindo coerência temporal superior e síntese de alta fidelidade. O Fairy não apenas aborda limitações de modelos anteriores, incluindo memória e velocidade de processamento, mas também melhora a consistência temporal por meio de uma estratégia única de aumento de dados. Essa estratégia torna o modelo equivariante a transformações afins tanto nas imagens de origem quanto nas de destino. Notavelmente eficiente, o Fairy gera vídeos de 120 quadros com resolução 512x384 (4 segundos de duração a 30 FPS) em apenas 14 segundos, superando trabalhos anteriores em pelo menos 44 vezes. Um estudo de usuário abrangente, envolvendo 1000 amostras geradas, confirma que nossa abordagem oferece qualidade superior, superando decisivamente métodos estabelecidos.
Os modelos de difusão emergiram como o paradigma de facto para a geração de vídeos. No entanto, sua dependência de dados em escala da web de qualidade variada frequentemente resulta em vídeos visualmente desagradáveis e desalinhados com os prompts textuais. Para resolver esse problema, propomos o InstructVideo, que instrui modelos de difusão texto-para-vídeo com feedback humano por meio de ajuste fino baseado em recompensas. O InstructVideo possui dois componentes principais: 1) Para reduzir o custo do ajuste fino induzido pela geração através da cadeia completa de amostragem DDIM, reformulamos o ajuste fino como uma tarefa de edição. Ao aproveitar o processo de difusão para corromper um vídeo amostrado, o InstructVideo requer apenas inferência parcial da cadeia de amostragem DDIM, reduzindo o custo e melhorando a eficiência do ajuste fino. 2) Para mitigar a ausência de um modelo de recompensa dedicado a vídeos que capture preferências humanas, reutilizamos modelos de recompensa de imagem estabelecidos, como o HPSv2. Para isso, propomos o Segmental Video Reward, um mecanismo que fornece sinais de recompensa com base em amostragem esparsa segmentada, e o Temporally Attenuated Reward, um método que mitiga a degradação da modelagem temporal durante o ajuste fino. Experimentos extensivos, tanto qualitativos quanto quantitativos, validam a praticidade e eficácia do uso de modelos de recompensa de imagem no InstructVideo, melhorando significativamente a qualidade visual dos vídeos gerados sem comprometer as capacidades de generalização. O código e os modelos serão disponibilizados publicamente.
Apresentamos o Splatter Image, uma abordagem ultrarrápida para reconstrução 3D de objetos monoculares que opera a 38 FPS. O Splatter Image é baseado no Gaussian Splatting, que recentemente trouxe renderização em tempo real, treinamento rápido e excelente escalabilidade para reconstrução multivista. Pela primeira vez, aplicamos o Gaussian Splatting em um cenário de reconstrução monocular. Nossa abordagem é baseada em aprendizado e, no momento do teste, a reconstrução requer apenas a avaliação direta de uma rede neural. A principal inovação do Splatter Image é o design surpreendentemente simples: ele utiliza uma rede de imagem para imagem 2D para mapear a imagem de entrada para um Gaussiano 3D por pixel. Os Gaussianos resultantes assumem, portanto, a forma de uma imagem, o Splatter Image. Estendemos ainda o método para incorporar mais de uma imagem como entrada, o que fazemos adicionando atenção entre vistas. Graças à velocidade do renderizador (588 FPS), podemos usar uma única GPU para treinamento enquanto geramos imagens completas a cada iteração, a fim de otimizar métricas perceptuais como o LPIPS. Em benchmarks padrão, demonstramos não apenas reconstrução rápida, mas também resultados melhores do que baselines recentes e muito mais caros em termos de PSNR, LPIPS e outras métricas.
Recentemente, o modelo Segment Anything (SAM) demonstrou uma poderosa capacidade de segmentação e atraiu grande atenção no campo da visão computacional. Numerosos trabalhos subsequentes desenvolveram diversas aplicações baseadas no SAM pré-treinado e alcançaram desempenho impressionante em tarefas de visão subsequentes. No entanto, o SAM consiste em arquiteturas pesadas e requer uma capacidade computacional massiva, o que dificulta a aplicação adicional do SAM em dispositivos de borda com restrições de computação. Para isso, neste artigo, propomos uma estrutura para obter um modelo Tiny Segment Anything (TinySAM) enquanto mantemos o forte desempenho zero-shot. Primeiramente, propomos um método de destilação de conhecimento em estágio completo com uma estratégia de amostragem de prompts difíceis online para destilar um modelo estudante leve. Também adaptamos a quantização pós-treinamento para a tarefa de segmentação acionável e reduzimos ainda mais o custo computacional. Além disso, uma estratégia hierárquica de segmentação de tudo é proposta para acelerar a inferência de tudo em 2 vezes com quase nenhuma degradação de desempenho. Com todos esses métodos propostos, nosso TinySAM resulta em uma redução computacional de ordens de magnitude e amplia os limites para a tarefa eficiente de segmentação de qualquer coisa. Experimentos extensivos em várias tarefas de transferência zero-shot demonstram o desempenho significativamente vantajoso do nosso TinySAM em comparação com métodos concorrentes. Modelos pré-treinados e códigos estarão disponíveis em https://github.com/xinghaochen/TinySAM e https://gitee.com/mindspore/models/tree/master/research/cv/TinySAM.
Este trabalho apresenta um novo modelo Transformer chamado Cached Transformer, que utiliza atenção com Cache Recorrente Controlado (GRC) para estender o mecanismo de auto-atenção com um cache de memória diferenciável de tokens. A atenção GRC permite atender tanto a tokens passados quanto atuais, aumentando o campo receptivo da atenção e possibilitando a exploração de dependências de longo alcance. Ao empregar uma unidade de controle recorrente para atualizar continuamente o cache, nosso modelo alcança avanços significativos em seis tarefas de linguagem e visão, incluindo modelagem de linguagem, tradução automática, ListOPs, classificação de imagens, detecção de objetos e segmentação de instâncias. Além disso, nossa abordagem supera técnicas baseadas em memória anteriores em tarefas como modelagem de linguagem e demonstra a capacidade de ser aplicada a uma gama mais ampla de situações.
Para alcançar destreza em nível humano, os robôs devem inferir consciência espacial a partir de sensoriamento multimodal para raciocinar sobre interações de contato. Durante a manipulação de novos objetos com as mãos, essa consciência espacial envolve estimar a pose e a forma do objeto. O estado atual da percepção durante a manipulação com as mãos emprega principalmente a visão e se restringe ao rastreamento de objetos previamente conhecidos. Além disso, a oclusão visual de objetos durante a manipulação é iminente, impedindo que os sistemas atuais avancem além de tarefas sem oclusão. Combinamos sensoriamento visual e tátil em uma mão multifuncional para estimar a pose e a forma de um objeto durante a manipulação com as mãos. Nosso método, NeuralFeels, codifica a geometria do objeto aprendendo um campo neural online e o rastreia conjuntamente otimizando um problema de grafo de pose. Estudamos a percepção multimodal durante a manipulação com as mãos em simulação e no mundo real, interagindo com diferentes objetos por meio de uma política orientada por propriocepção. Nossos experimentos mostram pontuações F finais de reconstrução de 81% e desvios médios de pose de 4,7 mm, reduzidos para 2,3 mm com modelos CAD conhecidos. Além disso, observamos que, sob forte oclusão visual, podemos alcançar melhorias de até 94% no rastreamento em comparação com métodos baseados apenas em visão. Nossos resultados demonstram que o toque, no mínimo, refina e, no máximo, desambigua as estimativas visuais durante a manipulação com as mãos. Lançamos nosso conjunto de dados de avaliação de 70 experimentos, FeelSight, como um passo em direção à criação de benchmarks nesse domínio. Nossa representação neural impulsionada por sensoriamento multimodal pode servir como uma base de percepção para avançar a destreza robótica. Vídeos podem ser encontrados em nosso site do projeto: https://suddhu.github.io/neural-feels/
Avanços recentes em IA generativa têm aprimorado significativamente a edição de imagens e vídeos, particularmente no contexto de controle por prompts de texto. As abordagens mais avançadas atualmente dependem predominantemente de modelos de difusão para realizar essas tarefas. No entanto, as demandas computacionais dos métodos baseados em difusão são substanciais, frequentemente exigindo grandes conjuntos de dados pareados para treinamento, o que dificulta a implantação em aplicações práticas. Este estudo aborda esse desafio ao dividir o processo de edição de vídeo baseada em texto em dois estágios separados. No primeiro estágio, aproveitamos um modelo de difusão texto-para-imagem existente para editar simultaneamente alguns quadros-chave sem ajuste fino adicional. No segundo estágio, introduzimos um modelo eficiente chamado MaskINT, construído sobre transformadores generativos mascarados não autorregressivos e especializado em interpolação de quadros entre os quadros-chave, beneficiando-se da orientação estrutural fornecida por quadros intermediários. Nosso conjunto abrangente de experimentos ilustra a eficácia e eficiência do MaskINT em comparação com outras metodologias baseadas em difusão. Esta pesquisa oferece uma solução prática para edição de vídeo baseada em texto e demonstra o potencial dos transformadores generativos mascarados não autorregressivos nesse domínio.
Modelos de difusão guiados por texto revolucionaram a geração de imagens e vídeos e também têm sido usados com sucesso para a síntese de objetos 3D baseada em otimização. Aqui, focamos no cenário pouco explorado de texto-para-4D e sintetizamos objetos 3D dinâmicos e animados usando métodos de destilação de pontuação com uma dimensão temporal adicional. Em comparação com trabalhos anteriores, adotamos uma abordagem inovadora baseada em geração composicional e combinamos modelos de difusão texto-para-imagem, texto-para-vídeo e multivista com consciência 3D para fornecer feedback durante a otimização de objetos 4D, garantindo simultaneamente consistência temporal, aparência visual de alta qualidade e geometria realista. Nosso método, chamado Align Your Gaussians (AYG), utiliza o Splatting de Gaussianas 3D dinâmicas com campos de deformação como representação 4D. Crucial para o AYG é um novo método para regularizar a distribuição das Gaussianas 3D em movimento, estabilizando a otimização e induzindo movimento. Também propomos um mecanismo de amplificação de movimento e um novo esquema de síntese autoregressiva para gerar e combinar múltiplas sequências 4D para gerações mais longas. Essas técnicas nos permitem sintetizar cenas dinâmicas vívidas, superar trabalhos anteriores qualitativa e quantitativamente e alcançar desempenho state-of-the-art em texto-para-4D. Devido à representação 4D baseada em Gaussianas, diferentes animações 4D podem ser combinadas de forma contínua, como demonstramos. O AYG abre caminhos promissores para animação, simulação, criação de conteúdo digital e geração de dados sintéticos.
Na pesquisa em IA, a otimização de Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês) continua sendo um desafio significativo, crucial para avançar as aplicações práticas e a sustentabilidade do campo. Baseando-se no trabalho fundamental do laboratório do Professor Song Han no MIT, este artigo introduz uma nova abordagem no desenvolvimento de Mini-GPTs por meio de poda contextual. Nossa metodologia poda estrategicamente a arquitetura computacional de LLMs tradicionais, como o Phi-1.5, com foco em reter funcionalidades essenciais enquanto reduz drasticamente o tamanho dos modelos. Empregamos a técnica em diversos conjuntos de dados complexos, incluindo leis dos EUA, perguntas e respostas médicas, diálogos de Skyrim, tradução inglês-taiwanês e artigos de economia. Os resultados destacam a eficiência e a eficácia da poda contextual, não apenas como um conceito teórico, mas como uma ferramenta prática no desenvolvimento de LLMs específicos para domínios e eficientes em recursos. A poda contextual é um método promissor para a construção de LLMs específicos para domínios, e esta pesquisa é um bloco fundamental para o desenvolvimento futuro com maior capacidade de hardware, ajuste fino refinado e quantização.
Este artigo apresenta um estudo abrangente sobre o papel da Orientação Livre de Classificador (Classifier-Free Guidance - CFG) em modelos de difusão condicionados por texto, sob a perspectiva da eficiência de inferência. Em particular, relaxamos a escolha padrão de aplicar CFG em todas as etapas de difusão e, em vez disso, buscamos políticas de orientação eficientes. Formulamos a descoberta dessas políticas no framework diferenciável de Busca de Arquitetura Neural (Neural Architecture Search). Nossos achados sugerem que as etapas de remoção de ruído propostas pela CFG se alinham cada vez mais com etapas condicionais simples, o que torna a avaliação adicional da rede neural da CFG redundante, especialmente na segunda metade do processo de remoção de ruído. Com base nessa percepção, propomos "Orientação Adaptativa" (Adaptive Guidance - AG), uma variante eficiente da CFG, que omite adaptativamente as avaliações da rede neural quando o processo de remoção de ruído apresenta convergência. Nossos experimentos demonstram que a AG preserva a qualidade da imagem da CFG enquanto reduz a computação em 25%. Assim, a AG constitui uma alternativa plug-and-play à Distilação de Orientação (Guidance Distillation), alcançando 50% dos ganhos de velocidade desta última, ao mesmo tempo em que é livre de treinamento e mantém a capacidade de lidar com prompts negativos. Por fim, descobrimos redundâncias adicionais da CFG na primeira metade do processo de difusão, mostrando que avaliações completas de funções neurais podem ser substituídas por transformações afins simples de estimativas anteriores de scores. Esse método, denominado LinearAG, oferece uma inferência ainda mais barata ao custo de se desviar do modelo de referência. Nossos achados fornecem insights sobre a eficiência do processo de remoção de ruído condicional, contribuindo para uma implantação mais prática e rápida de modelos de difusão condicionados por texto.
Métodos recentes de geração de 3D a partir de uma única imagem comumente adotam a Amostragem por Destilação de Pontuação (SDS). Apesar dos resultados impressionantes, existem várias deficiências, incluindo inconsistência multi-visual, texturas super-saturadas e super-suavizadas, além da baixa velocidade de geração. Para abordar essas deficiências, apresentamos o Repaint123, que visa mitigar o viés multi-visual e a degradação de textura, além de acelerar o processo de geração. A ideia central é combinar a poderosa capacidade de geração de imagens do modelo de difusão 2D e a habilidade de alinhamento de textura da estratégia de repintura para gerar imagens multi-visuais de alta qualidade com consistência. Propomos ainda uma força de repintura adaptativa consciente da visibilidade para regiões sobrepostas, a fim de melhorar a qualidade das imagens geradas durante o processo de repintura. As imagens geradas, de alta qualidade e consistência multi-visual, permitem o uso de uma simples perda de Erro Quadrático Médio (MSE) para a geração rápida de conteúdo 3D. Realizamos extensos experimentos e demonstramos que nosso método possui uma capacidade superior de gerar conteúdo 3D de alta qualidade com consistência multi-visual e texturas refinadas em 2 minutos, a partir do zero. O código está disponível em https://github.com/junwuzhang19/repaint123.
As representações neurais de cenas 3D têm demonstrado grande potencial para a reconstrução 3D a partir de imagens 2D. No entanto, a reconstrução de capturas do mundo real de cenas complexas ainda permanece um desafio. Os métodos genéricos de reconstrução 3D existentes frequentemente lutam para representar detalhes geométricos finos e não modelam adequadamente superfícies reflexivas em cenas de grande escala. Técnicas que se concentram explicitamente em superfícies reflexivas podem modelar reflexões complexas e detalhadas ao explorar parametrizações de reflexão mais eficientes. No entanto, observamos que esses métodos muitas vezes não são robustos em cenários reais ilimitados, onde componentes não reflexivos e reflexivos estão presentes. Neste trabalho, propomos o UniSDF, um método de reconstrução 3D de propósito geral que pode reconstruir cenas complexas e extensas com reflexões. Investigamos tanto técnicas de parametrização de previsão de cor baseadas em visão quanto em reflexão e descobrimos que a combinação explícita dessas representações no espaço 3D permite a reconstrução de superfícies geometricamente mais precisas, especialmente para superfícies reflexivas. Além disso, combinamos essa representação com uma estrutura de grade multi-resolução que é treinada de maneira grossa para fina, permitindo reconstruções mais rápidas do que métodos anteriores. Experimentos extensivos em conjuntos de dados de nível de objeto, como DTU e Shiny Blender, bem como em conjuntos de dados ilimitados, como Mip-NeRF 360 e Ref-NeRF real, demonstram que nosso método é capaz de reconstruir robustamente cenas complexas e extensas com detalhes finos e superfícies reflexivas. Consulte nossa página do projeto em https://fangjinhuawang.github.io/UniSDF.
Campos de radiação neural têm alcançado desempenho notável na modelagem da aparência de cenas 3D. No entanto, as abordagens existentes ainda enfrentam dificuldades com a aparência dependente da vista em superfícies brilhantes, especialmente sob iluminação complexa de ambientes internos. Diferentemente dos métodos atuais, que geralmente assumem iluminação distante, como um mapa de ambiente, propomos uma codificação direcional Gaussiana aprendível para modelar melhor os efeitos dependentes da vista sob condições de iluminação de campo próximo. De forma crucial, nossa nova codificação direcional captura a natureza espacialmente variável da iluminação de campo próximo e emula o comportamento de mapas de ambiente pré-filtrados. Como resultado, ela permite a avaliação eficiente da cor especular pré-convolvida em qualquer localização 3D com coeficientes de rugosidade variáveis. Além disso, introduzimos um prior geométrico baseado em dados que ajuda a aliviar a ambiguidade entre forma e radiação na modelagem de reflexões. Demonstramos que nossa codificação direcional Gaussiana e o prior geométrico melhoram significativamente a modelagem de reflexões especulares desafiadoras em campos de radiação neural, o que ajuda a decompor a aparência em componentes fisicamente mais significativos.
Aprender modelos preditivos a partir de observações utilizando redes neurais profundas (DNNs) é uma abordagem promissora para muitos problemas de planejamento e controle no mundo real. No entanto, as DNNs comuns são pouco estruturadas para um planejamento eficaz, e os métodos de controle atuais geralmente dependem de amostragem extensiva ou de descida de gradiente local. Neste artigo, propomos uma nova estrutura para integração de aprendizado de modelo e controle preditivo que é adequada para algoritmos de otimização eficientes. Especificamente, começamos com um modelo neural ReLU da dinâmica do sistema e, com perdas mínimas na precisão da previsão, gradualmente o esparsificamos removendo neurônios redundantes. Esse processo de esparsificação discreta é aproximado como um problema contínuo, permitindo uma otimização de ponta a ponta tanto da arquitetura do modelo quanto dos parâmetros de peso. O modelo esparsificado é subsequentemente utilizado por um controlador preditivo de inteiros mistos, que representa as ativações dos neurônios como variáveis binárias e emprega algoritmos eficientes de branch-and-bound. Nossa estrutura é aplicável a uma ampla variedade de DNNs, desde perceptrons multicamadas simples até dinâmicas neurais gráficas complexas. Ela pode lidar eficientemente com tarefas envolvendo dinâmicas de contato complicadas, como empurrar objetos, classificação composicional de objetos e manipulação de objetos deformáveis. Experimentos numéricos e de hardware mostram que, apesar da esparsificação agressiva, nossa estrutura pode oferecer um desempenho em malha fechada superior aos métodos mais avançados existentes.
Conjuntos de dados de imagens biomédicas são frequentemente pequenos e tendenciosos, o que significa que o desempenho de modelos preditivos no mundo real pode ser substancialmente menor do que o esperado em testes internos. Este trabalho propõe o uso de edição generativa de imagens para simular mudanças nos conjuntos de dados e diagnosticar modos de falha de modelos de visão biomédica; isso pode ser usado antes da implantação para avaliar a prontidão, potencialmente reduzindo custos e danos aos pacientes. Métodos de edição existentes podem produzir alterações indesejáveis, com correlações espúrias aprendidas devido à co-ocorrência de doenças e intervenções de tratamento, limitando a aplicabilidade prática. Para resolver isso, treinamos um modelo de difusão de texto para imagem em múltiplos conjuntos de dados de raios-X de tórax e introduzimos um novo método de edição, o RadEdit, que utiliza múltiplas máscaras, quando presentes, para restringir alterações e garantir consistência nas imagens editadas. Consideramos três tipos de mudanças nos conjuntos de dados: mudança de aquisição, mudança de manifestação e mudança populacional, e demonstramos que nossa abordagem pode diagnosticar falhas e quantificar a robustez do modelo sem a necessidade de coleta adicional de dados, complementando ferramentas mais qualitativas para IA explicável.