Artigos de pesquisa em IA selecionados diariamente com traduções
Este artigo aborda um desafio significativo enfrentado pelos Vision Transformers (ViTs): sua escalabilidade limitada em diferentes resoluções de imagem. Normalmente, os ViTs sofrem uma queda de desempenho ao processar resoluções diferentes daquelas vistas durante o treinamento. Nosso trabalho introduz duas inovações principais para resolver esse problema. Primeiramente, propomos um novo módulo para ajuste dinâmico de resolução, projetado com um único bloco Transformer, especificamente para alcançar uma integração incremental de tokens altamente eficiente. Em segundo lugar, introduzimos a codificação posicional difusa no Vision Transformer para fornecer consciência posicional consistente em múltiplas resoluções, evitando assim o overfitting em qualquer resolução única de treinamento. Nosso modelo resultante, ViTAR (Vision Transformer com Qualquer Resolução), demonstra uma impressionante adaptabilidade, alcançando 83,3% de precisão top-1 em uma resolução de 1120x1120 e 80,4% de precisão em uma resolução de 4032x4032, tudo isso enquanto reduz os custos computacionais. O ViTAR também mostra um desempenho forte em tarefas subsequentes, como segmentação de instâncias e semântica, e pode ser facilmente combinado com técnicas de aprendizado auto-supervisionado, como o Masked AutoEncoder. Nosso trabalho fornece uma solução econômica para melhorar a escalabilidade de resolução dos ViTs, abrindo caminho para um processamento de imagens de alta resolução mais versátil e eficiente.
Neste trabalho, apresentamos o Mini-Gemini, uma estrutura simples e eficaz que aprimora os Modelos de Linguagem Visual (VLMs) multimodais. Apesar dos avanços nos VLMs que facilitam o diálogo visual básico e o raciocínio, ainda existe uma lacuna de desempenho em comparação com modelos avançados como o GPT-4 e o Gemini. Buscamos reduzir essa lacuna explorando o potencial dos VLMs para melhorar o desempenho e o fluxo de trabalho de qualquer para qualquer, considerando três aspectos: tokens visuais de alta resolução, dados de alta qualidade e geração guiada por VLM. Para aprimorar os tokens visuais, propomos a utilização de um codificador visual adicional para refinamento de alta resolução sem aumentar o número de tokens visuais. Além disso, construímos um conjunto de dados de alta qualidade que promove a compreensão precisa de imagens e a geração baseada em raciocínio, expandindo o escopo operacional dos VLMs atuais. Em geral, o Mini-Gemini explora ainda mais o potencial dos VLMs e capacita as estruturas atuais com compreensão de imagens, raciocínio e geração simultaneamente. O Mini-Gemini suporta uma série de Modelos de Linguagem de Grande Escala (LLMs) densos e MoE, variando de 2B a 34B. Demonstramos que ele alcança desempenho líder em vários benchmarks de zero-shot e até supera modelos privados desenvolvidos. O código e os modelos estão disponíveis em https://github.com/dvlab-research/MiniGemini.
Os modelos de difusão revolucionaram a edição de imagens, mas frequentemente geram imagens que violam as leis físicas, particularmente os efeitos dos objetos na cena, como oclusões, sombras e reflexões. Ao analisar as limitações das abordagens auto-supervisionadas, propomos uma solução prática centrada em um conjunto de dados contrafactual. Nosso método envolve capturar uma cena antes e depois da remoção de um único objeto, minimizando outras alterações. Ao ajustar finamente um modelo de difusão nesse conjunto de dados, conseguimos não apenas remover objetos, mas também seus efeitos na cena. No entanto, descobrimos que aplicar essa abordagem para a inserção fotorealística de objetos requer um conjunto de dados impraticavelmente grande. Para enfrentar esse desafio, propomos a supervisão por bootstrap; aproveitando nosso modelo de remoção de objetos treinado em um pequeno conjunto de dados contrafactual, expandimos sinteticamente esse conjunto de dados consideravelmente. Nossa abordagem supera significativamente métodos anteriores na remoção e inserção fotorealística de objetos, especialmente na modelagem dos efeitos dos objetos na cena.
Grandes modelos de linguagem (LLMs) frequentemente geram conteúdo que contém erros factuais ao responder a prompts que buscam fatos sobre tópicos de natureza aberta. Para avaliar a factualidade de longo prazo de um modelo em domínios abertos, primeiro utilizamos o GPT-4 para gerar o LongFact, um conjunto de prompts composto por milhares de perguntas abrangendo 38 tópicos. Em seguida, propomos que agentes baseados em LLMs podem ser usados como avaliadores automatizados de factualidade de longo prazo por meio de um método que chamamos de Avaliador de Factualidade Aumentado por Busca (SAFE, na sigla em inglês). O SAFE utiliza um LLM para decompor uma resposta de longo prazo em um conjunto de fatos individuais e avaliar a precisão de cada fato usando um processo de raciocínio em múltiplas etapas, que inclui o envio de consultas de busca ao Google Search e a determinação de se um fato é suportado pelos resultados da busca. Além disso, propomos estender a métrica F1 como uma medida agregada para factualidade de longo prazo. Para isso, equilibramos a porcentagem de fatos suportados em uma resposta (precisão) com a porcentagem de fatos fornecidos em relação a um hiperparâmetro que representa o comprimento preferido da resposta pelo usuário (recall). Empiricamente, demonstramos que agentes baseados em LLMs podem alcançar desempenho de avaliação sobre-humano - em um conjunto de ~16 mil fatos individuais, o SAFE concorda com anotadores humanos crowdsourced 72% das vezes, e em um subconjunto aleatório de 100 casos de discordância, o SAFE vence 76% das vezes. Ao mesmo tempo, o SAFE é mais de 20 vezes mais barato do que anotadores humanos. Também avaliamos treze modelos de linguagem no LongFact em quatro famílias de modelos (Gemini, GPT, Claude e PaLM-2), descobrindo que modelos de linguagem maiores geralmente alcançam melhor factualidade de longo prazo. O LongFact, o SAFE e todo o código experimental estão disponíveis em https://github.com/google-deepmind/long-form-factuality.
Apresentamos o Garment3DGen, um novo método para sintetizar ativos de roupas 3D a partir de uma malha base, utilizando uma única imagem de entrada como guia. Nossa abordagem proposta permite que os usuários gerem roupas 3D texturizadas com base em imagens reais e sintéticas, como aquelas geradas por prompts de texto. Os ativos gerados podem ser diretamente drapeados e simulados em corpos humanos. Primeiro, aproveitamos os recentes avanços em métodos de difusão de imagem para 3D para gerar geometrias de roupas 3D. No entanto, como essas geometrias não podem ser utilizadas diretamente para tarefas subsequentes, propomos usá-las como pseudo ground-truth e configuramos um procedimento de otimização de deformação de malha que deforma uma malha base para corresponder ao alvo 3D gerado. Segundo, introduzimos perdas cuidadosamente projetadas que permitem que a malha base de entrada se deforme livremente em direção ao alvo desejado, preservando a qualidade e a topologia da malha para que possam ser simuladas. Por fim, um módulo de estimativa de textura gera mapas de textura de alta fidelidade que são global e localmente consistentes e capturam fielmente a orientação de entrada, permitindo que renderizemos os ativos 3D gerados. Com o Garment3DGen, os usuários podem gerar a roupa 3D texturizada de sua escolha sem a necessidade de intervenção de artistas. Pode-se fornecer um prompt textual descrevendo a roupa desejada para gerar um ativo 3D pronto para simulação. Apresentamos uma variedade de comparações quantitativas e qualitativas em vários ativos, tanto reais quanto gerados, e fornecemos casos de uso de como é possível gerar roupas 3D prontas para simulação.
Modelos como o GPT-4 e o Med-PaLM 2 demonstraram desempenho impressionante em uma ampla variedade de tarefas de PLN (Processamento de Linguagem Natural) biomédico. No entanto, esses modelos possuem centenas de bilhões de parâmetros, são computacionalmente caros para executar, exigem que os usuários enviem seus dados de entrada pela internet e são treinados em fontes de dados desconhecidas. Modelos menores e mais direcionados podem competir? Para abordar essa questão, construímos e lançamos o BioMedLM, um modelo autoregressivo no estilo GPT com 2,7 bilhões de parâmetros, treinado exclusivamente em resumos e artigos completos do PubMed. Quando ajustado, o BioMedLM pode produzir resultados fortes em tarefas de resposta a perguntas de múltipla escolha no campo biomédico, competitivos com modelos muito maiores, como alcançar uma pontuação de 57,3% no MedMCQA (dev) e 69,0% no exame de Genética Médica do MMLU. O BioMedLM também pode ser ajustado para fornecer respostas úteis a perguntas de pacientes sobre tópicos médicos. Isso demonstra que modelos menores podem potencialmente servir como bases transparentes, que preservam a privacidade, econômicas e ecologicamente sustentáveis para aplicações específicas de PLN, como na biomedicina. O modelo está disponível no Hugging Face Hub: https://huggingface.co/stanford-crfm/BioMedLM.
Enfrentamos o desafio de reconstruir eficientemente um ativo 3D a partir de uma única imagem, diante das crescentes demandas por pipelines automatizados de criação de conteúdo 3D. Métodos anteriores dependem principalmente de Amostragem por Distilação de Pontuação (SDS) e Campos de Radiação Neural (NeRF). Apesar de seu sucesso significativo, essas abordagens enfrentam limitações práticas devido à otimização demorada e ao uso considerável de memória. Neste relatório, apresentamos Gamba, um modelo de reconstrução 3D amortizado de ponta a ponta a partir de imagens de visão única, destacando dois insights principais: (1) Representação 3D: aproveitando um grande número de Gaussianas 3D para um processo eficiente de splatting de Gaussianas 3D; (2) Design da arquitetura: introduzindo uma rede sequencial baseada em Mamba que facilita o raciocínio dependente de contexto e a escalabilidade linear com o comprimento da sequência (tokens), acomodando um número substancial de Gaussianas. Gamba incorpora avanços significativos em pré-processamento de dados, design de regularização e metodologias de treinamento. Avaliamos Gamba em comparação com abordagens existentes de geração 3D baseadas em otimização e feed-forward, utilizando o conjunto de dados OmniObject3D escaneado do mundo real. Aqui, Gamba demonstra capacidades competitivas de geração, tanto qualitativa quanto quantitativamente, enquanto alcança uma velocidade notável, aproximadamente 0,6 segundo em uma única GPU NVIDIA A100.
Neste artigo, apresentamos o EgoLifter, um sistema inovador capaz de segmentar automaticamente cenas capturadas por sensores egocêntricos em uma decomposição completa de objetos 3D individuais. O sistema foi projetado especificamente para dados egocêntricos, onde as cenas contêm centenas de objetos capturados a partir de movimentos naturais (não de varredura). O EgoLifter adota Gaussianas 3D como representação subjacente de cenas e objetos 3D e utiliza máscaras de segmentação do Segment Anything Model (SAM) como supervisão fraca para aprender definições flexíveis e acionáveis de instâncias de objetos, livres de qualquer taxonomia específica de objetos. Para lidar com o desafio de objetos dinâmicos em vídeos egocêntricos, projetamos um módulo de previsão transitória que aprende a filtrar objetos dinâmicos na reconstrução 3D. O resultado é um pipeline totalmente automático capaz de reconstruir instâncias de objetos 3D como coleções de Gaussianas 3D que compõem coletivamente toda a cena. Criamos um novo benchmark no conjunto de dados Aria Digital Twin que demonstra quantitativamente seu desempenho de ponta em segmentação 3D de mundo aberto a partir de entrada egocêntrica natural. Executamos o EgoLifter em diversos conjuntos de dados de atividades egocêntricas, mostrando o potencial do método para percepção egocêntrica 3D em escala.
Nosso trabalho aborda limitações observadas em abordagens anteriores para problemas de edição centrada em objetos, como resultados irreais devido a discrepâncias de forma e controle limitado na substituição ou inserção de objetos. Para isso, introduzimos o FlexEdit, um framework de edição flexível e controlável para objetos, onde ajustamos iterativamente os latentes em cada etapa de denoização usando nosso bloco FlexEdit. Inicialmente, otimizamos os latentes em tempo de teste para alinhá-los com as restrições de objeto especificadas. Em seguida, nosso framework emprega uma máscara adaptativa, extraída automaticamente durante a denoização, para proteger o fundo enquanto integra de forma contínua o novo conteúdo na imagem alvo. Demonstramos a versatilidade do FlexEdit em várias tarefas de edição de objetos e criamos um conjunto de testes de avaliação com amostras de imagens reais e sintéticas, juntamente com novas métricas de avaliação projetadas para edição centrada em objetos. Realizamos extensos experimentos em diferentes cenários de edição, demonstrando a superioridade de nosso framework de edição em relação a métodos avançados recentes de edição de imagens guiadas por texto. Nossa página do projeto está publicada em https://flex-edit.github.io/.
Os Modelos de Linguagem de Redes Neurais (NNLMs) para Assistentes Virtuais (VAs) são geralmente dependentes de idioma, região e, em alguns casos, dispositivo, o que aumenta o esforço para escaloná-los e mantê-los. Combinar NNLMs para uma ou mais dessas categorias é uma maneira de melhorar a escalabilidade. Neste trabalho, combinamos variantes regionais do inglês para construir um NNLM de "Inglês Global" para VAs em dispositivos. Em particular, investigamos a aplicação de gargalos adaptadores para modelar características específicas de dialetos em nossos NNLMs de produção existentes {e aprimorar as linhas de base multidialetais}. Descobrimos que os módulos adaptadores são mais eficazes na modelagem de dialetos do que especializar sub-redes inteiras. Com base nessa percepção e aproveitando o design de nossos modelos de produção, introduzimos uma nova arquitetura para o NNLM de Inglês Global que atende às restrições de precisão, latência e memória de nossos modelos de dialeto único.