Artigos de pesquisa em IA selecionados diariamente com traduções
Modelos de base, que agora impulsionam a maioria das aplicações empolgantes em aprendizado profundo, são quase universalmente baseados na arquitetura Transformer e em seu módulo central de atenção. Muitas arquiteturas de tempo subquadrático, como atenção linear, convolução com portas e modelos recorrentes, e modelos de espaço de estados estruturados (SSMs), foram desenvolvidas para abordar a ineficiência computacional dos Transformers em sequências longas, mas elas não performaram tão bem quanto a atenção em modalidades importantes, como linguagem. Identificamos que uma fraqueza chave desses modelos é sua incapacidade de realizar raciocínio baseado em conteúdo, e fazemos várias melhorias. Primeiro, simplesmente permitir que os parâmetros do SSM sejam funções da entrada aborda sua fraqueza com modalidades discretas, permitindo que o modelo propague ou esqueça informações seletivamente ao longo da dimensão do comprimento da sequência, dependendo do token atual. Segundo, mesmo que essa mudança impeça o uso de convoluções eficientes, projetamos um algoritmo paralelo consciente do hardware no modo recorrente. Integramos esses SSMs seletivos em uma arquitetura de rede neural simplificada de ponta a ponta sem atenção ou mesmo blocos MLP (Mamba). O Mamba desfruta de inferência rápida (5 vezes maior taxa de transferência que Transformers) e escalonamento linear no comprimento da sequência, e seu desempenho melhora em dados reais até sequências de milhões de comprimento. Como um modelo de sequência geral, o Mamba alcança desempenho de ponta em várias modalidades, como linguagem, áudio e genômica. Na modelagem de linguagem, nosso modelo Mamba-3B supera Transformers do mesmo tamanho e iguala Transformers duas vezes maiores, tanto no pré-treinamento quanto na avaliação downstream.
Apresentamos o MoMask, uma nova estrutura de modelagem mascarada para geração de movimento humano 3D orientada por texto. No MoMask, um esquema de quantização hierárquica é empregado para representar o movimento humano como tokens de movimento discretos em múltiplas camadas, com detalhes de alta fidelidade. Começando na camada base, com uma sequência de tokens de movimento obtidos por quantização vetorial, os tokens residuais de ordens crescentes são derivados e armazenados nas camadas subsequentes da hierarquia. Isso é seguido por dois transformadores bidirecionais distintos. Para os tokens de movimento da camada base, um Transformador Mascarado é designado para prever tokens de movimento mascarados aleatoriamente, condicionados à entrada de texto durante a fase de treinamento. Durante a fase de geração (ou seja, inferência), começando a partir de uma sequência vazia, nosso Transformador Mascarado preenche iterativamente os tokens ausentes; Posteriormente, um Transformador Residual aprende a prever progressivamente os tokens da próxima camada com base nos resultados da camada atual. Experimentos extensivos demonstram que o MoMask supera os métodos state-of-the-art na tarefa de geração de texto para movimento, com um FID de 0,045 (vs. por exemplo, 0,141 do T2M-GPT) no conjunto de dados HumanML3D, e 0,228 (vs. 0,514) no KIT-ML, respectivamente. O MoMask também pode ser aplicado de forma contínua em tarefas relacionadas sem ajuste adicional do modelo, como preenchimento temporal guiado por texto.
Apresentamos o DREAM, uma nova estrutura de treinamento que representa Modelos de Retificação de Difusão e Adaptação de Estimativa, exigindo mudanças mínimas no código (apenas três linhas) e, ainda assim, aprimorando significativamente o alinhamento entre o treinamento e a amostragem em modelos de difusão. O DREAM possui dois componentes: a retificação de difusão, que ajusta o treinamento para refletir o processo de amostragem, e a adaptação de estimativa, que equilibra a percepção em relação à distorção. Quando aplicado à super-resolução de imagens (SR), o DREAM navega habilmente no compromisso entre minimizar a distorção e preservar a alta qualidade da imagem. Experimentos demonstram a superioridade do DREAM em relação aos métodos padrão de SR baseados em difusão, mostrando uma convergência de treinamento de 2 a 3 vezes mais rápida e uma redução de 10 a 20 vezes no número de passos de amostragem necessários para alcançar resultados comparáveis ou superiores. Esperamos que o DREAM inspire uma reavaliação dos paradigmas de treinamento de modelos de difusão.
Métodos de renderização neural avançaram significativamente a renderização foto-realista de cenas 3D em diversas aplicações acadêmicas e industriais. O recente método de Splatting Gaussiano 3D alcançou a melhor qualidade e velocidade de renderização, combinando os benefícios das representações baseadas em primitivas e das representações volumétricas. No entanto, ele frequentemente resulta em Gaussianos excessivamente redundantes que tentam se ajustar a cada visão de treinamento, negligenciando a geometria subjacente da cena. Consequentemente, o modelo resultante torna-se menos robusto a mudanças significativas de visão, áreas sem textura e efeitos de iluminação. Apresentamos o Scaffold-GS, que utiliza pontos de ancoragem para distribuir Gaussianos 3D locais e prevê seus atributos em tempo real com base na direção de visão e na distância dentro do frustum de visão. Estratégias de crescimento e poda de âncoras são desenvolvidas com base na importância dos Gaussianos neurais para melhorar de forma confiável a cobertura da cena. Mostramos que nosso método reduz efetivamente os Gaussianos redundantes enquanto mantém uma renderização de alta qualidade. Também demonstramos uma capacidade aprimorada de acomodar cenas com diferentes níveis de detalhe e observações dependentes da visão, sem sacrificar a velocidade de renderização.
A síntese de novas visões a partir de observações limitadas continua sendo uma tarefa importante e persistente. No entanto, a alta eficiência nas abordagens baseadas em NeRF para síntese de visões com poucas amostras é frequentemente comprometida para obter uma representação 3D precisa. Para enfrentar esse desafio, propomos um framework de síntese de visões com poucas amostras baseado em 3D Gaussian Splatting que permite a síntese de visões em tempo real e foto-realistas com apenas três visões de treinamento. O método proposto, denominado FSGS, lida com os pontos inicialmente esparsos de SfM por meio de um processo cuidadosamente projetado de Gaussian Unpooling. Nosso método distribui iterativamente novos Gaussianos ao redor das localizações mais representativas, preenchendo posteriormente detalhes locais em áreas vazias. Também integramos um estimador de profundidade monocular pré-treinado em grande escala dentro do processo de otimização dos Gaussianos, aproveitando visões aumentadas online para guiar a otimização geométrica em direção a uma solução ótima. Partindo de pontos esparsos observados a partir de visões de entrada limitadas, nosso FSGS pode crescer com precisão em regiões não vistas, cobrindo a cena de forma abrangente e impulsionando a qualidade de renderização de novas visões. No geral, o FSGS alcança desempenho de ponta tanto em precisão quanto em eficiência de renderização em diversos conjuntos de dados, incluindo LLFF, Mip-NeRF360 e Blender. Site do projeto: https://zehaozhu.github.io/FSGS/.
Modelos de Linguagem Multimodais de Grande Escala (MLLMs) demonstraram recentemente capacidades impressionantes em compreensão, raciocínio e interação multimodal. No entanto, os MLLMs existentes sofrem predominantemente de sérios problemas de alucinação, gerando textos que não estão factualmente fundamentados nas imagens associadas. Esse problema torna os MLLMs existentes pouco confiáveis e, portanto, impraticáveis em aplicações do mundo real (especialmente em situações de alto risco). Para enfrentar esse desafio, apresentamos o RLHF-V, que melhora a confiabilidade dos MLLMs por meio do alinhamento comportamental com feedback humano corretivo detalhado. Especificamente, o RLHF-V coleta preferências humanas na forma de correções em nível de segmento sobre alucinações e realiza uma otimização direta e densa de preferências com base no feedback humano. Experimentos abrangentes em cinco benchmarks, tanto em avaliação automática quanto humana, mostram que o RLHF-V pode habilitar comportamentos de MLLMs substancialmente mais confiáveis, com promissora eficiência em dados e computação. Notavelmente, usando 1,4 mil amostras de dados anotadas, o RLHF-V reduz significativamente a taxa de alucinação do MLLM base em 34,8%, superando o LLaVA-RLHF, treinado com 10 mil dados anotados. O modelo final alcança desempenho de ponta em confiabilidade entre os MLLMs de código aberto e mostra maior robustez que o GPT-4V na prevenção de alucinações causadas por generalizações excessivas. Disponibilizamos nosso código, modelo e dados em https://github.com/RLHF-V/RLHF-V.
A síntese de faces 3D guiada por texto alcançou resultados notáveis ao aproveitar modelos de difusão de texto para imagem (T2I). No entanto, a maioria dos trabalhos existentes concentra-se apenas na geração direta, ignorando a edição, o que os limita na síntese de faces 3D personalizadas por meio de ajustes iterativos. Neste artigo, propomos um framework unificado guiado por texto, desde a geração até a edição de faces. Na etapa de geração, propomos uma geração desacoplada de geometria-textura para mitigar a perda de detalhes geométricos causada pelo acoplamento. Além disso, o desacoplamento nos permite utilizar a geometria gerada como condição para a geração de textura, produzindo resultados altamente alinhados entre geometria e textura. Empregamos ainda um modelo de difusão de textura ajustado para aprimorar a qualidade da textura tanto no espaço RGB quanto no YUV. Na etapa de edição, utilizamos primeiro um modelo de difusão pré-treinado para atualizar a geometria ou a textura facial com base nos textos. Para permitir a edição sequencial, introduzimos uma regularização de preservação de consistência no domínio UV, evitando alterações não intencionais em atributos faciais irrelevantes. Além disso, propomos uma estratégia de peso de consistência autoguiada para melhorar a eficácia da edição enquanto mantém a consistência. Por meio de experimentos abrangentes, demonstramos a superioridade do nosso método na síntese de faces. Página do projeto: https://faceg2e.github.io/.
Campos de Radiação Neural (NeRFs) podem ser dramaticamente acelerados por representações de grade espacial. No entanto, eles não consideram explicitamente a escala e, portanto, introduzem artefatos de aliasing ao reconstruir cenas capturadas em diferentes distâncias da câmera. Mip-NeRF e suas extensões propõem renderizadores conscientes da escala que projetam frustums volumétricos em vez de amostras pontuais, mas tais abordagens dependem de codificações posicionais que não são facilmente compatíveis com métodos de grade. Propomos uma modificação simples aos modelos baseados em grade, treinando cabeças de modelo em diferentes resoluções de grade espacial. No momento da renderização, simplesmente usamos grades mais grossas para renderizar amostras que cobrem volumes maiores. Nosso método pode ser facilmente aplicado a métodos NeRF acelerados existentes e melhora significativamente a qualidade de renderização (reduzindo taxas de erro em 20-90% em cenas sintéticas e do mundo real sem limites) enquanto incorre em uma sobrecarga de desempenho mínima (já que cada cabeça de modelo é rápida de avaliar). Em comparação com o Mip-NeRF, reduzimos as taxas de erro em 20% enquanto treinamos mais de 60 vezes mais rápido.
Recentemente, a criação automática de conteúdo de texto para 3D tem alcançado progressos significativos, impulsionada pelo desenvolvimento de modelos de difusão 2D pré-treinados. Os métodos existentes de texto para 3D geralmente otimizam a representação 3D para garantir que a imagem renderizada esteja alinhada com o texto fornecido, conforme avaliado pelo modelo de difusão 2D pré-treinado. No entanto, existe uma lacuna substancial entre imagens 2D e ativos 3D, atribuída principalmente a variações nos atributos relacionados à câmera e à presença exclusiva de objetos em primeiro plano. Consequentemente, o uso direto de modelos de difusão 2D para otimizar representações 3D pode levar a resultados subótimos. Para resolver esse problema, apresentamos o X-Dreamer, uma abordagem inovadora para a criação de conteúdo de texto para 3D de alta qualidade que efetivamente preenche a lacuna entre a síntese de texto para 2D e texto para 3D. Os componentes-chave do X-Dreamer são dois designs inovadores: a Adaptação de Baixa Ordem Guiada por Câmera (CG-LoRA) e a Perda de Alinhamento de Máscara de Atenção (AMA). O CG-LoRA incorpora dinamicamente informações da câmera nos modelos de difusão pré-treinados, utilizando geração dependente da câmera para parâmetros treináveis. Essa integração melhora o alinhamento entre os ativos 3D gerados e a perspectiva da câmera. A perda AMA guia o mapa de atenção do modelo de difusão pré-treinado usando a máscara binária do objeto 3D, priorizando a criação do objeto em primeiro plano. Esse módulo garante que o modelo se concentre na geração de objetos em primeiro plano precisos e detalhados. Avaliações extensivas demonstram a eficácia do nosso método proposto em comparação com as abordagens existentes de texto para 3D. Nossa página do projeto: https://xmuxiaoma666.github.io/Projects/X-Dreamer.