Artigos de pesquisa em IA selecionados diariamente com traduções
O progresso notável dos Modelos de Linguagem Multimodais de Grande Escala (MLLMs) tem atraído uma atenção sem precedentes, devido ao seu desempenho superior em contextos visuais. No entanto, suas capacidades na resolução de problemas matemáticos visuais ainda não foram suficientemente avaliadas e compreendidas. Investigamos os benchmarks atuais, que incorporam conteúdo visual excessivo em questões textuais, o que potencialmente auxilia os MLLMs a deduzir respostas sem realmente interpretar os diagramas de entrada. Para isso, introduzimos o MathVerse, um benchmark visual de matemática abrangente, projetado para uma avaliação equitativa e aprofundada dos MLLMs. Coletamos meticulosamente 2.612 problemas matemáticos de alta qualidade e multidisciplinares com diagramas, provenientes de fontes publicamente disponíveis. Cada problema é então transformado por anotadores humanos em seis versões distintas, cada uma oferecendo diferentes graus de conteúdo informativo em multimodalidade, totalizando 15 mil amostras de teste. Essa abordagem permite que o MathVerse avalie de forma abrangente se e quanto os MLLMs podem realmente compreender os diagramas visuais para o raciocínio matemático. Além disso, propomos uma estratégia de avaliação de Cadeia de Pensamento (CoT) para uma avaliação refinada das respostas geradas. Em vez de julgar de forma simplista como Verdadeiro ou Falso, empregamos o GPT-4(V) para extrair adaptativamente etapas cruciais de raciocínio e, em seguida, pontuar cada etapa com uma análise detalhada de erros, o que pode revelar a qualidade intermediária do raciocínio CoT pelos MLLMs. Esperamos que o benchmark MathVerse possa fornecer insights únicos para orientar o desenvolvimento futuro dos MLLMs. Página do projeto: https://mathverse-cuhk.github.io
A criação de conteúdo 3D a partir de prompts de texto tem mostrado um sucesso notável recentemente. No entanto, os métodos atuais de texto-para-3D frequentemente geram resultados 3D que não estão bem alinhados com as preferências humanas. Neste artigo, apresentamos um framework abrangente, denominado DreamReward, para aprender e aprimorar modelos de texto-para-3D com base em feedback de preferência humana. Para começar, coletamos 25 mil comparações de especialistas com base em um pipeline de anotação sistemático que inclui avaliação e classificação. Em seguida, construímos o Reward3D — o primeiro modelo de recompensa de preferência humana de propósito geral para texto-para-3D, capaz de codificar efetivamente as preferências humanas. Com base no modelo de recompensa 3D, realizamos uma análise teórica e apresentamos o Reward3D Feedback Learning (DreamFL), um algoritmo de ajuste direto para otimizar modelos de difusão multi-visão com um avaliador redefinido. Fundamentado por provas teóricas e extensas comparações experimentais, nosso DreamReward gera com sucesso resultados de alta fidelidade e consistência 3D, com melhorias significativas no alinhamento do prompt com a intenção humana. Nossos resultados demonstram o grande potencial de aprender com o feedback humano para aprimorar modelos de texto-para-3D.
Nos últimos anos, a aplicação de modelos de linguagem multimodal de grande escala (MLLM) em diversos campos alcançou sucesso notável. No entanto, como modelo base para muitas tarefas subsequentes, os MLLMs atuais são compostos pela conhecida rede Transformer, que possui uma complexidade computacional quadrática menos eficiente. Para melhorar a eficiência desses modelos básicos, propomos o Cobra, um MLLM com complexidade computacional linear. Especificamente, o Cobra integra o eficiente modelo de linguagem Mamba na modalidade visual. Além disso, exploramos e estudamos diversos esquemas de fusão modal para criar um Mamba multimodal eficaz. Experimentos extensivos demonstram que (1) o Cobra alcança um desempenho extremamente competitivo em relação aos métodos atuais mais eficientes em termos computacionais, como LLaVA-Phi, TinyLLaVA e MobileVLM v2, e possui uma velocidade maior devido à modelagem sequencial linear do Cobra. (2) Curiosamente, os resultados de benchmarks desafiadores de previsão em conjuntos fechados mostram que o Cobra se sai bem em superar ilusões visuais e julgamentos de relações espaciais. (3) Notavelmente, o Cobra até mesmo alcança um desempenho comparável ao LLaVA com cerca de 43% do número de parâmetros. Tornaremos todos os códigos do Cobra de código aberto e esperamos que o método proposto possa facilitar pesquisas futuras sobre problemas de complexidade em MLLM. Nossa página do projeto está disponível em: https://sites.google.com/view/cobravlm.
A edição de vídeo para vídeo envolve a edição de um vídeo de origem juntamente com controles adicionais (como prompts de texto, assuntos ou estilos) para gerar um novo vídeo que esteja alinhado com o vídeo de origem e os controles fornecidos. Métodos tradicionais têm sido limitados a certos tipos de edição, restringindo sua capacidade de atender à ampla gama de demandas dos usuários. Neste artigo, apresentamos o AnyV2V, uma nova estrutura livre de treinamento projetada para simplificar a edição de vídeo em duas etapas principais: (1) empregar um modelo de edição de imagem pré-existente (por exemplo, InstructPix2Pix, InstantID, etc.) para modificar o primeiro quadro, (2) utilizar um modelo existente de geração de imagem para vídeo (por exemplo, I2VGen-XL) para inversão DDIM e injeção de características. Na primeira etapa, o AnyV2V pode integrar qualquer ferramenta de edição de imagem existente para suportar uma ampla variedade de tarefas de edição de vídeo. Além dos métodos tradicionais de edição baseados em prompts, o AnyV2V também pode suportar novas tarefas de edição de vídeo, incluindo transferência de estilo baseada em referência, edição orientada por assunto e manipulação de identidade, que eram inatingíveis por métodos anteriores. Na segunda etapa, o AnyV2V pode integrar qualquer modelo de imagem para vídeo existente para realizar a inversão DDIM e a injeção de características intermediárias, mantendo a consistência de aparência e movimento com o vídeo de origem. Na edição baseada em prompts, mostramos que o AnyV2V pode superar a melhor abordagem anterior em 35% no alinhamento de prompts e 25% na preferência humana. Nas três novas tarefas, mostramos que o AnyV2V também alcança uma alta taxa de sucesso. Acreditamos que o AnyV2V continuará a prosperar devido à sua capacidade de integrar de forma contínua os métodos de edição de imagem em rápida evolução. Essa compatibilidade pode ajudar o AnyV2V a aumentar sua versatilidade para atender a diversas demandas dos usuários.
Avanços recentes em modelos de difusão guiados por texto desbloquearam poderosas capacidades de manipulação de imagens. No entanto, a aplicação desses métodos a imagens reais exige a inversão das imagens no domínio do modelo de difusão pré-treinado. Alcançar uma inversão fiel continua sendo um desafio, especialmente para modelos mais recentes treinados para gerar imagens com um número reduzido de etapas de remoção de ruído. Neste trabalho, introduzimos um método de inversão com uma alta relação qualidade-operação, aprimorando a precisão da reconstrução sem aumentar o número de operações. Baseando-se na reversão do processo de amostragem de difusão, nosso método emprega um mecanismo iterativo de reaplicação de ruído em cada etapa de amostragem de inversão. Esse mecanismo refina a aproximação de um ponto previsto ao longo da trajetória de difusão direta, aplicando iterativamente o modelo de difusão pré-treinado e calculando a média dessas previsões. Avaliamos o desempenho de nossa técnica ReNoise usando vários algoritmos de amostragem e modelos, incluindo modelos de difusão acelerados recentes. Por meio de avaliações e comparações abrangentes, demonstramos sua eficácia em termos de precisão e velocidade. Além disso, confirmamos que nosso método preserva a editabilidade ao demonstrar a edição de imagens reais guiada por texto.
Os modelos de difusão de vídeo recentemente fizeram grandes avanços na qualidade de geração, mas ainda são limitados pelos altos requisitos de memória e computação. Isso ocorre porque os modelos atuais de difusão de vídeo frequentemente tentam processar vídeos de alta dimensão diretamente. Para resolver esse problema, propomos o modelo de difusão latente de conteúdo-movimento (CMD), uma extensão eficiente e inovadora de modelos de difusão de imagem pré-treinados para geração de vídeos. Especificamente, propomos um autoencoder que codifica de forma sucinta um vídeo como uma combinação de um quadro de conteúdo (semelhante a uma imagem) e uma representação latente de movimento de baixa dimensão. O primeiro representa o conteúdo comum, e o segundo representa o movimento subjacente no vídeo, respectivamente. Geramos o quadro de conteúdo ajustando um modelo de difusão de imagem pré-treinado, e geramos a representação latente de movimento treinando um novo modelo de difusão leve. Uma inovação chave aqui é o design de um espaço latente compacto que pode utilizar diretamente um modelo de difusão de imagem pré-treinado, o que não foi feito em modelos anteriores de difusão latente de vídeo. Isso resulta em uma geração de qualidade consideravelmente melhor e custos computacionais reduzidos. Por exemplo, o CMD pode amostrar um vídeo 7,7 vezes mais rápido do que abordagens anteriores, gerando um vídeo de resolução 512x1024 e comprimento 16 em 3,1 segundos. Além disso, o CMD alcança um score FVD de 212,7 no WebVid-10M, 27,3% melhor que o estado da arte anterior de 292,4.
Modelos de visão e linguagem em grande escala (VLMs, na sigla em inglês) recentes demonstraram capacidades notáveis na compreensão e geração de descrições textuais para conteúdo visual. No entanto, esses modelos carecem de uma compreensão de conceitos específicos do usuário. Neste trabalho, damos um primeiro passo em direção à personalização de VLMs, permitindo que eles aprendam e raciocinem sobre conceitos fornecidos pelo usuário. Por exemplo, exploramos se esses modelos podem aprender a reconhecer você em uma imagem e comunicar o que você está fazendo, adaptando o modelo para refletir suas experiências pessoais e relacionamentos. Para reconhecer efetivamente uma variedade de conceitos específicos do usuário, aumentamos o VLM com cabeças de conceito externas que funcionam como interruptores para o modelo, permitindo que o VLM identifique a presença de conceitos-alvo específicos em uma determinada imagem. Após reconhecer o conceito, aprendemos uma nova incorporação de conceito no espaço de características intermediárias do VLM. Essa incorporação tem a tarefa de guiar o modelo de linguagem para integrar naturalmente o conceito-alvo em sua resposta gerada. Aplicamos nossa técnica ao BLIP-2 e ao LLaVA para legendagem de imagens personalizada e ainda mostramos sua aplicabilidade para questionamento visual personalizado. Nossos experimentos demonstram nossa capacidade de generalizar para imagens não vistas de conceitos aprendidos, preservando o comportamento do modelo em entradas não relacionadas.
Apresentamos o GRM, um reconstruidor em larga escala capaz de recuperar um ativo 3D a partir de imagens de visão esparsa em aproximadamente 0,1s. O GRM é um modelo baseado em transformadores de alimentação direta que incorpora eficientemente informações de múltiplas visões para traduzir os pixels de entrada em Gaussianas alinhadas por pixel, que são desprojetadas para criar um conjunto de Gaussianas 3D densamente distribuídas que representam uma cena. Juntos, nossa arquitetura de transformadores e o uso de Gaussianas 3D desbloqueiam um framework de reconstrução escalável e eficiente. Resultados experimentais extensivos demonstram a superioridade do nosso método em relação às alternativas, tanto em qualidade de reconstrução quanto em eficiência. Também mostramos o potencial do GRM em tarefas generativas, ou seja, texto-para-3D e imagem-para-3D, ao integrá-lo com modelos de difusão de múltiplas visões existentes. O site do nosso projeto está em: https://justimyhxu.github.io/projects/grm/.
Propomos o Gaussian Frosting, uma nova representação baseada em malha para renderização de alta qualidade e edição de efeitos 3D complexos em tempo real. Nossa abordagem se baseia no recente framework 3D Gaussian Splatting, que otimiza um conjunto de Gaussianas 3D para aproximar um campo de radiação a partir de imagens. Propomos primeiro extrair uma malha base das Gaussianas durante a otimização, em seguida, construir e refinar uma camada adaptativa de Gaussianas com espessura variável ao redor da malha para capturar melhor os detalhes finos e efeitos volumétricos próximos à superfície, como cabelo ou grama. Chamamos essa camada de Gaussian Frosting, pois se assemelha a uma cobertura de glacê em um bolo. Quanto mais difuso o material, mais espesso o glacê. Também introduzimos uma parametrização das Gaussianas para garantir que permaneçam dentro da camada de glacê e ajustar automaticamente seus parâmetros ao deformar, redimensionar, editar ou animar a malha. Nossa representação permite renderização eficiente usando Gaussian splatting, bem como edição e animação através da modificação da malha base. Demonstramos a eficácia do nosso método em várias cenas sintéticas e reais, e mostramos que ele supera as abordagens baseadas em superfície existentes. Disponibilizaremos nosso código e um visualizador baseado na web como contribuições adicionais. Nossa página do projeto é a seguinte: https://anttwo.github.io/frosting/
Apresentamos a geração limitada como uma tarefa generalizada para controlar a geração de vídeos, sintetizando movimentos arbitrários de câmera e do sujeito com base apenas em um quadro inicial e final dados. Nosso objetivo é aproveitar totalmente a capacidade inerente de generalização de um modelo de imagem para vídeo sem a necessidade de treinamento adicional ou ajuste fino do modelo original. Isso é alcançado por meio de uma nova estratégia de amostragem proposta, que chamamos de Fusão de Reversão Temporal, que funde os caminhos de remoção de ruído temporalmente para frente e para trás, condicionados ao quadro inicial e final, respectivamente. O caminho fundido resulta em um vídeo que conecta suavemente os dois quadros, gerando interpolação de movimentos fiéis do sujeito, novas visões de cenas estáticas e loops de vídeo perfeitos quando os dois quadros limitantes são idênticos. Organizamos um conjunto de dados de avaliação diversificado de pares de imagens e comparamos com os métodos existentes mais próximos. Descobrimos que a Fusão de Reversão Temporal supera os trabalhos relacionados em todas as subtarefas, demonstrando a capacidade de gerar movimentos complexos e visões 3D consistentes guiadas por quadros limitantes. Consulte a página do projeto em https://time-reversal.github.io.
Propomos um método capaz de gerar cinemagraphs automaticamente a partir de uma imagem estática de paisagem utilizando um StyleGAN pré-treinado. Inspirados pelo sucesso de recentes abordagens de geração incondicional de vídeos, aproveitamos um poderoso gerador de imagens pré-treinado para sintetizar cinemagraphs de alta qualidade. Diferentemente de abordagens anteriores que utilizam principalmente o espaço latente de um StyleGAN pré-treinado, nosso método emprega seu espaço de características profundas tanto para a inversão da GAN quanto para a geração de cinemagraphs. Especificamente, propomos o "multi-scale deep feature warping" (MSDFW), que deforma as características intermediárias de um StyleGAN pré-treinado em diferentes resoluções. Ao utilizar o MSDFW, os cinemagraphs gerados possuem alta resolução e exibem animações em loop plausíveis. Demonstramos a superioridade de nosso método por meio de estudos com usuários e comparações quantitativas com métodos state-of-the-art de geração de cinemagraphs e um método de geração de vídeo que utiliza um StyleGAN pré-treinado.
Pesquisadores e desenvolvedores estão cada vez mais dependendo da pontuação de toxicidade para moderar as saídas de modelos de linguagem generativa, em contextos como atendimento ao cliente, recuperação de informações e geração de conteúdo. No entanto, a pontuação de toxicidade pode tornar informações pertinentes inacessíveis, rigidificar ou "bloquear" normas culturais, e impedir processos de reapropriação linguística, especialmente para pessoas marginalizadas. Neste trabalho, estendemos o conceito de recurso algorítmico para modelos de linguagem generativa: fornecemos aos usuários um mecanismo inovador para alcançar a previsão desejada, definindo dinamicamente limiares para a filtragem de toxicidade. Dessa forma, os usuários exercem maior agência em relação às interações com o sistema básico. Um estudo piloto (n = 30) apoia o potencial do nosso mecanismo de recurso proposto, indicando melhorias na usabilidade em comparação com a filtragem de toxicidade de saídas do modelo com limiares fixos. Trabalhos futuros devem explorar a interseção entre pontuação de toxicidade, controlabilidade do modelo, agência do usuário e processos de reapropriação linguística — particularmente no que diz respeito ao viés que muitas comunidades enfrentam ao interagir com modelos de linguagem generativa.