Artigos de pesquisa em IA selecionados diariamente com traduções
O PaliGemma 2 é uma atualização do Modelo de Linguagem Visual (VLM) PaliGemma aberto baseado na família de modelos de linguagem Gemma 2. Nós combinamos o codificador de visão SigLIP-So400m que também foi utilizado pelo PaliGemma com toda a gama de modelos Gemma 2, desde o modelo 2B até o modelo 27B. Treinamos esses modelos em três resoluções (224px, 448px e 896px) em múltiplos estágios para equipá-los com amplo conhecimento para transferência via ajuste fino. A família resultante de modelos base cobrindo diferentes tamanhos e resoluções nos permite investigar fatores que impactam o desempenho de transferência (como a taxa de aprendizado) e analisar a interação entre o tipo de tarefa, tamanho do modelo e resolução. Aumentamos ainda o número e a amplitude de tarefas de transferência além do escopo do PaliGemma, incluindo diferentes tarefas relacionadas ao OCR, como reconhecimento de estrutura de tabelas, reconhecimento de estrutura molecular, reconhecimento de partitura musical, bem como legendas finamente detalhadas e geração de relatórios de radiografia, nos quais o PaliGemma 2 obtém resultados de ponta.
Abordagens recentes têm produzido resultados promissores na destilação de modelos de difusão de texto para imagem de vários passos em modelos de um único passo. A técnica de destilação eficiente de ponta, ou seja, SwiftBrushv2 (SBv2), até mesmo supera o desempenho do modelo professor com recursos limitados. No entanto, nosso estudo revela a sua instabilidade ao lidar com diferentes espinhas dorsais de modelos de difusão devido ao uso de uma escala de orientação fixa dentro da perda de Destilação de Pontuação Variacional (VSD). Outra fraqueza dos modelos de difusão de um único passo existentes é a falta de suporte para orientação negativa de prompt, que é crucial na geração prática de imagens. Este artigo apresenta o SNOOPI, um novo framework projetado para abordar essas limitações ao aprimorar a orientação em modelos de difusão de um único passo durante o treinamento e a inferência. Primeiramente, aprimoramos efetivamente a estabilidade do treinamento por meio do Proper Guidance-SwiftBrush (PG-SB), que emprega uma abordagem de orientação sem classificador de escala aleatória. Variando a escala de orientação de ambos os modelos professores, ampliamos suas distribuições de saída, resultando em uma perda de VSD mais robusta que permite que o SB atue de forma eficaz em várias espinhas dorsais, mantendo um desempenho competitivo. Em segundo lugar, propomos um método sem treinamento chamado Negative-Away Steer Attention (NASA), que integra prompts negativos em modelos de difusão de um único passo via atenção cruzada para suprimir elementos indesejados em imagens geradas. Nossos resultados experimentais mostram que nossos métodos propostos melhoram significativamente os modelos de referência em várias métricas. Notavelmente, alcançamos uma pontuação HPSv2 de 31.08, estabelecendo um novo benchmark de ponta para modelos de difusão de um único passo.
Apresentamos o TokenFlow, um novo tokenizador de imagem unificado que preenche a lacuna de longa data entre compreensão e geração multimodal. Pesquisas anteriores tentaram empregar um único codificador de Quantização Vetorial (VQ) direcionado para reconstrução para unificar essas duas tarefas. Observamos que compreensão e geração requerem granularidades de informação visual fundamentalmente diferentes. Isso resulta em um trade-off crítico, comprometendo especialmente o desempenho em tarefas de compreensão multimodal. O TokenFlow aborda esse desafio por meio de uma arquitetura inovadora de duplo livro de códigos que desvincula o aprendizado de recursos semânticos e de nível de pixel, mantendo sua alinhamento por meio de um mecanismo de mapeamento compartilhado. Esse design permite acesso direto a representações semânticas de alto nível cruciais para tarefas de compreensão e recursos visuais detalhados essenciais para geração por meio de índices compartilhados. Nossos extensos experimentos demonstram a superioridade do TokenFlow em várias dimensões. Alavancando o TokenFlow, demonstramos pela primeira vez que a entrada visual discreta pode superar o LLaVA-1.5 13B em desempenho de compreensão, alcançando uma melhoria média de 7,2\%. Para reconstrução de imagem, alcançamos um forte escore FID de 0,63 em resolução de 384*384. Além disso, o TokenFlow estabelece um desempenho de ponta na geração de imagem autoregressiva com um escore GenEval de 0,55 em resolução de 256*256, alcançando resultados comparáveis ao SDXL.
Vídeos de 360^circ oferecem uma experiência hiperimersiva que permite aos espectadores explorar uma cena dinâmica em 360 graus completos. Para alcançar uma criação de conteúdo mais amigável ao usuário e personalizada no formato de vídeo de 360^circ, buscamos transformar vídeos de perspectiva padrão em vídeos de 360^circ equiretangulares. Para isso, apresentamos o Imagine360, o primeiro framework de geração de vídeos de perspectiva para 360^circ que cria vídeos de alta qualidade com padrões de movimento ricos e diversos a partir de âncoras de vídeo. O Imagine360 aprende padrões visuais e de movimento esféricos detalhados a partir de dados limitados de vídeos de 360^circ com várias estratégias-chave. 1) Primeiramente, adotamos o design de duplo ramo, incluindo um ramo de denoising de vídeo de perspectiva e um de panorama para fornecer restrições locais e globais para a geração de vídeos de 360^circ, com módulo de movimento e camadas espaciais LoRA ajustadas em vídeos de 360^circ da web estendida. 2) Adicionalmente, uma máscara antipodal é desenvolvida para capturar dependências de movimento de longo alcance, aprimorando o movimento da câmera invertida entre pixels antipodais em hemisférios opostos. 3) Para lidar com diversas entradas de vídeo de perspectiva, propomos designs sensíveis à elevação que se adaptam a máscaras de vídeo variáveis devido a mudanças de elevação entre quadros. Experimentos extensivos mostram que o Imagine360 alcança qualidade gráfica superior e coerência de movimento entre os métodos de geração de vídeo de 360^circ de última geração. Acreditamos que o Imagine360 tem potencial para avançar na criação de vídeos de 360^circ imersivos e personalizados.
Os modelos de difusão têm sido aplicados à conclusão de cenas 3D LiDAR devido à sua forte estabilidade de treinamento e alta qualidade de conclusão. No entanto, a baixa velocidade de amostragem limita a aplicação prática de modelos de conclusão de cena baseados em difusão, uma vez que os veículos autônomos requerem uma percepção eficiente dos ambientes circundantes. Este artigo propõe um novo método de destilação adaptado para modelos de conclusão de cena 3D LiDAR, chamado ScoreLiDAR, que alcança uma conclusão de cena eficiente e de alta qualidade. O ScoreLiDAR permite que o modelo destilado amostragem em significativamente menos passos após a destilação. Para melhorar a qualidade da conclusão, também introduzimos uma nova Perda Estrutural, que incentiva o modelo destilado a capturar a estrutura geométrica da cena 3D LiDAR. A perda contém um termo por cena que restringe a estrutura holística e um termo por ponto que restringe os pontos de referência chave e sua configuração relativa. Experimentos extensivos demonstram que o ScoreLiDAR acelera significativamente o tempo de conclusão de 30,55 para 5,37 segundos por quadro (>5 vezes) no SemanticKITTI e alcança um desempenho superior em comparação com os modelos de conclusão de cena 3D LiDAR de última geração. Nosso código está publicamente disponível em https://github.com/happyw1nd/ScoreLiDAR.
Os avanços recentes em modelos multimodais grandes de vídeo (LMMs) melhoraram significativamente suas capacidades de compreensão e raciocínio de vídeo. No entanto, seu desempenho cai em tarefas fora da distribuição (OOD) que são sub-representadas nos dados de treinamento. Métodos tradicionais como ajuste fino em conjuntos de dados OOD são impraticáveis devido aos altos custos computacionais. Enquanto a aprendizagem em contexto (ICL) com exemplos de demonstração tem mostrado um desempenho de generalização promissor em tarefas de linguagem e tarefas de imagem-linguagem sem ajuste fino, aplicar ICL a tarefas de vídeo-linguagem enfrenta desafios devido ao comprimento de contexto limitado em LMMs de vídeo, uma vez que os vídeos requerem comprimentos de token mais longos. Para abordar essas questões, propomos VideoICL, um novo framework de aprendizagem em contexto de vídeo para tarefas OOD que introduz uma estratégia de seleção de exemplos relevantes baseada em similaridade e uma abordagem de inferência iterativa baseada em confiança. Isso permite selecionar os exemplos mais relevantes e classificá-los com base na similaridade, a serem usados para inferência. Se a resposta gerada tiver baixa confiança, nosso framework seleciona novos exemplos e realiza a inferência novamente, refinando iterativamente os resultados até obter uma resposta de alta confiança. Essa abordagem melhora o desempenho de compreensão de vídeo OOD ao estender o comprimento efetivo do contexto sem incorrer em altos custos. Os resultados experimentais em vários benchmarks demonstram ganhos significativos de desempenho, especialmente em cenários específicos de domínio, lançando as bases para aplicações mais amplas de compreensão de vídeo. O código será disponibilizado em https://github.com/KangsanKim07/VideoICL
A construção de avatares realistas e animáveis ainda requer minutos de vídeos de auto-rotação multi-vista ou monocular, e a maioria dos métodos carece de controle preciso sobre gestos e expressões. Para ultrapassar essa fronteira, abordamos o desafio de construir um avatar falante de corpo inteiro a partir de uma única imagem. Propomos um novo pipeline que aborda dois problemas críticos: 1) modelagem dinâmica complexa e 2) generalização para gestos e expressões novos. Para alcançar uma generalização perfeita, aproveitamos modelos de difusão de imagem para vídeo guiados por pose recentes para gerar quadros de vídeo imperfeitos como pseudo-rótulos. Para superar o desafio de modelagem dinâmica apresentado por vídeos pseudo inconsistentes e ruidosos, introduzimos uma representação de avatar híbrida 3DGS-malha fortemente acoplada e aplicamos várias regularizações-chave para mitigar inconsistências causadas por rótulos imperfeitos. Experimentos extensivos em diversos assuntos demonstram que nosso método permite a criação de um avatar falante de corpo inteiro fotorealista, precisamente animável e expressivo a partir de apenas uma única imagem.
Neste artigo, apresentamos um modelo de visão-linguagem coreano-inglês de código aberto (VLM), VARCO-VISION. Incorporamos uma estratégia de treinamento passo a passo que permite que um modelo aprenda tanto informações linguísticas quanto visuais, preservando o conhecimento do modelo base. Nosso modelo demonstra um desempenho excepcional em diversos cenários que exigem habilidades de compreensão e geração de imagem-texto bilíngue em comparação com modelos de tamanho similar. O VARCO-VISION também é capaz de ancoragem, referência e OCR, ampliando seu uso e aplicações potenciais para cenários do mundo real. Além do modelo, disponibilizamos cinco conjuntos de dados de avaliação em coreano, incluindo quatro conjuntos fechados e um conjunto aberto. Antecipamos que nosso marco ampliará as oportunidades para pesquisadores de IA que visam treinar VLMs. O VARCO-VISION está disponível em https://huggingface.co/NCSOFT/VARCO-VISION-14B.
Este artigo apresenta o MIDI, um novo paradigma para geração de cenas 3D composicionais a partir de uma única imagem. Ao contrário dos métodos existentes que dependem de técnicas de reconstrução ou recuperação, ou abordagens recentes que empregam geração objeto a objeto em múltiplos estágios, o MIDI estende modelos de geração de objetos 3D a partir de imagens pré-treinadas para modelos de difusão multi-instância, permitindo a geração simultânea de múltiplas instâncias 3D com relações espaciais precisas e alta generalizabilidade. No cerne do MIDI, há a incorporação de um mecanismo de atenção multi-instância inovador, que captura de forma eficaz as interações entre objetos e a coerência espacial diretamente no processo de geração, sem a necessidade de processos complexos em múltiplas etapas. O método utiliza imagens parciais de objetos e contexto global da cena como entradas, modelando diretamente a conclusão do objeto durante a geração 3D. Durante o treinamento, supervisionamos efetivamente as interações entre instâncias 3D usando uma quantidade limitada de dados em nível de cena, enquanto incorporamos dados de objetos individuais para regularização, mantendo assim a capacidade de generalização pré-treinada. O MIDI demonstra um desempenho de ponta na geração de cena a partir de imagem, validado por avaliações em dados sintéticos, dados de cena do mundo real e imagens de cena estilizadas geradas por modelos de difusão de texto para imagem.
Avanços recentes em modelos generativos têm melhorado significativamente a síntese de novas visualizações (NVS) a partir de dados de múltiplas visualizações. No entanto, os métodos existentes dependem de processos externos de alinhamento de múltiplas visualizações, como estimativa explícita de pose ou pré-reconstrução, o que limita sua flexibilidade e acessibilidade, especialmente quando o alinhamento é instável devido a sobreposição insuficiente ou oclusões entre as visualizações. Neste artigo, propomos o NVComposer, uma abordagem inovadora que elimina a necessidade de alinhamento externo explícito. O NVComposer permite que o modelo generativo infira implicitamente as relações espaciais e geométricas entre múltiplas visualizações condicionais, introduzindo dois componentes-chave: 1) um modelo de difusão de duplo fluxo de imagem-pose que gera simultaneamente novas visualizações-alvo e poses de câmera condicionais, e 2) um módulo de alinhamento de características consciente da geometria que destila prioridades geométricas de modelos estéreo densos durante o treinamento. Experimentos extensivos demonstram que o NVComposer alcança desempenho de ponta em tarefas generativas de NVS de múltiplas visualizações, eliminando a dependência de alinhamento externo e, assim, melhorando a acessibilidade do modelo. Nossa abordagem mostra melhorias substanciais na qualidade de síntese à medida que o número de visualizações de entrada não posicionadas aumenta, destacando seu potencial para sistemas generativos de NVS mais flexíveis e acessíveis.
Apresentamos o NitroFusion, uma abordagem fundamentalmente diferente para a difusão em um único passo que alcança geração de alta qualidade por meio de um framework adversarial dinâmico. Enquanto os métodos de um único passo oferecem vantagens significativas de velocidade, geralmente sofrem de degradação de qualidade em comparação com seus equivalentes de vários passos. Assim como um painel de críticos de arte fornece feedback abrangente ao se especializar em diferentes aspectos como composição, cor e técnica, nossa abordagem mantém um grande conjunto de cabeças de discriminador especializadas que orientam coletivamente o processo de geração. Cada grupo de discriminadores desenvolve expertise em aspectos específicos de qualidade em diferentes níveis de ruído, fornecendo feedback diversificado que possibilita uma geração de um único passo de alta fidelidade. Nosso framework combina: (i) um conjunto de discriminadores dinâmicos com grupos de discriminadores especializados para melhorar a qualidade da geração, (ii) mecanismos de atualização estratégica para evitar o overfitting do discriminador e (iii) cabeças de discriminador global-local para avaliação de qualidade em múltiplas escalas, e treinamento incondicional/condicional para uma geração equilibrada. Além disso, nosso framework suporta de forma única o deploy flexível por meio de refinamento de baixo para cima, permitindo aos usuários escolher dinamicamente entre 1-4 etapas de denoising com o mesmo modelo para trocas diretas entre qualidade e velocidade. Através de experimentos abrangentes, demonstramos que o NitroFusion supera significativamente os métodos de um único passo existentes em várias métricas de avaliação, destacando-se especialmente na preservação de detalhes finos e consistência global.
O rápido avanço dos Modelos de Linguagem Multimodais de Grande Escala (MLLMs) impactou significativamente várias tarefas multimodais. No entanto, esses modelos enfrentam desafios em tarefas que exigem compreensão espacial em ambientes 3D. Esforços para aprimorar MLLMs, como a incorporação de características de nuvem de pontos, foram feitos, mas uma lacuna considerável permanece entre as representações aprendidas pelos modelos e a complexidade inerente das cenas 3D. Essa discrepância decorre principalmente do treinamento de MLLMs em dados predominantemente 2D, o que restringe sua eficácia na compreensão de espaços 3D. Para abordar esse problema, neste artigo, propomos um modelo generalista inovador, ou seja, Video-3D LLM, para compreensão de cenas 3D. Ao tratar cenas 3D como vídeos dinâmicos e incorporar codificação de posição 3D nessas representações, nosso Video-3D LLM alinha as representações de vídeo com contextos espaciais do mundo real de forma mais precisa. Além disso, implementamos uma técnica de amostragem de cobertura máxima para otimizar o equilíbrio entre custos computacionais e eficiência de desempenho. Experimentos extensivos demonstram que nosso modelo alcança desempenho de ponta em vários benchmarks de compreensão de cenas 3D, incluindo ScanRefer, Multi3DRefer, Scan2Cap, ScanQA e SQA3D.
A avaliação atual das habilidades matemáticas em LLMs é limitada, pois os benchmarks existentes são relativamente pequenos, focam principalmente em problemas de nível fundamental e médio, ou carecem de diversidade de tópicos. Além disso, a inclusão de elementos visuais nas tarefas ainda é amplamente inexplorada. Para abordar essas lacunas, apresentamos o U-MATH, um novo benchmark com 1.100 problemas inéditos de nível universitário obtidos de materiais de ensino. Ele é equilibrado em seis disciplinas principais, com 20% de problemas multimodais. Dada a natureza aberta dos problemas do U-MATH, empregamos um LLM para avaliar a correção das soluções geradas. Para isso, disponibilizamos o mu-MATH, um conjunto de dados para avaliar as capacidades dos LLMs na avaliação de soluções. A avaliação de LLMs de domínio geral, matemática específica e multimodais destaca os desafios apresentados pelo U-MATH. Nossas descobertas revelam que os LLMs alcançam uma precisão máxima de apenas 63% em tarefas baseadas em texto, com ainda menos 45% em problemas visuais. A avaliação das soluções se mostra desafiadora para os LLMs, sendo que o melhor juiz LLM obteve um escore F1 de 80% no mu-MATH.
A geração de dados sintéticos com Grandes Modelos de Linguagem é um paradigma promissor para aumentar dados naturais em uma gama quase infinita de tarefas. Devido a essa variedade, comparações diretas entre algoritmos de geração de dados sintéticos são escassas, tornando difícil compreender de onde vêm as melhorias e quais gargalos existem. Propomos avaliar algoritmos por meio da composição dos dados sintéticos gerados por cada algoritmo em termos de qualidade dos dados, diversidade e complexidade. Escolhemos essas três características por sua importância em processos abertos e o impacto que cada uma tem nas capacidades dos modelos subsequentes. Constatamos que a qualidade é essencial para a generalização do modelo em distribuição, a diversidade é essencial para a generalização fora da distribuição e a complexidade é benéfica para ambos os casos. Além disso, enfatizamos a existência de compensações entre qualidade e diversidade nos dados de treinamento e os efeitos subsequentes no desempenho do modelo. Em seguida, examinamos o efeito de vários componentes no pipeline de dados sintéticos em relação a cada característica dos dados. Essa análise nos permite taxonomizar e comparar algoritmos de geração de dados sintéticos por meio dos componentes que utilizam e os efeitos resultantes na composição de dados QDC. Essa análise se estende a uma discussão sobre a importância de equilibrar QDC em dados sintéticos para algoritmos eficientes de aprendizado por reforço e autoaperfeiçoamento. Analogamente às compensações QD em dados de treinamento, muitas vezes existem compensações entre a qualidade da saída do modelo e a diversidade da saída que impactam a composição dos dados sintéticos. Observamos que muitos modelos são atualmente avaliados e otimizados apenas para a qualidade da saída, limitando assim a diversidade da saída e o potencial de autoaperfeiçoamento. Argumentamos que equilibrar essas compensações é essencial para o desenvolvimento de futuros algoritmos de autoaperfeiçoamento e destacamos uma série de trabalhos que estão progredindo nessa direção.
Recursos internos de modelos de difusão pré-treinados em larga escala foram recentemente estabelecidos como descritores semânticos poderosos para uma ampla gama de tarefas subsequentes. Trabalhos que utilizam esses recursos geralmente precisam adicionar ruído às imagens antes de passá-las pelo modelo para obter os recursos semânticos, uma vez que os modelos não oferecem os recursos mais úteis quando fornecidas imagens com pouco ou nenhum ruído. Mostramos que esse ruído tem um impacto crítico na utilidade desses recursos que não pode ser remediado por meio de ensembles com diferentes ruídos aleatórios. Abordamos essa questão introduzindo um método leve de ajuste fino não supervisionado que permite que espinhas dorsais de difusão forneçam recursos semânticos de alta qualidade e livres de ruído. Demonstramos que esses recursos superam facilmente os recursos de difusão anteriores por uma ampla margem em uma variedade de configurações de extração e tarefas subsequentes, oferecendo melhor desempenho do que até mesmo métodos baseados em ensembles a uma fração do custo.
Ao fundir LLMs de código aberto heterogêneos com arquiteturas e tamanhos variados, é possível integrar os pontos fortes de diferentes modelos. No entanto, os métodos de fusão existentes enfrentam desafios significativos, como alinhamento de vocabulário e fusão de matrizes de distribuição. Esses procedimentos são complexos e propensos a introduzir ruído e erros. Neste artigo, propomos um método de fusão implícita, Otimização de Preferência de Recompensa Ponderada (WRPO), que aproveita a otimização de preferência entre os LLMs de origem e o LLM de destino para transferir suas capacidades de forma eficaz. O WRPO elimina a necessidade de alinhamento de vocabulário e fusão de matrizes, podendo ser dimensionado eficientemente para acomodar vários LLMs. Para lidar com desvios distribucionais entre os LLMs de origem e destino, o WRPO introduz uma estratégia de adaptação progressiva que gradualmente transfere a dependência de exemplos preferidos do LLM de destino para os LLMs de origem. Experimentos extensivos nos benchmarks MT-Bench, AlpacaEval-2 e Arena-Hard demonstram que o WRPO consistentemente supera os métodos existentes de fusão de conhecimento e várias linhas de base de ajuste fino. Quando aplicado ao modelo alvo LLaMA3-8B-Instruct, o WRPO alcança uma taxa de vitória controlada por comprimento de 55,9% contra o GPT-4-Preview-1106 no AlpacaEval-2 e uma taxa de vitória de 46,2% contra o GPT-4-0314 no Arena-Hard. Nosso código está disponível em https://github.com/SLIT-AI/WRPO.
O texto serve como o sinal de controle chave na geração de vídeos devido à sua natureza narrativa. Para transformar descrições de texto em videoclipes, os modelos de difusão de vídeo atuais adotam características dos codificadores de texto, porém enfrentam dificuldades com a compreensão limitada do texto. O recente sucesso dos grandes modelos de linguagem (LLMs) destaca o poder dos transformadores com apenas decodificador, que oferece três benefícios claros para a geração de texto para vídeo (T2V), a saber, compreensão precisa do texto resultante da escalabilidade superior, imaginação além do texto de entrada possibilitada pela previsão do próximo token e flexibilidade para priorizar os interesses do usuário por meio do ajuste de instruções. No entanto, a discrepância na distribuição de características proveniente dos dois diferentes paradigmas de modelagem de texto dificulta o uso direto dos LLMs em modelos T2V estabelecidos. Este trabalho aborda esse desafio com o Mimir, um framework de treinamento de ponta a ponta apresentando um fusor de token cuidadosamente adaptado para harmonizar as saídas dos codificadores de texto e dos LLMs. Tal projeto permite que o modelo T2V aproveite totalmente os conhecimentos prévios de vídeo aprendidos, ao mesmo tempo que capitaliza a capacidade relacionada ao texto dos LLMs. Resultados extensivos quantitativos e qualitativos demonstram a eficácia do Mimir na geração de vídeos de alta qualidade com excelente compreensão de texto, especialmente ao processar legendas curtas e gerenciar movimentos em mudança. Página do projeto: https://lucaria-academy.github.io/Mimir/
Os Modelos Multimodais de Grande Escala (LMMs) têm alcançado avanços significativos com o aprimoramento da sintonização de instruções. No entanto, embora os modelos existentes consigam compreender imagens e vídeos em um nível holístico, ainda enfrentam dificuldades com a compreensão em nível de instância, que requer uma compreensão e alinhamento mais refinados. A compreensão em nível de instância é crucial, pois se concentra nos elementos específicos que mais nos interessam. De forma empolgante, trabalhos existentes descobrem que os LMMs de última geração apresentam fortes capacidades de compreensão em nível de instância quando fornecidos com pistas visuais explícitas. Motivados por isso, introduzimos um pipeline de anotação automatizado assistido pelo GPT-4o para extrair informações em nível de instância de imagens e vídeos por meio de orientações visuais explícitas para orientação em instância. A partir deste pipeline, propusemos o Inst-IT, uma solução para aprimorar os LMMs na compreensão em instância por meio da Sintonização de Instruções com Orientação Visual Explícita. O Inst-IT consiste em um benchmark para diagnosticar a compreensão em nível de instância multimodal, um conjunto de dados de sintonização de instruções em larga escala e um paradigma de treinamento contínuo de sintonização de instruções para aprimorar efetivamente as capacidades de compreensão em instância espaço-temporal dos LMMs existentes. Os resultados experimentais mostram que, com o impulso do Inst-IT, nossos modelos não apenas alcançam um desempenho excepcional no Benchmark do Inst-IT, mas também demonstram melhorias significativas em diversos benchmarks genéricos de compreensão de imagem e vídeo. Isso destaca que nosso conjunto de dados não apenas impulsiona a compreensão em nível de instância, mas também fortalece as capacidades gerais de compreensão de imagem e vídeo genéricas.
Apresentamos o LumiNet, uma arquitetura inovadora que aproveita modelos generativos e representações intrínsecas latentes para transferência eficaz de iluminação. Dada uma imagem de origem e uma imagem de iluminação de destino, o LumiNet sintetiza uma versão reluzente da cena de origem que captura a iluminação do destino. Nossa abordagem apresenta duas contribuições principais: uma estratégia de curadoria de dados do modelo de reluzimento baseado em StyleGAN para nosso treinamento, e um ControlNet baseado em difusão modificado que processa tanto propriedades intrínsecas latentes da imagem de origem quanto propriedades extrínsecas latentes da imagem de destino. Melhoramos ainda mais a transferência de iluminação por meio de um adaptador aprendido (MLP) que injeta as propriedades extrínsecas latentes do destino via atenção cruzada e ajuste fino. Ao contrário do ControlNet tradicional, que gera imagens com mapas condicionais de uma única cena, o LumiNet processa representações latentes de duas imagens diferentes - preservando geometria e albedo da origem enquanto transfere características de iluminação do destino. Experimentos demonstram que nosso método transfere com sucesso fenômenos de iluminação complexos, incluindo destaques especulares e iluminação indireta entre cenas com layouts espaciais e materiais variados, superando abordagens existentes em cenas internas desafiadoras usando apenas imagens como entrada.