Artigos de pesquisa em IA selecionados diariamente com traduções
Embora mapas de textura de alta qualidade sejam essenciais para a renderização realista de ativos 3D, poucos estudos exploraram a aprendizagem diretamente no espaço de textura, especialmente em conjuntos de dados em grande escala. Neste trabalho, nos afastamos da abordagem convencional de depender de modelos de difusão 2D pré-treinados para otimização em tempo de teste de texturas 3D. Em vez disso, focamos no problema fundamental de aprendizagem no espaço de textura UV em si. Pela primeira vez, treinamos um grande modelo de difusão capaz de gerar diretamente mapas de textura de alta resolução de forma direta. Para facilitar a aprendizagem eficiente em espaços de textura UV de alta resolução, propomos uma arquitetura de rede escalável que entrelaça convoluções em mapas UV com camadas de atenção em nuvens de pontos. Aproveitando esse design arquitetônico, treinamos um modelo de difusão com 700 milhões de parâmetros que pode gerar mapas de textura UV guiados por prompts de texto e imagens de única vista. Uma vez treinado, nosso modelo naturalmente suporta várias aplicações estendidas, incluindo preenchimento de textura guiado por texto, conclusão de textura de visualização esparsa e síntese de textura orientada por texto. A página do projeto está em http://cvmi-lab.github.io/TEXGen/.
A inpainting de imagens orientada por assuntos tem surgido como uma tarefa popular na edição de imagens juntamente com os avanços recentes em modelos de difusão. Métodos anteriores focam principalmente na preservação da identidade, mas têm dificuldade em manter a capacidade de edição dos objetos inseridos. Em resposta a isso, este artigo apresenta o DreamMix, um modelo generativo baseado em difusão capaz de inserir objetos-alvo em cenas fornecidas em locais especificados pelo usuário, ao mesmo tempo que permite modificações arbitrárias impulsionadas por texto em seus atributos. Em particular, aproveitamos modelos avançados de inpainting fundamentais e introduzimos um framework de inpainting local-global desembaraçado para equilibrar a inserção precisa de objetos locais com uma coerência visual global eficaz. Além disso, propomos um Mecanismo de Desacoplamento de Atributos (ADM) e um módulo de Substituição de Atributos Textuais (TAS) para melhorar a diversidade e a capacidade discriminativa da orientação de atributos baseada em texto, respectivamente. Experimentos extensivos demonstram que o DreamMix equilibra efetivamente a preservação da identidade e a capacidade de edição de atributos em vários cenários de aplicação, incluindo inserção de objetos, edição de atributos e inpainting de objetos pequenos. Nosso código está disponível publicamente em https://github.com/mycfhs/DreamMix.
A inferência com Modelos de Linguagem de Grande Escala (LLMs) baseados em Transformadores em sequências longas é tanto custosa quanto lenta devido à complexidade quadrática do mecanismo de autoatenção. Apresentamos a Star Attention, uma aproximação de bloco esparsa em duas fases que melhora a eficiência computacional ao dividir a atenção entre vários hosts, minimizando a sobrecarga de comunicação. Na primeira fase, o contexto é processado usando atenção local em blocos entre hosts, em paralelo. Na segunda fase, os tokens de consulta e resposta atendem a todos os tokens anteriores armazenados por meio de atenção global à sequência. A Star Attention se integra perfeitamente à maioria dos LLMs baseados em Transformadores treinados com atenção global, reduzindo os requisitos de memória e o tempo de inferência em até 11 vezes, preservando de 95 a 100% da precisão.
A construção de assistentes de Interface Gráfica do Usuário (GUI) tem um grande potencial para melhorar a produtividade no fluxo de trabalho humano. Embora a maioria dos agentes seja baseada em linguagem, dependendo de API de código fechado com metainformações ricas em texto (por exemplo, HTML ou árvore de acessibilidade), eles apresentam limitações na percepção de elementos visuais da UI como os humanos fazem, destacando a necessidade de agentes visuais de GUI. Neste trabalho, desenvolvemos um modelo de visão-linguagem-ação no mundo digital, chamado ShowUI, que apresenta as seguintes inovações: (i) Seleção de Tokens Visuais Guiada por UI para reduzir custos computacionais formulando capturas de tela como um grafo conectado de UI, identificando adaptativamente seus relacionamentos redundantes e servindo como critério para seleção de tokens durante blocos de autoatenção; (ii) Transmissão Interlaçada de Visão-Linguagem-Ação que unifica de forma flexível diversas necessidades dentro de tarefas de GUI, permitindo o gerenciamento eficaz do histórico visual-ação na navegação ou no emparelhamento de sequências de consulta-ação de várias etapas por captura de tela para aprimorar a eficiência de treinamento; (iii) Conjuntos de Dados de Instruções de GUI de Pequena Escala e Alta Qualidade por meio de uma cuidadosa curadoria de dados e empregando uma estratégia de reamostragem para lidar com desequilíbrios significativos nos tipos de dados. Com os componentes acima, o ShowUI, um modelo 2B leve usando 256K de dados, alcança uma precisão forte de 75,1% na ancoragem de capturas de tela sem treinamento. Sua seleção de token guiada por UI reduz ainda 33% dos tokens visuais redundantes durante o treinamento e acelera o desempenho em 1,4x. Experimentos de navegação nos ambientes web Mind2Web, mobile AITW e online MiniWob destacam ainda mais a eficácia e o potencial de nosso modelo no avanço de agentes visuais de GUI. Os modelos estão disponíveis em https://github.com/showlab/ShowUI.
Os avanços recentes na edição de imagens, impulsionados por modelos de difusão de imagens, têm mostrado um progresso notável. No entanto, desafios significativos permanecem, já que esses modelos frequentemente enfrentam dificuldades para seguir instruções de edição complexas com precisão e comprometem frequentemente a fidelidade ao alterar elementos-chave da imagem original. Simultaneamente, a geração de vídeos fez avanços notáveis, com modelos que funcionam efetivamente como simuladores de mundo consistentes e contínuos. Neste artigo, propomos unir esses dois campos ao utilizar modelos de imagem-para-vídeo para edição de imagens. Reformulamos a edição de imagens como um processo temporal, utilizando modelos de vídeo pré-treinados para criar transições suaves da imagem original para a edição desejada. Esta abordagem percorre continuamente o espaço de imagens, garantindo edições consistentes ao mesmo tempo em que preserva os aspectos-chave da imagem original. Nossa abordagem alcança resultados de ponta na edição de imagens baseada em texto, demonstrando melhorias significativas tanto na precisão da edição quanto na preservação da imagem.
Como uma direção proeminente da Inteligência Artificial Geral (IAG), Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm recebido uma atenção crescente tanto da indústria quanto da academia. Construindo sobre os LLMs pré-treinados, essa família de modelos desenvolve ainda mais as capacidades de percepção e raciocínio multimodais que são impressionantes, como escrever código dado um fluxograma ou criar histórias com base em uma imagem. No processo de desenvolvimento, a avaliação é crítica, pois fornece feedback intuitivo e orientação sobre a melhoria dos modelos. Distinto do paradigma tradicional de treino-avaliação-teste que favorece apenas uma única tarefa como classificação de imagens, a versatilidade dos MLLMs tem impulsionado o surgimento de vários novos benchmarks e métodos de avaliação. Neste artigo, temos como objetivo apresentar uma pesquisa abrangente da avaliação de MLLMs, discutindo quatro aspectos-chave: 1) os tipos de benchmarks resumidos divididos pelas capacidades de avaliação, incluindo capacidades fundamentais, autoanálise do modelo e aplicações estendidas; 2) o processo típico de construção de benchmarks, composto por coleta de dados, anotação e precauções; 3) a maneira sistemática de avaliação composta por juízes, métricas e ferramentas; 4) a perspectiva para o próximo benchmark. Este trabalho tem como objetivo oferecer aos pesquisadores uma compreensão fácil de como avaliar efetivamente os MLLMs de acordo com diferentes necessidades e inspirar melhores métodos de avaliação, impulsionando assim o progresso da pesquisa em MLLMs.
Para acelerar a inferência de Modelos de Linguagem Multimodais Grandes e Pesados (MLLMs), este estudo repensa o cenário atual da pesquisa de redução de tokens sem treinamento. Lamentamos constatar que os componentes críticos dos métodos existentes estão intimamente interligados, com suas interconexões e efeitos permanecendo pouco claros para comparação, transferência e expansão. Portanto, propomos um paradigma unificado de ''filtrar-correlacionar-comprimir'' que decompõe a redução de tokens em três estágios distintos dentro de um pipeline, mantendo objetivos e elementos de design consistentes, permitindo implementações únicas. Além disso, desmistificamos os trabalhos populares e os subsumimos em nosso paradigma para demonstrar sua universalidade. Por fim, oferecemos uma série de métodos fundamentados no paradigma, encontrando um equilíbrio entre velocidade e precisão ao longo das diferentes fases da inferência. Resultados experimentais em 10 benchmarks indicam que nossos métodos podem alcançar uma redução de até 82,4% em FLOPs com um impacto mínimo no desempenho, superando simultaneamente os métodos de redução de tokens sem treinamento mais avançados. Nossa página do projeto está em https://ficoco-accelerate.github.io/.
O esboço serve como uma ferramenta versátil para externalizar ideias, permitindo uma exploração rápida e comunicação visual que abrange várias disciplinas. Enquanto sistemas artificiais impulsionaram avanços substanciais na criação de conteúdo e interação humano-computador, capturar a natureza dinâmica e abstrata do esboço humano ainda é desafiador. Neste trabalho, apresentamos o SketchAgent, um método de geração de esboços sequencial orientado por linguagem que permite aos usuários criar, modificar e refinar esboços por meio de interações dinâmicas e conversacionais. Nossa abordagem não requer treinamento ou ajustes finos. Em vez disso, aproveitamos a natureza sequencial e o rico conhecimento prévio dos modelos de linguagem multimodais grandes disponíveis no mercado. Apresentamos uma linguagem intuitiva de esboço, introduzida ao modelo por meio de exemplos em contexto, permitindo que ele "desenhe" usando ações baseadas em strings. Essas ações são processadas em gráficos vetoriais e depois renderizadas para criar um esboço em um canvas de pixels, que pode ser acessado novamente para tarefas adicionais. Ao desenhar traço a traço, nosso agente captura as qualidades dinâmicas e em evolução inerentes ao esboço. Demonstramos que o SketchAgent pode gerar esboços a partir de prompts diversos, se envolver em desenhos orientados por diálogo e colaborar significativamente com usuários humanos.
Revelamos que a quantização de baixo bit favorece modelos de linguagem grandes (LLMs) pouco treinados, observando que modelos com tamanhos maiores ou menos tokens de treinamento sofrem menos degradação induzida pela quantização (QiD) ao aplicar a quantização de baixo bit, enquanto modelos menores com extensos tokens de treinamento sofrem QiD significativo. Para obter insights mais profundos sobre essa tendência, estudamos mais de 1500 checkpoints de LLM quantizados de vários tamanhos e em diferentes níveis de treinamento (pouco treinados ou totalmente treinados) em um ambiente controlado, derivando leis de escala para entender a relação entre QiD e fatores como o número de tokens de treinamento, tamanho do modelo e largura do bit. Com as leis de escala derivadas, propomos uma nova perspectiva de que podemos usar QiD para medir os níveis de treinamento de um LLM e determinar o número de tokens de treinamento necessários para treinar completamente LLMs de vários tamanhos. Além disso, usamos as leis de escala para prever o desempenho de quantização de LLMs de diferentes tamanhos treinados com 100 trilhões de tokens. Nossa projeção mostra que o desempenho de quantização de baixo bit de modelos futuros, que se espera serem treinados com mais de 100 trilhões de tokens, pode NÃO ser desejável. Isso representa um desafio potencial para a quantização de baixo bit no futuro e destaca a necessidade de estar ciente do nível de treinamento de um modelo ao avaliar pesquisas de quantização de baixo bit. Para facilitar pesquisas futuras sobre esse problema, disponibilizamos todos os mais de 1500 checkpoints quantizados usados neste trabalho em https://huggingface.co/Xu-Ouyang.
Os modelos autoregressivos têm demonstrado um sucesso notável em diversos campos, desde grandes modelos de linguagem (LLMs) até grandes modelos multimodais (LMMs) e geração de conteúdo 2D, aproximando-se da inteligência artificial geral (AGI). Apesar desses avanços, a aplicação de abordagens autoregressivas para geração e compreensão de objetos 3D ainda é amplamente inexplorada. Este artigo apresenta o Scale AutoRegressive 3D (SAR3D), um novo framework que aproveita um autoencoder variacional vetorial quantizado em 3D em múltiplas escalas (VQVAE) para tokenizar objetos 3D para geração autoregressiva eficiente e compreensão detalhada. Ao prever a próxima escala em uma representação latente em múltiplas escalas em vez do próximo token único, o SAR3D reduz significativamente o tempo de geração, alcançando uma rápida geração de objetos 3D em apenas 0,82 segundos em uma GPU A6000. Além disso, dado os tokens enriquecidos com informações hierárquicas 3D, ajustamos finamente um LLM pré-treinado neles, possibilitando a compreensão multimodal de conteúdo 3D. Nossos experimentos mostram que o SAR3D supera os métodos atuais de geração 3D tanto em velocidade quanto em qualidade, e permite que os LLMs interpretem e legendem modelos 3D de forma abrangente.
Os modelos generativos de recompensa visão-linguagem (VL-GenRMs) desempenham um papel crucial na alinhamento e avaliação de sistemas de IA multimodais, no entanto, a sua própria avaliação permanece pouco explorada. Os métodos de avaliação atuais dependem principalmente de rótulos de preferência anotados por IA a partir de tarefas tradicionais de VL, o que pode introduzir viéses e frequentemente falha em desafiar efetivamente modelos de ponta. Para lidar com essas limitações, apresentamos o VL-RewardBench, um benchmark abrangente que abrange consultas multimodais gerais, detecção de alucinação visual e tarefas de raciocínio complexas. Através do nosso pipeline de anotação assistida por IA combinando seleção de amostras com verificação humana, curamos 1.250 exemplos de alta qualidade especificamente projetados para sondar as limitações do modelo. A avaliação abrangente em 16 dos principais modelos de visão-linguagem de grande porte, demonstra a eficácia do VL-RewardBench como um campo de testes desafiador, onde mesmo o GPT-4o alcança apenas 65,4% de precisão, e modelos de código aberto de ponta como Qwen2-VL-72B, lutam para superar o palpite aleatório. Importante ressaltar que o desempenho no VL-RewardBench correlaciona fortemente (r de Pearson > 0,9) com a precisão do MMMU-Pro usando a amostragem Best-of-N com VL-GenRMs. Experimentos de análise revelam três insights críticos para melhorar os VL-GenRMs: (i) os modelos falham predominantemente em tarefas básicas de percepção visual em vez de tarefas de raciocínio; (ii) os benefícios de escalonamento no tempo de inferência variam dramaticamente de acordo com a capacidade do modelo; e (iii) treinar VL-GenRMs para aprender a julgar substancialmente impulsiona a capacidade de julgamento (+14,7% de precisão para um VL-GenRM de 7B). Acreditamos que o VL-RewardBench juntamente com as percepções experimentais se tornarão um recurso valioso para o avanço dos VL-GenRMs.
Apesar dos avanços em Modelos Multimodais Grandes, aplicá-los a conteúdos de vídeo longos e não editados ainda é desafiador devido às limitações no comprimento do contexto e à considerável sobrecarga de memória. Essas restrições frequentemente resultam em perda significativa de informações e redução de relevância nas respostas do modelo. Com o crescimento exponencial de dados de vídeo em plataformas web, compreender vídeos longos é crucial para avançar na inteligência generalizada. Neste artigo, apresentamos SALOVA: Segment-Augmented LOng Video Assistant, um novo framework de vídeo-LLM projetado para aprimorar a compreensão de conteúdos de vídeo extensos por meio de um processo de recuperação direcionada. Abordamos dois desafios principais para alcançá-lo: (i) Apresentamos o conjunto de dados SceneWalk, uma coleção de alta qualidade de 87,8 mil vídeos longos, cada um densamente legendado no nível do segmento para permitir que os modelos capturem a continuidade da cena e mantenham um contexto descritivo rico. (ii) Desenvolvemos designs arquiteturais robustos integrando um mecanismo de roteamento dinâmico e um projetor espaço-temporal para recuperar e processar eficientemente segmentos de vídeo relevantes com base em consultas do usuário. Nosso framework mitiga as limitações dos atuais vídeo-LMMs ao permitir a identificação precisa e a recuperação de segmentos de vídeo relevantes em resposta a consultas, melhorando assim a relevância contextual das respostas geradas. Através de experimentos extensivos, SALOVA demonstra capacidade aprimorada no processamento de vídeos longos complexos, mostrando significativa capacidade de manter a integridade contextual em sequências estendidas.
A aprendizagem auto-supervisionada surgiu como uma abordagem promissora para adquirir representações 3D transferíveis a partir de nuvens de pontos 3D não rotuladas. Ao contrário de imagens 2D, que são amplamente acessíveis, adquirir ativos 3D requer conhecimento especializado ou equipamentos profissionais de digitalização 3D, tornando difícil a escalabilidade e levantando preocupações de direitos autorais. Para enfrentar esses desafios, propomos aprender representações 3D a partir de programas 3D procedurais que geram automaticamente formas 3D usando primitivas simples e augmentations. Notavelmente, apesar de não possuírem conteúdo semântico, as representações 3D aprendidas a partir deste conjunto de dados sintetizado têm desempenho comparável às representações de última geração aprendidas a partir de modelos 3D semanticamente reconhecíveis (por exemplo, aviões) em várias tarefas 3D subsequentes, incluindo classificação de formas, segmentação de partes e conclusão de nuvem de pontos mascarados. Nossa análise sugere ainda que os métodos atuais de aprendizagem auto-supervisionada capturam principalmente estruturas geométricas em vez de semântica de alto nível.
O surgimento dos grandes Modelos Visão-Linguagem (VLMs) avançou significativamente as tarefas multimodais, possibilitando raciocínio mais sofisticado e preciso em diversas aplicações, incluindo legendagem de imagens e vídeos, resposta a perguntas visuais e recuperação cruzada de modalidades. Apesar de suas capacidades superiores, os VLMs enfrentam dificuldades na percepção de informações de composição regional finamente detalhadas das imagens. Especificamente, têm dificuldade em alinhar com precisão as máscaras de segmentação com as semânticas correspondentes e descrever precisamente os aspectos composicionais das regiões referidas. No entanto, a composicionalidade - a capacidade de entender e gerar novas combinações de componentes visuais e textuais conhecidos - é crucial para facilitar o raciocínio coerente e a compreensão entre modalidades pelos VLMs. Para abordar essa questão, propomos o FINECAPTION, um novo VLM que pode reconhecer máscaras arbitrárias como entradas referenciais e processar imagens de alta resolução para legendagem de imagens com composição em diferentes níveis de granularidade. Para apoiar esse esforço, introduzimos o COMPOSITIONCAP, um novo conjunto de dados para legendagem de imagens regionais com composição multigranular, que apresenta a tarefa de legendagem de imagens regionais consciente de atributos composicionais. Resultados empíricos demonstram a eficácia de nosso modelo proposto em comparação com outros VLMs de última geração. Além disso, analisamos as capacidades dos atuais VLMs em reconhecer várias sugestões visuais para legendagem de imagens regionais compostas, destacando áreas para melhoria no design e treinamento de VLMs.
A geração automática de vídeos de promoção de produtos no estilo de âncora apresenta oportunidades promissoras no comércio online, publicidade e engajamento do consumidor. No entanto, isso ainda é uma tarefa desafiadora, apesar dos avanços significativos na geração de vídeos humanos guiados por pose. Ao abordar esse desafio, identificamos a integração das interações humano-objeto (HOI) na geração de vídeos humanos guiados por pose como uma questão central. Para isso, apresentamos o AnchorCrafter, um sistema inovador baseado em difusão projetado para gerar vídeos 2D com um humano-alvo e um objeto personalizado, alcançando alta fidelidade visual e interações controláveis. Especificamente, propomos duas inovações-chave: a percepção de aparência HOI, que aprimora o reconhecimento da aparência do objeto a partir de perspectivas arbitrárias de várias visualizações e desembaraça a aparência do objeto e do humano, e a injeção de movimento HOI, que permite interações complexas entre humano e objeto ao superar desafios na condicionamento de trajetória de objeto e gerenciamento de inter-oclusão. Além disso, introduzimos a perda de reponderação de região HOI, um objetivo de treinamento que aprimora a aprendizagem de detalhes do objeto. Experimentos extensivos demonstram que nosso sistema proposto supera os métodos existentes na preservação da aparência e consciência da forma do objeto, ao mesmo tempo que mantém a consistência na aparência e movimento humanos. Página do projeto: https://cangcz.github.io/Anchor-Crafter/
Para a implementação de redes neurais em ambientes com recursos limitados, trabalhos anteriores construíram arquiteturas leves com convolução e atenção para capturar dependências locais e globais, respectivamente. Recentemente, o modelo de espaço de estados surgiu como uma interação eficaz de token global com seu favorável custo computacional linear no número de tokens. No entanto, espinhas dorsais eficientes de visão construídas com SSM foram menos exploradas. Neste artigo, apresentamos Efficient Vision Mamba (EfficientViM), uma arquitetura inovadora construída com base na dualidade de espaço de estados baseada em misturador de estado oculto (HSM-SSD) que captura eficientemente dependências globais com custo computacional reduzido. Na camada HSM-SSD, redesenhamos a camada SSD anterior para permitir a operação de mistura de canais dentro dos estados ocultos. Além disso, propomos a fusão de estados ocultos em múltiplos estágios para reforçar ainda mais o poder de representação dos estados ocultos, e fornecemos o design para aliviar o gargalo causado pelas operações limitadas pela memória. Como resultado, a família EfficientViM alcança uma nova relação velocidade-precisão de ponta no ImageNet-1k, oferecendo até 0,7% de melhoria de desempenho sobre o segundo melhor modelo SHViT com maior velocidade. Além disso, observamos melhorias significativas na taxa de transferência e precisão em comparação com trabalhos anteriores, ao dimensionar imagens ou empregar treinamento por destilação. O código está disponível em https://github.com/mlvlab/EfficientViM.
A descoberta de moléculas é um campo de pesquisa fundamental, impactando desde os medicamentos que tomamos até os materiais que utilizamos. Recentemente, Modelos de Linguagem Grandes (LLMs) têm sido amplamente adotados na compreensão e geração de moléculas, no entanto, as correspondências entre moléculas e suas legendas associadas continuam sendo um desafio significativo. Esforços anteriores frequentemente tratam a molécula como uma cadeia SMILES geral ou um grafo molecular, negligenciando as correspondências detalhadas entre as subestruturas moleculares e as frases textuais descritivas, que são cruciais para previsões precisas e explicáveis. Neste caso, apresentamos o MolReFlect, um novo framework professor-aluno projetado para realizar as correspondências molécula-legenda de forma detalhada e contextual. Nossa abordagem inicialmente utiliza um professor LLM maior para rotular as correspondências detalhadas, extraindo diretamente frases críticas das legendas das moléculas ou cadeias SMILES e as associando às subestruturas ou características correspondentes. Para refinar essas correspondências, propomos a Reflexão Seletiva em Contexto, que recupera resultados de extração anteriores como exemplos de contexto para o professor LLM refletir e permite que um aluno LLM menor selecione entre a reflexão em contexto e os resultados de extração anteriores. Por fim, aprimoramos o processo de aprendizado do aluno LLM por meio do Ajuste de Molécula em Contexto de Cadeia de Pensamento, integrando as correspondências detalhadas e os processos de raciocínio no formato de Cadeia de Pensamento. Nossos resultados experimentais demonstram que o MolReFlect permite que LLMs como o Mistral-7B superem significativamente os baselines anteriores, alcançando desempenho de última geração no conjunto de dados ChEBI-20. Este avanço não apenas melhora as capacidades generativas dos LLMs na tarefa de tradução molécula-legenda, mas também contribui para um framework mais explicável.
Apresentamos o BootComp, um novo framework baseado em modelos de difusão de texto para imagem para geração de imagens humanas controláveis com múltiplas peças de vestuário de referência. Aqui, o principal gargalo é a aquisição de dados para treinamento: coletar um conjunto de dados em grande escala de imagens de peças de vestuário de referência de alta qualidade por sujeito humano é bastante desafiador, ou seja, idealmente, é necessário reunir manualmente cada fotografia de peça de vestuário usada por cada humano. Para lidar com isso, propomos um pipeline de geração de dados para construir um grande conjunto de dados sintéticos, consistindo de pares de humanos e múltiplas peças de vestuário, introduzindo um modelo para extrair quaisquer imagens de peças de vestuário de referência de cada imagem humana. Para garantir a qualidade dos dados, também propomos uma estratégia de filtragem para remover dados gerados indesejáveis com base na medição de similaridades perceptuais entre a peça de vestuário apresentada na imagem humana e a peça de vestuário extraída. Finalmente, utilizando o conjunto de dados sintéticos construído, treinamos um modelo de difusão com dois caminhos de remoção de ruído em paralelo que usam múltiplas imagens de peças de vestuário como condições para gerar imagens humanas preservando seus detalhes refinados. Mostramos ainda a ampla aplicabilidade de nosso framework adaptando-o a diferentes tipos de geração baseada em referência no domínio da moda, incluindo provador virtual e geração de imagens humanas controláveis com outras condições, como pose, rosto, etc.
A proliferação de técnicas de IA para geração de imagens, juntamente com sua crescente acessibilidade, levantou preocupações significativas sobre o potencial uso indevido dessas imagens para espalhar desinformação. Métodos recentes de detecção de imagens geradas por IA (AGID) incluem CNNDetection, NPR, Detecção de Imagens DM, Detecção de Imagens Falsas, DIRE, LASTED, Detecção de Imagens GAN, AIDE, SSP, DRCT, RINE, OCC-CLIP, De-Fake e Detecção de Deep Fake. No entanto, argumentamos que as técnicas AGID de ponta atuais são inadequadas para detectar efetivamente imagens geradas por IA contemporâneas e defendemos uma reavaliação abrangente desses métodos. Apresentamos o Teste de Turing Visual de Contador (VCT^2), um benchmark composto por ~130K imagens geradas por modelos contemporâneos de texto para imagem (Stable Diffusion 2.1, Stable Diffusion XL, Stable Diffusion 3, DALL-E 3 e Midjourney 6). O VCT^2 inclui dois conjuntos de estímulos obtidos de tweets da conta do Twitter do New York Times e legendas do conjunto de dados MS COCO. Também avaliamos o desempenho das técnicas AGID mencionadas no benchmark VCT^2, destacando sua ineficácia na detecção de imagens geradas por IA. À medida que os modelos de IA geradores de imagens continuam a evoluir, a necessidade de um framework quantificável para avaliar esses modelos se torna cada vez mais crítica. Para atender a essa necessidade, propomos o Índice de IA Visual (V_AI), que avalia imagens geradas a partir de várias perspectivas visuais, incluindo complexidade de textura e coerência de objetos, estabelecendo um novo padrão para avaliar modelos de IA geradores de imagens. Para promover a pesquisa nesse domínio, disponibilizamos publicamente nossos conjuntos de dados https://huggingface.co/datasets/anonymous1233/COCO_AI e https://huggingface.co/datasets/anonymous1233/twitter_AI.