Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

ShowUI: Um Modelo de Visão-Linguagem-Ação para Agente Visual de Interface Gráfica do Usuário
ShowUI: One Vision-Language-Action Model for GUI Visual Agent

Nov 26

ByKevin Qinghong Lin, Linjie Li, Difei Gao, Zhengyuan Yang, Shiwei Wu, Zechen Bai, Weixian Lei, Lijuan Wang, Mike Zheng Shou

A construção de assistentes de Interface Gráfica do Usuário (GUI) tem um grande potencial para melhorar a produtividade no fluxo de trabalho humano. Embora a maioria dos agentes seja baseada em linguagem, dependendo de API de código fechado com metainformações ricas em texto (por exemplo, HTML ou árvore de acessibilidade), eles apresentam limitações na percepção de elementos visuais da UI como os humanos fazem, destacando a necessidade de agentes visuais de GUI. Neste trabalho, desenvolvemos um modelo de visão-linguagem-ação no mundo digital, chamado ShowUI, que apresenta as seguintes inovações: (i) Seleção de Tokens Visuais Guiada por UI para reduzir custos computacionais formulando capturas de tela como um grafo conectado de UI, identificando adaptativamente seus relacionamentos redundantes e servindo como critério para seleção de tokens durante blocos de autoatenção; (ii) Transmissão Interlaçada de Visão-Linguagem-Ação que unifica de forma flexível diversas necessidades dentro de tarefas de GUI, permitindo o gerenciamento eficaz do histórico visual-ação na navegação ou no emparelhamento de sequências de consulta-ação de várias etapas por captura de tela para aprimorar a eficiência de treinamento; (iii) Conjuntos de Dados de Instruções de GUI de Pequena Escala e Alta Qualidade por meio de uma cuidadosa curadoria de dados e empregando uma estratégia de reamostragem para lidar com desequilíbrios significativos nos tipos de dados. Com os componentes acima, o ShowUI, um modelo 2B leve usando 256K de dados, alcança uma precisão forte de 75,1% na ancoragem de capturas de tela sem treinamento. Sua seleção de token guiada por UI reduz ainda 33% dos tokens visuais redundantes durante o treinamento e acelera o desempenho em 1,4x. Experimentos de navegação nos ambientes web Mind2Web, mobile AITW e online MiniWob destacam ainda mais a eficácia e o potencial de nosso modelo no avanço de agentes visuais de GUI. Os modelos estão disponíveis em https://github.com/showlab/ShowUI.

ROICtrl: Aumentando o Controle da Instância para Geração Visual
ROICtrl: Boosting Instance Control for Visual Generation

Nov 27

ByYuchao Gu, Yipin Zhou, Yunfan Ye, Yixin Nie, Licheng Yu, Pingchuan Ma, Kevin Qinghong Lin, Mike Zheng Shou

A linguagem natural frequentemente enfrenta dificuldades para associar com precisão informações de posição e atributo com múltiplas instâncias, o que limita os modelos de geração visual baseados em texto atuais a composições mais simples, apresentando apenas algumas instâncias dominantes. Para lidar com essa limitação, este trabalho aprimora os modelos de difusão ao introduzir o controle de instância regional, onde cada instância é regida por uma caixa delimitadora combinada com uma legenda de forma livre. Métodos anteriores nessa área geralmente dependem de codificação de posição implícita ou máscaras de atenção explícitas para separar regiões de interesse (ROIs), resultando em injeção de coordenadas imprecisas ou grande sobrecarga computacional. Inspirados pelo ROI-Align na detecção de objetos, introduzimos uma operação complementar chamada ROI-Unpool. Juntas, ROI-Align e ROI-Unpool permitem manipulação explícita, eficiente e precisa de ROIs em mapas de características de alta resolução para geração visual. Baseando-se no ROI-Unpool, propomos o ROICtrl, um adaptador para modelos de difusão pré-treinados que possibilita um controle preciso de instâncias regionais. O ROICtrl é compatível com modelos de difusão ajustados pela comunidade, bem como com complementos baseados em espaço existentes (por exemplo, ControlNet, T2I-Adapter) e complementos baseados em incorporação (por exemplo, IP-Adapter, ED-LoRA), ampliando suas aplicações para geração multi-instances. Experimentos mostram que o ROICtrl alcança desempenho superior no controle de instância regional, ao mesmo tempo em que reduz significativamente os custos computacionais.

Caminhos na Manifold de Imagens: Edição de Imagens via Geração de Vídeo
Pathways on the Image Manifold: Image Editing via Video Generation

Nov 25

ByNoam Rotstein, Gal Yona, Daniel Silver, Roy Velich, David Bensaïd, Ron Kimmel

Os avanços recentes na edição de imagens, impulsionados por modelos de difusão de imagens, têm mostrado um progresso notável. No entanto, desafios significativos permanecem, já que esses modelos frequentemente enfrentam dificuldades para seguir instruções de edição complexas com precisão e comprometem frequentemente a fidelidade ao alterar elementos-chave da imagem original. Simultaneamente, a geração de vídeos fez avanços notáveis, com modelos que funcionam efetivamente como simuladores de mundo consistentes e contínuos. Neste artigo, propomos unir esses dois campos ao utilizar modelos de imagem-para-vídeo para edição de imagens. Reformulamos a edição de imagens como um processo temporal, utilizando modelos de vídeo pré-treinados para criar transições suaves da imagem original para a edição desejada. Esta abordagem percorre continuamente o espaço de imagens, garantindo edições consistentes ao mesmo tempo em que preserva os aspectos-chave da imagem original. Nossa abordagem alcança resultados de ponta na edição de imagens baseada em texto, demonstrando melhorias significativas tanto na precisão da edição quanto na preservação da imagem.

Geração de Vídeo a Partir de Texto Preservando a Identidade por Decomposição de Frequência
Identity-Preserving Text-to-Video Generation by Frequency Decomposition

Nov 26

ByShenghai Yuan, Jinfa Huang, Xianyi He, Yunyuan Ge, Yujun Shi, Liuhan Chen, Jiebo Luo, Li Yuan

A geração de texto para vídeo preservando identidade (IPT2V) tem como objetivo criar vídeos de alta fidelidade com identidade humana consistente. Trata-se de uma tarefa importante na geração de vídeos, porém ainda é um problema em aberto para modelos generativos. Este artigo avança na fronteira técnica do IPT2V em duas direções que não foram resolvidas na literatura: (1) Um pipeline sem ajustes tediosos caso a caso, e (2) Um esquema de controle baseado em DiT consciente da frequência e heurístico para preservação de identidade. Propomos o ConsisID, um modelo IPT2V controlável baseado em DiT sem ajustes, para manter a identidade humana consistente nos vídeos gerados. Inspirado em descobertas anteriores na análise de frequência de transformadores de difusão, ele emprega sinais de controle de identidade no domínio da frequência, onde características faciais podem ser decompostas em características globais de baixa frequência e características intrínsecas de alta frequência. Primeiramente, sob uma perspectiva de baixa frequência, introduzimos um extrator facial global, que codifica imagens de referência e pontos-chave faciais em um espaço latente, gerando características enriquecidas com informações de baixa frequência. Essas características são então integradas em camadas rasas da rede para mitigar desafios de treinamento associados ao DiT. Em segundo lugar, sob uma perspectiva de alta frequência, projetamos um extrator facial local para capturar detalhes de alta frequência e injetá-los em blocos transformadores, aprimorando a capacidade do modelo de preservar características detalhadas. Propomos uma estratégia de treinamento hierárquica para aproveitar informações de frequência para preservação de identidade, transformando um modelo de geração de vídeo pré-treinado em um modelo IPT2V. Experimentos extensivos demonstram que nosso esquema heurístico consciente da frequência fornece uma solução de controle ideal para modelos baseados em DiT. Graças a este esquema, nosso ConsisID gera vídeos de alta qualidade preservando identidade, avançando em direção a um IPT2V mais eficaz.

MME-Survey: Um Levantamento Abrangente sobre a Avaliação de Modelos de Linguagem Multimodais
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs

Nov 22

ByChaoyou Fu, Yi-Fan Zhang, Shukang Yin, Bo Li, Xinyu Fang, Sirui Zhao, Haodong Duan, Xing Sun, Ziwei Liu, Liang Wang, Caifeng Shan, Ran He

Como uma direção proeminente da Inteligência Artificial Geral (IAG), Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm recebido uma atenção crescente tanto da indústria quanto da academia. Construindo sobre os LLMs pré-treinados, essa família de modelos desenvolve ainda mais as capacidades de percepção e raciocínio multimodais que são impressionantes, como escrever código dado um fluxograma ou criar histórias com base em uma imagem. No processo de desenvolvimento, a avaliação é crítica, pois fornece feedback intuitivo e orientação sobre a melhoria dos modelos. Distinto do paradigma tradicional de treino-avaliação-teste que favorece apenas uma única tarefa como classificação de imagens, a versatilidade dos MLLMs tem impulsionado o surgimento de vários novos benchmarks e métodos de avaliação. Neste artigo, temos como objetivo apresentar uma pesquisa abrangente da avaliação de MLLMs, discutindo quatro aspectos-chave: 1) os tipos de benchmarks resumidos divididos pelas capacidades de avaliação, incluindo capacidades fundamentais, autoanálise do modelo e aplicações estendidas; 2) o processo típico de construção de benchmarks, composto por coleta de dados, anotação e precauções; 3) a maneira sistemática de avaliação composta por juízes, métricas e ferramentas; 4) a perspectiva para o próximo benchmark. Este trabalho tem como objetivo oferecer aos pesquisadores uma compreensão fácil de como avaliar efetivamente os MLLMs de acordo com diferentes necessidades e inspirar melhores métodos de avaliação, impulsionando assim o progresso da pesquisa em MLLMs.

Gráfico de Cena Entrelaçado para Geração Entrelaçada de Texto e Imagem Avaliação
Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment

Nov 26

ByDongping Chen, Ruoxi Chen, Shu Pu, Zhaoyi Liu, Yanru Wu, Caixi Chen, Benlin Liu, Yue Huang, Yao Wan, Pan Zhou, Ranjay Krishna

Muitas consultas de usuários do mundo real (por exemplo, "Como fazer arroz frito com ovo?") poderiam se beneficiar de sistemas capazes de gerar respostas com etapas textuais acompanhadas de imagens, semelhante a um livro de receitas. Modelos projetados para gerar texto e imagens entrelaçados enfrentam desafios em garantir consistência dentro e entre essas modalidades. Para lidar com esses desafios, apresentamos ISG, um framework abrangente de avaliação para geração de texto e imagem entrelaçados. ISG utiliza uma estrutura de grafo de cena para capturar as relações entre blocos de texto e imagem, avaliando as respostas em quatro níveis de granularidade: holístico, estrutural, nível de bloco e específico de imagem. Essa avaliação em vários níveis permite uma avaliação sutil de consistência, coerência e precisão, e fornece feedback de pergunta-resposta interpretável. Em conjunto com ISG, introduzimos um benchmark, ISG-Bench, abrangendo 1.150 amostras em 8 categorias e 21 subcategorias. Este conjunto de dados de benchmark inclui dependências complexas entre linguagem e visão e respostas ideais para avaliar modelos de forma eficaz em tarefas centradas em visão, como transferência de estilo, uma área desafiadora para os modelos atuais. Usando ISG-Bench, demonstramos que os modelos recentes unificados de visão e linguagem têm baixo desempenho na geração de conteúdo entrelaçado. Enquanto abordagens compostas que combinam modelos separados de linguagem e imagem mostram uma melhoria de 111% sobre os modelos unificados no nível holístico, seu desempenho permanece subótimo nos níveis de bloco e imagem. Para facilitar trabalhos futuros, desenvolvemos ISG-Agent, um agente de linha de base que emprega um pipeline "planejar-executar-aperfeiçoar" para invocar ferramentas, alcançando uma melhoria de desempenho de 122%.

SketchAgent: Geração Sequencial de Esboços Orientada por Linguagem
SketchAgent: Language-Driven Sequential Sketch Generation

Nov 26

ByYael Vinker, Tamar Rott Shaham, Kristine Zheng, Alex Zhao, Judith E Fan, Antonio Torralba

O esboço serve como uma ferramenta versátil para externalizar ideias, permitindo uma exploração rápida e comunicação visual que abrange várias disciplinas. Enquanto sistemas artificiais impulsionaram avanços substanciais na criação de conteúdo e interação humano-computador, capturar a natureza dinâmica e abstrata do esboço humano ainda é desafiador. Neste trabalho, apresentamos o SketchAgent, um método de geração de esboços sequencial orientado por linguagem que permite aos usuários criar, modificar e refinar esboços por meio de interações dinâmicas e conversacionais. Nossa abordagem não requer treinamento ou ajustes finos. Em vez disso, aproveitamos a natureza sequencial e o rico conhecimento prévio dos modelos de linguagem multimodais grandes disponíveis no mercado. Apresentamos uma linguagem intuitiva de esboço, introduzida ao modelo por meio de exemplos em contexto, permitindo que ele "desenhe" usando ações baseadas em strings. Essas ações são processadas em gráficos vetoriais e depois renderizadas para criar um esboço em um canvas de pixels, que pode ser acessado novamente para tarefas adicionais. Ao desenhar traço a traço, nosso agente captura as qualidades dinâmicas e em evolução inerentes ao esboço. Demonstramos que o SketchAgent pode gerar esboços a partir de prompts diversos, se envolver em desenhos orientados por diálogo e colaborar significativamente com usuários humanos.

Repensando a Redução de Tokens em MLLMs: Rumo a um Paradigma Unificado para Aceleração sem Treinamento
Rethinking Token Reduction in MLLMs: Towards a Unified Paradigm for Training-Free Acceleration

Nov 26

ByYuhang Han, Xuyang Liu, Pengxiang Ding, Donglin Wang, Honggang Chen, Qingsen Yan, Siteng Huang

Para acelerar a inferência de Modelos de Linguagem Multimodais Grandes e Pesados (MLLMs), este estudo repensa o cenário atual da pesquisa de redução de tokens sem treinamento. Lamentamos constatar que os componentes críticos dos métodos existentes estão intimamente interligados, com suas interconexões e efeitos permanecendo pouco claros para comparação, transferência e expansão. Portanto, propomos um paradigma unificado de ''filtrar-correlacionar-comprimir'' que decompõe a redução de tokens em três estágios distintos dentro de um pipeline, mantendo objetivos e elementos de design consistentes, permitindo implementações únicas. Além disso, desmistificamos os trabalhos populares e os subsumimos em nosso paradigma para demonstrar sua universalidade. Por fim, oferecemos uma série de métodos fundamentados no paradigma, encontrando um equilíbrio entre velocidade e precisão ao longo das diferentes fases da inferência. Resultados experimentais em 10 benchmarks indicam que nossos métodos podem alcançar uma redução de até 82,4% em FLOPs com um impacto mínimo no desempenho, superando simultaneamente os métodos de redução de tokens sem treinamento mais avançados. Nossa página do projeto está em https://ficoco-accelerate.github.io/.

A Quantização de Baixo Bit Favorece LLMs Subtreinados: Leis de Escalonamento para LLMs Quantizados com 100T Tokens de Treinamento
Low-Bit Quantization Favors Undertrained LLMs: Scaling Laws for Quantized LLMs with 100T Training Tokens

Nov 26

ByXu Ouyang, Tao Ge, Thomas Hartvigsen, Zhisong Zhang, Haitao Mi, Dong Yu

Revelamos que a quantização de baixo bit favorece modelos de linguagem grandes (LLMs) pouco treinados, observando que modelos com tamanhos maiores ou menos tokens de treinamento sofrem menos degradação induzida pela quantização (QiD) ao aplicar a quantização de baixo bit, enquanto modelos menores com extensos tokens de treinamento sofrem QiD significativo. Para obter insights mais profundos sobre essa tendência, estudamos mais de 1500 checkpoints de LLM quantizados de vários tamanhos e em diferentes níveis de treinamento (pouco treinados ou totalmente treinados) em um ambiente controlado, derivando leis de escala para entender a relação entre QiD e fatores como o número de tokens de treinamento, tamanho do modelo e largura do bit. Com as leis de escala derivadas, propomos uma nova perspectiva de que podemos usar QiD para medir os níveis de treinamento de um LLM e determinar o número de tokens de treinamento necessários para treinar completamente LLMs de vários tamanhos. Além disso, usamos as leis de escala para prever o desempenho de quantização de LLMs de diferentes tamanhos treinados com 100 trilhões de tokens. Nossa projeção mostra que o desempenho de quantização de baixo bit de modelos futuros, que se espera serem treinados com mais de 100 trilhões de tokens, pode NÃO ser desejável. Isso representa um desafio potencial para a quantização de baixo bit no futuro e destaca a necessidade de estar ciente do nível de treinamento de um modelo ao avaliar pesquisas de quantização de baixo bit. Para facilitar pesquisas futuras sobre esse problema, disponibilizamos todos os mais de 1500 checkpoints quantizados usados neste trabalho em https://huggingface.co/Xu-Ouyang.

SAR3D: Geração e Compreensão Autoregressiva de Objetos 3D por meio de VQVAE 3D Multiescala
SAR3D: Autoregressive 3D Object Generation and Understanding via Multi-scale 3D VQVAE

Nov 25

ByYongwei Chen, Yushi Lan, Shangchen Zhou, Tengfei Wang, XIngang Pan

Os modelos autoregressivos têm demonstrado um sucesso notável em diversos campos, desde grandes modelos de linguagem (LLMs) até grandes modelos multimodais (LMMs) e geração de conteúdo 2D, aproximando-se da inteligência artificial geral (AGI). Apesar desses avanços, a aplicação de abordagens autoregressivas para geração e compreensão de objetos 3D ainda é amplamente inexplorada. Este artigo apresenta o Scale AutoRegressive 3D (SAR3D), um novo framework que aproveita um autoencoder variacional vetorial quantizado em 3D em múltiplas escalas (VQVAE) para tokenizar objetos 3D para geração autoregressiva eficiente e compreensão detalhada. Ao prever a próxima escala em uma representação latente em múltiplas escalas em vez do próximo token único, o SAR3D reduz significativamente o tempo de geração, alcançando uma rápida geração de objetos 3D em apenas 0,82 segundos em uma GPU A6000. Além disso, dado os tokens enriquecidos com informações hierárquicas 3D, ajustamos finamente um LLM pré-treinado neles, possibilitando a compreensão multimodal de conteúdo 3D. Nossos experimentos mostram que o SAR3D supera os métodos atuais de geração 3D tanto em velocidade quanto em qualidade, e permite que os LLMs interpretem e legendem modelos 3D de forma abrangente.

VLRewardBench: Um Desafio de Referência para Modelos Generativos de Recompensa Visão-Linguagem
VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models

Nov 26

ByLei Li, Yuancheng Wei, Zhihui Xie, Xuqing Yang, Yifan Song, Peiyi Wang, Chenxin An, Tianyu Liu, Sujian Li, Bill Yuchen Lin, Lingpeng Kong, Qi Liu

Os modelos generativos de recompensa visão-linguagem (VL-GenRMs) desempenham um papel crucial na alinhamento e avaliação de sistemas de IA multimodais, no entanto, a sua própria avaliação permanece pouco explorada. Os métodos de avaliação atuais dependem principalmente de rótulos de preferência anotados por IA a partir de tarefas tradicionais de VL, o que pode introduzir viéses e frequentemente falha em desafiar efetivamente modelos de ponta. Para lidar com essas limitações, apresentamos o VL-RewardBench, um benchmark abrangente que abrange consultas multimodais gerais, detecção de alucinação visual e tarefas de raciocínio complexas. Através do nosso pipeline de anotação assistida por IA combinando seleção de amostras com verificação humana, curamos 1.250 exemplos de alta qualidade especificamente projetados para sondar as limitações do modelo. A avaliação abrangente em 16 dos principais modelos de visão-linguagem de grande porte, demonstra a eficácia do VL-RewardBench como um campo de testes desafiador, onde mesmo o GPT-4o alcança apenas 65,4% de precisão, e modelos de código aberto de ponta como Qwen2-VL-72B, lutam para superar o palpite aleatório. Importante ressaltar que o desempenho no VL-RewardBench correlaciona fortemente (r de Pearson > 0,9) com a precisão do MMMU-Pro usando a amostragem Best-of-N com VL-GenRMs. Experimentos de análise revelam três insights críticos para melhorar os VL-GenRMs: (i) os modelos falham predominantemente em tarefas básicas de percepção visual em vez de tarefas de raciocínio; (ii) os benefícios de escalonamento no tempo de inferência variam dramaticamente de acordo com a capacidade do modelo; e (iii) treinar VL-GenRMs para aprender a julgar substancialmente impulsiona a capacidade de julgamento (+14,7% de precisão para um VL-GenRM de 7B). Acreditamos que o VL-RewardBench juntamente com as percepções experimentais se tornarão um recurso valioso para o avanço dos VL-GenRMs.

Aprendizado de Representações 3D a partir de Programas 3D Procedurais
Learning 3D Representations from Procedural 3D Programs

Nov 25

ByXuweiyi Chen, Zezhou Cheng

A aprendizagem auto-supervisionada surgiu como uma abordagem promissora para adquirir representações 3D transferíveis a partir de nuvens de pontos 3D não rotuladas. Ao contrário de imagens 2D, que são amplamente acessíveis, adquirir ativos 3D requer conhecimento especializado ou equipamentos profissionais de digitalização 3D, tornando difícil a escalabilidade e levantando preocupações de direitos autorais. Para enfrentar esses desafios, propomos aprender representações 3D a partir de programas 3D procedurais que geram automaticamente formas 3D usando primitivas simples e augmentations. Notavelmente, apesar de não possuírem conteúdo semântico, as representações 3D aprendidas a partir deste conjunto de dados sintetizado têm desempenho comparável às representações de última geração aprendidas a partir de modelos 3D semanticamente reconhecíveis (por exemplo, aviões) em várias tarefas 3D subsequentes, incluindo classificação de formas, segmentação de partes e conclusão de nuvem de pontos mascarados. Nossa análise sugere ainda que os métodos atuais de aprendizagem auto-supervisionada capturam principalmente estruturas geométricas em vez de semântica de alto nível.

SALOVA: Assistente de Vídeo de Longa Duração com Segmentação para Recuperação e Roteamento Direcionados na Análise de Vídeos de Longa Duração
SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis

Nov 25

ByJunho Kim, Hyunjun Kim, Hosu Lee, Yong Man Ro

Apesar dos avanços em Modelos Multimodais Grandes, aplicá-los a conteúdos de vídeo longos e não editados ainda é desafiador devido às limitações no comprimento do contexto e à considerável sobrecarga de memória. Essas restrições frequentemente resultam em perda significativa de informações e redução de relevância nas respostas do modelo. Com o crescimento exponencial de dados de vídeo em plataformas web, compreender vídeos longos é crucial para avançar na inteligência generalizada. Neste artigo, apresentamos SALOVA: Segment-Augmented LOng Video Assistant, um novo framework de vídeo-LLM projetado para aprimorar a compreensão de conteúdos de vídeo extensos por meio de um processo de recuperação direcionada. Abordamos dois desafios principais para alcançá-lo: (i) Apresentamos o conjunto de dados SceneWalk, uma coleção de alta qualidade de 87,8 mil vídeos longos, cada um densamente legendado no nível do segmento para permitir que os modelos capturem a continuidade da cena e mantenham um contexto descritivo rico. (ii) Desenvolvemos designs arquiteturais robustos integrando um mecanismo de roteamento dinâmico e um projetor espaço-temporal para recuperar e processar eficientemente segmentos de vídeo relevantes com base em consultas do usuário. Nosso framework mitiga as limitações dos atuais vídeo-LMMs ao permitir a identificação precisa e a recuperação de segmentos de vídeo relevantes em resposta a consultas, melhorando assim a relevância contextual das respostas geradas. Através de experimentos extensivos, SALOVA demonstra capacidade aprimorada no processamento de vídeos longos complexos, mostrando significativa capacidade de manter a integridade contextual em sequências estendidas.

LEGENDA FINA: Legendagem de Imagens Composicional Focada em Qualquer Local que Você Desejar em Qualquer Granularidade
FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity

Nov 23

ByHang Hua, Qing Liu, Lingzhi Zhang, Jing Shi, Zhifei Zhang, Yilin Wang, Jianming Zhang, Jiebo Luo

O surgimento dos grandes Modelos Visão-Linguagem (VLMs) avançou significativamente as tarefas multimodais, possibilitando raciocínio mais sofisticado e preciso em diversas aplicações, incluindo legendagem de imagens e vídeos, resposta a perguntas visuais e recuperação cruzada de modalidades. Apesar de suas capacidades superiores, os VLMs enfrentam dificuldades na percepção de informações de composição regional finamente detalhadas das imagens. Especificamente, têm dificuldade em alinhar com precisão as máscaras de segmentação com as semânticas correspondentes e descrever precisamente os aspectos composicionais das regiões referidas. No entanto, a composicionalidade - a capacidade de entender e gerar novas combinações de componentes visuais e textuais conhecidos - é crucial para facilitar o raciocínio coerente e a compreensão entre modalidades pelos VLMs. Para abordar essa questão, propomos o FINECAPTION, um novo VLM que pode reconhecer máscaras arbitrárias como entradas referenciais e processar imagens de alta resolução para legendagem de imagens com composição em diferentes níveis de granularidade. Para apoiar esse esforço, introduzimos o COMPOSITIONCAP, um novo conjunto de dados para legendagem de imagens regionais com composição multigranular, que apresenta a tarefa de legendagem de imagens regionais consciente de atributos composicionais. Resultados empíricos demonstram a eficácia de nosso modelo proposto em comparação com outros VLMs de última geração. Além disso, analisamos as capacidades dos atuais VLMs em reconhecer várias sugestões visuais para legendagem de imagens regionais compostas, destacando áreas para melhoria no design e treinamento de VLMs.

AnchorCrafter: Animação de CyberAnchors Vendendo Seus Produtos via Geração de Vídeos de Interação Humano-Objeto
AnchorCrafter: Animate CyberAnchors Saling Your Products via Human-Object Interacting Video Generation

Nov 26

ByZiyi Xu, Ziyao Huang, Juan Cao, Yong Zhang, Xiaodong Cun, Qing Shuai, Yuchen Wang, Linchao Bao, Jintao Li, Fan Tang

A geração automática de vídeos de promoção de produtos no estilo de âncora apresenta oportunidades promissoras no comércio online, publicidade e engajamento do consumidor. No entanto, isso ainda é uma tarefa desafiadora, apesar dos avanços significativos na geração de vídeos humanos guiados por pose. Ao abordar esse desafio, identificamos a integração das interações humano-objeto (HOI) na geração de vídeos humanos guiados por pose como uma questão central. Para isso, apresentamos o AnchorCrafter, um sistema inovador baseado em difusão projetado para gerar vídeos 2D com um humano-alvo e um objeto personalizado, alcançando alta fidelidade visual e interações controláveis. Especificamente, propomos duas inovações-chave: a percepção de aparência HOI, que aprimora o reconhecimento da aparência do objeto a partir de perspectivas arbitrárias de várias visualizações e desembaraça a aparência do objeto e do humano, e a injeção de movimento HOI, que permite interações complexas entre humano e objeto ao superar desafios na condicionamento de trajetória de objeto e gerenciamento de inter-oclusão. Além disso, introduzimos a perda de reponderação de região HOI, um objetivo de treinamento que aprimora a aprendizagem de detalhes do objeto. Experimentos extensivos demonstram que nosso sistema proposto supera os métodos existentes na preservação da aparência e consciência da forma do objeto, ao mesmo tempo que mantém a consistência na aparência e movimento humanos. Página do projeto: https://cangcz.github.io/Anchor-Crafter/

EfficientViM: Mamba de Visão Eficiente com Misturador de Estado Oculto baseado na Dualidade do Espaço de Estado
EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality

Nov 22

BySanghyeok Lee, Joonmyung Choi, Hyunwoo J. Kim

Para a implementação de redes neurais em ambientes com recursos limitados, trabalhos anteriores construíram arquiteturas leves com convolução e atenção para capturar dependências locais e globais, respectivamente. Recentemente, o modelo de espaço de estados surgiu como uma interação eficaz de token global com seu favorável custo computacional linear no número de tokens. No entanto, espinhas dorsais eficientes de visão construídas com SSM foram menos exploradas. Neste artigo, apresentamos Efficient Vision Mamba (EfficientViM), uma arquitetura inovadora construída com base na dualidade de espaço de estados baseada em misturador de estado oculto (HSM-SSD) que captura eficientemente dependências globais com custo computacional reduzido. Na camada HSM-SSD, redesenhamos a camada SSD anterior para permitir a operação de mistura de canais dentro dos estados ocultos. Além disso, propomos a fusão de estados ocultos em múltiplos estágios para reforçar ainda mais o poder de representação dos estados ocultos, e fornecemos o design para aliviar o gargalo causado pelas operações limitadas pela memória. Como resultado, a família EfficientViM alcança uma nova relação velocidade-precisão de ponta no ImageNet-1k, oferecendo até 0,7% de melhoria de desempenho sobre o segundo melhor modelo SHViT com maior velocidade. Além disso, observamos melhorias significativas na taxa de transferência e precisão em comparação com trabalhos anteriores, ao dimensionar imagens ou empregar treinamento por destilação. O código está disponível em https://github.com/mlvlab/EfficientViM.

MolReFlect: Rumo a Alinhamentos Detalhados em Contexto entre Moléculas e Textos
MolReFlect: Towards In-Context Fine-grained Alignments between Molecules and Texts

Nov 22

ByJiatong Li, Yunqing Liu, Wei Liu, Jingdi Le, Di Zhang, Wenqi Fan, Dongzhan Zhou, Yuqiang Li, Qing Li

A descoberta de moléculas é um campo de pesquisa fundamental, impactando desde os medicamentos que tomamos até os materiais que utilizamos. Recentemente, Modelos de Linguagem Grandes (LLMs) têm sido amplamente adotados na compreensão e geração de moléculas, no entanto, as correspondências entre moléculas e suas legendas associadas continuam sendo um desafio significativo. Esforços anteriores frequentemente tratam a molécula como uma cadeia SMILES geral ou um grafo molecular, negligenciando as correspondências detalhadas entre as subestruturas moleculares e as frases textuais descritivas, que são cruciais para previsões precisas e explicáveis. Neste caso, apresentamos o MolReFlect, um novo framework professor-aluno projetado para realizar as correspondências molécula-legenda de forma detalhada e contextual. Nossa abordagem inicialmente utiliza um professor LLM maior para rotular as correspondências detalhadas, extraindo diretamente frases críticas das legendas das moléculas ou cadeias SMILES e as associando às subestruturas ou características correspondentes. Para refinar essas correspondências, propomos a Reflexão Seletiva em Contexto, que recupera resultados de extração anteriores como exemplos de contexto para o professor LLM refletir e permite que um aluno LLM menor selecione entre a reflexão em contexto e os resultados de extração anteriores. Por fim, aprimoramos o processo de aprendizado do aluno LLM por meio do Ajuste de Molécula em Contexto de Cadeia de Pensamento, integrando as correspondências detalhadas e os processos de raciocínio no formato de Cadeia de Pensamento. Nossos resultados experimentais demonstram que o MolReFlect permite que LLMs como o Mistral-7B superem significativamente os baselines anteriores, alcançando desempenho de última geração no conjunto de dados ChEBI-20. Este avanço não apenas melhora as capacidades generativas dos LLMs na tarefa de tradução molécula-legenda, mas também contribui para um framework mais explicável.

Teste de Turing de Contador Visual (VCT^2): Descobrindo os Desafios para a Detecção de Imagens Geradas por IA e Introduzindo o Índice de IA Visual (V_AI)
Visual Counter Turing Test (VCT^2): Discovering the Challenges for AI-Generated Image Detection and Introducing Visual AI Index (V_AI)

Nov 24

ByNasrin Imanpour, Shashwat Bajpai, Subhankar Ghosh, Sainath Reddy Sankepally, Abhilekh Borah, Hasnat Md Abdullah, Nishoak Kosaraju, Shreyas Dixit, Ashhar Aziz, Shwetangshu Biswas, Vinija Jain, Aman Chadha, Amit Sheth, Amitava Das

A proliferação de técnicas de IA para geração de imagens, juntamente com sua crescente acessibilidade, levantou preocupações significativas sobre o potencial uso indevido dessas imagens para espalhar desinformação. Métodos recentes de detecção de imagens geradas por IA (AGID) incluem CNNDetection, NPR, Detecção de Imagens DM, Detecção de Imagens Falsas, DIRE, LASTED, Detecção de Imagens GAN, AIDE, SSP, DRCT, RINE, OCC-CLIP, De-Fake e Detecção de Deep Fake. No entanto, argumentamos que as técnicas AGID de ponta atuais são inadequadas para detectar efetivamente imagens geradas por IA contemporâneas e defendemos uma reavaliação abrangente desses métodos. Apresentamos o Teste de Turing Visual de Contador (VCT^2), um benchmark composto por ~130K imagens geradas por modelos contemporâneos de texto para imagem (Stable Diffusion 2.1, Stable Diffusion XL, Stable Diffusion 3, DALL-E 3 e Midjourney 6). O VCT^2 inclui dois conjuntos de estímulos obtidos de tweets da conta do Twitter do New York Times e legendas do conjunto de dados MS COCO. Também avaliamos o desempenho das técnicas AGID mencionadas no benchmark VCT^2, destacando sua ineficácia na detecção de imagens geradas por IA. À medida que os modelos de IA geradores de imagens continuam a evoluir, a necessidade de um framework quantificável para avaliar esses modelos se torna cada vez mais crítica. Para atender a essa necessidade, propomos o Índice de IA Visual (V_AI), que avalia imagens geradas a partir de várias perspectivas visuais, incluindo complexidade de textura e coerência de objetos, estabelecendo um novo padrão para avaliar modelos de IA geradores de imagens. Para promover a pesquisa nesse domínio, disponibilizamos publicamente nossos conjuntos de dados https://huggingface.co/datasets/anonymous1233/COCO_AI e https://huggingface.co/datasets/anonymous1233/twitter_AI.

Geração de Imagens Humanas Controláveis com Múltiplos Trajes Personalizados
Controllable Human Image Generation with Personalized Multi-Garments

Nov 25

ByYisol Choi, Sangkyung Kwak, Sihyun Yu, Hyungwon Choi, Jinwoo Shin

Apresentamos o BootComp, um novo framework baseado em modelos de difusão de texto para imagem para geração de imagens humanas controláveis com múltiplas peças de vestuário de referência. Aqui, o principal gargalo é a aquisição de dados para treinamento: coletar um conjunto de dados em grande escala de imagens de peças de vestuário de referência de alta qualidade por sujeito humano é bastante desafiador, ou seja, idealmente, é necessário reunir manualmente cada fotografia de peça de vestuário usada por cada humano. Para lidar com isso, propomos um pipeline de geração de dados para construir um grande conjunto de dados sintéticos, consistindo de pares de humanos e múltiplas peças de vestuário, introduzindo um modelo para extrair quaisquer imagens de peças de vestuário de referência de cada imagem humana. Para garantir a qualidade dos dados, também propomos uma estratégia de filtragem para remover dados gerados indesejáveis com base na medição de similaridades perceptuais entre a peça de vestuário apresentada na imagem humana e a peça de vestuário extraída. Finalmente, utilizando o conjunto de dados sintéticos construído, treinamos um modelo de difusão com dois caminhos de remoção de ruído em paralelo que usam múltiplas imagens de peças de vestuário como condições para gerar imagens humanas preservando seus detalhes refinados. Mostramos ainda a ampla aplicabilidade de nosso framework adaptando-o a diferentes tipos de geração baseada em referência no domínio da moda, incluindo provador virtual e geração de imagens humanas controláveis com outras condições, como pose, rosto, etc.

Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

ShowUI: Um Modelo de Visão-Linguagem-Ação para Agente Visual de Interface Gráfica do Usuário
ShowUI: One Vision-Language-Action Model for GUI Visual Agent

Nov 26

ByKevin Qinghong Lin, Linjie Li, Difei Gao, Zhengyuan Yang, Shiwei Wu, Zechen Bai, Weixian Lei, Lijuan Wang, Mike Zheng Shou

ROICtrl: Aumentando o Controle da Instância para Geração Visual
ROICtrl: Boosting Instance Control for Visual Generation

Nov 27

ByYuchao Gu, Yipin Zhou, Yunfan Ye, Yixin Nie, Licheng Yu, Pingchuan Ma, Kevin Qinghong Lin, Mike Zheng Shou

Caminhos na Manifold de Imagens: Edição de Imagens via Geração de Vídeo
Pathways on the Image Manifold: Image Editing via Video Generation

Nov 25

ByNoam Rotstein, Gal Yona, Daniel Silver, Roy Velich, David Bensaïd, Ron Kimmel

Geração de Vídeo a Partir de Texto Preservando a Identidade por Decomposição de Frequência
Identity-Preserving Text-to-Video Generation by Frequency Decomposition

Nov 26

ByShenghai Yuan, Jinfa Huang, Xianyi He, Yunyuan Ge, Yujun Shi, Liuhan Chen, Jiebo Luo, Li Yuan

MME-Survey: Um Levantamento Abrangente sobre a Avaliação de Modelos de Linguagem Multimodais
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs

Nov 22

ByChaoyou Fu, Yi-Fan Zhang, Shukang Yin, Bo Li, Xinyu Fang, Sirui Zhao, Haodong Duan, Xing Sun, Ziwei Liu, Liang Wang, Caifeng Shan, Ran He

Gráfico de Cena Entrelaçado para Geração Entrelaçada de Texto e Imagem Avaliação
Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment

Nov 26

ByDongping Chen, Ruoxi Chen, Shu Pu, Zhaoyi Liu, Yanru Wu, Caixi Chen, Benlin Liu, Yue Huang, Yao Wan, Pan Zhou, Ranjay Krishna

SketchAgent: Geração Sequencial de Esboços Orientada por Linguagem
SketchAgent: Language-Driven Sequential Sketch Generation

Nov 26

ByYael Vinker, Tamar Rott Shaham, Kristine Zheng, Alex Zhao, Judith E Fan, Antonio Torralba

Repensando a Redução de Tokens em MLLMs: Rumo a um Paradigma Unificado para Aceleração sem Treinamento
Rethinking Token Reduction in MLLMs: Towards a Unified Paradigm for Training-Free Acceleration

Nov 26

ByYuhang Han, Xuyang Liu, Pengxiang Ding, Donglin Wang, Honggang Chen, Qingsen Yan, Siteng Huang

A Quantização de Baixo Bit Favorece LLMs Subtreinados: Leis de Escalonamento para LLMs Quantizados com 100T Tokens de Treinamento
Low-Bit Quantization Favors Undertrained LLMs: Scaling Laws for Quantized LLMs with 100T Training Tokens

Nov 26

ByXu Ouyang, Tao Ge, Thomas Hartvigsen, Zhisong Zhang, Haitao Mi, Dong Yu

SAR3D: Geração e Compreensão Autoregressiva de Objetos 3D por meio de VQVAE 3D Multiescala
SAR3D: Autoregressive 3D Object Generation and Understanding via Multi-scale 3D VQVAE

Nov 25

ByYongwei Chen, Yushi Lan, Shangchen Zhou, Tengfei Wang, XIngang Pan

VLRewardBench: Um Desafio de Referência para Modelos Generativos de Recompensa Visão-Linguagem
VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models

Nov 26

ByLei Li, Yuancheng Wei, Zhihui Xie, Xuqing Yang, Yifan Song, Peiyi Wang, Chenxin An, Tianyu Liu, Sujian Li, Bill Yuchen Lin, Lingpeng Kong, Qi Liu

Aprendizado de Representações 3D a partir de Programas 3D Procedurais
Learning 3D Representations from Procedural 3D Programs

Nov 25

ByXuweiyi Chen, Zezhou Cheng

SALOVA: Assistente de Vídeo de Longa Duração com Segmentação para Recuperação e Roteamento Direcionados na Análise de Vídeos de Longa Duração
SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis

Nov 25

ByJunho Kim, Hyunjun Kim, Hosu Lee, Yong Man Ro

LEGENDA FINA: Legendagem de Imagens Composicional Focada em Qualquer Local que Você Desejar em Qualquer Granularidade
FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity

Nov 23

ByHang Hua, Qing Liu, Lingzhi Zhang, Jing Shi, Zhifei Zhang, Yilin Wang, Jianming Zhang, Jiebo Luo

AnchorCrafter: Animação de CyberAnchors Vendendo Seus Produtos via Geração de Vídeos de Interação Humano-Objeto
AnchorCrafter: Animate CyberAnchors Saling Your Products via Human-Object Interacting Video Generation

Nov 26

ByZiyi Xu, Ziyao Huang, Juan Cao, Yong Zhang, Xiaodong Cun, Qing Shuai, Yuchen Wang, Linchao Bao, Jintao Li, Fan Tang

EfficientViM: Mamba de Visão Eficiente com Misturador de Estado Oculto baseado na Dualidade do Espaço de Estado
EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality

Nov 22

BySanghyeok Lee, Joonmyung Choi, Hyunwoo J. Kim

MolReFlect: Rumo a Alinhamentos Detalhados em Contexto entre Moléculas e Textos
MolReFlect: Towards In-Context Fine-grained Alignments between Molecules and Texts

Nov 22

ByJiatong Li, Yunqing Liu, Wei Liu, Jingdi Le, Di Zhang, Wenqi Fan, Dongzhan Zhou, Yuqiang Li, Qing Li

Teste de Turing de Contador Visual (VCT^2): Descobrindo os Desafios para a Detecção de Imagens Geradas por IA e Introduzindo o Índice de IA Visual (V_AI)
Visual Counter Turing Test (VCT^2): Discovering the Challenges for AI-Generated Image Detection and Introducing Visual AI Index (V_AI)

Nov 24

Geração de Imagens Humanas Controláveis com Múltiplos Trajes Personalizados
Controllable Human Image Generation with Personalized Multi-Garments

Nov 25

ByYisol Choi, Sangkyung Kwak, Sihyun Yu, Hyungwon Choi, Jinwoo Shin