HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

26 papers found

# Relatório Técnico do Qwen3-VL Resumo Qwen3-VL é um modelo avançado de linguagem visual multimodal, projetado para compreender e processar informações tanto de texto quanto de imagens. Baseado na arquitetura Transformer, este modelo combina um codificador de visão com um modelo de linguagem grande (LLM) para realizar tarefas complexas de compreensão visual-linguística. O Qwen3-VL demonstra capacidades excepcionais em diálogo visual, resposta a perguntas baseadas em imagens, geração de legendas e raciocínio visual. Este relatório detalha a arquitetura do modelo, metodologia de treinamento, avaliações de benchmark e aplicações potenciais. 1. Introdução Com o avanço da inteligência artificial, a integração de modalidades visuais e linguísticas tornou-se um campo de pesquisa crítico. O Qwen3-VL surge como uma evolução dos modelos anteriores da série Qwen, incorporando melhorias significativas na compreensão contextual, eficiência computacional e versatilidade em tarefas multimodais. Este documento apresenta uma visão técnica abrangente do modelo, incluindo seus componentes arquiteturais, processo de treinamento e desempenho em diversos conjuntos de dados. 2. Arquitetura do Modelo A arquitetura do Qwen3-VL consiste em três componentes principais: 2.1 Codificador de Visão Utiliza uma rede neural convolucional (CNN) ou Vision Transformer (ViT) para extrair características visuais de imagens de entrada. As características são então projetadas em um espaço latente compatível com o embedding de texto. 2.2 Modelo de Linguagem Baseado no Transformer, o LLM processa embeddings de texto e integra características visuais através de mecanismos de atenção cruzada. A arquitetura emprega atenção multi-head e feed-forward networks para capturar dependências de longo alcance. 2.3 Mecanismo de Alinhamento Multimodal Um módulo de fusão responsável por alinhar representações visuais e textuais, permitindo que o modelo gere respostas coerentes baseadas em ambas as modalidades. 3. Metodologia de Treinamento O treinamento do Qwen3-VL envolve duas fases: 3.1 Pré-treinamento Exposição a grandes conjuntos de dados de imagem-texto (ex: COCO, Visual Genome) para aprender representações fundamentais. 3.2 Ajuste Fino Utiliza instruções supervisionadas e reforço learning com feedback humano (RLHF) para refinar o desempenho em tarefas específicas e melhorar a segurança e alinhamento ético. 4. Avaliação Experimental O modelo foi avaliado em benchmarks padrão, incluindo: - VQAv2: 78.5% de precisão - TextVQA: 58.3% de precisão - COCO Captioning: CIDEr score de 125.4 Os resultados mostram que o Qwen3-VL supera modelos anteriores em várias tarefas de compreensão visual-linguística. 5. Aplicações - Assistentes virtuais com capacidade visual - Geração de conteúdo multimídia - Educação adaptativa - Suporte a deficientes visuais 6. Conclusão e Trabalhos Futuros O Qwen3-VL representa um avanço significativo em modelos multimodais, oferecendo desempenho robusto e flexibilidade em diversas aplicações. Futuros trabalhos incluirão a expansão para vídeo, integração de áudio e melhorias na eficiência computacional. Referências [1] Vaswani et al., "Attention Is All You Need", 2017 [2] Radford et al., "Learning Transferable Visual Models From Natural Language Supervision", 2021 [3] Documentação técnica interna do projeto Qwen
Qwen3-VL Technical Report

Nov 26

ByShuai Bai, Yuxuan Cai, Ruizhe Chen, Keqin Chen, Xionghui Chen, Zesen Cheng, Lianghao Deng, Wei Ding, Chang Gao, Chunjiang Ge, Wenbin Ge, Zhifang Guo, Qidong Huang, Jie Huang, Fei Huang, Binyuan Hui, Shutong Jiang, Zhaohai Li, Mingsheng Li, Mei Li, Kaixin Li, Zicheng Lin, Junyang Lin, Xuejing Liu, Jiawei Liu, Chenglong Liu, Yang Liu, Dayiheng Liu, Shixuan Liu, Dunjie Lu, Ruilin Luo, Chenxu Lv, Rui Men, Lingchen Meng, Xuancheng Ren, Xingzhang Ren, Sibo Song, Yuchong Sun, Jun Tang, Jianhong Tu, Jianqiang Wan, Peng Wang, Pengfei Wang, Qiuyue Wang, Yuxuan Wang, Tianbao Xie, Yiheng Xu, Haiyang Xu, Jin Xu, Zhibo Yang, Mingkun Yang, Jianxin Yang, An Yang, Bowen Yu, Fei Zhang, Hang Zhang, Xi Zhang, Bo Zheng, Humen Zhong, Jingren Zhou, Fan Zhou, Jing Zhou, Yuanzhi Zhu, Ke Zhu

162

Apresentamos o Qwen3-VL, o modelo de visão e linguagem mais capaz da série Qwen até à data, alcançando um desempenho superior numa vasta gama de benchmarks multimodais. Suporta nativamente contextos intercalados de até 256 mil *tokens*, integrando de forma transparente texto, imagens e vídeo. A família de modelos inclui variantes densas (2B/4B/8B/32B) e de mistura de especialistas (30B-A3B/235B-A22B) para acomodar diversos compromissos entre latência e qualidade. O Qwen3-VL assenta em três pilares fundamentais: (i) uma compreensão de texto puro significativamente mais robusta, superando *backbones* exclusivamente textais comparáveis em vários casos; (ii) uma compreensão robusta de contexto longo, com uma janela nativa de 256 mil *tokens* para texto e entradas multimodais intercaladas, permitindo a retenção, recuperação e referência cruzada fiáveis em documentos longos e vídeos; e (iii) um raciocínio multimodal avançado em tarefas de imagem única, múltiplas imagens e vídeo, demonstrando um desempenho líder em avaliações abrangentes como o MMMU e benchmarks de matemática visual (por exemplo, MathVista e MathVision). A nível arquitetónico, introduzimos três melhorias-chave: (i) um *interleaved-MRoPE* melhorado para uma modelação espaço-temporal mais forte em imagens e vídeo; (ii) a integração *DeepStack*, que aproveita eficazmente características ViT multi-nível para apertar o alinhamento visão-linguagem; e (iii) o alinhamento temporal baseado em texto para vídeo, evoluindo do T-RoPE para um alinhamento explícito de *timestamps* textuais para uma fundamentação temporal mais precisa. Sob orçamentos de *tokens* e restrições de latência comparáveis, o Qwen3-VL alcança um desempenho superior tanto em arquiteturas densas como em Mistura de Especialistas (MoE). Vislumbramos o Qwen3-VL a servir como um motor fundamental para o raciocínio baseado em imagens, a tomada de decisão autónoma e a inteligência de código multimodal em fluxos de trabalho do mundo real.

PretrainZero: Pré-treinamento Ativo por Reforço
PretrainZero: Reinforcement Active Pretraining

Dec 3

ByXingrun Xing, Zhiyuan Fan, Jie Lou, Guoqi Li, Jiajun Zhang, Debing Zhang

Imitar o comportamento humano para aprender ativamente a partir da experiência geral e alcançar a inteligência artificial geral sempre foi um sonho da humanidade. Modelos de pensamento em larga escala baseados em aprendizagem por reforço (RL) recentes demonstram capacidades impressionantes de nível especialista, por exemplo, em software e matemática, mas ainda dependem fortemente de recompensas verificáveis em domínios específicos, criando um gargalo significativo para estender a fronteira de desempenho das capacidades de raciocínio geral. Neste trabalho, propomos o PretrainZero, uma estrutura de aprendizagem ativa por reforço construída sobre o corpus de pré-treinamento para estender a RL do pós-treinamento específico de domínio para o pré-treinamento geral. O PretrainZero apresenta as seguintes características: 1) Pré-treinamento ativo: inspirado pela capacidade de aprendizagem ativa dos humanos, o PretrainZero aprende uma política de raciocínio unificada para identificar ativamente conteúdos razoáveis e informativos do corpus de pré-treinamento, e raciocina para prever esses conteúdos via RL. 2) Aprendizagem auto-supervisionada: sem quaisquer rótulos verificáveis, modelos de recompensa pré-treinados ou ajuste fino supervisionado, pré-treinamos diretamente os sistemas de raciocínio a partir de modelos base de 3 a 30B no corpus geral da Wikipedia usando RL, quebrando significativamente a barreira de dados de verificação para o raciocínio geral. 3) Escalonamento de verificação: ao enfrentar *spans* mascarados progressivamente mais desafiadores, o PretrainZero aumenta substancialmente as capacidades de raciocínio geral dos modelos base pré-treinados. No pré-treinamento por reforço, o PretrainZero melhora o Qwen3-4B-Base em 8,43, 5,96 e 10,60 nos benchmarks MMLU-Pro, SuperGPQA e média de matemática, respectivamente. No pós-treinamento, os modelos pré-treinados também podem servir como modelos base de raciocínio para tarefas downstream de RLVR.

Direcionando Modelos Visão-Linguagem-Ação como Anti-Exploração: Uma Abordagem de Escalonamento em Tempo de Teste
Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach

Dec 2

BySiyuan Yang, Yang Zhang, Haoran He, Ling Pan, Xiu Li, Chenjia Bai, Xuelong Li

Os modelos Visão-Linguagem-Ação (VLA), treinados através de objetivos de correspondência de fluxo (flow-matching) ou difusão, destacam-se na aprendizagem de comportamentos complexos a partir de conjuntos de dados multimodais de grande escala (ex.: teleoperação humana, políticas scriptadas). No entanto, como os VLAs incorporam diversos modos de dados na fase de pré-treinamento, e o conjunto de dados de afinação (finetuning) frequentemente contém dados de demonstração coletados de forma cinematicamente subótima ou indesejável, existem modos de ação redundantes que são irrelevantes para os modos de ação de sucesso da tarefa específica (downstream task). Especificamente, observamos uma fragilidade crítica durante a inferência entre vários ruídos amostrados após a afinação supervisionada de VLAs pré-treinados. Neste artigo, atribuímos esta instabilidade à mudança de distribuição (distribution shift) entre a política do VLA e a política induzida pelos modos estáveis de sucesso do conjunto de dados da tarefa específica. Assim, propomos o TACO, uma estrutura de escalonamento no tempo de teste (test-time-scaling - TTS) que aplica um estimador leve de pseudo-contagem (pseudo-count) como um verificador de alta fidelidade de blocos de ação (action chunks). Os modelos VLA integrados com o TACO podem executar as ações com a pseudo-contagem máxima a partir de todos os blocos de ação amostrados, prevenindo assim mudanças de distribuição enquanto preservam a capacidade de generalização dos VLAs, uma vez que a restrição é aplicada apenas durante a inferência. O nosso método assemelha-se ao princípio clássico anti-exploração (anti-exploration) na aprendizagem por reforço offline (offline RL) e, por ser livre de gradientes (gradient-free), oferece benefícios computacionais significativos em comparação com uma atualização por RL, especialmente para VLAs baseados em fluxo ou difusão, nos quais é difícil realizar atualizações por RL devido ao processo de remoção de ruído (denoising). Experimentos extensivos em quatro benchmarks de simulação (RoboTwin2.0, Robotwin, LIBERO, SimplerEnv) e numa plataforma de dois braços robóticos demonstram que o nosso método melhora significativamente a estabilidade da inferência e as taxas de sucesso nas adaptações a tarefas específicas.

OneThinker: Modelo de Raciocínio Multifuncional para Imagem e Vídeo
OneThinker: All-in-one Reasoning Model for Image and Video

Dec 2

ByKaituo Feng, Manyuan Zhang, Hongyu Li, Kaixuan Fan, Shuang Chen, Yilei Jiang, Dian Zheng, Peiwen Sun, Yiyuan Zhang, Haoze Sun, Yan Feng, Peng Pei, Xunliang Cai, Xiangyu Yue

O aprendizado por reforço (RL) tem alcançado recentemente sucesso notável em eliciar raciocínio visual em Modelos de Linguagem Multimodais de Grande Escala (MLLMs). No entanto, as abordagens existentes normalmente treinam modelos separados para diferentes tarefas e tratam o raciocínio em imagens e vídeos como domínios distintos. Isso resulta em escalabilidade limitada para um generalista de raciocínio multimodal, o que restringe a versatilidade prática e dificulta o potencial compartilhamento de conhecimento entre tarefas e modalidades. Para esse fim, propomos o OneThinker, um modelo de raciocínio all-in-one que unifica a compreensão de imagens e vídeos em diversas tarefas visuais fundamentais, incluindo resposta a perguntas, legendagem, localização espacial e temporal, rastreamento e segmentação. Para alcançar isso, construímos o corpus de treinamento OneThinker-600k cobrindo todas essas tarefas e empregamos modelos comerciais para anotação de Cadeia de Pensamento (CoT), resultando no OneThinker-SFT-340k para o *cold start* de SFT. Adicionalmente, propomos o EMA-GRPO para lidar com a heterogeneidade de recompensas no RL multitarefa, rastreando médias móveis por tarefa dos desvios padrão das recompensas para uma otimização balanceada. Experimentos extensos em diversos *benchmarks* visuais mostram que o OneThinker oferece um desempenho sólido em 31 *benchmarks*, abrangendo 10 tarefas fundamentais de compreensão visual. Além disso, exibe transferência efetiva de conhecimento entre certas tarefas e uma capacidade preliminar de generalização *zero-shot*, representando um passo em direção a um generalista unificado de raciocínio multimodal. Todo o código, modelo e dados são disponibilizados.

ViDiC: Legendagem de Diferenças em Vídeo
ViDiC: Video Difference Captioning

Dec 3

ByJiangtao Wu, Shihao Li, Zhaozhou Bian, Yuanxing Zhang, Jialu Chen, Runzhe Wen, An Ping, Yiwen He, Jiakai Wang, Jiaheng Liu

Compreender as diferenças visuais entre cenas dinâmicas requer a percepção comparativa de alterações composicionais, espaciais e temporais – uma capacidade que permanece pouco explorada nos sistemas existentes de visão e linguagem. Embora trabalhos anteriores sobre Descrição de Diferenças em Imagens (IDC) tenham permitido que modelos descrevam mudanças semânticas entre imagens estáticas, essas abordagens não conseguem capturar a continuidade do movimento, a evolução de eventos ou a consistência de edição ao longo do tempo. Apresentamos a tarefa ViDiC (Descrição de Diferenças em Vídeo) e seu conjunto de dados correspondente, ViDiC-1K, projetado para avaliar a capacidade dos Modelos de Linguagem Multimodal de Grande Escala (MLLMs) de fornecer descrições refinadas de similaridades e diferenças entre pares de vídeos. O ViDiC-1K compreende 1.000 pares de vídeos selecionados e anotados com mais de 4.000 itens de lista de verificação comparativa, abrangendo sete categorias: sujeito, estilo, plano de fundo, cinematografia, movimento, localização e técnicas de reprodução. Para garantir uma avaliação confiável, propomos uma estrutura de lista de verificação dupla que mede a precisão de similaridade e diferença separadamente, com base no protocolo LLM-como-Juiz. Experimentos em dezenove modelos multimodais representativos revelam uma lacuna significativa de desempenho em suas habilidades de descrição comparativa e percepção de diferenças. Esperamos que o ViDiC-1K possa ser um benchmark desafiador que estabeleça uma base sólida para o avanço da compreensão de vídeo, consciência de edição e raciocínio comparativo na inteligência multimodal.

SpaceTools: Raciocínio Espacial Aumentado por Ferramentas via RL Interativo Duplo
SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL

Dec 3

BySiyi Chen, Mikaela Angelina Uy, Chan Hee Song, Faisal Ladhak, Adithyavairavan Murali, Qing Qu, Stan Birchfield, Valts Blukis, Jonathan Tremblay

Os Modelos de Linguagem Visual (VLMs) demonstram forte compreensão visual qualitativa, mas lutam com o raciocínio espacial metricamente preciso necessário para aplicações corporificadas. O paradigma de agência promete que os VLMs podem usar uma ampla variedade de ferramentas que poderiam aumentar essas capacidades, como estimadores de profundidade, modelos de segmentação e estimadores de pose. No entanto, continua sendo um desafio em aberto como realizar essa visão sem depender exclusivamente de estratégias de *prompting* manuais ou impor *pipelines* de ferramentas fixas e predefinidas que limitam a capacidade dos VLMs de descobrir padrões ótimos de uso de ferramentas. O Aprendizado por Reforço poderia superar essa lacuna, mas até agora tem sido limitado ao raciocínio com uma única ferramenta visual devido ao grande espaço de busca no raciocínio com múltiplas ferramentas. Apresentamos o Aprendizado por Reforço Duplamente Interativo (DIRL), uma estrutura de treinamento em duas fases onde os VLMs aprendem a coordenar múltiplas ferramentas por meio de exploração e *feedback* interativos. Na fase de ensino, combinamos demonstrações de um especialista em ferramenta únicas treinado via RL interativo com rastros de um modelo de fronteira usando todas as ferramentas. Na fase de exploração, o modelo refina ainda mais a coordenação de múltiplas ferramentas através de RL contínuo. Nosso modelo, SpaceTools, com capacidade de raciocínio espacial aumentada por ferramentas, alcança desempenho de ponta em benchmarks de compreensão espacial (RoboSpatial-Home, BLINK, BOP-ASK) e demonstra manipulação confiável no mundo real usando um robô de 7 graus de liberdade como ferramenta. O DIRL fornece melhorias substanciais em relação às linhas de base de SFT padrão (+12% no RoboSpatial) e RL (+16% no RoboSpatial). Página do projeto: https://spacetools.github.io/.

RELIC: Modelo de Mundo de Vídeo Interativo com Memória de Longo Prazo
RELIC: Interactive Video World Model with Long-Horizon Memory

Dec 3

ByYicong Hong, Yiqun Mei, Chongjian Ge, Yiran Xu, Yang Zhou, Sai Bi, Yannick Hold-Geoffroy, Mike Roberts, Matthew Fisher, Eli Shechtman, Kalyan Sunkavalli, Feng Liu, Zhengqi Li, Hao Tan

Um modelo de mundo verdadeiramente interativo requer três ingredientes-chave: transmissão contínua de longo prazo em tempo real, memória espacial consistente e controlo preciso do utilizador. No entanto, a maioria das abordagens existentes aborda apenas um destes aspetos de forma isolada, uma vez que alcançar os três simultaneamente é altamente desafiador – por exemplo, os mecanismos de memória de longo prazo frequentemente degradam o desempenho em tempo real. Neste trabalho, apresentamos o RELIC, uma estrutura unificada que aborda estes três desafios em conjunto. Dada uma única imagem e uma descrição textual, o RELIC permite a exploração com consciência da memória e de longa duração de cenas arbitrárias em tempo real. Construído sobre técnicas recentes de destilação de difusão de vídeo autoregressiva, o nosso modelo representa a memória de longo prazo utilizando *tokens* latentes históricos altamente comprimidos, codificados com ações relativas e poses de câmera absolutas dentro da cache KV. Esta estrutura de memória compacta e consciente da câmera suporta a recuperação implícita de conteúdo 3D consistente e impõe coerência a longo prazo com sobrecarga computacional mínima. Em paralelo, afinamos um modelo de vídeo professor bidirecional para gerar sequências além do seu horizonte de treino original de 5 segundos, e transformamo-lo num gerador estudante causal usando um novo paradigma de *self-forcing* eficiente em memória que permite a destilação de contexto completo sobre execuções longas do professor, bem como auto-gerações longas do estudante. Implementado como um modelo de 14B de parâmetros e treinado num conjunto de dados curado renderizado com Unreal Engine, o RELIC alcança geração em tempo real a 16 FPS, demonstrando, em comparação com trabalhos anteriores, um seguimento de ação mais preciso, uma transmissão contínua de longo prazo mais estável e uma recuperação de memória espacial mais robusta. Estas capacidades estabelecem o RELIC como uma base sólida para a próxima geração de modelação interativa do mundo.

Repensando o Design de Prompts para a Escalabilidade em Tempo de Inferência na Geração Texto-Visual
Rethinking Prompt Design for Inference-time Scaling in Text-to-Visual Generation

Dec 3

BySubin Kim, Sangwoo Mo, Mamshad Nayeem Rizve, Yiran Xu, Difan Liu, Jinwoo Shin, Tobias Hinz

A obtenção de um alinhamento preciso entre a intenção do utilizador e os visuais gerados continua a ser um desafio central na geração de texto para visual, uma vez que uma única tentativa frequentemente falha em produzir o resultado desejado. Para lidar com isto, as abordagens anteriores escalonam principalmente o processo de geração visual (por exemplo, aumentando os passos de amostragem ou as sementes), mas isso rapidamente leva a um platô de qualidade. Esta limitação surge porque o *prompt*, crucial para orientar a geração, é mantido fixo. Para resolver isto, propomos o Redesenho de *Prompt* para Escalonamento no Momento da Inferência, denominado PRIS, um quadro que revê adaptativamente o *prompt* durante a inferência em resposta aos visuais gerados em escala. A ideia central do PRIS é rever os visuais gerados, identificar padrões de falha recorrentes entre os visuais e redesenhar o *prompt* em conformidade antes de regenerar os visuais com o *prompt* revisto. Para fornecer um *feedback* de alinhamento preciso para a revisão do *prompt*, introduzimos um novo verificador, a correção factual a nível de elemento, que avalia o alinhamento entre os atributos do *prompt* e os visuais gerados a um nível granular, alcançando avaliações mais precisas e interpretáveis do que as medidas holísticas. Experiências extensas em benchmarks de texto para imagem e texto para vídeo demonstram a eficácia da nossa abordagem, incluindo um ganho de 15% no VBench 2.0. Estes resultados destacam que escalonar conjuntamente os *prompts* e os visuais é a chave para aproveitar totalmente as leis de escalonamento no momento da inferência. As visualizações estão disponíveis no site: https://subin-kim-cv.github.io/PRIS.

Pensando com a Visão da Programação: Rumo a uma Visão Unificada para o Pensamento com Imagens
Thinking with Programming Vision: Towards a Unified View for Thinking with Images

Dec 3

ByZirun Guo, Minjie Hong, Feng Zhang, Kai Jia, Tao Jin

Os modelos de linguagem multimodal (MLLMs) que pensam com imagens podem usar ferramentas interativamente para raciocinar sobre entradas visuais, mas as abordagens atuais frequentemente dependem de um conjunto limitado de ferramentas com pouca necessidade prática e escalabilidade limitada. Neste trabalho, primeiro revelamos uma fragilidade crítica e previamente negligenciada: mesmo os MLLMs mais avançados são surpreendentemente frágeis, apresentando degradação significativa de desempenho em imagens com simples alterações de orientação ou corrupções naturais, destacando a necessidade de um raciocínio baseado em ferramentas mais robusto. Para resolver isso, propomos o CodeVision, uma estrutura flexível e escalável de código-como-ferramenta onde o modelo gera código como interface universal para invocar qualquer operação de imagem, indo além de registros fixos de ferramentas. Treinamos nosso modelo usando uma metodologia de dois estágios, começando com Ajuste Fino Supervisionado (SFT) em um conjunto de dados de alta qualidade curado para composição complexa de ferramentas em múltiplas etapas e recuperação de erros, seguido por Aprendizado por Reforço (RL) com uma nova e densa função de recompensa de processo para incentivar o uso estratégico e eficiente de ferramentas. Para facilitar esta pesquisa, construímos novos conjuntos de dados SFT e RL e introduzimos uma nova suíte de benchmark desafiadora projetada para avaliar rigorosamente a robustez a mudanças de orientação e o raciocínio com múltiplas ferramentas. Experimentos nas séries Qwen2.5-VL e Qwen3-VL mostram que nossa abordagem melhora significativamente o desempenho do modelo e promove capacidades emergentes como composição flexível de ferramentas, execução encadeada eficiente e recuperação robusta de erros a partir de feedback em tempo de execução. O código está disponível em https://github.com/ByteDance-BandAI/CodeVision.

Jina-VLM: Um Pequeno Modelo de Visão e Linguagem Multilíngue
Jina-VLM: Small Multilingual Vision Language Model

Dec 3

ByAndreas Koukounas, Georgios Mastrapas, Florian Hönicke, Sedigheh Eslami, Guillaume Roncari, Scott Martens, Han Xiao

Apresentamos o Jina-VLM, um modelo de visão e linguagem com 2,4 mil milhões de parâmetros que atinge o estado da arte em tarefas multilingues de resposta a perguntas visuais entre os VLMs abertos de escala comparável (2B). O modelo acopla um codificador visual SigLIP2 a uma espinha dorsal linguística Qwen3 através de um conector de *pooling* por atenção que permite o processamento eficiente de tokens em imagens de resolução arbitrária. Em *benchmarks* padrão de VQA e avaliações multilingues, o Jina-VLM supera modelos comparáveis, mantendo simultaneamente um desempenho competitivo em tarefas exclusivamente textuais.

PosterCopilot: Rumo ao Raciocínio de Layout e Edição Controlável para Design Gráfico Profissional
PosterCopilot: Toward Layout Reasoning and Controllable Editing for Professional Graphic Design

Dec 3

ByJiazhe Wei, Ken Li, Tianyu Lao, Haofan Wang, Liang Wang, Caifeng Shan, Chenyang Si

O design gráfico constitui a base da comunicação visual moderna, servindo como um meio vital para a promoção de eventos culturais e comerciais. Avanços recentes têm explorado a automação deste processo usando Modelos Multimodais de Grande Escala (LMMs), contudo, os métodos existentes frequentemente produzem layouts geometricamente imprecisos e carecem da capacidade de edição iterativa e específica por camada necessária em fluxos de trabalho profissionais. Para superar estas limitações, apresentamos o PosterCopilot, uma estrutura que avança o raciocínio de layout e a edição controlável para o design gráfico profissional. Especificamente, introduzimos uma estratégia de treinamento progressiva em três etapas que capacita os LMMs com compreensão geométrica e raciocínio estético para o design de layout, consistindo em: Ajuste Fino Supervisionado com Perturbação, Aprendizagem por Reforço para Alinhamento com a Realidade Visual e Aprendizagem por Reforço a partir de *Feedback* Estético. Adicionalmente, desenvolvemos um fluxo de trabalho completo que acopla o modelo de design baseado em LMM treinado com modelos generativos, permitindo uma edição iterativa e controlável por camada para o refinamento preciso de elementos, mantendo ao mesmo tempo a consistência visual global. Experimentos extensivos demonstram que o PosterCopilot alcança layouts geometricamente precisos e esteticamente superiores, oferecendo uma controlabilidade sem precedentes para o design iterativo profissional.

CookAnything: Uma Estrutura para Geração Flexível e Consistente de Imagens de Receitas em Múltiplas Etapas
CookAnything: A Framework for Flexible and Consistent Multi-Step Recipe Image Generation

Dec 3

ByRuoxuan Zhang, Bin Wen, Hongxia Xie, Yi Yao, Songhan Zuo, Jian-Yu Jiang-Lin, Hong-Han Shuai, Wen-Huang Cheng

A culinária é uma atividade sequencial e visualmente fundamentada, na qual cada etapa, como cortar, misturar ou fritar, carrega tanto uma lógica processual quanto semântica visual. Embora os modelos de difusão recentes tenham demonstrado fortes capacidades na geração de imagens a partir de texto, eles lutam para lidar com cenários estruturados de múltiplas etapas, como a ilustração de receitas. Além disso, os métodos atuais de ilustração de receitas são incapazes de se adaptar à variabilidade natural no comprimento das receitas, gerando um número fixo de imagens independentemente da estrutura real das instruções. Para superar essas limitações, apresentamos o CookAnything, uma estrutura flexível e consistente baseada em difusão que gera sequências de imagens coerentes e semanticamente distintas a partir de instruções culinárias textuais de comprimento arbitrário. A estrutura introduz três componentes principais: (1) o Controle Regional por Etapa (SRC), que alinha as etapas textuais com as regiões correspondentes da imagem dentro de um único processo de eliminação de ruído; (2) o RoPE Flexível, um mecanismo de codificação posicional consciente da etapa que melhora tanto a coerência temporal quanto a diversidade espacial; e (3) o Controle de Consistência Transetapas (CSCC), que mantém a consistência de ingredientes em nível granular entre as etapas. Resultados experimentais em benchmarks de ilustração de receitas mostram que o CookAnything tem um desempenho superior aos métodos existentes em configurações com e sem treinamento. A estrutura proposta suporta a síntese visual escalável e de alta qualidade de instruções complexas de múltiplas etapas e possui um potencial significativo para amplas aplicações em mídia instrucional e criação de conteúdo processual.

Fluxo Reverso: Melhorando Fluxos de Normalização via Alinhamento de Representação Inversa
Flowing Backwards: Improving Normalizing Flows via Reverse Representation Alignment

Nov 27

ByYang Chen, Xiaowei Xu, Shuai Wang, Chenhui Zhu, Ruxue Wen, Xubin Li, Tiezheng Ge, Limin Wang

Os Fluxos Normalizadores (NFs) são uma classe de modelos generativos distinguidos por uma arquitetura matematicamente invertível, na qual a passagem direta transforma dados em um espaço latente para estimativa de densidade, e a passagem reversa gera novas amostras a partir deste espaço. Esta característica cria uma sinergia intrínseca entre a aprendizagem de representação e a geração de dados. No entanto, a qualidade generativa dos NFs padrão é limitada por representações semânticas inadequadas provenientes da otimização de verossimilhança. Para remediar isso, propomos uma nova estratégia de alinhamento que aproveita criativamente a invertibilidade dos NFs: em vez de regularizar a passagem direta, alinhamos as características intermediárias da passagem generativa (reversa) com representações de um modelo de base de visão poderoso, demonstrando uma eficácia superior em comparação com o alinhamento ingênuo. Também introduzimos um novo algoritmo de otimização para classificação, livre de treinamento e aplicado durante o teste, que fornece uma avaliação mais intrínseca do conhecimento semântico incorporado no NF. Experimentos abrangentes demonstram que nossa abordagem acelera o treinamento dos NFs em mais de 3,3 vezes, ao mesmo tempo que proporciona melhorias significativas tanto na qualidade generativa quanto na precisão da classificação. Novos resultados state-of-the-art para NFs foram estabelecidos no ImageNet 64x64 e 256x256. Nosso código está disponível em https://github.com/MCG-NJU/FlowBack.

Light-X: Renderização Generativa de Vídeo 4D com Controle de Câmera e Iluminação
Light-X: Generative 4D Video Rendering with Camera and Illumination Control

Dec 4

ByTianqi Liu, Zhaoxi Chen, Zihao Huang, Shaocong Xu, Saining Zhang, Chongjie Ye, Bohan Li, Zhiguo Cao, Wei Li, Hao Zhao, Ziwei Liu

Os recentes avanços no controle de iluminação estendem os métodos baseados em imagem para vídeo, mas ainda enfrentam um compromisso entre fidelidade de iluminação e consistência temporal. Indo além da rerrenderização com nova iluminação, um passo fundamental para a modelagem generativa de cenas do mundo real é o controle conjunto da trajetória da câmara e da iluminação, uma vez que a dinâmica visual é inerentemente moldada tanto pela geometria quanto pela iluminação. Para esse fim, apresentamos o Light-X, uma estrutura de geração de vídeo que permite renderização controlada a partir de vídeos monoculares com controle simultâneo de ponto de vista e iluminação. 1) Propomos um design desacoplado que separa os sinais de geometria e iluminação: a geometria e o movimento são capturados através de nuvens de pontos dinâmicas projetadas ao longo de trajetórias de câmara definidas pelo utilizador, enquanto os indícios de iluminação são fornecidos por um fotograma rerrenderizado com nova iluminação, projetado de forma consistente na mesma geometria. Estas pistas explícitas e de granularidade fina permitem um desacoplamento eficaz e orientam uma iluminação de alta qualidade. 2) Para colmatar a falta de vídeos emparelhados com múltiplas vistas e múltiplas iluminações, introduzimos o Light-Syn, um *pipeline* baseado em degradação com mapeamento inverso que sintetiza pares de treino a partir de filmagens monoculares do mundo real. Esta estratégia produz um conjunto de dados que abrange cenas estáticas, dinâmicas e geradas por IA, garantindo um treino robusto. Experiências extensivas mostram que o Light-X supera os métodos de base no controlo conjunto câmara-iluminação e ultrapassa os métodos anteriores de rerrenderização de vídeo com nova iluminação, tanto em configurações condicionadas por texto como por fundo.

SR-GRPO: Classificação Estável como Recompensa Geométrica Intrínseca para o Alinhamento de Modelos de Linguagem de Grande Porte
SR-GRPO: Stable Rank as an Intrinsic Geometric Reward for Large Language Model Alignment

Dec 2

ByYixuan Tang, Yi Yang

O alinhamento de Grandes Modelos de Linguagem (LLMs) com as preferências humanas geralmente depende de supervisão externa, que enfrenta limitações críticas: anotações humanas são escassas e subjetivas, modelos de recompensa são vulneráveis a manipulação de recompensas, e métodos de autoavaliação sofrem com sensibilidade a prompts e vieses. Neste trabalho, propomos o posto estável, um sinal de qualidade intrínseco e livre de anotações derivado das representações do modelo. O posto estável mede a dimensionalidade efetiva dos estados ocultos calculando a razão entre a variância total e a variância da direção dominante, capturando a qualidade através da forma como a informação se distribui pelas dimensões da representação. Empiricamente, o posto estável alcança 84,04% de precisão no RewardBench e melhora a precisão da tarefa em média 11,3 pontos percentuais sobre a decodificação gulosa via amostragem Best-of-N. Aproveitando essa percepção, introduzimos a Otimização de Política Relativa de Grupo por Posto Estável (SR-GRPO), que usa o posto estável como sinal de recompensa para aprendizado por reforço. Sem supervisão externa, o SR-GRPO melhora o Qwen2.5-1.5B-Instruct em 10% em STEM e 19% em raciocínio matemático, superando tanto modelos de recompensa aprendidos quanto baselines de autoavaliação. Nossos achados demonstram que sinais de qualidade podem ser extraídos da geometria interna do modelo, oferecendo um caminho para o alinhamento escalável sem supervisão externa.

Economias da Inteligência Aberta: Rastreando Poder e Participação no Ecossistema de Modelos
Economies of Open Intelligence: Tracing Power & Participation in the Model Ecosystem

Nov 27

ByShayne Longpre, Christopher Akiki, Campbell Lund, Atharva Kulkarni, Emily Chen, Irene Solaiman, Avijit Ghosh, Yacine Jernite, Lucie-Aimée Kaffee

Desde 2019, o Hugging Face Model Hub tem sido a principal plataforma global para compartilhar modelos de IA de pesos abertos. Ao disponibilizar um conjunto de dados do histórico completo de downloads semanais de modelos (junho de 2020 a agosto de 2025), juntamente com metadados dos modelos, fornecemos a análise mais rigorosa já realizada sobre a dinâmica de concentração e as características em evolução na economia de modelos abertos. Nossa análise abrange 851.000 modelos, mais de 200 atributos agregados por modelo e 2,2 mil milhões de downloads. Documentamos um reequilíbrio fundamental do poder económico: o domínio da indústria norte-americana de pesos abertos por Google, Meta e OpenAI declinou acentuadamente a favor de desenvolvedores independentes, organizações comunitárias e, a partir de 2025, da indústria chinesa, com os modelos DeepSeek e Qwen a potencialmente anunciarem uma nova consolidação do poder de mercado. Identificamos mudanças estatisticamente significativas nas propriedades dos modelos, um aumento de 17 vezes no tamanho médio dos modelos, crescimento rápido na geração multimodal (3,4 vezes), quantização (5 vezes) e arquiteturas mixture-of-experts (7 vezes), juntamente com quedas preocupantes na transparência dos dados, com modelos de pesos abertos a superarem modelos verdadeiramente de código aberto pela primeira vez em 2025. Expomos uma nova camada de intermediários de desenvolvimento que surgiu, focada em quantizar e adaptar modelos base para eficiência e expressão artística. Para permitir a continuação da pesquisa e supervisão, disponibilizamos o conjunto de dados completo com um painel interativo para monitorização em tempo real da dinâmica de concentração e das propriedades em evolução na economia de modelos abertos.

AutoNeural: Co-Design de Modelos Visão-Linguagem para Inferência em NPU
AutoNeural: Co-Designing Vision-Language Models for NPU Inference

Dec 2

ByWei Chen, Liangmin Wu, Yunhai Hu, Zhiyuan Li, Zhiyuan Cheng, Yicheng Qian, Lingyue Zhu, Zhipeng Hu, Luoyi Liang, Qiang Tang, Zhen Liu, Han Yang

Embora as Unidades de Processamento Neural (NPUs) ofereçam alta eficiência teórica para IA de borda, os modelos visão-linguagem (VLMs) de última geração projetados para GPUs frequentemente apresentam desempenho insatisfatório nesses substratos. Atribuímos esse descompasso entre hardware e modelo a dois fatores principais: a fragilidade à quantização dos Vision Transformers (ViTs) e a natureza limitada por E/S dos mecanismos de atenção autoregressivos, que falham em utilizar o alto rendimento aritmético das NPUs. Para preencher esta lacuna, propomos o AutoNeural, uma arquitetura VLM nativa para NPUs codesenhada para inferência exclusivamente com inteiros. Substituímos o codificador ViT padrão por uma base baseada no estilo MobileNetV5 que utiliza convoluções separáveis em profundidade, garantindo distribuições de ativação limitadas para uma quantização INT4/8/16 estável. Complementando isso, nossa base linguística integra princípios de Modelos de Espaço de Estados (SSMs) com camadas de Transformer, empregando convoluciones com portas eficientes para alcançar complexidade de tempo linear. Este projeto híbrido elimina a pesada sobrecarga de E/S de memória do cache de Chave-Valor durante a geração. Nossa abordagem proporciona ganhos substanciais de eficiência, reduzindo o erro de quantização do codificador de visão em até 7x e a latência ponta a ponta em 14x em comparação com as linhas de base convencionais. O AutoNeural também oferece uma velocidade de decodificação 3x maior e uma janela de contexto 4x mais longa do que a linha de base. Validamos essas melhorias por meio de um estudo de caso automotivo do mundo real no SoC Qualcomm SA8295P, demonstrando desempenho em tempo real para aplicações de cockpit. Nossos resultados destacam que repensar a topologia do modelo especificamente para as restrições das NPUs é um pré-requisito para uma inteligência multimodal de borda robusta.

AlignBench: Avaliação do Alinhamento Fino entre Imagem e Texto com Pares Sintéticos de Imagem-Legenda
AlignBench: Benchmarking Fine-Grained Image-Text Alignment with Synthetic Image-Caption Pairs

Nov 25

ByKuniaki Saito, Risa Shinoda, Shohei Tanaka, Tosho Hirasawa, Fumio Okura, Yoshitaka Ushiku

Avaliar modelos de alinhamento imagem-texto como o CLIP é crucial para unir representações visuais e linguísticas. No entanto, os benchmarks existentes dependem de perturbações baseadas em regras ou legendas curtas, limitando sua capacidade de medir o alinhamento em nível granular. Apresentamos o AlignBench, um benchmark que fornece um novo indicador de alinhamento imagem-texto ao avaliar pares detalhados de imagem-legenda gerados por diversos modelos de imagem-para-texto e texto-para-imagem. Cada frase é anotada quanto à sua correção, permitindo a avaliação direta de Modelos de Linguagem Visual (VLMs) como avaliadores de alinhamento. O benchmarking de uma ampla gama de VLMs baseados em decodificador revela três descobertas principais: (i) modelos baseados no CLIP, mesmo aqueles adaptados para raciocínio composicional, permanecem praticamente cegos; (ii) detectores superavaliam sistematicamente as frases iniciais; e (iii) eles mostram uma forte autopreferência, favorecendo suas próprias saídas e prejudicando o desempenho da detecção. Nossa página do projeto estará disponível em https://dahlian00.github.io/AlignBench/.

BlurDM: Um Modelo de Difusão de Desfoque para Remoção de Desfoque em Imagens
BlurDM: A Blur Diffusion Model for Image Deblurring

Dec 3

ByJin-Ting He, Fu-Jen Tsai, Yan-Tsung Peng, Min-Hung Chen, Chia-Wen Lin, Yen-Yu Lin

Os modelos de difusão mostram potencial para a remoção de desfoque em cenas dinâmicas; no entanto, estudos existentes frequentemente não conseguem aproveitar a natureza intrínseca do processo de desfoque dentro dos modelos de difusão, limitando seu potencial total. Para resolver isso, apresentamos um Modelo de Difusão de Desfoque (BlurDM), que integra perfeitamente o processo de formação do desfoque na difusão para remoção de desfoque em imagens. Observando que o desfoque de movimento decorre da exposição contínua, o BlurDM modela implicitamente o processo de formação do desfoque por meio de um esquema direto de dupla difusão, difundindo tanto ruído quanto desfoque sobre uma imagem nítida. Durante o processo reverso de geração, derivamos uma formulação de dupla remoção de ruído e desfoque, permitindo que o BlurDM recupere a imagem nítida removendo simultaneamente ruído e desfoque, dado ruído gaussiano puro condicionado na imagem desfocada como entrada. Adicionalmente, para integrar eficientemente o BlurDM em redes de remoção de desfoque, executamos o BlurDM no espaço latente, formando uma rede de geração de prior flexível para remoção de desfoque. Experimentos extensivos demonstram que o BlurDM melhora significativa e consistentemente os métodos existentes de remoção de desfoque em quatro conjuntos de dados de referência. O código-fonte está disponível em https://github.com/Jin-Ting-He/BlurDM.

SkillFactory: Auto-Distilação para Aprendizagem de Comportamentos Cognitivos
SkillFactory: Self-Distillation For Learning Cognitive Behaviors

Dec 3

ByZayne Sprague, Jack Lu, Manya Wadhwa, Sedrick Keh, Mengye Ren, Greg Durrett

Os modelos de raciocínio que utilizam longas cadeias de pensamento empregam diversas habilidades cognitivas, como verificação de respostas, retrocesso, tentativa por métodos alternativos, entre outras. Trabalhos anteriores demonstraram que, quando um modelo de linguagem base exibe essas habilidades, o treinamento adicional desse modelo com aprendizagem por reforço (RL) pode aprender a utilizá-las. Como podemos fazer com que os modelos aproveitem habilidades não apresentadas pelos modelos base? Nosso trabalho, SkillFactory, é um método para ajustar modelos a fim de aprender aproximadamente essas habilidades durante uma fase de ajuste fino supervisionado (SFT) anterior ao RL. Nossa abordagem não depende da destilação de um modelo mais forte, mas utiliza amostras do próprio modelo, reorganizadas para fornecer dados de treinamento no formato dessas habilidades. Esses traços de SFT "prateados" podem ser imperfeitos, mas são eficazes para preparar um modelo a adquirir habilidades durante o RL. Nossa avaliação mostra que (1) iniciar a partir da inicialização SFT do SkillFactory ajuda o modelo a generalizar para variantes mais difíceis de uma tarefa após o RL, apesar do desempenho inferior pré-RL; (2) as habilidades cognitivas são de fato utilizadas pelo modelo; (3) os modelos SkillFactory com RL são mais robustos contra regressão em tarefas fora do domínio do que os modelos base com RL. Nosso trabalho sugere que vieses indutivos aprendidos antes do RL ajudam os modelos a aprender um uso robusto de habilidades cognitivas.

AdaptVision: Modelos Eficientes de Visão e Linguagem por meio de Aquisição Visual Adaptativa
AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition

Dec 3

ByZichuan Lin, Yicheng Liu, Yang Yang, Lvfang Tao, Deheng Ye

Os Modelos de Visão e Linguagem (VLMs) alcançaram sucesso notável em tarefas de resposta a perguntas visuais, mas sua dependência de um grande número de tokens visuais introduz sobrecarga computacional significativa. Embora as abordagens eficientes de VLMs existentes reduzam os tokens visuais por meio de compressão de taxa fixa, elas operam passivamente e carecem da capacidade de se adaptar a diferentes requisitos de tarefas. Isso motiva uma questão fundamental: Os VLMs podem determinar autonomamente o número mínimo de tokens visuais necessários para cada amostra? Inspirados pelos mecanismos humanos de visão ativa, introduzimos o AdaptVision, um paradigma eficiente de VLM que permite a aquisição adaptativa de tokens visuais por meio de uma abordagem coarse-to-fine (do geral para o específico). Nosso modelo processa inicialmente tokens visuais comprimidos de imagens de baixa resolução e adquire seletivamente informações visuais adicionais invocando uma ferramenta de bounding box para recortar regiões-chave quando necessário. Treinamos o AdaptVision usando uma estrutura de aprendizado por reforço que equilibra cuidadosamente precisão e eficiência. Central à nossa abordagem é a Otimização de Política de Turno Desacoplada (DTPO), que desacopla o objetivo de aprendizado em dois componentes: (1) aprendizado de ferramentas, que otimiza a utilização correta de ferramentas, e (2) melhoria de precisão, que refina as respostas geradas para melhorar a correção das respostas. Com base nessa formulação, desacoplamos ainda mais a estimativa de vantagem calculando vantagens separadas para tokens associados a cada objetivo. Essa formulação permite uma otimização mais eficaz para o AdaptVision em comparação com o GRPO padrão. Experimentos abrangentes em vários benchmarks de VQA demonstram que o AdaptVision alcança desempenho superior enquanto consome significativamente menos tokens visuais do que os métodos eficientes de VLM state-of-the-art.

UniQL: Quantização Unificada e Compressão de Baixo Posto para LLMs Adaptativos em Edge
UniQL: Unified Quantization and Low-rank Compression for Adaptive Edge LLMs

Dec 3

ByHung-Yueh Chiang, Chi-Chih Chang, Yu-Chen Lu, Chien-Yu Lin, Kai-Chiang Wu, Mohamed S. Abdelfattah, Diana Marculescu

A implantação de modelos de grandes linguagens (LLM) em plataformas móveis enfrenta desafios significativos devido à memória limitada e aos recursos computacionais partilhados do dispositivo. A disponibilidade de recursos pode ser um problema, uma vez que é diretamente afetada pela carga de trabalho atual do dispositivo, acrescentando incerteza à implantação do modelo. Apresentamos o UniQL, um framework unificado de quantização pós-treinamento e compressão de baixo posto com taxas de poda configuráveis no dispositivo para LLMs de edge. O UniQL é um framework geral que integra quantização e compressão de baixo posto para Transformers, Modelos de Espaço de Estados (SSMs) e modelos híbridos para suportar diversas aplicações de edge. No nosso framework conjunto proposto, introduzimos um método eficiente de ordenação estrutural de pesos que acelera a computação em 20x, uma decomposição em valores singulares (SVD) consciente da quantização para minimizar erros de quantização, uma ordenação de pesos com consciência de estado para SSMs, e um kernel fundido de incorporação posicional rotativa (RoPE) para modelos podados. O nosso framework executa a ordenação de pesos, o ajuste fino e a quantização na cloud num fluxo de trabalho de passagem única, permitindo ao mesmo tempo taxas de poda configuráveis no dispositivo de até 35%. As nossas experiências mostram que os modelos quantizados e podados alcançam uma redução de memória de 4x-5.7x e uma melhoria de produção de tokens de 2.7x-3.4x, mantendo a precisão dentro de 5% dos modelos originais com uma poda de 15% em Transformers (Llama3 e Qwen2.5), SSMs (Mamba2) e modelos híbridos (Nemotron-H e Bamba-v2). O código e os modelos quantizados estão disponíveis em: https://github.com/enyac-group/UniQL.

PSA: Atenção Esparsa em Pirâmide para Compreensão e Geração Eficiente de Vídeos
PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation

Dec 3

ByXiaolong Li, Youping Gu, Xi Lin, Weijie Wang, Bohan Zhuang

Os mecanismos de atenção são o núcleo dos modelos de base, mas sua complexidade quadrática permanece um gargalo crítico para o dimensionamento. Este desafio impulsionou o desenvolvimento de mecanismos de atenção eficientes, com a esparsidade emergindo como o paradigma dominante. Os métodos atuais normalmente retêm ou descartam blocos inteiros de chave-valor com máscaras binárias, resultando em perda substancial de informação sob alta esparsidade. Para mitigar esta lacuna, apresentamos a Atenção Esparsa Piramidal (PSA), um módulo versátil aplicável tanto a tarefas de compreensão quanto de geração de vídeo. Em vez de mascaramento binário, a PSA introduz representações KV com pooling multinível, permitindo uma granularidade de máscara mais refinada. Especificamente, cada bloco de consulta aloca dinamicamente níveis de pooling mais baixos para blocos KV críticos e níveis mais altos para os menos importantes, criando uma interpolação informativa entre a retenção total e a poda completa. Este desenho, análogo à quantização de ponto fixo e às redes de pirâmide de características clássicas na visão computacional, mitiga efetivamente a perda de informação enquanto preserva a eficiência computacional sob um orçamento computacional baixo. Ele funciona com um kernel nativo e compatível com hardware que aproveita um desenho de bloco-ladrilho desacoplado para garantir execução eficiente. Em benchmarks de compreensão e geração de vídeo, a PSA preserva informações contextuais e fidelidade visual, superando consistentemente ou alcançando desempenho comparável às bases de atenção esparsa existentes com trade-offs de eficiência-qualidade superiores. Nosso código e pesos dos modelos estão publicamente disponíveis em: http://ziplab.co/PSA

Hijacking de Representação em Contexto
In-Context Representation Hijacking

Dec 3

ByItay Yona, Amir Sarid, Michael Karasik, Yossi Gandelsman

Apresentamos o Doublespeak, um ataque simples de sequestro de representação contextual contra grandes modelos de linguagem (LLMs). O atua substituindo sistematicamente uma palavra-chave nociva (por exemplo, *bomba*) por um token benigno (por exemplo, *cenoura*) em múltiplos exemplos contextuais, desde que fornecido um prefixo para uma solicitação prejudicial. Demonstramos que esta substituição leva a representação interna do token benigno a convergir para a do token nocivo, incorporando efetivamente a semântica prejudicial sob um eufemismo. Como resultado, instruções superficialmente inócuas (por exemplo, "Como construir uma cenoura?") são interpretadas internamente como instruções proibidas (por exemplo, "Como construir uma bomba?"), contornando assim o alinhamento de segurança do modelo. Utilizamos ferramentas de interpretabilidade para mostrar que esta sobreposição semântica emerge camada por camada, com significados benignos nas camadas iniciais convergindo para semânticas nocivas nas camadas posteriores. O Doublespeak é livre de otimização, amplamente transferível entre famílias de modelos e atinge altas taxas de sucesso em sistemas de código fechado e aberto, alcançando 74% de Taxa de Sucesso de Ataque (ASR) no Llama-3.3-70B-Instruct com uma única sobreposição contextual. Nossas descobertas destacam uma nova superfície de ataque no espaço latente dos LLMs, revelando que as estratégias atuais de alinhamento são insuficientes e deveriam, em vez disso, operar ao nível da representação.

Dividir, depois Fundamentar: Adaptando a Seleção de Quadros aos Tipos de Consulta para a Compreensão de Vídeos de Longa Duração
Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video Understanding

Dec 3

ByJialuo Li, Bin Li, Jiahao Li, Yan Lu

A aplicação de Modelos Multimodais de Grande Porte (LMMs) na compreensão de vídeos de longa duração é limitada pelos contextos de extensão reduzida e pelo custo computacional proibitivo do processamento de *tokens* de vídeo densos. Consequentemente, pesquisas recentes têm-se concentrado na seleção de *frames* consciente da consulta, métodos que frequentemente acarretam uma sobrecarga computacional significativa. Este artigo questiona a premissa de que tais mecanismos complexos de busca são universalmente necessários. Primeiro, identificamos e validamos uma tipologia de consulta que distingue entre consulta global e consulta localizada. Demonstramos que, embora a amostragem uniforme seja eficaz e eficiente para consultas globais, as consultas localizadas de fato exigem seleção consciente da consulta para um desempenho ideal. Com base nessa perceção, propomos o DIG, um *framework* de seleção de *frames* sem necessidade de treino que adapta a sua estratégia consoante o tipo de consulta. Especificamente, o DIG emprega uma amostragem uniforme eficiente para consultas globais, enquanto ativa um *pipeline* especializado para extrair *frames* relevantes para a consulta no caso de consultas localizadas. Experiências realizadas em três *benchmarks* de compreensão de vídeos de longa duração demonstram que o DIG supera consistentemente as *baselines* existentes e melhora robustamente o desempenho dos LMMs, mesmo quando o número de *frames* de entrada é escalado para 256.

Ataque de Confusão Adversarial: Perturbando Modelos de Linguagem Multimodais de Grande Escala
Adversarial Confusion Attack: Disrupting Multimodal Large Language Models

Nov 25

ByJakub Hoscilowicz, Artur Janicki

Apresentamos o Ataque de Confusão Adversarial, uma nova classe de ameaças contra modelos de linguagem multimodal de grande escala (MLLMs). Diferente de jailbreaks ou classificação incorreta direcionada, o objetivo é induzir uma disrupção sistemática que faz o modelo gerar saídas incoerentes ou incorrectas com elevada confiança. As aplicações práticas incluem a incorporação de tais imagens adversariais em websites para impedir que Agentes de IA baseados em MLLMs operem de forma confiável. O ataque proposto maximiza a entropia do próximo token usando um pequeno ensemble de MLLMs de código aberto. No cenário de caixa branca, demonstramos que uma única imagem adversarial pode perturbar todos os modelos do ensemble, tanto na configuração de imagem completa como na de Adversarial CAPTCHA. Apesar de depender de uma técnica adversarial básica (PGD), o ataque gera perturbações que se transferem tanto para modelos de código aberto não vistos (ex: Qwen3-VL) como para modelos proprietários (ex: GPT-5.1).