Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o Qwen3-VL, o modelo de visão e linguagem mais capaz da série Qwen até à data, alcançando um desempenho superior numa vasta gama de benchmarks multimodais. Suporta nativamente contextos intercalados de até 256 mil *tokens*, integrando de forma transparente texto, imagens e vídeo. A família de modelos inclui variantes densas (2B/4B/8B/32B) e de mistura de especialistas (30B-A3B/235B-A22B) para acomodar diversos compromissos entre latência e qualidade. O Qwen3-VL assenta em três pilares fundamentais: (i) uma compreensão de texto puro significativamente mais robusta, superando *backbones* exclusivamente textais comparáveis em vários casos; (ii) uma compreensão robusta de contexto longo, com uma janela nativa de 256 mil *tokens* para texto e entradas multimodais intercaladas, permitindo a retenção, recuperação e referência cruzada fiáveis em documentos longos e vídeos; e (iii) um raciocínio multimodal avançado em tarefas de imagem única, múltiplas imagens e vídeo, demonstrando um desempenho líder em avaliações abrangentes como o MMMU e benchmarks de matemática visual (por exemplo, MathVista e MathVision). A nível arquitetónico, introduzimos três melhorias-chave: (i) um *interleaved-MRoPE* melhorado para uma modelação espaço-temporal mais forte em imagens e vídeo; (ii) a integração *DeepStack*, que aproveita eficazmente características ViT multi-nível para apertar o alinhamento visão-linguagem; e (iii) o alinhamento temporal baseado em texto para vídeo, evoluindo do T-RoPE para um alinhamento explícito de *timestamps* textuais para uma fundamentação temporal mais precisa. Sob orçamentos de *tokens* e restrições de latência comparáveis, o Qwen3-VL alcança um desempenho superior tanto em arquiteturas densas como em Mistura de Especialistas (MoE). Vislumbramos o Qwen3-VL a servir como um motor fundamental para o raciocínio baseado em imagens, a tomada de decisão autónoma e a inteligência de código multimodal em fluxos de trabalho do mundo real.
Imitar o comportamento humano para aprender ativamente a partir da experiência geral e alcançar a inteligência artificial geral sempre foi um sonho da humanidade. Modelos de pensamento em larga escala baseados em aprendizagem por reforço (RL) recentes demonstram capacidades impressionantes de nível especialista, por exemplo, em software e matemática, mas ainda dependem fortemente de recompensas verificáveis em domínios específicos, criando um gargalo significativo para estender a fronteira de desempenho das capacidades de raciocínio geral. Neste trabalho, propomos o PretrainZero, uma estrutura de aprendizagem ativa por reforço construída sobre o corpus de pré-treinamento para estender a RL do pós-treinamento específico de domínio para o pré-treinamento geral. O PretrainZero apresenta as seguintes características: 1) Pré-treinamento ativo: inspirado pela capacidade de aprendizagem ativa dos humanos, o PretrainZero aprende uma política de raciocínio unificada para identificar ativamente conteúdos razoáveis e informativos do corpus de pré-treinamento, e raciocina para prever esses conteúdos via RL. 2) Aprendizagem auto-supervisionada: sem quaisquer rótulos verificáveis, modelos de recompensa pré-treinados ou ajuste fino supervisionado, pré-treinamos diretamente os sistemas de raciocínio a partir de modelos base de 3 a 30B no corpus geral da Wikipedia usando RL, quebrando significativamente a barreira de dados de verificação para o raciocínio geral. 3) Escalonamento de verificação: ao enfrentar *spans* mascarados progressivamente mais desafiadores, o PretrainZero aumenta substancialmente as capacidades de raciocínio geral dos modelos base pré-treinados. No pré-treinamento por reforço, o PretrainZero melhora o Qwen3-4B-Base em 8,43, 5,96 e 10,60 nos benchmarks MMLU-Pro, SuperGPQA e média de matemática, respectivamente. No pós-treinamento, os modelos pré-treinados também podem servir como modelos base de raciocínio para tarefas downstream de RLVR.
Os modelos Visão-Linguagem-Ação (VLA), treinados através de objetivos de correspondência de fluxo (flow-matching) ou difusão, destacam-se na aprendizagem de comportamentos complexos a partir de conjuntos de dados multimodais de grande escala (ex.: teleoperação humana, políticas scriptadas). No entanto, como os VLAs incorporam diversos modos de dados na fase de pré-treinamento, e o conjunto de dados de afinação (finetuning) frequentemente contém dados de demonstração coletados de forma cinematicamente subótima ou indesejável, existem modos de ação redundantes que são irrelevantes para os modos de ação de sucesso da tarefa específica (downstream task). Especificamente, observamos uma fragilidade crítica durante a inferência entre vários ruídos amostrados após a afinação supervisionada de VLAs pré-treinados. Neste artigo, atribuímos esta instabilidade à mudança de distribuição (distribution shift) entre a política do VLA e a política induzida pelos modos estáveis de sucesso do conjunto de dados da tarefa específica. Assim, propomos o TACO, uma estrutura de escalonamento no tempo de teste (test-time-scaling - TTS) que aplica um estimador leve de pseudo-contagem (pseudo-count) como um verificador de alta fidelidade de blocos de ação (action chunks). Os modelos VLA integrados com o TACO podem executar as ações com a pseudo-contagem máxima a partir de todos os blocos de ação amostrados, prevenindo assim mudanças de distribuição enquanto preservam a capacidade de generalização dos VLAs, uma vez que a restrição é aplicada apenas durante a inferência. O nosso método assemelha-se ao princípio clássico anti-exploração (anti-exploration) na aprendizagem por reforço offline (offline RL) e, por ser livre de gradientes (gradient-free), oferece benefícios computacionais significativos em comparação com uma atualização por RL, especialmente para VLAs baseados em fluxo ou difusão, nos quais é difícil realizar atualizações por RL devido ao processo de remoção de ruído (denoising). Experimentos extensivos em quatro benchmarks de simulação (RoboTwin2.0, Robotwin, LIBERO, SimplerEnv) e numa plataforma de dois braços robóticos demonstram que o nosso método melhora significativamente a estabilidade da inferência e as taxas de sucesso nas adaptações a tarefas específicas.
O aprendizado por reforço (RL) tem alcançado recentemente sucesso notável em eliciar raciocínio visual em Modelos de Linguagem Multimodais de Grande Escala (MLLMs). No entanto, as abordagens existentes normalmente treinam modelos separados para diferentes tarefas e tratam o raciocínio em imagens e vídeos como domínios distintos. Isso resulta em escalabilidade limitada para um generalista de raciocínio multimodal, o que restringe a versatilidade prática e dificulta o potencial compartilhamento de conhecimento entre tarefas e modalidades. Para esse fim, propomos o OneThinker, um modelo de raciocínio all-in-one que unifica a compreensão de imagens e vídeos em diversas tarefas visuais fundamentais, incluindo resposta a perguntas, legendagem, localização espacial e temporal, rastreamento e segmentação. Para alcançar isso, construímos o corpus de treinamento OneThinker-600k cobrindo todas essas tarefas e empregamos modelos comerciais para anotação de Cadeia de Pensamento (CoT), resultando no OneThinker-SFT-340k para o *cold start* de SFT. Adicionalmente, propomos o EMA-GRPO para lidar com a heterogeneidade de recompensas no RL multitarefa, rastreando médias móveis por tarefa dos desvios padrão das recompensas para uma otimização balanceada. Experimentos extensos em diversos *benchmarks* visuais mostram que o OneThinker oferece um desempenho sólido em 31 *benchmarks*, abrangendo 10 tarefas fundamentais de compreensão visual. Além disso, exibe transferência efetiva de conhecimento entre certas tarefas e uma capacidade preliminar de generalização *zero-shot*, representando um passo em direção a um generalista unificado de raciocínio multimodal. Todo o código, modelo e dados são disponibilizados.
Compreender as diferenças visuais entre cenas dinâmicas requer a percepção comparativa de alterações composicionais, espaciais e temporais – uma capacidade que permanece pouco explorada nos sistemas existentes de visão e linguagem. Embora trabalhos anteriores sobre Descrição de Diferenças em Imagens (IDC) tenham permitido que modelos descrevam mudanças semânticas entre imagens estáticas, essas abordagens não conseguem capturar a continuidade do movimento, a evolução de eventos ou a consistência de edição ao longo do tempo. Apresentamos a tarefa ViDiC (Descrição de Diferenças em Vídeo) e seu conjunto de dados correspondente, ViDiC-1K, projetado para avaliar a capacidade dos Modelos de Linguagem Multimodal de Grande Escala (MLLMs) de fornecer descrições refinadas de similaridades e diferenças entre pares de vídeos. O ViDiC-1K compreende 1.000 pares de vídeos selecionados e anotados com mais de 4.000 itens de lista de verificação comparativa, abrangendo sete categorias: sujeito, estilo, plano de fundo, cinematografia, movimento, localização e técnicas de reprodução. Para garantir uma avaliação confiável, propomos uma estrutura de lista de verificação dupla que mede a precisão de similaridade e diferença separadamente, com base no protocolo LLM-como-Juiz. Experimentos em dezenove modelos multimodais representativos revelam uma lacuna significativa de desempenho em suas habilidades de descrição comparativa e percepção de diferenças. Esperamos que o ViDiC-1K possa ser um benchmark desafiador que estabeleça uma base sólida para o avanço da compreensão de vídeo, consciência de edição e raciocínio comparativo na inteligência multimodal.
Os Modelos de Linguagem Visual (VLMs) demonstram forte compreensão visual qualitativa, mas lutam com o raciocínio espacial metricamente preciso necessário para aplicações corporificadas. O paradigma de agência promete que os VLMs podem usar uma ampla variedade de ferramentas que poderiam aumentar essas capacidades, como estimadores de profundidade, modelos de segmentação e estimadores de pose. No entanto, continua sendo um desafio em aberto como realizar essa visão sem depender exclusivamente de estratégias de *prompting* manuais ou impor *pipelines* de ferramentas fixas e predefinidas que limitam a capacidade dos VLMs de descobrir padrões ótimos de uso de ferramentas. O Aprendizado por Reforço poderia superar essa lacuna, mas até agora tem sido limitado ao raciocínio com uma única ferramenta visual devido ao grande espaço de busca no raciocínio com múltiplas ferramentas. Apresentamos o Aprendizado por Reforço Duplamente Interativo (DIRL), uma estrutura de treinamento em duas fases onde os VLMs aprendem a coordenar múltiplas ferramentas por meio de exploração e *feedback* interativos. Na fase de ensino, combinamos demonstrações de um especialista em ferramenta únicas treinado via RL interativo com rastros de um modelo de fronteira usando todas as ferramentas. Na fase de exploração, o modelo refina ainda mais a coordenação de múltiplas ferramentas através de RL contínuo. Nosso modelo, SpaceTools, com capacidade de raciocínio espacial aumentada por ferramentas, alcança desempenho de ponta em benchmarks de compreensão espacial (RoboSpatial-Home, BLINK, BOP-ASK) e demonstra manipulação confiável no mundo real usando um robô de 7 graus de liberdade como ferramenta. O DIRL fornece melhorias substanciais em relação às linhas de base de SFT padrão (+12% no RoboSpatial) e RL (+16% no RoboSpatial). Página do projeto: https://spacetools.github.io/.
Um modelo de mundo verdadeiramente interativo requer três ingredientes-chave: transmissão contínua de longo prazo em tempo real, memória espacial consistente e controlo preciso do utilizador. No entanto, a maioria das abordagens existentes aborda apenas um destes aspetos de forma isolada, uma vez que alcançar os três simultaneamente é altamente desafiador – por exemplo, os mecanismos de memória de longo prazo frequentemente degradam o desempenho em tempo real. Neste trabalho, apresentamos o RELIC, uma estrutura unificada que aborda estes três desafios em conjunto. Dada uma única imagem e uma descrição textual, o RELIC permite a exploração com consciência da memória e de longa duração de cenas arbitrárias em tempo real. Construído sobre técnicas recentes de destilação de difusão de vídeo autoregressiva, o nosso modelo representa a memória de longo prazo utilizando *tokens* latentes históricos altamente comprimidos, codificados com ações relativas e poses de câmera absolutas dentro da cache KV. Esta estrutura de memória compacta e consciente da câmera suporta a recuperação implícita de conteúdo 3D consistente e impõe coerência a longo prazo com sobrecarga computacional mínima. Em paralelo, afinamos um modelo de vídeo professor bidirecional para gerar sequências além do seu horizonte de treino original de 5 segundos, e transformamo-lo num gerador estudante causal usando um novo paradigma de *self-forcing* eficiente em memória que permite a destilação de contexto completo sobre execuções longas do professor, bem como auto-gerações longas do estudante. Implementado como um modelo de 14B de parâmetros e treinado num conjunto de dados curado renderizado com Unreal Engine, o RELIC alcança geração em tempo real a 16 FPS, demonstrando, em comparação com trabalhos anteriores, um seguimento de ação mais preciso, uma transmissão contínua de longo prazo mais estável e uma recuperação de memória espacial mais robusta. Estas capacidades estabelecem o RELIC como uma base sólida para a próxima geração de modelação interativa do mundo.
A obtenção de um alinhamento preciso entre a intenção do utilizador e os visuais gerados continua a ser um desafio central na geração de texto para visual, uma vez que uma única tentativa frequentemente falha em produzir o resultado desejado. Para lidar com isto, as abordagens anteriores escalonam principalmente o processo de geração visual (por exemplo, aumentando os passos de amostragem ou as sementes), mas isso rapidamente leva a um platô de qualidade. Esta limitação surge porque o *prompt*, crucial para orientar a geração, é mantido fixo. Para resolver isto, propomos o Redesenho de *Prompt* para Escalonamento no Momento da Inferência, denominado PRIS, um quadro que revê adaptativamente o *prompt* durante a inferência em resposta aos visuais gerados em escala. A ideia central do PRIS é rever os visuais gerados, identificar padrões de falha recorrentes entre os visuais e redesenhar o *prompt* em conformidade antes de regenerar os visuais com o *prompt* revisto. Para fornecer um *feedback* de alinhamento preciso para a revisão do *prompt*, introduzimos um novo verificador, a correção factual a nível de elemento, que avalia o alinhamento entre os atributos do *prompt* e os visuais gerados a um nível granular, alcançando avaliações mais precisas e interpretáveis do que as medidas holísticas. Experiências extensas em benchmarks de texto para imagem e texto para vídeo demonstram a eficácia da nossa abordagem, incluindo um ganho de 15% no VBench 2.0. Estes resultados destacam que escalonar conjuntamente os *prompts* e os visuais é a chave para aproveitar totalmente as leis de escalonamento no momento da inferência. As visualizações estão disponíveis no site: https://subin-kim-cv.github.io/PRIS.
Os modelos de linguagem multimodal (MLLMs) que pensam com imagens podem usar ferramentas interativamente para raciocinar sobre entradas visuais, mas as abordagens atuais frequentemente dependem de um conjunto limitado de ferramentas com pouca necessidade prática e escalabilidade limitada. Neste trabalho, primeiro revelamos uma fragilidade crítica e previamente negligenciada: mesmo os MLLMs mais avançados são surpreendentemente frágeis, apresentando degradação significativa de desempenho em imagens com simples alterações de orientação ou corrupções naturais, destacando a necessidade de um raciocínio baseado em ferramentas mais robusto. Para resolver isso, propomos o CodeVision, uma estrutura flexível e escalável de código-como-ferramenta onde o modelo gera código como interface universal para invocar qualquer operação de imagem, indo além de registros fixos de ferramentas. Treinamos nosso modelo usando uma metodologia de dois estágios, começando com Ajuste Fino Supervisionado (SFT) em um conjunto de dados de alta qualidade curado para composição complexa de ferramentas em múltiplas etapas e recuperação de erros, seguido por Aprendizado por Reforço (RL) com uma nova e densa função de recompensa de processo para incentivar o uso estratégico e eficiente de ferramentas. Para facilitar esta pesquisa, construímos novos conjuntos de dados SFT e RL e introduzimos uma nova suíte de benchmark desafiadora projetada para avaliar rigorosamente a robustez a mudanças de orientação e o raciocínio com múltiplas ferramentas. Experimentos nas séries Qwen2.5-VL e Qwen3-VL mostram que nossa abordagem melhora significativamente o desempenho do modelo e promove capacidades emergentes como composição flexível de ferramentas, execução encadeada eficiente e recuperação robusta de erros a partir de feedback em tempo de execução. O código está disponível em https://github.com/ByteDance-BandAI/CodeVision.
Apresentamos o Jina-VLM, um modelo de visão e linguagem com 2,4 mil milhões de parâmetros que atinge o estado da arte em tarefas multilingues de resposta a perguntas visuais entre os VLMs abertos de escala comparável (2B). O modelo acopla um codificador visual SigLIP2 a uma espinha dorsal linguística Qwen3 através de um conector de *pooling* por atenção que permite o processamento eficiente de tokens em imagens de resolução arbitrária. Em *benchmarks* padrão de VQA e avaliações multilingues, o Jina-VLM supera modelos comparáveis, mantendo simultaneamente um desempenho competitivo em tarefas exclusivamente textuais.
O design gráfico constitui a base da comunicação visual moderna, servindo como um meio vital para a promoção de eventos culturais e comerciais. Avanços recentes têm explorado a automação deste processo usando Modelos Multimodais de Grande Escala (LMMs), contudo, os métodos existentes frequentemente produzem layouts geometricamente imprecisos e carecem da capacidade de edição iterativa e específica por camada necessária em fluxos de trabalho profissionais. Para superar estas limitações, apresentamos o PosterCopilot, uma estrutura que avança o raciocínio de layout e a edição controlável para o design gráfico profissional. Especificamente, introduzimos uma estratégia de treinamento progressiva em três etapas que capacita os LMMs com compreensão geométrica e raciocínio estético para o design de layout, consistindo em: Ajuste Fino Supervisionado com Perturbação, Aprendizagem por Reforço para Alinhamento com a Realidade Visual e Aprendizagem por Reforço a partir de *Feedback* Estético. Adicionalmente, desenvolvemos um fluxo de trabalho completo que acopla o modelo de design baseado em LMM treinado com modelos generativos, permitindo uma edição iterativa e controlável por camada para o refinamento preciso de elementos, mantendo ao mesmo tempo a consistência visual global. Experimentos extensivos demonstram que o PosterCopilot alcança layouts geometricamente precisos e esteticamente superiores, oferecendo uma controlabilidade sem precedentes para o design iterativo profissional.
A culinária é uma atividade sequencial e visualmente fundamentada, na qual cada etapa, como cortar, misturar ou fritar, carrega tanto uma lógica processual quanto semântica visual. Embora os modelos de difusão recentes tenham demonstrado fortes capacidades na geração de imagens a partir de texto, eles lutam para lidar com cenários estruturados de múltiplas etapas, como a ilustração de receitas. Além disso, os métodos atuais de ilustração de receitas são incapazes de se adaptar à variabilidade natural no comprimento das receitas, gerando um número fixo de imagens independentemente da estrutura real das instruções. Para superar essas limitações, apresentamos o CookAnything, uma estrutura flexível e consistente baseada em difusão que gera sequências de imagens coerentes e semanticamente distintas a partir de instruções culinárias textuais de comprimento arbitrário. A estrutura introduz três componentes principais: (1) o Controle Regional por Etapa (SRC), que alinha as etapas textuais com as regiões correspondentes da imagem dentro de um único processo de eliminação de ruído; (2) o RoPE Flexível, um mecanismo de codificação posicional consciente da etapa que melhora tanto a coerência temporal quanto a diversidade espacial; e (3) o Controle de Consistência Transetapas (CSCC), que mantém a consistência de ingredientes em nível granular entre as etapas. Resultados experimentais em benchmarks de ilustração de receitas mostram que o CookAnything tem um desempenho superior aos métodos existentes em configurações com e sem treinamento. A estrutura proposta suporta a síntese visual escalável e de alta qualidade de instruções complexas de múltiplas etapas e possui um potencial significativo para amplas aplicações em mídia instrucional e criação de conteúdo processual.
Os Fluxos Normalizadores (NFs) são uma classe de modelos generativos distinguidos por uma arquitetura matematicamente invertível, na qual a passagem direta transforma dados em um espaço latente para estimativa de densidade, e a passagem reversa gera novas amostras a partir deste espaço. Esta característica cria uma sinergia intrínseca entre a aprendizagem de representação e a geração de dados. No entanto, a qualidade generativa dos NFs padrão é limitada por representações semânticas inadequadas provenientes da otimização de verossimilhança. Para remediar isso, propomos uma nova estratégia de alinhamento que aproveita criativamente a invertibilidade dos NFs: em vez de regularizar a passagem direta, alinhamos as características intermediárias da passagem generativa (reversa) com representações de um modelo de base de visão poderoso, demonstrando uma eficácia superior em comparação com o alinhamento ingênuo. Também introduzimos um novo algoritmo de otimização para classificação, livre de treinamento e aplicado durante o teste, que fornece uma avaliação mais intrínseca do conhecimento semântico incorporado no NF. Experimentos abrangentes demonstram que nossa abordagem acelera o treinamento dos NFs em mais de 3,3 vezes, ao mesmo tempo que proporciona melhorias significativas tanto na qualidade generativa quanto na precisão da classificação. Novos resultados state-of-the-art para NFs foram estabelecidos no ImageNet 64x64 e 256x256. Nosso código está disponível em https://github.com/MCG-NJU/FlowBack.
Os recentes avanços no controle de iluminação estendem os métodos baseados em imagem para vídeo, mas ainda enfrentam um compromisso entre fidelidade de iluminação e consistência temporal. Indo além da rerrenderização com nova iluminação, um passo fundamental para a modelagem generativa de cenas do mundo real é o controle conjunto da trajetória da câmara e da iluminação, uma vez que a dinâmica visual é inerentemente moldada tanto pela geometria quanto pela iluminação. Para esse fim, apresentamos o Light-X, uma estrutura de geração de vídeo que permite renderização controlada a partir de vídeos monoculares com controle simultâneo de ponto de vista e iluminação. 1) Propomos um design desacoplado que separa os sinais de geometria e iluminação: a geometria e o movimento são capturados através de nuvens de pontos dinâmicas projetadas ao longo de trajetórias de câmara definidas pelo utilizador, enquanto os indícios de iluminação são fornecidos por um fotograma rerrenderizado com nova iluminação, projetado de forma consistente na mesma geometria. Estas pistas explícitas e de granularidade fina permitem um desacoplamento eficaz e orientam uma iluminação de alta qualidade. 2) Para colmatar a falta de vídeos emparelhados com múltiplas vistas e múltiplas iluminações, introduzimos o Light-Syn, um *pipeline* baseado em degradação com mapeamento inverso que sintetiza pares de treino a partir de filmagens monoculares do mundo real. Esta estratégia produz um conjunto de dados que abrange cenas estáticas, dinâmicas e geradas por IA, garantindo um treino robusto. Experiências extensivas mostram que o Light-X supera os métodos de base no controlo conjunto câmara-iluminação e ultrapassa os métodos anteriores de rerrenderização de vídeo com nova iluminação, tanto em configurações condicionadas por texto como por fundo.
O alinhamento de Grandes Modelos de Linguagem (LLMs) com as preferências humanas geralmente depende de supervisão externa, que enfrenta limitações críticas: anotações humanas são escassas e subjetivas, modelos de recompensa são vulneráveis a manipulação de recompensas, e métodos de autoavaliação sofrem com sensibilidade a prompts e vieses. Neste trabalho, propomos o posto estável, um sinal de qualidade intrínseco e livre de anotações derivado das representações do modelo. O posto estável mede a dimensionalidade efetiva dos estados ocultos calculando a razão entre a variância total e a variância da direção dominante, capturando a qualidade através da forma como a informação se distribui pelas dimensões da representação. Empiricamente, o posto estável alcança 84,04% de precisão no RewardBench e melhora a precisão da tarefa em média 11,3 pontos percentuais sobre a decodificação gulosa via amostragem Best-of-N. Aproveitando essa percepção, introduzimos a Otimização de Política Relativa de Grupo por Posto Estável (SR-GRPO), que usa o posto estável como sinal de recompensa para aprendizado por reforço. Sem supervisão externa, o SR-GRPO melhora o Qwen2.5-1.5B-Instruct em 10% em STEM e 19% em raciocínio matemático, superando tanto modelos de recompensa aprendidos quanto baselines de autoavaliação. Nossos achados demonstram que sinais de qualidade podem ser extraídos da geometria interna do modelo, oferecendo um caminho para o alinhamento escalável sem supervisão externa.
Desde 2019, o Hugging Face Model Hub tem sido a principal plataforma global para compartilhar modelos de IA de pesos abertos. Ao disponibilizar um conjunto de dados do histórico completo de downloads semanais de modelos (junho de 2020 a agosto de 2025), juntamente com metadados dos modelos, fornecemos a análise mais rigorosa já realizada sobre a dinâmica de concentração e as características em evolução na economia de modelos abertos. Nossa análise abrange 851.000 modelos, mais de 200 atributos agregados por modelo e 2,2 mil milhões de downloads. Documentamos um reequilíbrio fundamental do poder económico: o domínio da indústria norte-americana de pesos abertos por Google, Meta e OpenAI declinou acentuadamente a favor de desenvolvedores independentes, organizações comunitárias e, a partir de 2025, da indústria chinesa, com os modelos DeepSeek e Qwen a potencialmente anunciarem uma nova consolidação do poder de mercado. Identificamos mudanças estatisticamente significativas nas propriedades dos modelos, um aumento de 17 vezes no tamanho médio dos modelos, crescimento rápido na geração multimodal (3,4 vezes), quantização (5 vezes) e arquiteturas mixture-of-experts (7 vezes), juntamente com quedas preocupantes na transparência dos dados, com modelos de pesos abertos a superarem modelos verdadeiramente de código aberto pela primeira vez em 2025. Expomos uma nova camada de intermediários de desenvolvimento que surgiu, focada em quantizar e adaptar modelos base para eficiência e expressão artística. Para permitir a continuação da pesquisa e supervisão, disponibilizamos o conjunto de dados completo com um painel interativo para monitorização em tempo real da dinâmica de concentração e das propriedades em evolução na economia de modelos abertos.
Embora as Unidades de Processamento Neural (NPUs) ofereçam alta eficiência teórica para IA de borda, os modelos visão-linguagem (VLMs) de última geração projetados para GPUs frequentemente apresentam desempenho insatisfatório nesses substratos. Atribuímos esse descompasso entre hardware e modelo a dois fatores principais: a fragilidade à quantização dos Vision Transformers (ViTs) e a natureza limitada por E/S dos mecanismos de atenção autoregressivos, que falham em utilizar o alto rendimento aritmético das NPUs. Para preencher esta lacuna, propomos o AutoNeural, uma arquitetura VLM nativa para NPUs codesenhada para inferência exclusivamente com inteiros. Substituímos o codificador ViT padrão por uma base baseada no estilo MobileNetV5 que utiliza convoluções separáveis em profundidade, garantindo distribuições de ativação limitadas para uma quantização INT4/8/16 estável. Complementando isso, nossa base linguística integra princípios de Modelos de Espaço de Estados (SSMs) com camadas de Transformer, empregando convoluciones com portas eficientes para alcançar complexidade de tempo linear. Este projeto híbrido elimina a pesada sobrecarga de E/S de memória do cache de Chave-Valor durante a geração. Nossa abordagem proporciona ganhos substanciais de eficiência, reduzindo o erro de quantização do codificador de visão em até 7x e a latência ponta a ponta em 14x em comparação com as linhas de base convencionais. O AutoNeural também oferece uma velocidade de decodificação 3x maior e uma janela de contexto 4x mais longa do que a linha de base. Validamos essas melhorias por meio de um estudo de caso automotivo do mundo real no SoC Qualcomm SA8295P, demonstrando desempenho em tempo real para aplicações de cockpit. Nossos resultados destacam que repensar a topologia do modelo especificamente para as restrições das NPUs é um pré-requisito para uma inteligência multimodal de borda robusta.
Avaliar modelos de alinhamento imagem-texto como o CLIP é crucial para unir representações visuais e linguísticas. No entanto, os benchmarks existentes dependem de perturbações baseadas em regras ou legendas curtas, limitando sua capacidade de medir o alinhamento em nível granular. Apresentamos o AlignBench, um benchmark que fornece um novo indicador de alinhamento imagem-texto ao avaliar pares detalhados de imagem-legenda gerados por diversos modelos de imagem-para-texto e texto-para-imagem. Cada frase é anotada quanto à sua correção, permitindo a avaliação direta de Modelos de Linguagem Visual (VLMs) como avaliadores de alinhamento. O benchmarking de uma ampla gama de VLMs baseados em decodificador revela três descobertas principais: (i) modelos baseados no CLIP, mesmo aqueles adaptados para raciocínio composicional, permanecem praticamente cegos; (ii) detectores superavaliam sistematicamente as frases iniciais; e (iii) eles mostram uma forte autopreferência, favorecendo suas próprias saídas e prejudicando o desempenho da detecção. Nossa página do projeto estará disponível em https://dahlian00.github.io/AlignBench/.
Os modelos de difusão mostram potencial para a remoção de desfoque em cenas dinâmicas; no entanto, estudos existentes frequentemente não conseguem aproveitar a natureza intrínseca do processo de desfoque dentro dos modelos de difusão, limitando seu potencial total. Para resolver isso, apresentamos um Modelo de Difusão de Desfoque (BlurDM), que integra perfeitamente o processo de formação do desfoque na difusão para remoção de desfoque em imagens. Observando que o desfoque de movimento decorre da exposição contínua, o BlurDM modela implicitamente o processo de formação do desfoque por meio de um esquema direto de dupla difusão, difundindo tanto ruído quanto desfoque sobre uma imagem nítida. Durante o processo reverso de geração, derivamos uma formulação de dupla remoção de ruído e desfoque, permitindo que o BlurDM recupere a imagem nítida removendo simultaneamente ruído e desfoque, dado ruído gaussiano puro condicionado na imagem desfocada como entrada. Adicionalmente, para integrar eficientemente o BlurDM em redes de remoção de desfoque, executamos o BlurDM no espaço latente, formando uma rede de geração de prior flexível para remoção de desfoque. Experimentos extensivos demonstram que o BlurDM melhora significativa e consistentemente os métodos existentes de remoção de desfoque em quatro conjuntos de dados de referência. O código-fonte está disponível em https://github.com/Jin-Ting-He/BlurDM.
Os modelos de raciocínio que utilizam longas cadeias de pensamento empregam diversas habilidades cognitivas, como verificação de respostas, retrocesso, tentativa por métodos alternativos, entre outras. Trabalhos anteriores demonstraram que, quando um modelo de linguagem base exibe essas habilidades, o treinamento adicional desse modelo com aprendizagem por reforço (RL) pode aprender a utilizá-las. Como podemos fazer com que os modelos aproveitem habilidades não apresentadas pelos modelos base? Nosso trabalho, SkillFactory, é um método para ajustar modelos a fim de aprender aproximadamente essas habilidades durante uma fase de ajuste fino supervisionado (SFT) anterior ao RL. Nossa abordagem não depende da destilação de um modelo mais forte, mas utiliza amostras do próprio modelo, reorganizadas para fornecer dados de treinamento no formato dessas habilidades. Esses traços de SFT "prateados" podem ser imperfeitos, mas são eficazes para preparar um modelo a adquirir habilidades durante o RL. Nossa avaliação mostra que (1) iniciar a partir da inicialização SFT do SkillFactory ajuda o modelo a generalizar para variantes mais difíceis de uma tarefa após o RL, apesar do desempenho inferior pré-RL; (2) as habilidades cognitivas são de fato utilizadas pelo modelo; (3) os modelos SkillFactory com RL são mais robustos contra regressão em tarefas fora do domínio do que os modelos base com RL. Nosso trabalho sugere que vieses indutivos aprendidos antes do RL ajudam os modelos a aprender um uso robusto de habilidades cognitivas.
Os Modelos de Visão e Linguagem (VLMs) alcançaram sucesso notável em tarefas de resposta a perguntas visuais, mas sua dependência de um grande número de tokens visuais introduz sobrecarga computacional significativa. Embora as abordagens eficientes de VLMs existentes reduzam os tokens visuais por meio de compressão de taxa fixa, elas operam passivamente e carecem da capacidade de se adaptar a diferentes requisitos de tarefas. Isso motiva uma questão fundamental: Os VLMs podem determinar autonomamente o número mínimo de tokens visuais necessários para cada amostra? Inspirados pelos mecanismos humanos de visão ativa, introduzimos o AdaptVision, um paradigma eficiente de VLM que permite a aquisição adaptativa de tokens visuais por meio de uma abordagem coarse-to-fine (do geral para o específico). Nosso modelo processa inicialmente tokens visuais comprimidos de imagens de baixa resolução e adquire seletivamente informações visuais adicionais invocando uma ferramenta de bounding box para recortar regiões-chave quando necessário. Treinamos o AdaptVision usando uma estrutura de aprendizado por reforço que equilibra cuidadosamente precisão e eficiência. Central à nossa abordagem é a Otimização de Política de Turno Desacoplada (DTPO), que desacopla o objetivo de aprendizado em dois componentes: (1) aprendizado de ferramentas, que otimiza a utilização correta de ferramentas, e (2) melhoria de precisão, que refina as respostas geradas para melhorar a correção das respostas. Com base nessa formulação, desacoplamos ainda mais a estimativa de vantagem calculando vantagens separadas para tokens associados a cada objetivo. Essa formulação permite uma otimização mais eficaz para o AdaptVision em comparação com o GRPO padrão. Experimentos abrangentes em vários benchmarks de VQA demonstram que o AdaptVision alcança desempenho superior enquanto consome significativamente menos tokens visuais do que os métodos eficientes de VLM state-of-the-art.
A implantação de modelos de grandes linguagens (LLM) em plataformas móveis enfrenta desafios significativos devido à memória limitada e aos recursos computacionais partilhados do dispositivo. A disponibilidade de recursos pode ser um problema, uma vez que é diretamente afetada pela carga de trabalho atual do dispositivo, acrescentando incerteza à implantação do modelo. Apresentamos o UniQL, um framework unificado de quantização pós-treinamento e compressão de baixo posto com taxas de poda configuráveis no dispositivo para LLMs de edge. O UniQL é um framework geral que integra quantização e compressão de baixo posto para Transformers, Modelos de Espaço de Estados (SSMs) e modelos híbridos para suportar diversas aplicações de edge. No nosso framework conjunto proposto, introduzimos um método eficiente de ordenação estrutural de pesos que acelera a computação em 20x, uma decomposição em valores singulares (SVD) consciente da quantização para minimizar erros de quantização, uma ordenação de pesos com consciência de estado para SSMs, e um kernel fundido de incorporação posicional rotativa (RoPE) para modelos podados. O nosso framework executa a ordenação de pesos, o ajuste fino e a quantização na cloud num fluxo de trabalho de passagem única, permitindo ao mesmo tempo taxas de poda configuráveis no dispositivo de até 35%. As nossas experiências mostram que os modelos quantizados e podados alcançam uma redução de memória de 4x-5.7x e uma melhoria de produção de tokens de 2.7x-3.4x, mantendo a precisão dentro de 5% dos modelos originais com uma poda de 15% em Transformers (Llama3 e Qwen2.5), SSMs (Mamba2) e modelos híbridos (Nemotron-H e Bamba-v2). O código e os modelos quantizados estão disponíveis em: https://github.com/enyac-group/UniQL.
Os mecanismos de atenção são o núcleo dos modelos de base, mas sua complexidade quadrática permanece um gargalo crítico para o dimensionamento. Este desafio impulsionou o desenvolvimento de mecanismos de atenção eficientes, com a esparsidade emergindo como o paradigma dominante. Os métodos atuais normalmente retêm ou descartam blocos inteiros de chave-valor com máscaras binárias, resultando em perda substancial de informação sob alta esparsidade. Para mitigar esta lacuna, apresentamos a Atenção Esparsa Piramidal (PSA), um módulo versátil aplicável tanto a tarefas de compreensão quanto de geração de vídeo. Em vez de mascaramento binário, a PSA introduz representações KV com pooling multinível, permitindo uma granularidade de máscara mais refinada. Especificamente, cada bloco de consulta aloca dinamicamente níveis de pooling mais baixos para blocos KV críticos e níveis mais altos para os menos importantes, criando uma interpolação informativa entre a retenção total e a poda completa. Este desenho, análogo à quantização de ponto fixo e às redes de pirâmide de características clássicas na visão computacional, mitiga efetivamente a perda de informação enquanto preserva a eficiência computacional sob um orçamento computacional baixo. Ele funciona com um kernel nativo e compatível com hardware que aproveita um desenho de bloco-ladrilho desacoplado para garantir execução eficiente. Em benchmarks de compreensão e geração de vídeo, a PSA preserva informações contextuais e fidelidade visual, superando consistentemente ou alcançando desempenho comparável às bases de atenção esparsa existentes com trade-offs de eficiência-qualidade superiores. Nosso código e pesos dos modelos estão publicamente disponíveis em: http://ziplab.co/PSA
Apresentamos o Doublespeak, um ataque simples de sequestro de representação contextual contra grandes modelos de linguagem (LLMs). O atua substituindo sistematicamente uma palavra-chave nociva (por exemplo, *bomba*) por um token benigno (por exemplo, *cenoura*) em múltiplos exemplos contextuais, desde que fornecido um prefixo para uma solicitação prejudicial. Demonstramos que esta substituição leva a representação interna do token benigno a convergir para a do token nocivo, incorporando efetivamente a semântica prejudicial sob um eufemismo. Como resultado, instruções superficialmente inócuas (por exemplo, "Como construir uma cenoura?") são interpretadas internamente como instruções proibidas (por exemplo, "Como construir uma bomba?"), contornando assim o alinhamento de segurança do modelo. Utilizamos ferramentas de interpretabilidade para mostrar que esta sobreposição semântica emerge camada por camada, com significados benignos nas camadas iniciais convergindo para semânticas nocivas nas camadas posteriores. O Doublespeak é livre de otimização, amplamente transferível entre famílias de modelos e atinge altas taxas de sucesso em sistemas de código fechado e aberto, alcançando 74% de Taxa de Sucesso de Ataque (ASR) no Llama-3.3-70B-Instruct com uma única sobreposição contextual. Nossas descobertas destacam uma nova superfície de ataque no espaço latente dos LLMs, revelando que as estratégias atuais de alinhamento são insuficientes e deveriam, em vez disso, operar ao nível da representação.
A aplicação de Modelos Multimodais de Grande Porte (LMMs) na compreensão de vídeos de longa duração é limitada pelos contextos de extensão reduzida e pelo custo computacional proibitivo do processamento de *tokens* de vídeo densos. Consequentemente, pesquisas recentes têm-se concentrado na seleção de *frames* consciente da consulta, métodos que frequentemente acarretam uma sobrecarga computacional significativa. Este artigo questiona a premissa de que tais mecanismos complexos de busca são universalmente necessários. Primeiro, identificamos e validamos uma tipologia de consulta que distingue entre consulta global e consulta localizada. Demonstramos que, embora a amostragem uniforme seja eficaz e eficiente para consultas globais, as consultas localizadas de fato exigem seleção consciente da consulta para um desempenho ideal. Com base nessa perceção, propomos o DIG, um *framework* de seleção de *frames* sem necessidade de treino que adapta a sua estratégia consoante o tipo de consulta. Especificamente, o DIG emprega uma amostragem uniforme eficiente para consultas globais, enquanto ativa um *pipeline* especializado para extrair *frames* relevantes para a consulta no caso de consultas localizadas. Experiências realizadas em três *benchmarks* de compreensão de vídeos de longa duração demonstram que o DIG supera consistentemente as *baselines* existentes e melhora robustamente o desempenho dos LMMs, mesmo quando o número de *frames* de entrada é escalado para 256.
Apresentamos o Ataque de Confusão Adversarial, uma nova classe de ameaças contra modelos de linguagem multimodal de grande escala (MLLMs). Diferente de jailbreaks ou classificação incorreta direcionada, o objetivo é induzir uma disrupção sistemática que faz o modelo gerar saídas incoerentes ou incorrectas com elevada confiança. As aplicações práticas incluem a incorporação de tais imagens adversariais em websites para impedir que Agentes de IA baseados em MLLMs operem de forma confiável. O ataque proposto maximiza a entropia do próximo token usando um pequeno ensemble de MLLMs de código aberto. No cenário de caixa branca, demonstramos que uma única imagem adversarial pode perturbar todos os modelos do ensemble, tanto na configuração de imagem completa como na de Adversarial CAPTCHA. Apesar de depender de uma técnica adversarial básica (PGD), o ataque gera perturbações que se transferem tanto para modelos de código aberto não vistos (ex: Qwen3-VL) como para modelos proprietários (ex: GPT-5.1).