ChatPaper.aiChatPaper.ai
Início

arXiv

HuggingFace

PreçosContaÁrea de trabalho

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

1

xVerify: Verificador de Respostas Eficiente para Avaliações de Modelos de Raciocínio
xVerify: Efficient Answer Verifier for Reasoning Model Evaluations

Apr 14
ByDing Chen, Qingchen Yu, Pengyuan Wang, Wentao Zhang, Bo Tang, Feiyu Xiong, Xinchi Li, Minchuan Yang, Zhiyu Li
85
2

Com o lançamento do modelo o1 pela OpenAI, modelos de raciocínio que adotam estratégias de pensamento lento têm surgido gradualmente. Como as respostas geradas por esses modelos frequentemente incluem raciocínios complexos, etapas intermediárias e autorreflexão, os métodos de avaliação existentes muitas vezes se mostram inadequados. Eles têm dificuldade em determinar se a saída do LLM é verdadeiramente equivalente à resposta de referência e também enfrentam desafios para identificar e extrair a resposta final de respostas longas e complexas. Para resolver esse problema, propomos o xVerify, um verificador de respostas eficiente para avaliações de modelos de raciocínio. O xVerify demonstra uma forte capacidade de julgamento de equivalência, permitindo determinar de forma eficaz se as respostas produzidas por modelos de raciocínio são equivalentes às respostas de referência em diversos tipos de questões objetivas. Para treinar e avaliar o xVerify, construímos o conjunto de dados VAR, coletando pares de perguntas e respostas gerados por múltiplos LLMs em diversos conjuntos de dados, utilizando vários modelos de raciocínio e conjuntos de avaliação desafiadores projetados especificamente para a avaliação de modelos de raciocínio. Um processo de anotação em múltiplas rodadas é empregado para garantir a precisão dos rótulos. Com base no conjunto de dados VAR, treinamos vários modelos xVerify de diferentes escalas. Em experimentos de avaliação realizados tanto no conjunto de teste quanto no conjunto de generalização, todos os modelos xVerify alcançaram pontuações F1 e acurácia superiores a 95%. Notavelmente, a menor variante, xVerify-0.5B-I, supera todos os métodos de avaliação, exceto o GPT-4o, enquanto o xVerify-3B-Ib supera o GPT-4o em desempenho geral. Esses resultados validam a eficácia e a generalizabilidade do xVerify.

2

Relatório Técnico do Seedream 3.0
Seedream 3.0 Technical Report

Apr 15
ByYu Gao, Lixue Gong, Qiushan Guo, Xiaoxia Hou, Zhichao Lai, Fanshi Li, Liang Li, Xiaochen Lian, Chao Liao, Liyang Liu, Wei Liu, Yichun Shi, Shiqi Sun, Yu Tian, Zhi Tian, Peng Wang, Rui Wang, Xuanda Wang, Xun Wang, Ye Wang, Guofeng Wu, Jie Wu, Xin Xia, Xuefeng Xiao, Zhonghua Zhai, Xinyu Zhang, Qi Zhang, Yuwei Zhang, Shijia Zhao, Jianchao Yang, Weilin Huang
70
8

Apresentamos o Seedream 3.0, um modelo de base de geração de imagens bilíngue chinês-inglês de alto desempenho. Desenvolvemos várias melhorias técnicas para abordar os desafios existentes no Seedream 2.0, incluindo alinhamento com prompts complexos, geração de tipografia refinada, estética visual e fidelidade subótimas, e resoluções de imagem limitadas. Especificamente, os avanços do Seedream 3.0 decorrem de melhorias em todo o pipeline, desde a construção de dados até a implantação do modelo. No estrato de dados, dobramos o conjunto de dados utilizando um paradigma de treinamento consciente de defeitos e uma estrutura de amostragem de dados colaborativa de eixo duplo. Além disso, adotamos várias técnicas eficazes, como treinamento de resolução mista, RoPE de cross-modalidade, perda de alinhamento de representação e amostragem de timestep consciente da resolução na fase de pré-treinamento. Durante a etapa de pós-treinamento, utilizamos legendas estéticas diversificadas em SFT e um modelo de recompensa baseado em VLM com escalonamento, alcançando assim saídas que se alinham bem com as preferências humanas. Além disso, o Seedream 3.0 introduz um novo paradigma de aceleração. Ao empregar expectativa de ruído consistente e amostragem de timestep consciente da importância, alcançamos uma aceleração de 4 a 8 vezes enquanto mantemos a qualidade da imagem. O Seedream 3.0 demonstra melhorias significativas em relação ao Seedream 2.0: ele aprimora as capacidades gerais, em particular para a renderização de texto em caracteres chineses complexos, o que é importante para a geração de tipografia profissional. Além disso, ele oferece saída nativa de alta resolução (até 2K), permitindo a geração de imagens com alta qualidade visual.

3

Genius: Um Framework Generalizável e Puramente Não Supervisionado de Autoaprendizagem para Raciocínio Avançado
Genius: A Generalizable and Purely Unsupervised Self-Training Framework For Advanced Reasoning

Apr 11
ByFangzhi Xu, Hang Yan, Chang Ma, Haiteng Zhao, Qiushi Sun, Kanzhi Cheng, Junxian He, Jun Liu, Zhiyong Wu
55
2

O avanço das habilidades de raciocínio de LLMs tem despertado grande interesse. No entanto, as técnicas atuais de pós-treinamento dependem fortemente de sinais supervisionados, como supervisão de resultados ou modelos de recompensa auxiliares, que enfrentam problemas de escalabilidade e altos custos de anotação. Isso nos motiva a aprimorar o raciocínio de LLMs sem a necessidade de supervisão externa. Introduzimos um framework generalizável e puramente não supervisionado de auto-treinamento, denominado Genius. Sem auxílios externos, o Genius precisa buscar a sequência de respostas ótima de maneira gradual e otimizar o LLM. Para explorar os passos potenciais e aproveitar os mais adequados, o Genius introduz uma estratégia de reamostragem com previsão gradual para amostrar e estimar o valor de cada passo, simulando resultados futuros. Além disso, reconhecemos que o cenário não supervisionado inevitavelmente induz ruído e incerteza intrínsecos. Para fornecer uma otimização robusta, propomos uma função de perda de otimização calibrada por vantagem (ACO) para mitigar inconsistências na estimativa. Combinando essas técnicas, o Genius oferece um passo inicial avançado para a auto-melhoria do raciocínio de LLMs com consultas gerais e sem supervisão, revolucionando as leis de escalabilidade de raciocínio, dada a vasta disponibilidade de consultas gerais. O código será disponibilizado em https://github.com/xufangzhi/Genius.

4

Como os Dados de Instrução e Raciocínio Moldam o Pós-Treinamento: Qualidade dos Dados sob a Perspectiva dos Gradientes Camada a Camada
How Instruction and Reasoning Data shape Post-Training: Data Quality through the Lens of Layer-wise Gradients

Apr 14
ByMing Li, Yanhong Li, Ziyue Li, Tianyi Zhou
40
2

À medida que o pós-treinamento de grandes modelos de linguagem (LLMs) avança de tarefas de seguir instruções para tarefas de raciocínio complexo, compreender como diferentes dados afetam a dinâmica de ajuste fino permanece amplamente inexplorado. Neste artigo, apresentamos uma análise espectral dos gradientes camada por camada induzidos por dados de instrução e raciocínio de baixa/alta qualidade para o pós-treinamento de LLMs. Nossa análise revela que métricas amplamente estudadas para avaliação de dados, como IFD, InsTag, Dificuldade e Recompensa, podem ser explicadas e unificadas por propriedades espectrais calculadas a partir da decomposição em valores singulares (SVD) dos gradientes. Especificamente, dados de maior qualidade estão geralmente associados a normas nucleares mais baixas e ranks efetivos mais altos. Notavelmente, o rank efetivo exibe melhor robustez e resolução do que a norma nuclear ao capturar diferenças sutis de qualidade. Por exemplo, dados de raciocínio alcançam ranks efetivos substancialmente mais altos do que dados de instrução, implicando estruturas de gradiente mais ricas em tarefas mais complexas. Nossos experimentos também destacam que modelos dentro da mesma família compartilham padrões de gradiente semelhantes, independentemente de seus tamanhos, enquanto diferentes famílias de modelos divergem significativamente. Fornecendo uma visão unificada sobre os efeitos da qualidade dos dados em dados de instrução e raciocínio, este trabalho ilumina a interação entre a qualidade dos dados e a estabilidade do treinamento, oferecendo novos insights para o desenvolvimento de melhores estratégias de exploração de dados para o pós-treinamento.

5

Heimdall: dimensionamento em tempo de teste na verificação generativa
Heimdall: test-time scaling on the generative verification

Apr 14
ByWenlei Shi, Xing Jin
33
2

Um sistema de IA pode criar e manter conhecimento apenas na medida em que consegue verificar esse conhecimento por si mesmo. Trabalhos recentes sobre raciocínio de Cadeia de Pensamento Longa (Chain-of-Thought, CoT) demonstraram o grande potencial dos LLMs (Large Language Models) na resolução de problemas competitivos, mas sua capacidade de verificação ainda é fraca e não foi suficientemente investigada. Neste artigo, propomos Heimdall, um LLM de verificação de CoT longo que pode julgar com precisão a correção das soluções. Com puro aprendizado por reforço, aumentamos a precisão de verificação de 62,5% para 94,5% em problemas de matemática competitiva. Ao escalar com amostragem repetida, a precisão aumenta ainda mais para 97,5%. Por meio de avaliação humana, Heimdall demonstra impressionantes capacidades de generalização, detectando com sucesso a maioria dos problemas em provas matemáticas desafiadoras, cujo tipo não foi incluído durante o treinamento. Além disso, propomos a Verificação Pessimista para estender a funcionalidade de Heimdall ao escalar a resolução de problemas. Ela chama Heimdall para julgar as soluções de um modelo solucionador e, com base no princípio pessimista, seleciona a solução mais provavelmente correta com a menor incerteza. Utilizando DeepSeek-R1-Distill-Qwen-32B como modelo solucionador, a Verificação Pessimista melhora a precisão das soluções no AIME2025 de 54,2% para 70,0% com um orçamento computacional 16 vezes maior e para 83,3% com um orçamento ainda maior. Com o modelo solucionador mais forte, Gemini 2.5 Pro, a pontuação chega a 93,0%. Por fim, prototipamos um sistema automático de descoberta de conhecimento, um sistema ternário onde um componente faz perguntas, outro fornece soluções e o terceiro verifica as soluções. Utilizando o trabalho de síntese de dados NuminaMath para os dois primeiros componentes, Heimdall identifica efetivamente registros problemáticos dentro do conjunto de dados e revela que quase metade dos dados está defeituosa, o que curiosamente se alinha com os estudos de ablação recentes do NuminaMath.

6

TextArena
TextArena

Apr 15
ByLeon Guertler, Bobby Cheng, Simon Yu, Bo Liu, Leshem Choshen, Cheston Tan
30
3

TextArena é uma coleção de código aberto de jogos competitivos baseados em texto para treinamento e avaliação de comportamento agentivo em Modelos de Linguagem de Grande Escala (LLMs). Ele abrange mais de 57 ambientes únicos (incluindo configurações para um jogador, dois jogadores e múltiplos jogadores) e permite a fácil avaliação das capacidades dos modelos por meio de um sistema de jogo online (contra humanos e outros modelos submetidos) com pontuações TrueSkill em tempo real. Os benchmarks tradicionais raramente avaliam habilidades sociais dinâmicas, como negociação, teoria da mente e engano, criando uma lacuna que o TextArena aborda. Projetado com foco em pesquisa, comunidade e extensibilidade, o TextArena enfatiza a facilidade de adicionar novos jogos, adaptar a estrutura, testar modelos, jogar contra os modelos e treinar modelos. Documentação detalhada dos ambientes, jogos, leaderboard e exemplos estão disponíveis em https://github.com/LeonGuertler/TextArena e https://www.textarena.ai/.

7

Pixel-SAIL: Um Único Transformer para Compreensão Baseada em Pixels
Pixel-SAIL: Single Transformer For Pixel-Grounded Understanding

Apr 14
ByTao Zhang, Xiangtai Li, Zilong Huang, Yanwei Li, Weixian Lei, Xueqing Deng, Shihao Chen, Shunping Ji, Jiashi Feng
27
3

Modelos de Linguagem Multimodais de Grande Escala (MLLMs) alcançam desempenho notável em tarefas de compreensão em nível de pixel com alto detalhamento. No entanto, todos os trabalhos dependem fortemente de componentes extras, como codificadores visuais (CLIP) e especialistas em segmentação, resultando em alta complexidade do sistema e limitando a escalabilidade do modelo. Neste trabalho, nosso objetivo é explorar um MLLM altamente simplificado sem a introdução de componentes extras. Nosso trabalho é motivado por estudos recentes sobre o design de um Único Transformer como Modelo Unificado de Visão e Linguagem (SAIL), onde esses trabalhos aprendem conjuntamente tokens visuais e tokens de texto em transformers. Apresentamos o Pixel-SAIL, um único transformer para tarefas MLLM em nível de pixel. Em particular, apresentamos três melhorias técnicas em relação à linha de base simples. Primeiro, projetamos um módulo de upsampling aprendível para refinar as características dos tokens visuais. Em segundo lugar, propomos uma nova estratégia de injeção de prompt visual para permitir que o único transformer compreenda entradas de prompt visual e se beneficie da fusão precoce de embeddings de prompt visual e tokens visuais. Terceiro, introduzimos uma estratégia de destilação de especialista visual para aprimorar eficientemente a capacidade de extração de características detalhadas do único transformer. Além disso, coletamos um benchmark abrangente de compreensão em nível de pixel (PerBench), utilizando uma verificação manual. Ele inclui três tarefas: descrição detalhada de objetos, resposta a perguntas baseadas em prompt visual e segmentação referencial visual-textual. Experimentos extensos em quatro benchmarks de segmentação referencial, um benchmark de prompt visual e nosso PerBench mostram que o Pixel-SAIL alcança resultados comparáveis ou até melhores com um pipeline muito mais simples. O código e o modelo serão disponibilizados em https://github.com/magic-research/Sa2VA.

8

Modelos de Raciocínio Eficientes: Uma Revisão
Efficient Reasoning Models: A Survey

Apr 15
BySicheng Feng, Gongfan Fang, Xinyin Ma, Xinchao Wang
21
4

Modelos de raciocínio têm demonstrado progressos notáveis na resolução de tarefas complexas e intensivas em lógica, gerando Cadeias de Pensamento (Chain-of-Thoughts, CoTs) extensas antes de chegar a uma resposta final. No entanto, o surgimento desse paradigma de "pensamento lento", com inúmeros tokens gerados sequencialmente, introduz inevitavelmente uma sobrecarga computacional significativa. Diante disso, destaca-se a necessidade urgente de uma aceleração eficaz. Esta pesquisa tem como objetivo fornecer uma visão abrangente dos avanços recentes em raciocínio eficiente. Ela categoriza os trabalhos existentes em três direções principais: (1) mais curto - comprimir CoTs longas em cadeias de raciocínio concisas, porém eficazes; (2) menor - desenvolver modelos de linguagem compactos com fortes capacidades de raciocínio por meio de técnicas como destilação de conhecimento, outras técnicas de compressão de modelos e aprendizado por reforço; e (3) mais rápido - projetar estratégias de decodificação eficientes para acelerar a inferência. Uma coleção selecionada de artigos discutidos nesta pesquisa está disponível em nosso repositório no GitHub.

9

Uma Abordagem Minimalista para o Raciocínio em LLM: da Amostragem por Rejeição ao Reforço
A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce

Apr 15
ByWei Xiong, Jiarui Yao, Yuhui Xu, Bo Pang, Lei Wang, Doyen Sahoo, Junnan Li, Nan Jiang, Tong Zhang, Caiming Xiong, Hanze Dong
19
6

O aprendizado por reforço (RL, do inglês Reinforcement Learning) tornou-se uma abordagem predominante para o ajuste fino de modelos de linguagem de grande escala (LLMs, do inglês Large Language Models) em tarefas complexas de raciocínio. Entre os métodos recentes, o GRPO destaca-se por seu sucesso empírico no treinamento de modelos como o DeepSeek-R1, embora as fontes de sua eficácia ainda sejam pouco compreendidas. Neste trabalho, revisitamos o GRPO a partir de uma perspectiva de algoritmo semelhante ao reforço e analisamos seus componentes principais. Surpreendentemente, descobrimos que uma linha de base simples de amostragem por rejeição, o RAFT, que treina apenas em amostras com recompensas positivas, apresenta desempenho competitivo em relação ao GRPO e ao PPO. Nossos estudos de ablação revelam que a principal vantagem do GRPO surge do descarte de prompts com respostas completamente incorretas, em vez de sua normalização de recompensas. Motivados por essa percepção, propomos o Reinforce-Rej, uma extensão mínima do gradiente de política que filtra tanto amostras completamente incorretas quanto completamente corretas. O Reinforce-Rej melhora a eficiência e a estabilidade KL, servindo como uma alternativa leve, porém eficaz, a algoritmos de RL mais complexos. Defendemos o RAFT como uma linha de base robusta e interpretável e sugerimos que avanços futuros devem se concentrar em designs mais fundamentados para a incorporação de amostras negativas, em vez de confiar nelas indiscriminadamente. Nossas descobertas fornecem orientações para trabalhos futuros no pós-treinamento de LLMs baseado em recompensas.

10

NormalCrafter: Aprendendo Normais Temporalmente Consistentes a partir de Vídeo com Priors de Difusão
NormalCrafter: Learning Temporally Consistent Normals from Video Diffusion Priors

Apr 15
ByYanrui Bin, Wenbo Hu, Haoyuan Wang, Xinya Chen, Bing Wang
19
2

A estimativa de normais de superfície serve como um pilar fundamental para uma variedade de aplicações de visão computacional. Embora inúmeros esforços tenham sido dedicados a cenários de imagens estáticas, garantir coerência temporal na estimativa de normais baseada em vídeo continua sendo um desafio formidável. Em vez de simplesmente aprimorar métodos existentes com componentes temporais, apresentamos o NormalCrafter para aproveitar os priors temporais inerentes dos modelos de difusão de vídeo. Para garantir uma estimativa de normais de alta fidelidade em sequências, propomos a Regularização de Características Semânticas (SFR, na sigla em inglês), que alinha as características de difusão com pistas semânticas, incentivando o modelo a se concentrar na semântica intrínseca da cena. Além disso, introduzimos um protocolo de treinamento em duas etapas que aproveita o aprendizado tanto no espaço latente quanto no espaço de pixels para preservar a precisão espacial enquanto mantém um contexto temporal longo. Avaliações extensivas demonstram a eficácia do nosso método, exibindo um desempenho superior na geração de sequências de normais temporalmente consistentes com detalhes intrincados a partir de vídeos diversos.

11

DataDecide: Como Prever os Melhores Dados de Pré-treinamento com Pequenos Experimentos
DataDecide: How to Predict Best Pretraining Data with Small Experiments

Apr 15
ByIan Magnusson, Nguyen Tai, Ben Bogin, David Heineman, Jena D. Hwang, Luca Soldaini, Akshita Bhagia, Jiacheng Liu, Dirk Groeneveld, Oyvind Tafjord, Noah A. Smith, Pang Wei Koh, Jesse Dodge
18
2

Como os grandes modelos de linguagem são caros para pré-treinar em diferentes conjuntos de dados, usar experimentos em menor escala para decidir sobre os dados é crucial para reduzir custos. Quais benchmarks e métodos de tomada de decisão a partir do desempenho observado em pequena escala preveem com maior precisão os conjuntos de dados que produzem os melhores modelos em grande escala? Para permitir uma exploração aberta dessa questão, lançamos modelos, dados e avaliações no DataDecide — o mais extenso conjunto aberto de modelos sobre diferenças em dados e escala. Realizamos experimentos controlados de pré-treinamento em 25 corpora com diferentes fontes, deduplicação e filtragem de até 100 bilhões de tokens, tamanhos de modelo de até 1 bilhão de parâmetros e 3 sementes aleatórias. Descobrimos que a classificação dos modelos em um único tamanho pequeno (por exemplo, 150 milhões de parâmetros) é uma linha de base forte para prever os melhores modelos em nossa escala alvo maior (1 bilhão) (~80% das comparações corretas). Nenhum método de lei de escalonamento entre 8 linhas de base excede a fronteira de decisão de computação das previsões em escala única, mas o DataDecide pode medir melhorias em futuras leis de escalonamento. Também identificamos que o uso de métricas de verossimilhança contínua como proxies em pequenos experimentos torna benchmarks como MMLU, ARC, HellaSwag, MBPP e HumanEval mais de 80% previsíveis na escala alvo de 1 bilhão com apenas 0,01% da computação.

12

ReZero: Aprimorando a capacidade de busca de LLMs ao tentar mais uma vez
ReZero: Enhancing LLM search ability by trying one-more-time

Apr 15
ByAlan Dao, Thinh Le
16
2

A Geração Aumentada por Recuperação (RAG, do inglês Retrieval-Augmented Generation) melhora o desempenho de Modelos de Linguagem de Grande Escala (LLMs, do inglês Large Language Models) em tarefas intensivas em conhecimento, mas depende fortemente da qualidade da consulta de pesquisa inicial. Os métodos atuais, que frequentemente utilizam Aprendizado por Reforço (RL, do inglês Reinforcement Learning), geralmente se concentram na formulação de consultas ou no raciocínio sobre os resultados, sem incentivar explicitamente a persistência após uma pesquisa malsucedida. Apresentamos o ReZero (Retry-Zero), uma nova estrutura de RL que recompensa diretamente o ato de tentar novamente uma consulta de pesquisa após uma tentativa inicial sem sucesso. Isso incentiva o LLM a explorar consultas alternativas em vez de parar prematuramente. O ReZero demonstra uma melhoria significativa, alcançando 46,88% de precisão em comparação com uma linha de base de 25%. Ao recompensar a persistência, o ReZero aumenta a robustez do LLM em cenários complexos de busca de informações, onde as consultas iniciais podem se mostrar insuficientes.

13

A Escalabilidade da Simplicidade: Análise Empírica de Aprendizado Visão-Linguagem com um Único Transformer
The Scalability of Simplicity: Empirical Analysis of Vision-Language Learning with a Single Transformer

Apr 14
ByWeixian Lei, Jiacong Wang, Haochen Wang, Xiangtai Li, Jun Hao Liew, Jiashi Feng, Zilong Huang
15
3

Este artigo apresenta o SAIL, um modelo de linguagem multimodal unificado baseado em um único transformador (MLLM) que integra a codificação de pixels brutos e a decodificação de linguagem em uma única arquitetura. Diferente dos MLLMs modulares existentes, que dependem de um transformador de visão pré-treinado (ViT), o SAIL elimina a necessidade de um codificador de visão separado, apresentando um design arquitetônico mais minimalista. Em vez de introduzir novos componentes arquitetônicos, o SAIL adapta mecanismos de atenção mista e codificações posicionais multimodais para melhor alinhar-se às características distintas das modalidades visual e textual. Comparamos sistematicamente as propriedades do SAIL — incluindo escalabilidade, padrões de fluxo de informação entre modalidades e capacidades de representação visual — com as dos MLLMs modulares. Ao escalar tanto os dados de treinamento quanto o tamanho do modelo, o SAIL alcança desempenho comparável aos MLLMs modulares. Notavelmente, a remoção dos componentes pré-treinados do ViT melhora a escalabilidade do SAIL e resulta em padrões de fluxo de informação entre modalidades significativamente diferentes. Além disso, o SAIL demonstra fortes capacidades de representação visual, alcançando resultados equivalentes ao ViT-22B em tarefas de visão, como segmentação semântica. Códigos e modelos estão disponíveis em https://github.com/bytedance/SAIL.

14

SimpleAR: Expandindo as Fronteiras da Geração Visual Autoregressiva por meio de Pré-treinamento, Ajuste Fino Supervisionado e Aprendizado por Reforço
SimpleAR: Pushing the Frontier of Autoregressive Visual Generation through Pretraining, SFT, and RL

Apr 15
ByJunke Wang, Zhi Tian, Xun Wang, Xinyu Zhang, Weilin Huang, Zuxuan Wu, Yu-Gang Jiang
14
1

Este trabalho apresenta o SimpleAR, uma estrutura básica de geração visual autoregressiva sem modificações complexas na arquitetura. Através de uma exploração cuidadosa da otimização de treinamento e inferência, demonstramos que: 1) com apenas 0,5 bilhão de parâmetros, nosso modelo é capaz de gerar imagens com resolução de 1024x1024 com alta fidelidade e alcançar resultados competitivos em benchmarks desafiadores de texto para imagem, por exemplo, 0,59 no GenEval e 79,66 no DPG; 2) tanto o ajuste fino supervisionado (SFT) quanto o treinamento com Otimização de Política Relativa em Grupo (GRPO) podem levar a melhorias significativas na estética da geração e no alinhamento com o prompt; e 3) quando otimizado com técnicas de aceleração de inferência como vLLM, o tempo para o SimpleAR gerar uma imagem de 1024x1024 pode ser reduzido para cerca de 14 segundos. Ao compartilhar essas descobertas e disponibilizar o código em código aberto, esperamos revelar o potencial da geração visual autoregressiva e encorajar uma maior participação neste campo de pesquisa. O código está disponível em https://github.com/wdrink/SimpleAR.

15

Treinamento Eficiente de Modelos de Recompensa de Processo por meio de Aprendizado Ativo
Efficient Process Reward Model Training via Active Learning

Apr 14
ByKeyu Duan, Zichen Liu, Xin Mao, Tianyu Pang, Changyu Chen, Qiguang Chen, Michael Qizhe Shieh, Longxu Dou
13
2

Os Modelos de Recompensa de Processo (PRMs) fornecem supervisão em nível de etapa para grandes modelos de linguagem (LLMs), mas a escalabilidade da anotação de dados de treinamento continua sendo um desafio tanto para humanos quanto para LLMs. Para abordar essa limitação, propomos uma abordagem de aprendizado ativo, ActPRM, que seleciona proativamente as amostras mais incertas para treinamento, reduzindo substancialmente os custos de rotulagem. Durante o treinamento, usamos o PRM para estimar a incerteza após a passagem direta, retendo apenas os dados altamente incertos. Um modelo de raciocínio capaz, porém custoso, então rotula esses dados. Em seguida, calculamos a perda em relação aos rótulos e atualizamos os pesos do PRM. Comparamos o ActPRM com o ajuste fino tradicional, em um cenário de aprendizado ativo baseado em pool, demonstrando que o ActPRM reduz 50% da anotação, mas alcança desempenho comparável ou até melhor. Além da eficiência de anotação, avançamos ainda mais o PRM treinado ativamente ao filtrar mais de 1 milhão de trajetórias de raciocínio matemático com o ActPRM, retendo 60% dos dados. Um treinamento subsequente nesse conjunto de dados selecionado resulta em um novo PRM de estado da arte (SOTA) no ProcessBench (75,0%) e no PRMBench (65,5%) em comparação com modelos de mesmo tamanho.

16

Treinamento Eficiente de Modelos Generativos via Aquecimento de Representações Incorporadas
Efficient Generative Model Training via Embedded Representation Warmup

Apr 14
ByDeyuan Liu, Peng Sun, Xufeng Li, Tao Lin
12
2

Os modelos de difusão se destacam na geração de dados de alta dimensionalidade, mas apresentam deficiências em eficiência de treinamento e qualidade de representação quando comparados a métodos auto-supervisionados. Identificamos um gargalo crucial: a subutilização de representações de alta qualidade e semanticamente ricas durante o treinamento desacelera significativamente a convergência. Nossa análise sistemática revela uma região crítica de processamento de representações — principalmente nas camadas iniciais — onde ocorre a aprendizagem de padrões semânticos e estruturais antes que a geração possa acontecer. Para resolver isso, propomos o Embedded Representation Warmup (ERW), uma estrutura plug-and-play em que, na primeira etapa, o módulo ERW atua como um aquecimento que inicializa as camadas iniciais do modelo de difusão com representações pré-treinadas de alta qualidade. Esse aquecimento minimiza a carga de aprender representações do zero, acelerando assim a convergência e melhorando o desempenho. Nossa análise teórica demonstra que a eficácia do ERW depende de sua integração precisa em camadas específicas da rede neural — denominadas região de processamento de representações — onde o modelo processa e transforma principalmente as representações de características para geração posterior. Além disso, estabelecemos que o ERW não apenas acelera a convergência do treinamento, mas também aprimora a qualidade das representações: empiricamente, nosso método alcança uma aceleração de 40 vezes na velocidade de treinamento em comparação com o REPA, os métodos mais avançados atualmente. O código está disponível em https://github.com/LINs-lab/ERW.

17

DeepMath-103K: Um Conjunto de Dados Matemáticos de Grande Escala, Desafiador, Descontaminado e Verificável para Avançar o Raciocínio
DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning

Apr 15
ByZhiwei He, Tian Liang, Jiahao Xu, Qiuzhi Liu, Xingyu Chen, Yue Wang, Linfeng Song, Dian Yu, Zhenwen Liang, Wenxuan Wang, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, Dong Yu
12
6

A capacidade de raciocínio matemático complexo é um marco fundamental para a inteligência artificial. Embora o aprendizado por reforço (RL) aplicado a LLMs mostre potencial, o progresso é significativamente limitado pela escassez de dados de treinamento em grande escala que sejam suficientemente desafiadores, possuam formatos de resposta verificáveis adequados para RL e estejam livres de contaminação com benchmarks de avaliação. Para superar essas limitações, apresentamos o DeepMath-103K, um novo conjunto de dados em larga escala composto por aproximadamente 103 mil problemas matemáticos, especificamente projetado para treinar modelos avançados de raciocínio via RL. O DeepMath-103K é curado por meio de um pipeline rigoroso que envolve análise de fontes, descontaminação rigorosa em relação a diversos benchmarks e filtragem para alta dificuldade (principalmente níveis 5-9), superando significativamente os recursos abertos existentes em termos de desafio. Cada problema inclui uma resposta final verificável, permitindo RL baseado em regras, e três soluções distintas geradas por R1 adequadas para diversos paradigmas de treinamento, como ajuste fino supervisionado ou destilação. Abrangendo uma ampla gama de tópicos matemáticos, o DeepMath-103K promove o desenvolvimento de raciocínio generalizável. Demonstramos que modelos treinados com o DeepMath-103K alcançam melhorias significativas em benchmarks matemáticos desafiadores, validando sua eficácia. Disponibilizamos o DeepMath-103K publicamente para facilitar o progresso da comunidade na construção de sistemas de raciocínio de IA mais capazes: https://github.com/zwhe99/DeepMath.

18

D^2iT: Transformador de Difusão Dinâmica para Geração Precisa de Imagens
D^2iT: Dynamic Diffusion Transformer for Accurate Image Generation

Apr 13
ByWeinan Jia, Mengqi Huang, Nan Chen, Lei Zhang, Zhendong Mao
11
2

Os modelos de difusão são amplamente reconhecidos por sua capacidade de gerar imagens de alta fidelidade. Apesar do excelente desempenho e escalabilidade da arquitetura Diffusion Transformer (DiT), ela aplica uma compressão fixa em diferentes regiões da imagem durante o processo de difusão, desconsiderando as densidades de informação naturalmente variáveis presentes nessas regiões. No entanto, uma compressão grande resulta em realismo local limitado, enquanto uma compressão pequena aumenta a complexidade computacional e compromete a consistência global, impactando, por fim, a qualidade das imagens geradas. Para abordar essas limitações, propomos comprimir dinamicamente diferentes regiões da imagem ao reconhecer a importância de cada região, e introduzimos uma nova estrutura de duas etapas projetada para aprimorar a eficácia e eficiência da geração de imagens: (1) O Dynamic VAE (DVAE) na primeira etapa emprega um codificador hierárquico para codificar diferentes regiões da imagem em taxas de redução de resolução distintas, adaptadas às suas densidades de informação específicas, fornecendo assim códigos latentes mais precisos e naturais para o processo de difusão. (2) O Dynamic Diffusion Transformer (D^2iT) na segunda etapa gera imagens ao prever ruídos multi-granulares, compostos por grãos grossos (menos código latente em regiões suaves) e grãos finos (mais códigos latentes em regiões detalhadas), por meio de uma combinação inovadora do Dynamic Grain Transformer e do Dynamic Content Transformer. A estratégia de combinar a previsão aproximada do ruído com a correção de regiões detalhadas alcança uma unificação entre consistência global e realismo local. Experimentos abrangentes em diversas tarefas de geração validam a eficácia da nossa abordagem. O código será disponibilizado em https://github.com/jiawn-creator/Dynamic-DiT.

19

VisualPuzzles: Desacoplando a Avaliação de Raciocínio Multimodal do Conhecimento de Domínio
VisualPuzzles: Decoupling Multimodal Reasoning Evaluation from Domain Knowledge

Apr 14
ByYueqi Song, Tianyue Ou, Yibo Kong, Zecheng Li, Graham Neubig, Xiang Yue
11
2

Os benchmarks multimodais atuais frequentemente confundem raciocínio com conhecimento específico de domínio, tornando difícil isolar e avaliar habilidades gerais de raciocínio em contextos não especializados. Para abordar isso, introduzimos o VisualPuzzles, um benchmark que visa o raciocínio visual enquanto minimiza deliberadamente a dependência de conhecimento especializado. O VisualPuzzles consiste em diversas questões abrangendo cinco categorias: raciocínio algorítmico, analógico, dedutivo, indutivo e espacial. Uma das principais fontes de nossas questões são perguntas de raciocínio lógico traduzidas manualmente do Exame de Serviço Civil Chinês. Experimentos mostram que o VisualPuzzles requer significativamente menos conhecimento específico de domínio e mais raciocínio complexo em comparação com benchmarks como o MMMU, permitindo-nos avaliar melhor o raciocínio multimodal genuíno. Avaliações mostram que os modelos de linguagem multimodal de última geração consistentemente ficam atrás do desempenho humano no VisualPuzzles, e que um forte desempenho em benchmarks intensivos em conhecimento não necessariamente se traduz em sucesso em tarefas focadas em raciocínio e leves em conhecimento. Além disso, aprimoramentos de raciocínio, como aumentar a capacidade de inferência (com modos de "pensar"), produzem ganhos inconsistentes entre modelos e tipos de tarefas, e não observamos uma correlação clara entre o tamanho do modelo e o desempenho. Também descobrimos que os modelos exibem padrões diferentes de raciocínio e resposta no VisualPuzzles em comparação com benchmarks que enfatizam mais o conhecimento. O VisualPuzzles oferece uma lente mais clara para avaliar capacidades de raciocínio além da recuperação de fatos e do conhecimento de domínio.

20

RealHarm: Uma Coleção de Falhas Reais na Aplicação de Modelos de Linguagem
RealHarm: A Collection of Real-World Language Model Application Failures

Apr 14
ByPierre Le Jeune, Jiaen Liu, Luca Rossi, Matteo Dora
10
3

A implantação de modelos de linguagem em aplicações voltadas ao consumidor introduz inúmeros riscos. Embora pesquisas existentes sobre danos e perigos dessas aplicações sigam abordagens de cima para baixo derivadas de frameworks regulatórios e análises teóricas, evidências empíricas de modos de falha no mundo real permanecem pouco exploradas. Neste trabalho, apresentamos o RealHarm, um conjunto de dados de interações problemáticas anotadas com agentes de IA, construído a partir de uma revisão sistemática de incidentes relatados publicamente. Analisando danos, causas e perigos especificamente da perspectiva do implantador, descobrimos que danos à reputação constituem o principal dano organizacional, enquanto a desinformação emerge como a categoria de perigo mais comum. Avaliamos empiricamente sistemas de contenção e moderação de conteúdo de última geração para investigar se tais sistemas teriam evitado os incidentes, revelando uma lacuna significativa na proteção de aplicações de IA.

21

AI-University: Uma plataforma baseada em LLM para alinhamento instrucional em salas de aula científicas
AI-University: An LLM-based platform for instructional alignment to scientific classrooms

Apr 11
ByMostafa Faghih Shojaei, Rahul Gulati, Benjamin A. Jasperson, Shangshang Wang, Simone Cimolato, Dangli Cao, Willie Neiswanger, Krishna Garikipati
9
2

Apresentamos a Universidade de IA (AI-U), uma estrutura flexível para a entrega de conteúdo de cursos orientada por IA que se adapta aos estilos de ensino dos instrutores. No cerne da AI-U, um modelo de linguagem de grande escala (LLM) é ajustado com geração aumentada por recuperação (RAG) para gerar respostas alinhadas ao instrutor a partir de vídeos de aulas, anotações e livros didáticos. Utilizando um curso de pós-graduação em método dos elementos finitos (MEF) como estudo de caso, apresentamos um pipeline escalável para construir sistematicamente dados de treinamento, ajustar um LLM de código aberto com Adaptação de Baixa Ordem (LoRA) e otimizar suas respostas por meio de síntese baseada em RAG. Nossa avaliação - combinando similaridade de cosseno, avaliação baseada em LLM e revisão de especialistas - demonstra um forte alinhamento com os materiais do curso. Também desenvolvemos um protótipo de aplicação web, disponível em https://my-ai-university.com, que melhora a rastreabilidade ao vincular respostas geradas por IA a seções específicas do material do curso e instâncias com carimbo de tempo das videoaulas de acesso aberto. Nosso modelo especialista apresentou maior similaridade de cosseno com uma referência em 86% dos casos de teste. Um juiz LLM também considerou que nosso modelo especialista superou o modelo base Llama 3.2 aproximadamente quatro vezes em cinco. A AI-U oferece uma abordagem escalável para a educação assistida por IA, abrindo caminho para uma adoção mais ampla no ensino superior. Aqui, nossa estrutura foi apresentada no contexto de uma aula sobre MEF - um assunto central na formação de doutorandos e mestrandos em ciências da engenharia. No entanto, esse contexto é uma instância particular de um cenário mais amplo: o ajuste fino de LLMs para conteúdo de pesquisa em ciências.

22

Compressão Eficiente de Modelos de Linguagem Híbridos por meio de Poda SSM com Consciência de Grupo
Efficient Hybrid Language Model Compression through Group-Aware SSM Pruning

Apr 15
ByAli Taghibakhshi, Sharath Turuvekere Sreenivas, Saurav Muralidharan, Marcin Chochowski, Yashaswi Karnati, Raviraj Joshi, Ameya Sunil Mahabaleshwarkar, Zijia Chen, Yoshi Suhara, Oluwatobi Olabiyi, Daniel Korzekwa, Mostofa Patwary, Mohammad Shoeybi, Jan Kautz, Bryan Catanzaro, Ashwath Aithal, Nima Tajbakhsh, Pavlo Molchanov
9
2

Arquiteturas híbridas de LLM que combinam modelos de Atenção e modelos de Espaço de Estados (SSMs) alcançam precisão e desempenho de tempo de execução de última geração. Trabalhos recentes demonstraram que a aplicação de compressão e destilação em modelos baseados apenas em Atenção resulta em modelos menores e mais precisos, com uma fração do custo de treinamento. Neste trabalho, exploramos a eficácia da compressão em arquiteturas híbridas. Introduzimos uma nova estratégia de poda consciente de grupos que preserva a integridade estrutural dos blocos SSM e suas capacidades de modelagem de sequências. Além disso, demonstramos a necessidade dessa poda SSM para alcançar melhorias na precisão e velocidade de inferência em comparação com abordagens tradicionais. Nossa receita de compressão combina poda de SSM, FFN, dimensão de embedding e camadas, seguida de retreinamento baseado em destilação de conhecimento, semelhante à técnica MINITRON. Utilizando essa abordagem, comprimimos o modelo híbrido Nemotron-H 8B para 4B de parâmetros, com até 40x menos tokens de treinamento. O modelo resultante supera a precisão de modelos de tamanho similar enquanto alcança inferência 2x mais rápida, avançando significativamente a fronteira de Pareto.

23

Relatório do Desafio PVUW 2025: Avanços na Compreensão em Nível de Pixel de Vídeos Complexos em Ambientes Reais
PVUW 2025 Challenge Report: Advances in Pixel-level Understanding of Complex Videos in the Wild

Apr 15
ByHenghui Ding, Chang Liu, Nikhila Ravi, Shuting He, Yunchao Wei, Song Bai, Philip Torr, Kehuan Song, Xinglin Xie, Kexin Zhang, Licheng Jiao, Lingling Li, Shuyuan Yang, Xuqiang Cao, Linnan Zhao, Jiaxuan Zhao, Fang Liu, Mengjiao Wang, Junpei Zhang, Xu Liu, Yuting Yang, Mengru Ma, Hao Fang, Runmin Cong, Xiankai Lu, Zhiyang Che, Wei Zhan, Tianming Liang, Haichao Jiang, Wei-Shi Zheng, Jian-Fang Hu, Haobo Yuan, Xiangtai Li, Tao Zhang, Lu Qi, Ming-Hsuan Yang
5
2

Este relatório fornece uma visão abrangente do 4º Desafio de Compreensão de Vídeo em Nível de Pixel em Cenários Reais (PVUW), realizado em conjunto com a CVPR 2025. Ele resume os resultados do desafio, as metodologias participantes e as futuras direções de pesquisa. O desafio apresenta duas vertentes: MOSE, que se concentra na segmentação de objetos em vídeos de cenas complexas, e MeViS, que visa a segmentação de vídeos guiada por movimento e baseada em linguagem. Ambas as vertentes introduzem novos conjuntos de dados mais desafiadores, projetados para refletir melhor cenários do mundo real. Por meio de avaliação e análise detalhadas, o desafio oferece insights valiosos sobre o estado da arte atual e as tendências emergentes na segmentação de vídeos complexos. Mais informações podem ser encontradas no site do workshop: https://pvuw.github.io/.

24

Difusão e Distilação com Otimização Direta de Preferências para Conclusão Eficiente de Cenas em LiDAR 3D
Diffusion Distillation With Direct Preference Optimization For Efficient 3D LiDAR Scene Completion

Apr 15
ByAn Zhaol, Shengyuan Zhang, Ling Yang, Zejian Li, Jiale Wu, Haoran Xu, AnYang Wei, Perry Pengyun GU Lingyun Sun
4
2

A aplicação de modelos de difusão na completação de cenas 3D com LiDAR é limitada devido à baixa velocidade de amostragem da difusão. A destilação de pontuação acelera a amostragem de difusão, mas com degradação de desempenho, enquanto o pós-treinamento com otimização direta de política (DPO) melhora o desempenho utilizando dados de preferência. Este artigo propõe o Distillation-DPO, uma nova estrutura de destilação de difusão para completação de cenas LiDAR com alinhamento de preferências. Primeiro, o modelo estudante gera pares de cenas completadas com diferentes ruídos iniciais. Segundo, utilizando métricas de avaliação de cenas LiDAR como preferência, construímos pares de amostras vencedoras e perdedoras. Essa construção é razoável, já que a maioria das métricas de cenas LiDAR são informativas, mas não diferenciáveis para serem otimizadas diretamente. Terceiro, o Distillation-DPO otimiza o modelo estudante explorando a diferença nas funções de pontuação entre os modelos professor e estudante nas cenas completadas em pares. Esse procedimento é repetido até a convergência. Experimentos extensivos demonstram que, em comparação com os modelos de difusão de completação de cenas LiDAR state-of-the-art, o Distillation-DPO alcança uma completação de cenas de maior qualidade enquanto acelera a velocidade de completação em mais de 5 vezes. Nosso método é o primeiro a explorar a adoção de aprendizado de preferências na destilação, até onde sabemos, e fornece insights sobre a destilação alinhada por preferências. Nosso código está disponível publicamente em https://github.com/happyw1nd/DistillationDPO.

25

LazyReview: Um Conjunto de Dados para Identificar Pensamento Preguiçoso em Revisões por Pares de NLP
LazyReview A Dataset for Uncovering Lazy Thinking in NLP Peer Reviews

Apr 15
BySukannya Purkayastha, Zhuang Li, Anne Lauscher, Lizhen Qu, Iryna Gurevych
3
2

A revisão por pares é um pilar fundamental do controle de qualidade na publicação científica. Com o aumento da carga de trabalho, o uso não intencional de heurísticas "rápidas", referido como pensamento preguiçoso, tem surgido como um problema recorrente que compromete a qualidade das revisões. Métodos automatizados para detectar tais heurísticas podem ajudar a melhorar o processo de revisão por pares. No entanto, há pesquisas limitadas em PLN (Processamento de Linguagem Natural) sobre esse tema, e não existe um conjunto de dados do mundo real para apoiar o desenvolvimento de ferramentas de detecção. Este trabalho apresenta o LazyReview, um conjunto de dados de frases de revisão por pares anotadas com categorias detalhadas de pensamento preguiçoso. Nossa análise revela que os Modelos de Linguagem de Grande Escala (LLMs) têm dificuldade em detectar esses casos em um cenário zero-shot. No entanto, o ajuste fino baseado em instruções em nosso conjunto de dados melhora significativamente o desempenho em 10 a 20 pontos, destacando a importância de dados de treinamento de alta qualidade. Além disso, um experimento controlado demonstra que as revisões revisadas com feedback sobre pensamento preguiçoso são mais abrangentes e acionáveis do que aquelas escritas sem tal feedback. Disponibilizaremos nosso conjunto de dados e as diretrizes aprimoradas que podem ser usadas para treinar revisores iniciantes na comunidade. (Código disponível aqui: https://github.com/UKPLab/arxiv2025-lazy-review)

26

Modelagem de Vídeos Longos Multimodais Baseada em Contexto Dinâmico Temporal
Multimodal Long Video Modeling Based on Temporal Dynamic Context

Apr 14
ByHaoran Hao, Jiaming Han, Yiyuan Zhang, Xiangyu Yue
3
2

Avanços recentes em Modelos de Linguagem de Grande Escala (LLMs) levaram a descobertas significativas na compreensão de vídeos. No entanto, os modelos existentes ainda enfrentam dificuldades no processamento de vídeos longos devido à limitação do comprimento do contexto dos LLMs e à vasta quantidade de informações contidas no vídeo. Embora alguns métodos recentes tenham sido projetados para a compreensão de vídeos longos, eles frequentemente perdem informações cruciais durante a compressão de tokens e têm dificuldades com modalidades adicionais, como áudio. Neste trabalho, propomos um método dinâmico de codificação de vídeos longos que utiliza a relação temporal entre os quadros, denominado Contexto Temporal Dinâmico (TDC). Primeiramente, segmentamos o vídeo em cenas semanticamente consistentes com base nas similaridades entre os quadros, em seguida, codificamos cada quadro em tokens usando codificadores visuais e de áudio. Em segundo lugar, propomos um novo compressor de contexto temporal para reduzir o número de tokens em cada segmento. Especificamente, empregamos um Transformer baseado em consultas para agregar tokens de vídeo, áudio e texto de instrução em um conjunto limitado de tokens de contexto temporal. Por fim, alimentamos os tokens estáticos dos quadros e os tokens de contexto temporal no LLM para a compreensão do vídeo. Além disso, para lidar com vídeos extremamente longos, propomos uma estratégia de cadeia de pensamento sem treinamento que extrai progressivamente respostas de múltiplos segmentos de vídeo. Essas respostas intermediárias servem como parte do processo de raciocínio e contribuem para a resposta final. Realizamos extensos experimentos em benchmarks de compreensão geral de vídeos e de compreensão de áudio e vídeo, onde nosso método demonstra um forte desempenho. O código e os modelos estão disponíveis em https://github.com/Hoar012/TDC-Video.

27

Poda Computacional Adaptativa para o Transformer com Esquecimento
Adaptive Computation Pruning for the Forgetting Transformer

Apr 9
ByZhixuan Lin, Johan Obando-Ceron, Xu Owen He, Aaron Courville
3
2

O recentemente proposto Transformer com Esquecimento (FoX) incorpora um portão de esquecimento na atenção softmax e tem demonstrado desempenho consistentemente melhor ou equivalente em comparação com o Transformer padrão baseado em RoPE. Notavelmente, muitas cabeças de atenção no FoX tendem a esquecer rapidamente, fazendo com que sua saída em cada passo de tempo dependa principalmente do contexto local. Com base nessa observação, propomos a Poda de Computação Adaptativa (ACP) para o FoX, um método que poda dinamicamente as computações envolvendo dependências entrada-saída que são fortemente atenuadas pelo portão de esquecimento. Isso é alcançado usando um limite de poda definido dinamicamente que garante que os pesos de atenção podados permaneçam insignificantes. Aplicamos o ACP ao pré-treinamento de modelos de linguagem com o FoX e mostramos que ele reduz consistentemente o número de FLOPs na atenção softmax em cerca de 70% em diferentes tamanhos de modelos e comprimentos de contexto, resultando em uma melhoria de aproximadamente 10% a 35% na taxa de processamento do treinamento. Além disso, comprimentos de contexto mais longos proporcionam maiores economias computacionais. Todas essas melhorias de velocidade são alcançadas sem qualquer degradação de desempenho. Também realizamos várias análises para fornecer insights mais profundos sobre nosso método, como examinar os padrões de poda e analisar a distribuição das economias de FLOPs entre diferentes cabeças de atenção. Nosso código está disponível em https://github.com/zhixuan-lin/arctic-fox.

28

Resumo de Apresentações Multimodais com Modelos de Visão e Linguagem: Estudo do Efeito das Modalidades e da Estrutura
Summarization of Multimodal Presentations with Vision-Language Models: Study of the Effect of Modalities and Structure

Apr 14
ByThéo Gigant, Camille Guinaudeau, Frédéric Dufaux
2
2

Modelos Visão-Linguagem (VLMs) podem processar informações visuais e textuais em múltiplos formatos: textos, imagens, textos e imagens intercalados, ou até mesmo vídeos de longa duração. Neste trabalho, realizamos análises quantitativas e qualitativas detalhadas da sumarização automática de apresentações multimodais utilizando VLMs com diversas representações como entrada. A partir desses experimentos, sugerimos estratégias custo-efetivas para gerar resumos de documentos multimodais com predominância de texto sob diferentes orçamentos de comprimento de entrada usando VLMs. Mostramos que slides extraídos do fluxo de vídeo podem ser utilizados de forma vantajosa como entrada em comparação ao vídeo bruto, e que uma representação estruturada a partir de slides e transcrições intercalados oferece o melhor desempenho. Por fim, refletimos e comentamos sobre a natureza das interações intermodais em apresentações multimodais e compartilhamos sugestões para melhorar as capacidades dos VLMs na compreensão de documentos desse tipo.

29

Alinhar a Eliminação de Ruído Generativa com Objetivos Discriminativos Liberta a Difusão para a Percepção Visual
Aligning Generative Denoising with Discriminative Objectives Unleashes Diffusion for Visual Perception

Apr 15
ByZiqi Pang, Xin Xu, Yu-Xiong Wang
1
2

Com o sucesso da geração de imagens, os modelos generativos de difusão estão sendo cada vez mais adotados para tarefas discriminativas, uma vez que a geração de pixels fornece uma interface de percepção unificada. No entanto, a reutilização direta do processo generativo de remoção de ruído para objetivos discriminativos revela lacunas críticas raramente abordadas anteriormente. Modelos generativos toleram erros intermediários de amostragem se a distribuição final permanecer plausível, mas tarefas discriminativas exigem precisão rigorosa em todo o processo, como evidenciado em tarefas multimodais desafiadoras, como a segmentação de imagens por referência. Motivados por essa lacuna, analisamos e aprimoramos o alinhamento entre processos generativos de difusão e tarefas de percepção, focando em como a qualidade da percepção evolui durante a remoção de ruído. Descobrimos: (1) etapas iniciais de remoção de ruído contribuem desproporcionalmente para a qualidade da percepção, levando-nos a propor objetivos de aprendizado personalizados que refletem as contribuições variáveis em diferentes intervalos de tempo; (2) etapas posteriores de remoção de ruído mostram uma degradação inesperada da percepção, destacando a sensibilidade a mudanças na distribuição de treinamento-remoção de ruído, abordada por nossa técnica de aumento de dados adaptada à difusão; e (3) processos generativos permitem de forma única a interatividade, servindo como interfaces de usuário controláveis e adaptáveis a prompts corretivos em interações de múltiplas rodadas. Nossas descobertas melhoram significativamente os modelos de percepção baseados em difusão sem alterações arquitetônicas, alcançando desempenho de ponta em estimativa de profundidade, segmentação de imagens por referência e tarefas de percepção generalistas. Código disponível em https://github.com/ziqipang/ADDP.

30

Modelos de Espaço de Estados para Detecção de Mudanças em Sensoriamento Remoto
Change State Space Models for Remote Sensing Change Detection

Apr 15
ByElman Ghazaei, Erchan Aptoula
0
2

Apesar de seu uso frequente para detecção de mudanças, tanto as ConvNets quanto os Transformers de Visão (ViTs) apresentam limitações bem conhecidas: as primeiras têm dificuldade em modelar dependências de longo alcance, enquanto os últimos são computacionalmente ineficientes, tornando-os desafiadores para treinamento em conjuntos de dados em grande escala. O Vision Mamba, uma arquitetura baseada em Modelos de Espaço de Estados, surgiu como uma alternativa que aborda essas deficiências e já foi aplicado à detecção de mudanças em sensoriamento remoto, embora principalmente como um backbone de extração de características. Neste artigo, é introduzido o Change State Space Model, projetado especificamente para detecção de mudanças ao focar nas alterações relevantes entre imagens bi-temporais, filtrando efetivamente informações irrelevantes. Ao concentrar-se apenas nas características alteradas, o número de parâmetros da rede é reduzido, aumentando significativamente a eficiência computacional enquanto mantém alto desempenho de detecção e robustez contra degradação da entrada. O modelo proposto foi avaliado em três conjuntos de dados de referência, onde superou ConvNets, ViTs e contrapartes baseadas em Mamba com uma fração de sua complexidade computacional. A implementação estará disponível em https://github.com/Elman295/CSSM após a aceitação.

Apr 15
Apr 16
Apr 17