ChatPaper.aiChatPaper.ai
Início

arXiv

HuggingFace

PreçosContaÁrea de trabalho

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

1

Relatório Técnico SageAttention2: Atenção Precisa de 4 Bits para Aceleração de Inferência Plug-and-Play
SageAttention2 Technical Report: Accurate 4 Bit Attention for Plug-and-play Inference Acceleration

Nov 17
ByJintao Zhang, Haofeng Huang, Pengle Zhang, Jia Wei, Jun Zhu, Jianfei Chen
55
9

Embora a quantização para camadas lineares seja amplamente utilizada, sua aplicação para acelerar o processo de atenção ainda é limitada. O SageAttention utiliza multiplicação de matriz de 8 bits, multiplicação de matriz de 16 bits com acumulador de 16 bits e métodos de aprimoramento de precisão, implementando um kernel preciso e com aumento de velocidade de 2x em comparação com o FlashAttention2. Para aprimorar ainda mais a eficiência do cálculo de atenção mantendo a precisão, propomos o SageAttention2, que utiliza uma multiplicação de matriz de 4 bits (Matmul) significativamente mais rápida juntamente com técnicas adicionais de aprimoramento de precisão. Primeiramente, propomos quantizar as matrizes (Q, K) para INT4 em uma granularidade de nível de warp e quantizar as matrizes (widetilde P, V) para FP8. Em segundo lugar, propomos um método para suavizar Q e V, aprimorando a precisão da atenção com INT4 QK e FP8 PV. Em terceiro lugar, analisamos a precisão da quantização ao longo dos passos de tempo e camadas, e propomos um método de quantização adaptativa para garantir as métricas de ponta a ponta em vários modelos. As operações por segundo (OPS) do SageAttention2 superam o FlashAttention2 e os xformers em cerca de 3x e 5x no RTX4090, respectivamente. Experimentos abrangentes confirmam que nossa abordagem incorre em perda negligenciável de métricas de ponta a ponta em diversos modelos, incluindo aqueles para processamento de linguagem extensa, geração de imagens e geração de vídeos. Os códigos estão disponíveis em https://github.com/thu-ml/SageAttention.

2

VBench++: Conjunto de Testes Abrangente e Versátil para Modelos Generativos de Vídeo
VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models

Nov 20
ByZiqi Huang, Fan Zhang, Xiaojie Xu, Yinan He, Jiashuo Yu, Ziyue Dong, Qianli Ma, Nattapol Chanpaisit, Chenyang Si, Yuming Jiang, Yaohui Wang, Xinyuan Chen, Ying-Cong Chen, Limin Wang, Dahua Lin, Yu Qiao, Ziwei Liu
34
3

A geração de vídeo tem testemunhado avanços significativos, no entanto, a avaliação desses modelos continua sendo um desafio. Um benchmark abrangente de avaliação para geração de vídeo é indispensável por duas razões: 1) As métricas existentes não estão totalmente alinhadas com as percepções humanas; 2) Um sistema de avaliação ideal deve fornecer insights para orientar futuros desenvolvimentos na geração de vídeo. Nesse sentido, apresentamos o VBench, uma suíte de benchmark abrangente que divide a "qualidade da geração de vídeo" em dimensões específicas, hierárquicas e desembaraçadas, cada uma com instruções e métodos de avaliação personalizados. O VBench possui várias propriedades atrativas: 1) Dimensões Abrangentes: O VBench compreende 16 dimensões na geração de vídeo (por exemplo, inconsistência na identidade do sujeito, suavidade do movimento, cintilação temporal e relação espacial, etc). As métricas de avaliação com níveis detalhados revelam as forças e fraquezas dos modelos individuais. 2) Alinhamento Humano: Também fornecemos um conjunto de dados de anotações de preferência humana para validar o alinhamento de nossos benchmarks com a percepção humana, para cada dimensão de avaliação, respectivamente. 3) Insights Valiosos: Analisamos a capacidade dos modelos atuais em várias dimensões de avaliação e tipos de conteúdo diversos. Também investigamos as lacunas entre os modelos de geração de vídeo e imagem. 4) Benchmarking Versátil: O VBench++ suporta a avaliação de texto-para-vídeo e imagem-para-vídeo. Apresentamos um Conjunto de Imagens de alta qualidade com uma proporção de aspecto adaptativa para permitir avaliações justas em diferentes configurações de geração de imagem-para-vídeo. Além de avaliar a qualidade técnica, o VBench++ avalia a confiabilidade dos modelos gerativos de vídeo, fornecendo uma visão mais holística do desempenho do modelo. 5) Totalmente de Código Aberto: Disponibilizamos o VBench++ em código aberto completo e continuamente adicionamos novos modelos de geração de vídeo ao nosso ranking para impulsionar o campo da geração de vídeo.

3

VideoAutoArena: Uma Arena Automatizada para Avaliar Modelos Multimodais Grandes na Análise de Vídeo por meio de Simulação de Usuário
VideoAutoArena: An Automated Arena for Evaluating Large Multimodal Models in Video Analysis through User Simulation

Nov 20
ByZiyang Luo, Haoning Wu, Dongxu Li, Jing Ma, Mohan Kankanhalli, Junnan Li
21
5

Os modelos multimodais de grande escala (LMMs) com capacidades avançadas de análise de vídeo têm recentemente recebido significativa atenção. No entanto, a maioria das avaliações depende de métodos tradicionais, como perguntas de múltipla escolha em benchmarks como VideoMME e LongVideoBench, que estão sujeitos a não ter a profundidade necessária para capturar as demandas complexas de usuários do mundo real. Para lidar com essa limitação - e devido ao custo proibitivo e ritmo lento da anotação humana para tarefas de vídeo - introduzimos o VideoAutoArena, um benchmark no estilo arena inspirado no framework LMSYS Chatbot Arena, projetado para avaliar automaticamente as habilidades de análise de vídeo dos LMMs. O VideoAutoArena utiliza simulação de usuário para gerar perguntas abertas e adaptativas que avaliam rigorosamente o desempenho do modelo na compreensão de vídeo. O benchmark apresenta um framework de avaliação automatizado e escalável, incorporando um Sistema de Classificação ELO modificado para comparações justas e contínuas entre vários LMMs. Para validar nosso sistema de julgamento automatizado, construímos um 'padrão-ouro' usando um subconjunto cuidadosamente selecionado de anotações humanas, demonstrando que nossa arena está fortemente alinhada com o julgamento humano, mantendo a escalabilidade. Além disso, introduzimos uma estratégia de evolução orientada por falhas, aumentando progressivamente a complexidade das perguntas para levar os modelos a lidar com cenários de análise de vídeo mais desafiadores. Resultados experimentais demonstram que o VideoAutoArena diferencia efetivamente entre os LMMs de ponta, fornecendo insights sobre pontos fortes do modelo e áreas para melhoria. Para otimizar ainda mais nossa avaliação, introduzimos o VideoAutoBench como um benchmark auxiliar, onde anotadores humanos rotulam vencedores em um subconjunto de batalhas do VideoAutoArena. Utilizamos o GPT-4o como juiz para comparar as respostas com essas respostas validadas por humanos. Juntos, o VideoAutoArena e o VideoAutoBench oferecem um framework econômico e escalável para avaliar LMMs na análise de vídeo centrada no usuário.

4

SAMURAI: Adaptando o Modelo Segment Anything para Rastreamento Visual sem Supervisão com Memória Sensível ao Movimento
SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tracking with Motion-Aware Memory

Nov 18
ByCheng-Yen Yang, Hsiang-Wei Huang, Wenhao Chai, Zhongyu Jiang, Jenq-Neng Hwang
19
3

O Modelo Segment Anything 2 (SAM 2) demonstrou um desempenho sólido em tarefas de segmentação de objetos, mas enfrenta desafios no rastreamento visual de objetos, especialmente ao lidar com cenas lotadas com objetos em movimento rápido ou auto-oclusivos. Além disso, a abordagem de memória de janela fixa no modelo original não considera a qualidade das memórias selecionadas para condicionar as características da imagem para o próximo quadro, levando à propagação de erros em vídeos. Este artigo apresenta o SAMURAI, uma adaptação aprimorada do SAM 2 especificamente projetada para o rastreamento visual de objetos. Ao incorporar pistas temporais de movimento com o mecanismo de seleção de memória consciente de movimento proposto, o SAMURAI prevê efetivamente o movimento do objeto e aprimora a seleção de máscara, alcançando um rastreamento robusto e preciso sem a necessidade de retrabalho ou ajuste fino. O SAMURAI opera em tempo real e demonstra um forte desempenho de zero-shot em diversos conjuntos de dados de referência, mostrando sua capacidade de generalização sem ajuste fino. Nas avaliações, o SAMURAI alcança melhorias significativas na taxa de sucesso e precisão em relação aos rastreadores existentes, com um ganho de 7,1% de AUC no LaSOT_{ext} e um ganho de 3,5% de AO no GOT-10k. Além disso, ele alcança resultados competitivos em comparação com métodos totalmente supervisionados no LaSOT, destacando sua robustez em cenários de rastreamento complexos e seu potencial para aplicações do mundo real em ambientes dinâmicos. O código e os resultados estão disponíveis em https://github.com/yangchris11/samurai.

5

Quando Precisão Encontra Posição: BFloat16 Derruba RoPE no Treinamento de Longo Contexto
When Precision Meets Position: BFloat16 Breaks Down RoPE in Long-Context Training

Nov 20
ByHaonan Wang, Qian Liu, Chao Du, Tongyao Zhu, Cunxiao Du, Kenji Kawaguchi, Tianyu Pang
16
2

Ampliar o tamanho da janela de contexto permite que grandes modelos de linguagem (LLMs) processem sequências mais longas e lidem com tarefas mais complexas. A Incorporação Posicional Rotativa (RoPE) tornou-se o padrão de facto devido às suas propriedades de codificação posicional relativa que beneficiam o treinamento de longo contexto. No entanto, observamos que o uso do RoPE com o formato BFloat16 resulta em problemas numéricos, fazendo com que se desvie de sua codificação posicional relativa pretendida, especialmente em cenários de longo contexto. Esse problema surge da precisão limitada do BFloat16 e se acumula à medida que o comprimento do contexto aumenta, com o primeiro token contribuindo significativamente para esse problema. Para resolver isso, desenvolvemos o AnchorAttention, um método de atenção plug-and-play que alivia os problemas numéricos causados pelo BFloat16, melhora as capacidades de longo contexto e acelera o treinamento. O AnchorAttention reduz cálculos de atenção desnecessários, mantém a coerência semântica e aumenta a eficiência computacional tratando o primeiro token como uma âncora compartilhada com um ID de posição consistente, tornando-o visível para todos os documentos dentro do contexto de treinamento. Experimentos em três tipos de LLMs demonstram que o AnchorAttention melhora significativamente o desempenho de longo contexto e reduz o tempo de treinamento em mais de 50\% em comparação com mecanismos de atenção completos padrão, preservando as capacidades originais do LLM em tarefas gerais. Nosso código está disponível em https://github.com/haonan3/AnchorContext.

6

O Seu LLM é Secretamente um Modelo Mundial da Internet? Planeamento Baseado em Modelos para Agentes Web
Is Your LLM Secretly a World Model of the Internet? Model-Based Planning for Web Agents

Nov 10
ByYu Gu, Boyuan Zheng, Boyu Gou, Kai Zhang, Cheng Chang, Sanjari Srivastava, Yanan Xie, Peng Qi, Huan Sun, Yu Su
16
2

Agentes de linguagem têm demonstrado capacidades promissoras na automatização de tarefas baseadas na web, embora suas abordagens reativas atuais ainda apresentem desempenho inferior em grande parte em comparação com os humanos. A incorporação de algoritmos avançados de planejamento, particularmente métodos de busca em árvore, poderia aprimorar o desempenho desses agentes, no entanto, implementar a busca em árvore diretamente em sites ao vivo apresenta riscos significativos de segurança e restrições práticas devido a ações irreversíveis, como a confirmação de uma compra. Neste artigo, introduzimos um novo paradigma que aprimora agentes de linguagem com planejamento baseado em modelo, pioneirizando o uso inovador de grandes modelos de linguagem (LLMs) como modelos do mundo em ambientes web complexos. Nosso método, WebDreamer, baseia-se na percepção fundamental de que os LLMs codificam inerentemente conhecimento abrangente sobre estruturas e funcionalidades de sites. Especificamente, o WebDreamer utiliza LLMs para simular resultados para cada ação candidata (por exemplo, "o que aconteceria se eu clicasse neste botão?") usando descrições em linguagem natural, e então avalia esses resultados imaginados para determinar a ação ótima em cada etapa. Resultados empíricos em dois benchmarks representativos de agentes web com interação online - VisualWebArena e Mind2Web-live - demonstram que o WebDreamer alcança melhorias substanciais em relação às bases reativas. Ao estabelecer a viabilidade dos LLMs como modelos do mundo em ambientes web, este trabalho lança as bases para uma mudança de paradigma na interação web automatizada. Mais amplamente, nossas descobertas abrem novas e empolgantes possibilidades para futuras pesquisas em 1) otimização de LLMs especificamente para modelagem do mundo em ambientes complexos e dinâmicos, e 2) planejamento especulativo baseado em modelo para agentes de linguagem.

7

Estilo de códigos: Codificação de Informações Estilísticas para Geração de Imagens
Stylecodes: Encoding Stylistic Information For Image Generation

Nov 19
ByCiara Rowles
12
2

Os modelos de difusão se destacam na geração de imagens, mas controlá-los ainda é um desafio. Nos concentramos no problema da geração de imagens condicionadas a estilo. Embora imagens de exemplo funcionem, elas são complicadas: os srefs (códigos de referência de estilo) do MidJourney resolvem esse problema ao expressar um estilo de imagem específico em um código numérico curto. Eles têm sido amplamente adotados nas redes sociais devido à facilidade de compartilhamento e ao fato de permitirem o controle de estilo de uma imagem sem a necessidade de postar as imagens de origem. No entanto, os usuários não conseguem gerar srefs a partir de suas próprias imagens, nem o procedimento de treinamento subjacente é público. Propomos os StyleCodes: uma arquitetura de codificador de estilo de código aberto e de pesquisa aberta, juntamente com um procedimento de treinamento para expressar o estilo de imagem como um código base64 de 20 símbolos. Nossos experimentos mostram que nossa codificação resulta em perda mínima de qualidade em comparação com técnicas tradicionais de imagem-para-estilo.

8

ViBe: Um Benchmark Texto-para-Vídeo para Avaliar Alucinação em Grandes Modelos Multimodais
ViBe: A Text-to-Video Benchmark for Evaluating Hallucination in Large Multimodal Models

Nov 16
ByVipula Rawte, Sarthak Jain, Aarush Sinha, Garv Kaushik, Aman Bansal, Prathiksha Rumale Vishwanath, Samyak Rajesh Jain, Aishwarya Naresh Reganti, Vinija Jain, Aman Chadha, Amit P. Sheth, Amitava Das
9
4

Os mais recentes avanços em Modelos Multimodais de Grande Escala (LMMs) ampliaram suas capacidades para incluir a compreensão de vídeo. Especificamente, os modelos Texto-para-Vídeo (T2V) têm feito progressos significativos em qualidade, compreensão e duração, destacando-se na criação de vídeos a partir de simples sugestões textuais. No entanto, eles ainda frequentemente produzem conteúdo alucinado que claramente indica que o vídeo é gerado por IA. Apresentamos o ViBe: um Benchmark de Grande Escala de Texto-para-Vídeo de vídeos alucinados por modelos T2V. Identificamos cinco principais tipos de alucinação: Sujeito Desaparecido, Variabilidade Numérica, Disformia Temporal, Erro de Omissão e Incongruência Física. Utilizando 10 modelos T2V de código aberto, desenvolvemos o primeiro conjunto de dados de grande escala de vídeos alucinados, composto por 3.782 vídeos anotados por humanos nessas cinco categorias. O ViBe oferece um recurso único para avaliar a confiabilidade de modelos T2V e fornece uma base para melhorar a detecção e mitigação de alucinações na geração de vídeo. Estabelecemos a classificação como linha de base e apresentamos várias configurações de classificadores em conjunto, com a combinação TimeSFormer + CNN obtendo o melhor desempenho, alcançando uma precisão de 0,345 e um escore F1 de 0,342. Este benchmark tem como objetivo impulsionar o desenvolvimento de modelos T2V robustos que produzam vídeos mais precisamente alinhados com as sugestões de entrada.

9

Previsão de Perda-a-Perda: Leis de Escala para Todos os Conjuntos de Dados
Loss-to-Loss Prediction: Scaling Laws for All Datasets

Nov 19
ByDavid Brandfonbrener, Nikhil Anand, Nikhil Vyas, Eran Malach, Sham Kakade
5
2

Embora as leis de escala forneçam uma metodologia confiável para prever a perda de treinamento em diferentes escalas de computação para uma única distribuição de dados, sabe-se menos sobre como essas previsões devem mudar ao alterarmos a distribuição. Neste artigo, derivamos uma estratégia para prever uma perda a partir de outra e a aplicamos para prever em diferentes conjuntos de dados de pré-treinamento e do pré-treinamento para os dados da tarefa subsequente. Nossas previsões extrapolam bem, mesmo em 20 vezes o maior orçamento de FLOP usado para ajustar as curvas. Mais precisamente, descobrimos que existem relações simples de lei de potência deslocada entre (1) as perdas de treinamento de dois modelos treinados em dois conjuntos de dados separados quando os modelos são emparelhados pelo cálculo de treinamento (treino-a-treino), (2) a perda de treinamento e a perda de teste em qualquer distribuição subsequente para um único modelo (treino-a-teste), e (3) as perdas de teste de dois modelos treinados em dois conjuntos de dados de treinamento separados (teste-a-teste). Os resultados se mantêm para conjuntos de dados de pré-treinamento que diferem substancialmente (alguns são totalmente compostos por código e outros não possuem código algum) e em uma variedade de tarefas subsequentes. Por fim, descobrimos que em alguns cenários essas relações de lei de potência deslocada podem fornecer previsões mais precisas do que a extrapolação das leis de escala de um único conjunto de dados.

10

Gerando Cenas Composicionais via Geração de Instâncias RGBA de Texto-para-Imagem
Generating Compositional Scenes via Text-to-image RGBA Instance Generation

Nov 16
ByAlessandro Fontanella, Petru-Daniel Tudosiu, Yongxin Yang, Shifeng Zhang, Sarah Parisot
4
2

Modelos generativos de difusão texto-imagem podem gerar imagens de alta qualidade, porém exigem um engenharia de prompts tediosa. A controlabilidade pode ser melhorada ao introduzir condicionamento de layout, no entanto, os métodos existentes carecem de capacidade de edição de layout e controle refinado sobre atributos de objetos. O conceito de geração de múltiplas camadas tem um grande potencial para abordar essas limitações, no entanto, gerar instâncias de imagem simultaneamente à composição da cena limita o controle sobre atributos de objetos refinados, posicionamento relativo no espaço 3D e habilidades de manipulação de cena. Neste trabalho, propomos um novo paradigma de geração em múltiplos estágios que é projetado para controle refinado, flexibilidade e interatividade. Para garantir controle sobre os atributos das instâncias, desenvolvemos um novo paradigma de treinamento para adaptar um modelo de difusão para gerar componentes de cena isolados como imagens RGBA com informações de transparência. Para construir imagens complexas, utilizamos essas instâncias pré-geradas e introduzimos um processo de geração composta de múltiplas camadas que monta suavemente os componentes em cenas realistas. Nossos experimentos mostram que nosso modelo de difusão RGBA é capaz de gerar instâncias diversas e de alta qualidade com controle preciso sobre os atributos dos objetos. Através da composição de múltiplas camadas, demonstramos que nossa abordagem permite construir e manipular imagens a partir de prompts altamente complexos com controle refinado sobre a aparência e localização dos objetos, concedendo um maior grau de controle do que os métodos concorrentes.

11

ORID: Estrutura Orientada por Informações de Órgãos-Regionais para Geração de Relatórios Radiológicos
ORID: Organ-Regional Information Driven Framework for Radiology Report Generation

Nov 20
ByTiancheng Gu, Kaicheng Yang, Xiang An, Ziyong Feng, Dongnan Liu, Weidong Cai
2
2

O objetivo da Geração de Relatórios de Radiologia (GRR) é gerar automaticamente análises textuais coerentes de doenças com base em imagens radiológicas, aliviando assim a carga de trabalho dos radiologistas. Os métodos atuais baseados em IA para GRR concentram-se principalmente em modificações na arquitetura do modelo codificador-decodificador. Para avançar nesses enfoques, este artigo apresenta um framework Orientado por Informações Organ-Regionais (ORID) que pode integrar efetivamente informações multimodais e reduzir a influência de ruídos de órgãos não relacionados. Especificamente, com base no LLaVA-Med, primeiro construímos um conjunto de dados de instruções relacionadas à GRR para melhorar a capacidade de descrição do diagnóstico regional do órgão e obter o LLaVA-Med-GRR. Em seguida, propomos um módulo de fusão cruzada baseado em órgãos para combinar efetivamente as informações da descrição do diagnóstico regional do órgão e da imagem radiológica. Para reduzir ainda mais a influência de ruídos de órgãos não relacionados na geração de relatórios de radiologia, introduzimos um módulo de análise de coeficiente de importância do órgão, que utiliza a Rede Neural de Grafos (RNG) para examinar as interconexões das informações cruzadas de cada região do órgão. Experimentos extensos e comparações com métodos de ponta em várias métricas de avaliação demonstram o desempenho superior do nosso método proposto.

Nov 20
Nov 21
Nov 22