ChatPaper.aiChatPaper.ai
Início

arXiv

HuggingFace

PreçosContaÁrea de trabalho

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

1

Geração Visual Autoregressiva Paralelizada
Parallelized Autoregressive Visual Generation

Dec 19
ByYuqing Wang, Shuhuai Ren, Zhijie Lin, Yujin Han, Haoyuan Guo, Zhenheng Yang, Difan Zou, Jiashi Feng, Xihui Liu
53
2

Os modelos autoregressivos surgiram como uma abordagem poderosa para geração visual, mas sofrem com a lentidão na velocidade de inferência devido ao seu processo de previsão sequencial de token por token. Neste artigo, propomos uma abordagem simples, porém eficaz, para geração visual autoregressiva paralela que melhora a eficiência de geração, preservando as vantagens da modelagem autoregressiva. Nossa principal percepção é que a geração paralela depende das dependências entre tokens visuais - tokens com dependências fracas podem ser gerados em paralelo, enquanto tokens adjacentes fortemente dependentes são difíceis de gerar juntos, pois a amostragem independente deles pode levar a inconsistências. Com base nessa observação, desenvolvemos uma estratégia de geração paralela que gera tokens distantes com dependências fracas em paralelo, mantendo a geração sequencial para tokens locais fortemente dependentes. Nosso método pode ser integrado perfeitamente em modelos autoregressivos padrão sem modificar a arquitetura ou o tokenizador. Experimentos no ImageNet e UCF-101 demonstram que nosso método alcança um aumento de velocidade de 3,6 vezes com qualidade comparável e até 9,5 vezes de aumento de velocidade com degradação mínima de qualidade em tarefas de geração de imagens e vídeos. Esperamos que este trabalho inspire pesquisas futuras em geração visual eficiente e modelagem autoregressiva unificada. Página do projeto: https://epiphqny.github.io/PAR-project.

2

Aprendizagem por Reforço Offline para Raciocínio de Múltiplas Etapas em LLM
Offline Reinforcement Learning for LLM Multi-Step Reasoning

Dec 20
ByHuaijie Wang, Shibo Hao, Hanze Dong, Shenao Zhang, Yilin Bao, Ziran Yang, Yi Wu
38
6

Melhorar a capacidade de raciocínio em vários passos de grandes modelos de linguagem (LLMs) com aprendizado por reforço (RL) offline é essencial para adaptá-los rapidamente a tarefas complexas. Embora a Otimização de Preferência Direta (DPO) tenha mostrado promessa em alinhar LLMs com preferências humanas, ela é menos adequada para tarefas de raciocínio em vários passos porque (1) a DPO depende de dados de preferência em pares, que não estão prontamente disponíveis para tarefas de raciocínio em vários passos, e (2) trata todos os tokens de forma uniforme, tornando-a ineficaz para atribuição de crédito em tarefas de raciocínio em vários passos, que frequentemente têm recompensas esparsas. Neste trabalho, propomos OREO (Otimização de Raciocínio Offline), um método RL offline para aprimorar o raciocínio em vários passos de LLMs. Com base em insights de trabalhos anteriores de aprendizado por reforço de entropia máxima, ele aprende em conjunto um modelo de política e uma função de valor otimizando a Equação de Bellman suave. Demonstramos, em princípio, que isso reduz a necessidade de coletar dados em pares e possibilita uma melhor atribuição de crédito. Empiricamente, OREO supera os métodos de aprendizado offline existentes em benchmarks de raciocínio em vários passos, incluindo tarefas de raciocínio matemático (GSM8K, MATH) e controle de agentes incorporados (ALFWorld). A abordagem pode ser estendida para um framework de múltiplas iterações quando recursos adicionais estão disponíveis. Além disso, a função de valor aprendida pode ser utilizada para orientar a busca em árvore gratuitamente, o que pode aumentar ainda mais o desempenho durante o teste.

3

CLEAR: Linearização semelhante a convolução reverte Transformadores de Difusão Pré-Treinados Acima
CLEAR: Conv-Like Linearization Revs Pre-Trained Diffusion Transformers Up

Dec 20
BySonghua Liu, Zhenxiong Tan, Xinchao Wang
23
5

Os Transformadores de Difusão (DiT) tornaram-se uma arquitetura líder na geração de imagens. No entanto, a complexidade quadrática dos mecanismos de atenção, responsáveis por modelar as relações entre tokens, resulta em latência significativa ao gerar imagens de alta resolução. Para abordar esse problema, este artigo propõe um mecanismo de atenção linear que reduz a complexidade dos DiTs pré-treinados para linear. Iniciamos nossa exploração com um resumo abrangente dos mecanismos de atenção eficientes existentes e identificamos quatro fatores-chave cruciais para a linearização bem-sucedida dos DiTs pré-treinados: localidade, consistência na formulação, mapas de atenção de alto escalão e integridade de características. Com base nessas percepções, introduzimos uma estratégia de atenção local semelhante a convolução denominada CLEAR, que limita as interações de características a uma janela local ao redor de cada token de consulta, alcançando assim complexidade linear. Nossos experimentos indicam que, ao ajustar a camada de atenção em meramente 10 mil amostras auto-geradas por 10 mil iterações, podemos transferir efetivamente o conhecimento de um DiT pré-treinado para um modelo aluno com complexidade linear, produzindo resultados comparáveis ao modelo professor. Simultaneamente, reduz as computações de atenção em 99,5% e acelera a geração em 6,3 vezes para imagens de resolução de 8K. Além disso, investigamos propriedades favoráveis nas camadas de atenção destiladas, como generalização zero-shot entre vários modelos e complementos, e suporte aprimorado para inferência paralela multi-GPU. Modelos e códigos estão disponíveis aqui: https://github.com/Huage001/CLEAR.

4

ESCALA: Otimização da Compressão de Cache Chave-Valor na Geração de Contexto Longo
SCOPE: Optimizing Key-Value Cache Compression in Long-context Generation

Dec 18
ByJialong Wu, Zhenglin Wang, Linhai Zhang, Yilong Lai, Yulan He, Deyu Zhou
20
3

O cache Chave-Valor (KV) tornou-se um gargalo para os LLMs na geração de contexto longo. Apesar dos inúmeros esforços nessa área, a otimização para a fase de decodificação é geralmente ignorada. No entanto, acreditamos que essa otimização é crucial, especialmente para tarefas de geração de saída longa com base nas seguintes duas observações: (i) Compressão excessiva durante a fase de pré-preenchimento, que requer um contexto completo específico, prejudica a compreensão da tarefa de raciocínio; (ii) Desvio de elementos pesados ocorre nas tarefas de raciocínio com saídas longas. Portanto, SCOPE, um framework simples, porém eficiente, que realiza a otimização do cache KV separadamente durante as fases de pré-preenchimento e decodificação, é introduzido. Especificamente, o cache KV durante a fase de pré-preenchimento é preservado para manter as informações essenciais, enquanto uma estratégia inovadora baseada em deslizamento é proposta para selecionar os elementos pesados essenciais para a fase de decodificação. O uso de memória e a transferência de memória são ainda otimizados usando estratégias adaptativas e descontínuas. Experimentos extensivos no LongGenBench mostram a eficácia e generalização do SCOPE e sua compatibilidade como um plug-in para outros métodos de compressão KV apenas de pré-preenchimento.

5

Domando o Treinamento Conjunto Multimodal para uma Síntese de Vídeo para Áudio de Alta Qualidade
Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis

Dec 19
ByHo Kei Cheng, Masato Ishii, Akio Hayakawa, Takashi Shibuya, Alexander Schwing, Yuki Mitsufuji
20
2

Propomos sintetizar áudio de alta qualidade e sincronizado, dado um vídeo e condições de texto opcionais, usando um novo framework de treinamento conjunto multimodal chamado MMAudio. Em contraste com o treinamento de única modalidade condicionado apenas a dados de vídeo (limitados), o MMAudio é treinado em conjunto com dados texto-áudio em maior escala e prontamente disponíveis para aprender a gerar amostras de áudio de alta qualidade alinhadas semanticamente. Adicionalmente, melhoramos a sincronia áudio-visual com um módulo de sincronização condicional que alinha as condições de vídeo com latentes de áudio no nível de quadro. Treinado com um objetivo de correspondência de fluxo, o MMAudio alcança um novo estado da arte de vídeo para áudio entre modelos públicos em termos de qualidade de áudio, alinhamento semântico e sincronização áudio-visual, enquanto possui um baixo tempo de inferência (1,23s para gerar um clipe de 8s) e apenas 157M parâmetros. O MMAudio também alcança surpreendentemente um desempenho competitivo na geração de texto para áudio, mostrando que o treinamento conjunto não prejudica o desempenho de única modalidade. O código e a demonstração estão disponíveis em: https://hkchengrex.github.io/MMAudio

6

Rumo a Legendas de Imagens Hiper-Detalhadas Robustas: Uma Abordagem Multiagente e Métricas de Avaliação Dupla para Factualidade e Cobertura
Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage

Dec 20
BySaehyung Lee, Seunghyun Yoon, Trung Bui, Jing Shi, Sungroh Yoon
15
2

Os modelos de linguagem multimodais de grande escala (MLLMs) destacam-se na geração de legendas altamente detalhadas, mas frequentemente produzem alucinações. Nossa análise revela que os métodos existentes de detecção de alucinações têm dificuldade com legendas detalhadas. Atribuímos isso à crescente dependência dos MLLMs em seu texto gerado, em vez da imagem de entrada, à medida que o comprimento da sequência aumenta. Para lidar com esse problema, propomos uma abordagem multiagente que aproveita a colaboração LLM-MLLM para corrigir legendas fornecidas. Além disso, introduzimos um framework de avaliação e um conjunto de dados de referência para facilitar a análise sistemática de legendas detalhadas. Nossos experimentos demonstram que nosso método de avaliação proposto se alinha melhor com os julgamentos humanos de factualidade do que as métricas existentes e que as abordagens existentes para melhorar a factualidade do MLLM podem ser insuficientes em tarefas de legendagem de imagens hiperdetalhadas. Em contraste, nosso método proposto melhora significativamente a precisão factual das legendas, inclusive aprimorando aquelas geradas pelo GPT-4V. Por fim, destacamos uma limitação da avaliação centrada em VQA ao demonstrar que o desempenho de um MLLM em benchmarks de VQA pode não se correlacionar com sua capacidade de gerar legendas detalhadas de imagens.

7

MixLLM: Quantização LLM com Mistura de Precisão Global entre Características de Saída e Design de Sistema Altamente Eficiente
MixLLM: LLM Quantization with Global Mixed-precision between Output-features and Highly-efficient System Design

Dec 19
ByZhen Zheng, Xiaonan Song, Chuanjie Liu
14
5

A quantização tornou-se uma das metodologias mais eficazes para comprimir LLMs em um tamanho menor. No entanto, as soluções de quantização existentes ainda apresentam limitações, seja em termos de queda de precisão não negligenciável ou ineficiência do sistema. Neste artigo, realizamos uma análise abrangente dos princípios gerais de quantização sobre seu efeito no triângulo de precisão, consumo de memória e eficiência do sistema. Propomos o MixLLM, que explora o novo espaço de otimização da quantização de precisão mista entre as características de saída com base na percepção de que diferentes características de saída têm importâncias diferentes no modelo. O MixLLM identifica as características de saída com alta relevância na visão global, em vez de dentro de cada camada individual, atribuindo efetivamente uma largura de bits maior às características de saída que mais precisam para alcançar boa precisão com baixo consumo de memória. Apresentamos o ponto ideal de configuração de quantização do algoritmo-sistema co-design que leva a uma alta precisão e eficiência do sistema. Para enfrentar o desafio do sistema, projetamos a dequantização em duas etapas para aproveitar o Tensor Core int8 facilmente e a conversão rápida de tipo de dados para reduzir significativamente o overhead de dequantização, e apresentamos o pipeline de software para sobrepor o acesso à memória, dequantização e o MatMul da melhor maneira. Experimentos extensos mostram que, com apenas 10% a mais de bits, o aumento do PPL pode ser reduzido de cerca de 0,5 no SOTA para dentro de 0,2 para o Llama 3.1 70B, enquanto em média o MMLU-Pro melhora em 0,93 em relação ao SOTA de três modelos populares. Além de sua precisão superior, o MixLLM também alcança eficiência do sistema de ponta.

8

TRecViT: Um Transformador de Vídeo Recorrente
TRecViT: A Recurrent Video Transformer

Dec 18
ByViorica Pătrăucean, Xu Owen He, Joseph Heyward, Chuhan Zhang, Mehdi S. M. Sajjadi, George-Cristian Muraru, Artem Zholus, Mahdi Karami, Ross Goroshin, Yutian Chen, Simon Osindero, João Carreira, Razvan Pascanu
13
4

Propomos um novo bloco para modelagem de vídeo. Ele se baseia em uma fatorização tempo-espaço-canal com blocos dedicados para cada dimensão: unidades recorrentes lineares com portas (LRUs) realizam a mistura de informações ao longo do tempo, camadas de autoatenção realizam a mistura no espaço e MLPs nos canais. A arquitetura resultante, TRecViT, apresenta bom desempenho em tarefas esparsas e densas, treinadas em regimes supervisionados ou auto-supervisionados. Notavelmente, nosso modelo é causal e supera ou está em pé de igualdade com um modelo de atenção pura, ViViT-L, em conjuntos de dados de vídeo em grande escala (SSv2, Kinetics400), enquanto possui 3 vezes menos parâmetros, uma pegada de memória 12 vezes menor e uma contagem de FLOPs 5 vezes menor. O código e os pontos de verificação estarão disponíveis online em https://github.com/google-deepmind/trecvit.

9

A Ordem das Sequências Importa: Aproveitando Modelos de Vídeo na Super-Resolução 3D
Sequence Matters: Harnessing Video Models in 3D Super-Resolution

Dec 16
ByHyun-kyu Ko, Dongheok Park, Youngin Park, Byeonghyeon Lee, Juhee Han, Eunbyung Park
11
2

A super-resolução 3D tem como objetivo reconstruir modelos 3D de alta fidelidade a partir de imagens de várias vistas de baixa resolução (LR). Estudos iniciais focavam principalmente em modelos de super-resolução de imagem única (SISR) para aumentar a resolução de imagens LR em imagens de alta resolução. No entanto, esses métodos frequentemente carecem de consistência de vista, pois operam de forma independente em cada imagem. Embora várias técnicas de pós-processamento tenham sido exploradas extensivamente para mitigar essas inconsistências, estas ainda não resolveram completamente os problemas. Neste artigo, realizamos um estudo abrangente de super-resolução 3D aproveitando modelos de super-resolução de vídeo (VSR). Ao utilizar modelos VSR, garantimos um maior grau de consistência espacial e podemos fazer referência a informações espaciais circundantes, resultando em reconstruções mais precisas e detalhadas. Nossas descobertas revelam que os modelos VSR podem ter um desempenho notável mesmo em sequências que carecem de alinhamento espacial preciso. Com base nessa observação, propomos uma abordagem simples, porém prática, para alinhar imagens LR sem envolver ajustes finos ou gerar uma trajetória 'suave' a partir dos modelos 3D treinados sobre imagens LR. Os resultados experimentais mostram que algoritmos surpreendentemente simples podem alcançar os melhores resultados em tarefas de super-resolução 3D em conjuntos de dados de referência padrão, como os conjuntos de dados NeRF-sintético e MipNeRF-360. Página do projeto: https://ko-lani.github.io/Sequence-Matters

10

Sumarização de Texto Multi-LLM
Multi-LLM Text Summarization

Dec 20
ByJiangnan Fang, Cheng-Tse Liu, Jieun Kim, Yash Bhedaru, Ethan Liu, Nikhil Singh, Nedim Lipka, Puneet Mathur, Nesreen K. Ahmed, Franck Dernoncourt, Ryan A. Rossi, Hanieh Deilamsalehy
6
2

Neste trabalho, propomos um framework de sumarização Multi-LLM e investigamos duas estratégias diferentes de multi-LLM, incluindo centralizada e descentralizada. Nosso framework de sumarização Multi-LLM possui dois passos fundamentalmente importantes em cada rodada de conversa: geração e avaliação. Esses passos são diferentes dependendo se nossa sumarização Multi-LLM descentralizada ou centralizada é utilizada. Em ambas as estratégias de multi-LLM descentralizada e centralizada, temos k diferentes LLMs que geram resumos diversos do texto. No entanto, durante a avaliação, nossa abordagem de sumarização Multi-LLM centralizada aproveita um único LLM para avaliar os resumos e selecionar o melhor, enquanto k LLMs são utilizados para a sumarização Multi-LLM descentralizada. No geral, descobrimos que nossas abordagens de sumarização Multi-LLM superam significativamente as bases que utilizam apenas um único LLM em até 3 vezes. Esses resultados indicam a eficácia das abordagens de multi-LLM para sumarização.

11

IDOL: Criação Humana 3D Instantânea e Fotorrealista a partir de uma Única Imagem
IDOL: Instant Photorealistic 3D Human Creation from a Single Image

Dec 19
ByYiyu Zhuang, Jiaxi Lv, Hao Wen, Qing Shuai, Ailing Zeng, Hao Zhu, Shifeng Chen, Yujiu Yang, Xun Cao, Wei Liu
6
2

Criar um avatar 3D de corpo inteiro altamente fiel e animável a partir de uma única imagem é uma tarefa desafiadora devido à aparência e poses diversas dos seres humanos e à disponibilidade limitada de dados de treinamento de alta qualidade. Para alcançar uma reconstrução humana rápida e de alta qualidade, este trabalho repensa a tarefa a partir das perspectivas do conjunto de dados, modelo e representação. Primeiramente, introduzimos um conjunto de dados gerado centrado em humanos em larga escala, o HuGe100K, composto por 100 mil conjuntos diversos e fotorrealistas de imagens humanas. Cada conjunto contém quadros de 24 visualizações em poses humanas específicas, geradas usando um modelo de imagem para múltiplas visualizações controlável por pose. Em seguida, aproveitando a diversidade de visualizações, poses e aparências dentro do HuGe100K, desenvolvemos um modelo transformador feed-forward escalável para prever uma representação gaussiana humana 3D em um espaço uniforme a partir de uma imagem humana fornecida. Este modelo é treinado para desembaraçar a pose humana, forma do corpo, geometria da roupa e textura. As gaussianas estimadas podem ser animadas sem pós-processamento. Realizamos experimentos abrangentes para validar a eficácia do conjunto de dados e método propostos. Nosso modelo demonstra a capacidade de reconstruir eficientemente seres humanos fotorrealistas em resolução de 1K a partir de uma única imagem de entrada usando uma única GPU instantaneamente. Além disso, ele suporta perfeitamente várias aplicações, bem como tarefas de edição de forma e textura.

12

Fietje: Um LLM aberto e eficiente para o holandês
Fietje: An open, efficient LLM for Dutch

Dec 19
ByBram Vanroy
4
3

Este artigo apresenta Fietje, uma família de pequenos modelos de linguagem (SLMs) projetados especificamente para a língua holandesa. O modelo é baseado no Phi 2, um modelo centrado no inglês com 2,7 bilhões de parâmetros. Fietje demonstrou resultados competitivos com modelos de linguagem maiores após seu lançamento. Um foco central deste trabalho é transparência e reprodutibilidade: Fietje é totalmente de código aberto, com pesos do modelo, conjuntos de dados, treinamento e código de avaliação todos publicamente acessíveis. O artigo discute o desempenho de Fietje e de muitos outros modelos em uma extensa suíte de avaliação de benchmarks em raciocínio, análise de sentimento, conhecimento mundial, aceitabilidade linguística e desambiguação de sentido de palavras. Os resultados da avaliação ilustram o rápido progresso no campo de LLMs, onde modelos pequenos recentes superam modelos maiores mais antigos que foram ajustados para o holandês. Essa tendência sinaliza um futuro emocionante para o processamento da língua holandesa, sugerindo que até mesmo LLMs compactos estão se tornando cada vez mais capazes. Além disso, esforços em andamento e futuros para adaptar LLMs ao holandês estão prontos para aprimorar ainda mais esses modelos, ampliando sua aplicabilidade e acessibilidade. Fietje é apenas um passo intermediário na melhoria da acessibilidade à tecnologia de linguagem para usuários da língua holandesa.

13

LLMs Perdidos na Tradução: M-ALERT revela Lacunas de Segurança Cross-Linguísticas
LLMs Lost in Translation: M-ALERT uncovers Cross-Linguistic Safety Gaps

Dec 19
ByFelix Friedrich, Simone Tedeschi, Patrick Schramowski, Manuel Brack, Roberto Navigli, Huu Nguyen, Bo Li, Kristian Kersting
4
3

Construir Modelos de Linguagem Grande (LLMs) seguros em vários idiomas é essencial para garantir tanto o acesso seguro quanto a diversidade linguística. Para isso, apresentamos o M-ALERT, um benchmark multilíngue que avalia a segurança de LLMs em cinco idiomas: inglês, francês, alemão, italiano e espanhol. O M-ALERT inclui 15 mil prompts de alta qualidade por idioma, totalizando 75 mil, seguindo a taxonomia detalhada do ALERT. Nossos experimentos extensivos em 10 LLMs de ponta destacam a importância da análise de segurança específica para cada idioma, revelando que os modelos frequentemente apresentam inconsistências significativas na segurança entre idiomas e categorias. Por exemplo, o Llama3.2 mostra alta insegurança na categoria crime_tax para italiano, mas permanece seguro em outros idiomas. Diferenças semelhantes podem ser observadas em todos os modelos. Em contraste, certas categorias, como substance_cannabis e crime_propaganda, consistentemente desencadeiam respostas inseguras em todos os modelos e idiomas. Essas descobertas destacam a necessidade de práticas robustas de segurança multilíngue em LLMs para garantir o uso seguro e responsável em diversas comunidades de usuários.

Dec 20
Dec 23
Dec 24