ChatPaper.ai
Abrir Menu
Início
Artigos do Dia
arXiv
HuggingFace
Preços
Conta
Área de trabalho
🇬🇧
English
Loading...
•
•
•
•
•
•
•
•
•
•
Artigos de Pesquisa em IA Diários
Artigos de pesquisa em IA selecionados diariamente com traduções
October 23rd, 2024
PyramidDrop: Acelerando seus Modelos de Visão-Linguagem Grandes através da Redução de Redundância Visual em Pirâmide
PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction
Long Xing, Qidong Huang, Xiaoyi Dong, Jiajie Lu, Pan Zhang, Yuhang Zang, Yuhang Cao, Conghui He, Jiaqi Wang, Feng Wu, Dahua Lin
•
Oct 22, 2024
•
48
2
SpectroMotion: Reconstrução 3D Dinâmica de Cenas Especulares
SpectroMotion: Dynamic 3D Reconstruction of Specular Scenes
Cheng-De Fan, Chen-Wei Chang, Yi-Ruei Liu, Jie-Ying Lee, Jiun-Long Huang, Yu-Chee Tseng, Yu-Lun Liu
•
Oct 22, 2024
•
43
2
Melhorar o Modelo de Linguagem de Visão Raciocínio Encadeado de Pensamento
Improve Vision Language Model Chain-of-thought Reasoning
Ruohong Zhang, Bowen Zhang, Yanghao Li, Haotian Zhang, Zhiqing Sun, Zhe Gan, Yinfei Yang, Ruoming Pang, Yiming Yang
•
Oct 21, 2024
•
27
2
Alinhando Modelos de Linguagem Grandes por Meio da Otimização Auto-Direcionada
Aligning Large Language Models via Self-Steering Optimization
Hao Xiang, Bowen Yu, Hongyu Lin, Keming Lu, Yaojie Lu, Xianpei Han, Le Sun, Jingren Zhou, Junyang Lin
•
Oct 22, 2024
•
23
3
xGen-MM-Vid (BLIP-3-Video): Você só precisa de 32 tokens para representar um vídeo Mesmo em VLMs
xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs
Michael S. Ryoo, Honglu Zhou, Shrikant Kendre, Can Qin, Le Xue, Manli Shu, Silvio Savarese, Ran Xu, Caiming Xiong, Juan Carlos Niebles
•
Oct 21, 2024
•
18
2
Mitigando a Alucinação de Objetos por meio da Atenção Causal Concêntrica
Mitigating Object Hallucination via Concentric Causal Attention
Yun Xing, Yiheng Li, Ivan Laptev, Shijian Lu
•
Oct 21, 2024
•
17
2
MiniPLM: Destilação de Conhecimento para Pré-Treinamento de Modelos de Linguagem
MiniPLM: Knowledge Distillation for Pre-Training Language Models
Yuxian Gu, Hao Zhou, Fandong Meng, Jie Zhou, Minlie Huang
•
Oct 22, 2024
•
16
2
JMMMU: Um Benchmark Japonês de Compreensão Multidisciplinar e Multimodal em Massa para Avaliação Consciente da Cultura
JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation
Shota Onohara, Atsuyuki Miyai, Yuki Imajuku, Kazuki Egashira, Jeonghun Baek, Xiang Yue, Graham Neubig, Kiyoharu Aizawa
•
Oct 22, 2024
•
15
2
Otimização Baseada em LLM de Sistemas de IA Compostos: Uma Pesquisa
LLM-based Optimization of Compound AI Systems: A Survey
Matthieu Lin, Jenny Sheng, Andrew Zhao, Shenzhi Wang, Yang Yue, Yiran Wu, Huan Liu, Jun Liu, Gao Huang, Yong-Jin Liu
•
Oct 21, 2024
•
15
2
EvoPress: Rumo à Compressão Dinâmica Ótima de Modelos por Meio de Busca Evolutiva
EvoPress: Towards Optimal Dynamic Model Compression via Evolutionary Search
Oliver Sieberling, Denis Kuznedelev, Eldar Kurtic, Dan Alistarh
•
Oct 18, 2024
•
9
2
Neurocirurgia Matemática: Isolando as Habilidades de Raciocínio Matemático dos Modelos de Linguagem Apenas Utilizando Passagens Diretas
Math Neurosurgery: Isolating Language Models' Math Reasoning Abilities Using Only Forward Passes
Bryan R. Christ, Zack Gottesman, Jonathan Kropko, Thomas Hartvigsen
•
Oct 22, 2024
•
8
2
3DGS-Enhancer: Aprimorando a Sobreposição Gaussiana 3D Ilimitada com Priors de Difusão 2D Consistentes com a Visão
3DGS-Enhancer: Enhancing Unbounded 3D Gaussian Splatting with View-consistent 2D Diffusion Priors
Xi Liu, Chaoyi Zhou, Siyu Huang
•
Oct 21, 2024
•
5
2
Fronteiras em Colonoscopia Inteligente
Frontiers in Intelligent Colonoscopy
Ge-Peng Ji, Jingyi Liu, Peng Xu, Nick Barnes, Fahad Shahbaz Khan, Salman Khan, Deng-Ping Fan
•
Oct 22, 2024
•
4
2