ChatPaper.ai
Abrir Menu
Início
Artigos do Dia
arXiv
HuggingFace
Preços
Conta
Área de trabalho
🇬🇧
English
Loading...
•
•
•
•
•
•
•
•
•
•
Artigos de Pesquisa em IA Diários
Artigos de pesquisa em IA selecionados diariamente com traduções
November 28th, 2024
Edit Away and My Face Will not Stay: Defesa Biométrica Pessoal contra Edição Generativa Maliciosa
Edit Away and My Face Will not Stay: Personal Biometric Defense against Malicious Generative Editing
Hanhui Wang, Yihua Zhang, Ruizheng Bai, Yue Zhao, Sijia Liu, Zhengzhong Tu
•
Nov 25, 2024
•
2
3
ROICtrl: Aumentando o Controle da Instância para Geração Visual
ROICtrl: Boosting Instance Control for Visual Generation
Yuchao Gu, Yipin Zhou, Yunfan Ye, Yixin Nie, Licheng Yu, Pingchuan Ma, Kevin Qinghong Lin, Mike Zheng Shou
•
Nov 27, 2024
•
71
2
Gráfico de Cena Entrelaçado para Geração Entrelaçada de Texto e Imagem Avaliação
Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment
Dongping Chen, Ruoxi Chen, Shu Pu, Zhaoyi Liu, Yanru Wu, Caixi Chen, Benlin Liu, Yue Huang, Yao Wan, Pan Zhou, Ranjay Krishna
•
Nov 26, 2024
•
19
2
DreamCache: Geração de Imagens Personalizadas Leves sem Ajuste Fino através de Armazenamento de Características
DreamCache: Finetuning-Free Lightweight Personalized Image Generation via Feature Caching
Emanuele Aiello, Umberto Michieli, Diego Valsesia, Mete Ozay, Enrico Magli
•
Nov 26, 2024
•
12
3
Splatting Convexo 3D: Renderização de Campo de Radiância com Convexos 3D Suaves
3D Convex Splatting: Radiance Field Rendering with 3D Smooth Convexes
Jan Held, Renaud Vandeghen, Abdullah Hamdi, Adrien Deliege, Anthony Cioppa, Silvio Giancola, Andrea Vedaldi, Bernard Ghanem, Marc Van Droogenbroeck
•
Nov 22, 2024
•
17
5
Geração de Vídeo a Partir de Texto Preservando a Identidade por Decomposição de Frequência
Identity-Preserving Text-to-Video Generation by Frequency Decomposition
Shenghai Yuan, Jinfa Huang, Xianyi He, Yunyuan Ge, Yujun Shi, Liuhan Chen, Jiebo Luo, Li Yuan
•
Nov 26, 2024
•
13
3
CAT4D: Crie Qualquer Coisa em 4D com Modelos de Difusão de Vídeo de Múltiplas Visualizações
CAT4D: Create Anything in 4D with Multi-View Video Diffusion Models
Rundi Wu, Ruiqi Gao, Ben Poole, Alex Trevithick, Changxi Zheng, Jonathan T. Barron, Aleksander Holynski
•
Nov 27, 2024
•
57
5
Modelo Preliminar Sabe Quando Parar: Uma Política de Comprimento de Autoverificação para Decodificação Especulativa
Draft Model Knows When to Stop: A Self-Verification Length Policy for Speculative Decoding
Ziyin Zhang, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Rui Wang, Zhaopeng Tu
•
Nov 27, 2024
•
6
2
Geração de Som Foley Guiada por Vídeo com Controles Multimodais
Video-Guided Foley Sound Generation with Multimodal Controls
Ziyang Chen, Prem Seetharaman, Bryan Russell, Oriol Nieto, David Bourgin, Andrew Owens, Justin Salamon
•
Nov 26, 2024
•
10
2
MARVEL-40M+: Elaboração Visual Multinível para Criação de Conteúdo Textual em 3D de Alta Fidelidade
MARVEL-40M+: Multi-Level Visual Elaboration for High-Fidelity Text-to-3D Content Creation
Sankalp Sinha, Mohammad Sadil Khan, Muhammad Usama, Shino Sam, Didier Stricker, Sk Aziz Ali, Muhammad Zeshan Afzal
•
Nov 26, 2024
•
21
4
A Decodificação Colaborativa Torna a Modelagem Auto-Regressiva Visual Mais Eficiente
Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient
Zigeng Chen, Xinyin Ma, Gongfan Fang, Xinchao Wang
•
Nov 26, 2024
•
12
2
DiffusionDrive: Modelo de Difusão Truncada para Direção Autônoma de Ponta a Ponta
DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving
Bencheng Liao, Shaoyu Chen, Haoran Yin, Bo Jiang, Cheng Wang, Sixu Yan, Xinbang Zhang, Xiangyu Li, Ying Zhang, Qian Zhang, Xinggang Wang
•
Nov 22, 2024
•
15
2
Make-It-Animatable: Um Framework Eficiente para Criar Personagens 3D Prontos para Animação
Make-It-Animatable: An Efficient Framework for Authoring Animation-Ready 3D Characters
Zhiyang Guo, Jinxu Xiang, Kai Ma, Wengang Zhou, Houqiang Li, Ran Zhang
•
Nov 27, 2024
•
14
4
VideoLLM Sabe Quando Falar: Melhorando a Compreensão de Vídeos Sensíveis ao Tempo com o Formato de Interação Vídeo-Texto Duet.
VideoLLM Knows When to Speak: Enhancing Time-Sensitive Video Comprehension with Video-Text Duet Interaction Format
Yueqian Wang, Xiaojun Meng, Yuxuan Wang, Jianxin Liang, Jiansheng Wei, Huishuai Zhang, Dongyan Zhao
•
Nov 27, 2024
•
5
2
UniPose: Um Framework Multimodal Unificado para Compreensão, Geração e Edição de Postura Humana
UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing
Yiheng Li, Ruibing Hou, Hong Chang, Shiguang Shan, Xilin Chen
•
Nov 25, 2024
•
11
4
Restauração de Imagem Adaptativa e Cega Tudo-em-Um
Adaptive Blind All-in-One Image Restoration
David Serrano-Lozano, Luis Herranz, Shaolin Su, Javier Vazquez-Corral
•
Nov 27, 2024
•
4
2
Otimizando a Segmentação de Tumores Cerebrais com o MedNeXt: BraTS 2024 SSA e Pediatria
Optimizing Brain Tumor Segmentation with MedNeXt: BraTS 2024 SSA and Pediatrics
Sarim Hashmi, Juan Lugo, Abdelrahman Elsayed, Dinesh Saggurthi, Mohammed Elseiagy, Alikhan Nurkamal, Jaskaran Walia, Fadillah Adamsyah Maani, Mohammad Yaqub
•
Nov 24, 2024
•
5
2
Agentes de Interface Gráfica com Modelos de Linguagem de Grande Escala: Uma Pesquisa
Large Language Model-Brained GUI Agents: A Survey
Chaoyun Zhang, Shilin He, Jiaxu Qian, Bowen Li, Liqun Li, Si Qin, Yu Kang, Minghua Ma, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang
•
Nov 27, 2024
•
32
3
Auto-Difusão para Geração Personalizada de Imagens sem Treinamento
Diffusion Self-Distillation for Zero-Shot Customized Image Generation
Shengqu Cai, Eric Chan, Yunzhi Zhang, Leonidas Guibas, Jiajun Wu, Gordon Wetzstein
•
Nov 27, 2024
•
16
6
Treinando e Avaliando Modelos de Linguagem com Geração de Dados Baseada em Modelos de Template
Training and Evaluating Language Models with Template-based Data Generation
Yifan Zhang
•
Nov 27, 2024
•
3
3
Omegance: Um Único Parâmetro para Várias Granularidades na Síntese Baseada em Difusão
Omegance: A Single Parameter for Various Granularities in Diffusion-Based Synthesis
Xinyu Hou, Zongsheng Yue, Xiaoming Li, Chen Change Loy
•
Nov 26, 2024
•
7
2
ChatRex: Domando o LLM Multimodal para Percepção e Compreensão Conjuntas
ChatRex: Taming Multimodal LLM for Joint Perception and Understanding
Qing Jiang, Gen luo, Yuqin Yang, Yuda Xiong, Yihao Chen, Zhaoyang Zeng, Tianhe Ren, Lei Zhang
•
Nov 27, 2024
•
10
3