ChatPaper.ai
Abrir menú
Inicio
Artículos Diarios
arXiv
HuggingFace
Precios
Cuenta
Espacio de trabajo
🇪🇸
Español
Loading...
•
•
•
•
•
•
•
•
•
•
Artículos de Investigación en IA Diarios
Artículos de investigación en IA seleccionados diariamente con traducciones
November 28th, 2024
Edita y Mi Rostro no Permanecerá: Defensa Biométrica Personal contra la Edición Generativa Maliciosa
Edit Away and My Face Will not Stay: Personal Biometric Defense against Malicious Generative Editing
Hanhui Wang, Yihua Zhang, Ruizheng Bai, Yue Zhao, Sijia Liu, Zhengzhong Tu
•
Nov 25, 2024
•
2
3
ROICtrl: Mejora del Control de Instancias para la Generación Visual
ROICtrl: Boosting Instance Control for Visual Generation
Yuchao Gu, Yipin Zhou, Yunfan Ye, Yixin Nie, Licheng Yu, Pingchuan Ma, Kevin Qinghong Lin, Mike Zheng Shou
•
Nov 27, 2024
•
71
2
Gráfico de Escena Entrelazado para la Generación Entrelazada de Texto e Imágenes Evaluación
Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment
Dongping Chen, Ruoxi Chen, Shu Pu, Zhaoyi Liu, Yanru Wu, Caixi Chen, Benlin Liu, Yue Huang, Yao Wan, Pan Zhou, Ranjay Krishna
•
Nov 26, 2024
•
19
2
DreamCache: Generación de Imágenes Personalizadas Ligera sin Ajuste Fino a través de Caché de Características
DreamCache: Finetuning-Free Lightweight Personalized Image Generation via Feature Caching
Emanuele Aiello, Umberto Michieli, Diego Valsesia, Mete Ozay, Enrico Magli
•
Nov 26, 2024
•
12
3
Splatting Convexo en 3D: Renderizado de Campos de Radiación con Convexos Suaves en 3D
3D Convex Splatting: Radiance Field Rendering with 3D Smooth Convexes
Jan Held, Renaud Vandeghen, Abdullah Hamdi, Adrien Deliege, Anthony Cioppa, Silvio Giancola, Andrea Vedaldi, Bernard Ghanem, Marc Van Droogenbroeck
•
Nov 22, 2024
•
17
5
Generación de Video a Texto Preservando la Identidad mediante Descomposición de Frecuencia
Identity-Preserving Text-to-Video Generation by Frequency Decomposition
Shenghai Yuan, Jinfa Huang, Xianyi He, Yunyuan Ge, Yujun Shi, Liuhan Chen, Jiebo Luo, Li Yuan
•
Nov 26, 2024
•
13
3
CAT4D: Crea Cualquier Cosa en 4D con Modelos de Difusión de Video de Múltiples Vistas
CAT4D: Create Anything in 4D with Multi-View Video Diffusion Models
Rundi Wu, Ruiqi Gao, Ben Poole, Alex Trevithick, Changxi Zheng, Jonathan T. Barron, Aleksander Holynski
•
Nov 27, 2024
•
57
5
Modelo en borrador sabe cuándo detenerse: Una política de longitud de autoverificación para decodificación especulativa
Draft Model Knows When to Stop: A Self-Verification Length Policy for Speculative Decoding
Ziyin Zhang, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Rui Wang, Zhaopeng Tu
•
Nov 27, 2024
•
6
2
Generación de Sonido Foley Guiada por Video con Controles Multimodales
Video-Guided Foley Sound Generation with Multimodal Controls
Ziyang Chen, Prem Seetharaman, Bryan Russell, Oriol Nieto, David Bourgin, Andrew Owens, Justin Salamon
•
Nov 26, 2024
•
10
2
MARVEL-40M+: Elaboración Visual Multinivel para la Creación de Contenido Texto a 3D de Alta Fidelidad
MARVEL-40M+: Multi-Level Visual Elaboration for High-Fidelity Text-to-3D Content Creation
Sankalp Sinha, Mohammad Sadil Khan, Muhammad Usama, Shino Sam, Didier Stricker, Sk Aziz Ali, Muhammad Zeshan Afzal
•
Nov 26, 2024
•
21
4
La decodificación colaborativa hace que el modelado visual auto-regresivo sea eficiente.
Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient
Zigeng Chen, Xinyin Ma, Gongfan Fang, Xinchao Wang
•
Nov 26, 2024
•
12
2
DiffusionDrive: Modelo de Difusión Truncado para Conducción Autónoma de Extremo a Extremo
DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving
Bencheng Liao, Shaoyu Chen, Haoran Yin, Bo Jiang, Cheng Wang, Sixu Yan, Xinbang Zhang, Xiangyu Li, Ying Zhang, Qian Zhang, Xinggang Wang
•
Nov 22, 2024
•
15
2
Make-It-Animatable: Un Marco Eficiente para Crear Personajes 3D Listos para Animación
Make-It-Animatable: An Efficient Framework for Authoring Animation-Ready 3D Characters
Zhiyang Guo, Jinxu Xiang, Kai Ma, Wengang Zhou, Houqiang Li, Ran Zhang
•
Nov 27, 2024
•
14
4
VideoLLM sabe cuándo hablar: Mejorando la comprensión de videos sensibles al tiempo con el formato de interacción Video-Texto Dúo.
VideoLLM Knows When to Speak: Enhancing Time-Sensitive Video Comprehension with Video-Text Duet Interaction Format
Yueqian Wang, Xiaojun Meng, Yuxuan Wang, Jianxin Liang, Jiansheng Wei, Huishuai Zhang, Dongyan Zhao
•
Nov 27, 2024
•
5
2
UniPose: Un marco unificado multimodal para la comprensión, generación y edición de posturas humanas
UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing
Yiheng Li, Ruibing Hou, Hong Chang, Shiguang Shan, Xilin Chen
•
Nov 25, 2024
•
11
4
Restauración de Imágenes Todo en Uno Adaptativa y a Ciegas
Adaptive Blind All-in-One Image Restoration
David Serrano-Lozano, Luis Herranz, Shaolin Su, Javier Vazquez-Corral
•
Nov 27, 2024
•
4
2
Optimización de la Segmentación de Tumores Cerebrales con MedNeXt: BraTS 2024 SSA y Pediatría
Optimizing Brain Tumor Segmentation with MedNeXt: BraTS 2024 SSA and Pediatrics
Sarim Hashmi, Juan Lugo, Abdelrahman Elsayed, Dinesh Saggurthi, Mohammed Elseiagy, Alikhan Nurkamal, Jaskaran Walia, Fadillah Adamsyah Maani, Mohammad Yaqub
•
Nov 24, 2024
•
5
2
Agentes de GUI con Grandes Modelos de Lenguaje: Una Encuesta
Large Language Model-Brained GUI Agents: A Survey
Chaoyun Zhang, Shilin He, Jiaxu Qian, Bowen Li, Liqun Li, Si Qin, Yu Kang, Minghua Ma, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang
•
Nov 27, 2024
•
32
3
Auto-Difusión para Generación de Imágenes Personalizadas sin Entrenamiento
Diffusion Self-Distillation for Zero-Shot Customized Image Generation
Shengqu Cai, Eric Chan, Yunzhi Zhang, Leonidas Guibas, Jiajun Wu, Gordon Wetzstein
•
Nov 27, 2024
•
16
6
Entrenamiento y Evaluación de Modelos de Lenguaje con Generación de Datos Basada en Plantillas
Training and Evaluating Language Models with Template-based Data Generation
Yifan Zhang
•
Nov 27, 2024
•
3
3
Omegancia: Un Único Parámetro para Varias Granularidades en la Síntesis Basada en Difusión
Omegance: A Single Parameter for Various Granularities in Diffusion-Based Synthesis
Xinyu Hou, Zongsheng Yue, Xiaoming Li, Chen Change Loy
•
Nov 26, 2024
•
7
2
ChatRex: Domando LLM Multimodal para Percepción y Comprensión Conjunta
ChatRex: Taming Multimodal LLM for Joint Perception and Understanding
Qing Jiang, Gen luo, Yuqin Yang, Yuda Xiong, Yihao Chen, Zhaoyang Zeng, Tianhe Ren, Lei Zhang
•
Nov 27, 2024
•
10
3