ChatPaper.ai
Открыть меню
Главная
Статьи Дня
arXiv
HuggingFace
Цены
Аккаунт
Рабочее пространство
🇷🇺
Русский
Loading...
•
•
•
•
•
•
•
•
•
•
Ежедневные Исследовательские Статьи по ИИ
Ежедневно отобранные исследовательские статьи по ИИ с переводами
January 8th, 2025
MagicFace: Высококачественное редактирование выражений лица с управлением единицами действия
MagicFace: High-Fidelity Facial Expression Editing with Action-Unit Control
Mengting Wei, Tuomas Varanka, Xingxun Jiang, Huai-Qian Khor, Guoying Zhao
•
Jan 4, 2025
•
5
2
Волшебное зеркало: Генерация видео с сохранением идентификатора в трансформерах видео-диффузии
Magic Mirror: ID-Preserved Video Generation in Video Diffusion Transformers
Yuechen Zhang, Yaoyang Liu, Bin Xia, Bohao Peng, Zexin Yan, Eric Lo, Jiaya Jia
•
Jan 7, 2025
•
15
2
PPTAgent: Генерация и оценка презентаций за пределами текста-слайдов
PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slides
Hao Zheng, Xinyan Guan, Hao Kong, Jia Zheng, Hongyu Lin, Yaojie Lu, Ben He, Xianpei Han, Le Sun
•
Jan 7, 2025
•
20
3
OpenOmni: Большие модели языка осуществляют нулевую выравнивание между модальностями через язык с синтезом речи с реальным временем и самосознанием эмоционального контекста.
OpenOmni: Large Language Models Pivot Zero-shot Omnimodal Alignment across Language with Real-time Self-Aware Emotional Speech Synthesis
Run Luo, Ting-En Lin, Haonan Zhang, Yuchuan Wu, Xiong Liu, Min Yang, Yongbin Li, Longze Chen, Jiaming Li, Lei Zhang, Yangyi Chen, Hamid Alinejad-Rokny, Fei Huang
•
Jan 8, 2025
•
16
4
MoDec-GS: Глобальное к Локальному Декомпозиция Движения и Временная Интервальная Коррекция для Компактного Динамического 3D Гауссовского Сплетения
MoDec-GS: Global-to-Local Motion Decomposition and Temporal Interval Adjustment for Compact Dynamic 3D Gaussian Splatting
Sangwoon Kwak, Joonsoo Kim, Jun Young Jeong, Won-Sik Cheong, Jihyong Oh, Munchurl Kim
•
Jan 7, 2025
•
9
2
Модельная платформа Cosmos World Foundation для физического искусственного интеллекта.
Cosmos World Foundation Model Platform for Physical AI
NVIDIA, Niket Agarwal, Arslan Ali, Maciej Bala, Yogesh Balaji, Erik Barker, Tiffany Cai, Prithvijit Chattopadhyay, Yongxin Chen, Yin Cui, Yifan Ding, Daniel Dworakowski, Jiaojiao Fan, Michele Fenzi, Francesco Ferroni, Sanja Fidler, Dieter Fox, Songwei Ge, Yunhao Ge, Jinwei Gu, Siddharth Gururani, Ethan He, Jiahui Huang, Jacob Huffman, Pooya Jannaty, Jingyi Jin, Seung Wook Kim, Gergely Klár, Grace Lam, Shiyi Lan, Laura Leal-Taixe, Anqi Li, Zhaoshuo Li, Chen-Hsuan Lin, Tsung-Yi Lin, Huan Ling, Ming-Yu Liu, Xian Liu, Alice Luo, Qianli Ma, Hanzi Mao, Kaichun Mo, Arsalan Mousavian, Seungjun Nah, Sriharsha Niverty, David Page, Despoina Paschalidou, Zeeshan Patel, Lindsey Pavao, Morteza Ramezanali, Fitsum Reda, Xiaowei Ren, Vasanth Rao Naik Sabavat, Ed Schmerling, Stella Shi, Bartosz Stefaniak, Shitao Tang, Lyne Tchapmi, Przemek Tredak, Wei-Cheng Tseng, Jibin Varghese, Hao Wang, Haoxiang Wang, Heng Wang, Ting-Chun Wang, Fangyin Wei, Xinyue Wei, Jay Zhangjie Wu, Jiashu Xu, Wei Yang, Lin Yen-Chen, Xiaohui Zeng, Yu Zeng, Jing Zhang, Qinsheng Zhang, Yuxuan Zhang, Qingqing Zhao, Artur Zolkowski
•
Jan 7, 2025
•
78
2
Дельфин: Замкнутый цикл открытого автоматического исследования через мышление, практику и обратную связь
Dolphin: Closed-loop Open-ended Auto-research through Thinking, Practice, and Feedback
Jiakang Yuan, Xiangchao Yan, Botian Shi, Tao Chen, Wanli Ouyang, Bo Zhang, Lei Bai, Yu Qiao, Bowen Zhou
•
Jan 7, 2025
•
15
3
LLaVA-Mini: Эффективные модели крупномасштабных мультимодальных изображений и видео с одним токеном видения
LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token
Shaolei Zhang, Qingkai Fang, Zhe Yang, Yang Feng
•
Jan 7, 2025
•
53
4
Граф-ориентированное изоморфное внимание для адаптивной динамики в трансформерах
Graph-Aware Isomorphic Attention for Adaptive Dynamics in Transformers
Markus J. Buehler
•
Jan 4, 2025
•
8
2
Диффузия как шейдер: трехмерная видеодиффузия для универсального контроля генерации видео.
Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control
Zekai Gu, Rui Yan, Jiahao Lu, Peng Li, Zhiyang Dou, Chenyang Si, Zhen Dong, Qifeng Liu, Cheng Lin, Ziwei Liu, Wenping Wang, Yuan Liu
•
Jan 7, 2025
•
23
2
Обобщенная идентификация происхождения для моделей диффузии изображения-изображение с текстовым управлением
Generalizable Origin Identification for Text-Guided Image-to-Image Diffusion Models
Wenhao Wang, Yifan Sun, Zongxin Yang, Zhentao Tan, Zhengdong Hu, Yi Yang
•
Jan 4, 2025
•
3
2
Sa2VA: Совмещение SAM2 с LLaVA для плотного осмысления изображений и видео
Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos
Haobo Yuan, Xiangtai Li, Tao Zhang, Zilong Huang, Shilin Xu, Shunping Ji, Yunhai Tong, Lu Qi, Jiashi Feng, Ming-Hsuan Yang
•
Jan 7, 2025
•
46
2
REINFORCE++: Простой и эффективный подход для выравнивания больших языковых моделей
REINFORCE++: A Simple and Efficient Approach for Aligning Large Language Models
Jian Hu
•
Jan 4, 2025
•
99
2
Сегментация текста и изучение их вознаграждений для улучшения RLHF в языковой модели
Segmenting Text and Learning Their Rewards for Improved RLHF in Language Model
Yueqin Yin, Shentao Yang, Yujia Xie, Ziyi Yang, Yuting Sun, Hany Awadalla, Weizhu Chen, Mingyuan Zhou
•
Jan 6, 2025
•
9
2
MotionBench: Тестирование и улучшение понимания мелкозернистого движения видео для моделей языка зрения
MotionBench: Benchmarking and Improving Fine-grained Video Motion Understanding for Vision Language Models
Wenyi Hong, Yean Cheng, Zhuoyi Yang, Weihan Wang, Lefan Wang, Xiaotao Gu, Shiyu Huang, Yuxiao Dong, Jie Tang
•
Jan 6, 2025
•
45
2