ChatPaper.ai
Открыть меню
Главная
Статьи Дня
arXiv
HuggingFace
Цены
Аккаунт
Рабочее пространство
🇷🇺
Русский
Loading...
•
•
•
•
•
•
•
•
•
•
Ежедневные Исследовательские Статьи по ИИ
Ежедневно отобранные исследовательские статьи по ИИ с переводами
March 17th, 2025
API-агенты против GUI-агентов: Расхождение и Сближение
API Agents vs. GUI Agents: Divergence and Convergence
Chaoyun Zhang, Shilin He, Liqun Li, Si Qin, Yu Kang, Qingwei Lin, Dongmei Zhang
•
Mar 14, 2025
•
37
2
PLADIS: Расширение границ внимания в диффузионных моделях во время вывода за счет использования разреженности
PLADIS: Pushing the Limits of Attention in Diffusion Models at Inference Time by Leveraging Sparsity
Kwanyoung Kim, Byeongsu Sim
•
Mar 10, 2025
•
84
2
MaRI: Интеграция поиска материалов в различных областях
MaRI: Material Retrieval Integration across Domains
Jianhui Wang, Zhifei Yang, Yangfan He, Huixiong Zhang, Yuxuan Chen, Jingwei Huang
•
Mar 11, 2025
•
7
2
Группово-устойчивое машинное забывание
Group-robust Machine Unlearning
Thomas De Min, Subhankar Roy, Stéphane Lathuilière, Elisa Ricci, Massimiliano Mancini
•
Mar 12, 2025
•
1
2
CHOrD: Генерация цифровых двойников для 3D-интерьеров в масштабе дома, свободных от коллизий и организованных, с управляемыми планами этажей и оптимальными компоновками
CHOrD: Generation of Collision-Free, House-Scale, and Organized Digital Twins for 3D Indoor Scenes with Controllable Floor Plans and Optimal Layouts
Chong Su, Yingbin Fu, Zheyuan Hu, Jing Yang, Param Hanji, Shaojun Wang, Xuan Zhao, Cengiz Öztireli, Fangcheng Zhong
•
Mar 15, 2025
•
3
3
Технологии эффективности и производительности: обзор моделей пространств состояний
Technologies on Effectiveness and Efficiency: A Survey of State Spaces Models
Xingtai Lv, Youbang Sun, Kaiyan Zhang, Shang Qu, Xuekai Zhu, Yuchen Fan, Yi Wu, Ermo Hua, Xinwei Long, Ning Ding, Bowen Zhou
•
Mar 14, 2025
•
27
2
Соседнее авторегрессионное моделирование для эффективной генерации изображений
Neighboring Autoregressive Modeling for Efficient Visual Generation
Yefei He, Yuanyu He, Shaoxuan He, Feng Chen, Hong Zhou, Kaipeng Zhang, Bohan Zhuang
•
Mar 12, 2025
•
8
3
Могут ли крупные модели рассуждений выполнять аналогические рассуждения в условиях перцептивной неопределенности?
Can Large Reasoning Models do Analogical Reasoning under Perceptual Uncertainty?
Giacomo Camposampiero, Michael Hersche, Roger Wattenhofer, Abu Sebastian, Abbas Rahimi
•
Mar 14, 2025
•
5
2
ProJudge: Мультимодальный мультидисциплинарный бенчмарк и набор данных для тонкой настройки инструкций, предназначенный для MLLM-моделей в роли процессуальных судей
ProJudge: A Multi-Modal Multi-Discipline Benchmark and Instruction-Tuning Dataset for MLLM-based Process Judges
Jiaxin Ai, Pengfei Zhou, Zhaopan Xu, Ming Li, Fanrui Zhang, Zizhen Li, Jianwen Sun, Yukang Feng, Baojin Huang, Zhongyuan Wang, Kaipeng Zhang
•
Mar 9, 2025
•
8
2
SmolDocling: Ультракомпактная визуально-языковая модель для сквозного преобразования мультимодальных документов
SmolDocling: An ultra-compact vision-language model for end-to-end multi-modal document conversion
Ahmed Nassar, Andres Marafioti, Matteo Omenetti, Maksym Lysak, Nikolaos Livathinos, Christoph Auer, Lucas Morin, Rafael Teixeira de Lima, Yusik Kim, A. Said Gurbuz, Michele Dolfi, Miquel Farré, Peter W. J. Staar
•
Mar 14, 2025
•
100
14
Cockatiel: Объединение синтетического обучения и обучения с учетом человеческих предпочтений для создания детализированных описаний видео
Cockatiel: Ensembling Synthetic and Human Preferenced Training for Detailed Video Caption
Luozheng Qin, Zhiyu Tan, Mengping Yang, Xiaomeng Yang, Hao Li
•
Mar 12, 2025
•
5
2
TreeMeshGPT: Генерация художественных мешей с использованием авторегрессивного древовидного упорядочивания
TreeMeshGPT: Artistic Mesh Generation with Autoregressive Tree Sequencing
Stefan Lionar, Jiabin Liang, Gim Hee Lee
•
Mar 14, 2025
•
6
2
ARMOR v0.1: Расширение возможностей авторегрессивной модели мультимодального понимания с чередующейся мультимодальной генерацией через асимметричный синергизм
ARMOR v0.1: Empowering Autoregressive Multimodal Understanding Model with Interleaved Multimodal Generation via Asymmetric Synergy
Jianwen Sun, Yukang Feng, Chuanhao Li, Fanrui Zhang, Zizhen Li, Jiaxin Ai, Sizhuo Zhou, Yu Dai, Shenglin Zhang, Kaipeng Zhang
•
Mar 9, 2025
•
8
2
ETCH: Обобщение подгонки под тело на одетых людей с помощью эквивариантной плотности
ETCH: Generalizing Body Fitting to Clothed Humans via Equivariant Tightness
Boqian Li, Haiwen Feng, Zeyu Cai, Michael J. Black, Yuliang Xiu
•
Mar 13, 2025
•
8
2
Колмогоров-Арнольд Внимание: Является ли обучаемое внимание лучше для Vision Transformers?
Kolmogorov-Arnold Attention: Is Learnable Attention Better For Vision Transformers?
Subhajit Maity, Killian Hitsman, Xin Li, Aritra Dutta
•
Mar 13, 2025
•
14
2
TxAgent: Искусственный интеллект для терапевтического анализа с использованием множества инструментов
TxAgent: An AI Agent for Therapeutic Reasoning Across a Universe of Tools
Shanghua Gao, Richard Zhu, Zhenglun Kong, Ayush Noori, Xiaorui Su, Curtis Ginder, Theodoros Tsiligkaridis, Marinka Zitnik
•
Mar 14, 2025
•
17
3
Обучение диффузионных моделей с малым количеством шагов через сопоставление распределений траекторий
Learning Few-Step Diffusion Models by Trajectory Distribution Matching
Yihong Luo, Tianyang Hu, Jiacheng Sun, Yujun Cai, Jing Tang
•
Mar 9, 2025
•
7
3
Сбор данных с использованием состязательных методов: человеко-совместные возмущения для эффективного и устойчивого имитационного обучения роботов
Adversarial Data Collection: Human-Collaborative Perturbations for Efficient and Robust Robotic Imitation Learning
Siyuan Huang, Yue Liao, Siyuan Feng, Shu Jiang, Si Liu, Hongsheng Li, Maoqing Yao, Guanghui Ren
•
Mar 14, 2025
•
36
2
От TOWER к SPIRE: добавление речевой модальности к текстовой языковой модели
From TOWER to SPIRE: Adding the Speech Modality to a Text-Only LLM
Kshitij Ambilduke, Ben Peters, Sonal Sannigrahi, Anil Keshwani, Tsz Kin Lam, Bruno Martins, Marcely Zanon Boito, André F. T. Martins
•
Mar 13, 2025
•
7
2
Обнаружение навыков в открытом мире на основе несегментированных демонстраций
Open-World Skill Discovery from Unsegmented Demonstrations
Jingwen Deng, Zihao Wang, Shaofei Cai, Anji Liu, Yitao Liang
•
Mar 11, 2025
•
5
3
FlowTok: Бесшовное взаимодействие текстовых и визуальных токенов
FlowTok: Flowing Seamlessly Across Text and Image Tokens
Ju He, Qihang Yu, Qihao Liu, Liang-Chieh Chen
•
Mar 13, 2025
•
19
2
Vamba: Понимание часовых видеороликов с использованием гибридных Mamba-трансформеров
Vamba: Understanding Hour-Long Videos with Hybrid Mamba-Transformers
Weiming Ren, Wentao Ma, Huan Yang, Cong Wei, Ge Zhang, Wenhu Chen
•
Mar 14, 2025
•
20
2
GoalFlow: Целеориентированное согласование потоков для генерации мультимодальных траекторий в сквозном автономном вождении
GoalFlow: Goal-Driven Flow Matching for Multimodal Trajectories Generation in End-to-End Autonomous Driving
Zebin Xing, Xingyu Zhang, Yang Hu, Bo Jiang, Tong He, Qian Zhang, Xiaoxiao Long, Wei Yin
•
Mar 7, 2025
•
3
2
ReCamMaster: Генеративная визуализация с управлением камерой на основе одного видеоролика
ReCamMaster: Camera-Controlled Generative Rendering from A Single Video
Jianhong Bai, Menghan Xia, Xiao Fu, Xintao Wang, Lianrui Mu, Jinwen Cao, Zuozhu Liu, Haoji Hu, Xiang Bai, Pengfei Wan, Di Zhang
•
Mar 14, 2025
•
140
5
Исследование уязвимостей федеративного обучения: глубокий анализ атак с инверсией градиентов
Exploring the Vulnerabilities of Federated Learning: A Deep Dive into Gradient Inversion Attacks
Pengxin Guo, Runxi Wang, Shuang Zeng, Jinjing Zhu, Haoning Jiang, Yanran Wang, Yuyin Zhou, Feifei Wang, Hui Xiong, Liangqiong Qu
•
Mar 13, 2025
•
16
2
Масштабное предварительное обучение для генерации обоснованных описаний видео
Large-scale Pre-training for Grounded Video Caption Generation
Evangelos Kazakos, Cordelia Schmid, Josef Sivic
•
Mar 13, 2025
•
17
2
VGGT: Трансформер с визуально-геометрической основой
VGGT: Visual Geometry Grounded Transformer
Jianyuan Wang, Minghao Chen, Nikita Karaev, Andrea Vedaldi, Christian Rupprecht, David Novotny
•
Mar 14, 2025
•
21
2