ChatPaper.ai
Открыть меню
Главная
Статьи Дня
arXiv
HuggingFace
Цены
Аккаунт
Рабочее пространство
🇷🇺
Русский
Loading...
•
•
•
•
•
•
•
•
•
•
Ежедневные Исследовательские Статьи по ИИ
Ежедневно отобранные исследовательские статьи по ИИ с переводами
November 21st, 2024
SymDPO: Усиление контекстного обучения больших мультимодальных моделей с оптимизацией прямых предпочтений символов.
SymDPO: Boosting In-Context Learning of Large Multimodal Models with Symbol Demonstration Direct Preference Optimization
Hongrui Jia, Chaoya Jiang, Haiyang Xu, Wei Ye, Mengfan Dong, Ming Yan, Ji Zhang, Fei Huang, Shikun Zhang
•
Nov 17, 2024
•
11
3
Технический отчет SageAttention2: Точное внимание на 4 бита для ускорения вывода "включи и играй".
SageAttention2 Technical Report: Accurate 4 Bit Attention for Plug-and-play Inference Acceleration
Jintao Zhang, Haofeng Huang, Pengle Zhang, Jia Wei, Jun Zhu, Jianfei Chen
•
Nov 17, 2024
•
56
9
VBench++: Обширный и универсальный набор тестов для видео генеративных моделей.
VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models
Ziqi Huang, Fan Zhang, Xiaojie Xu, Yinan He, Jiashuo Yu, Ziyue Dong, Qianli Ma, Nattapol Chanpaisit, Chenyang Si, Yuming Jiang, Yaohui Wang, Xinyuan Chen, Ying-Cong Chen, Limin Wang, Dahua Lin, Yu Qiao, Ziwei Liu
•
Nov 20, 2024
•
35
3
VideoAutoArena: Автоматизированная арена для оценки больших мультимодальных моделей в анализе видео через симуляцию пользователей
VideoAutoArena: An Automated Arena for Evaluating Large Multimodal Models in Video Analysis through User Simulation
Ziyang Luo, Haoning Wu, Dongxu Li, Jing Ma, Mohan Kankanhalli, Junnan Li
•
Nov 20, 2024
•
22
5
SAMURAI: Адаптация модели Segment Anything для нулевой визуальной трекинговой системы с учетом движения-зависимой памяти.
SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tracking with Motion-Aware Memory
Cheng-Yen Yang, Hsiang-Wei Huang, Wenhao Chai, Zhongyu Jiang, Jenq-Neng Hwang
•
Nov 18, 2024
•
19
3
Когда точность встречает позицию: BFloat16 разрушает RoPE в обучении с длинным контекстом.
When Precision Meets Position: BFloat16 Breaks Down RoPE in Long-Context Training
Haonan Wang, Qian Liu, Chao Du, Tongyao Zhu, Cunxiao Du, Kenji Kawaguchi, Tianyu Pang
•
Nov 20, 2024
•
16
2
Является ли ваш LLM тайным мировой моделью Интернета? Модельное планирование для веб-агентов.
Is Your LLM Secretly a World Model of the Internet? Model-Based Planning for Web Agents
Yu Gu, Boyuan Zheng, Boyu Gou, Kai Zhang, Cheng Chang, Sanjari Srivastava, Yanan Xie, Peng Qi, Huan Sun, Yu Su
•
Nov 10, 2024
•
14
2
Стилькоды: Кодирование стилевой информации для генерации изображений
Stylecodes: Encoding Stylistic Information For Image Generation
Ciara Rowles
•
Nov 19, 2024
•
12
2
ViBe: Набор данных Text-to-Video для оценки галлюцинаций в крупных мультимодальных моделях
ViBe: A Text-to-Video Benchmark for Evaluating Hallucination in Large Multimodal Models
Vipula Rawte, Sarthak Jain, Aarush Sinha, Garv Kaushik, Aman Bansal, Prathiksha Rumale Vishwanath, Samyak Rajesh Jain, Aishwarya Naresh Reganti, Vinija Jain, Aman Chadha, Amit P. Sheth, Amitava Das
•
Nov 16, 2024
•
10
4
Прогнозирование потерь-по-потерям: законы масштабирования для всех наборов данных
Loss-to-Loss Prediction: Scaling Laws for All Datasets
David Brandfonbrener, Nikhil Anand, Nikhil Vyas, Eran Malach, Sham Kakade
•
Nov 19, 2024
•
5
2
Генерация композиционных сцен с помощью текстово-изображенной генерации экземпляров RGBA.
Generating Compositional Scenes via Text-to-image RGBA Instance Generation
Alessandro Fontanella, Petru-Daniel Tudosiu, Yongxin Yang, Shifeng Zhang, Sarah Parisot
•
Nov 16, 2024
•
4
2
ORID: Органо-региональная информационно-ориентированная структура для создания радиологических отчетов
ORID: Organ-Regional Information Driven Framework for Radiology Report Generation
Tiancheng Gu, Kaicheng Yang, Xiang An, Ziyong Feng, Dongnan Liu, Weidong Cai
•
Nov 20, 2024
•
2
2