ChatPaper.ai
Открыть меню
Главная
Статьи Дня
arXiv
HuggingFace
Цены
Аккаунт
Рабочее пространство
🇷🇺
Русский
Loading...
•
•
•
•
•
•
•
•
•
•
Ежедневные Исследовательские Статьи по ИИ
Ежедневно отобранные исследовательские статьи по ИИ с переводами
March 26th, 2025
Авторегрессионное моделирование видео с длинным контекстом и предсказанием следующего кадра
Long-Context Autoregressive Video Modeling with Next-Frame Prediction
Yuchao Gu, Weijia Mao, Mike Zheng Shou
•
Mar 25, 2025
•
72
2
Масштабирование предварительного обучения моделей зрения до разрешения 4K
Scaling Vision Pre-Training to 4K Resolution
Baifeng Shi, Boyi Li, Han Cai, Yao Lu, Sifei Liu, Marco Pavone, Jan Kautz, Song Han, Trevor Darrell, Pavlo Molchanov, Hongxu Yin
•
Mar 25, 2025
•
40
2
Масштабирование во время вывода для потоковых моделей с использованием стохастической генерации и принудительного распределения бюджета перехода
Inference-Time Scaling for Flow Models via Stochastic Generation and Rollover Budget Forcing
Jaihoon Kim, Taehoon Yoon, Jisung Hwang, Minhyuk Sung
•
Mar 25, 2025
•
33
4
Исследование галлюцинаций крупных мультимодальных моделей в понимании видео: бенчмарк, анализ и методы устранения
Exploring Hallucination of Large Multimodal Models in Video Understanding: Benchmark, Analysis and Mitigation
Hongcheng Gao, Jiashu Qu, Jingyi Tang, Baolong Bi, Yue Liu, Hongyu Chen, Li Liang, Li Su, Qingming Huang
•
Mar 25, 2025
•
31
4
CoMP: Непрерывное мультимодальное предобучение для базовых моделей компьютерного зрения
CoMP: Continual Multimodal Pre-training for Vision Foundation Models
Yitong Chen, Lingchen Meng, Wujian Peng, Zuxuan Wu, Yu-Gang Jiang
•
Mar 24, 2025
•
30
1
Подумайте дважды: улучшение рассуждений языковых моделей за счет масштабирования многоэтапного мышления во время тестирования
Think Twice: Enhancing LLM Reasoning by Scaling Multi-round Test-time Thinking
Xiaoyu Tian, Sitong Zhao, Haotian Wang, Shuaiting Chen, Yunjie Ji, Yiping Peng, Han Zhao, Xiangang Li
•
Mar 25, 2025
•
26
5
Найди подделку: обнаружение синтетических изображений с помощью крупных мультимодальных моделей и объяснение артефактов
Spot the Fake: Large Multimodal Model-Based Synthetic Image Detection with Artifact Explanation
Siwei Wen, Junyan Ye, Peilin Feng, Hengrui Kang, Zichen Wen, Yize Chen, Jiang Wu, Wenjun Wu, Conghui He, Weijia Li
•
Mar 19, 2025
•
20
3
MDocAgent: Мультимодальная мультиагентная система для анализа документов
MDocAgent: A Multi-Modal Multi-Agent Framework for Document Understanding
Siwei Han, Peng Xia, Ruiyi Zhang, Tong Sun, Yun Li, Hongtu Zhu, Huaxiu Yao
•
Mar 18, 2025
•
19
2
ReSearch: Обучение рассуждению с использованием поиска для языковых моделей через обучение с подкреплением
ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning
Mingyang Chen, Tianpeng Li, Haoze Sun, Yijie Zhou, Chenzheng Zhu, Fan Yang, Zenan Zhou, Weipeng Chen, Haofen Wang, Jeff Z. Pan, Wen Zhang, Huajun Chen
•
Mar 25, 2025
•
17
3
CoLLM: Крупная языковая модель для составного поиска изображений
CoLLM: A Large Language Model for Composed Image Retrieval
Chuong Huynh, Jinyu Yang, Ashish Tawari, Mubarak Shah, Son Tran, Raffay Hamid, Trishul Chilimbi, Abhinav Shrivastava
•
Mar 25, 2025
•
14
2
WikiAutoGen: К созданию многомодальной генерации статей в стиле Википедии
WikiAutoGen: Towards Multi-Modal Wikipedia-Style Article Generation
Zhongyu Yang, Jun Chen, Dannong Xu, Junjie Fei, Xiaoqian Shen, Liangbing Zhao, Chun-Mei Feng, Mohamed Elhoseiny
•
Mar 24, 2025
•
11
2
Сверхразрешение в латентном пространстве для генерации изображений с более высоким разрешением с использованием диффузионных моделей
Latent Space Super-Resolution for Higher-Resolution Image Generation with Diffusion Models
Jinho Jeong, Sangmin Han, Jinwoo Kim, Seon Joo Kim
•
Mar 24, 2025
•
10
1
FullDiT: Многофункциональная генеративная базовая модель для видео с полным вниманием
FullDiT: Multi-Task Video Generative Foundation Model with Full Attention
Xuan Ju, Weicai Ye, Quande Liu, Qiulin Wang, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Qiang Xu
•
Mar 25, 2025
•
8
2
DiffPortrait360: Согласованная диффузия портретов для синтеза 360-градусного обзора
DiffPortrait360: Consistent Portrait Diffusion for 360 View Synthesis
Yuming Gu, Phong Tran, Yujian Zheng, Hongyi Xu, Heyuan Li, Adilbek Karmanov, Hao Li
•
Mar 19, 2025
•
8
2
FirePlace: Геометрические уточнения здравого смысла в рассуждениях языковых моделей для размещения 3D-объектов
FirePlace: Geometric Refinements of LLM Common Sense Reasoning for 3D Object Placement
Ian Huang, Yanan Bao, Karen Truong, Howard Zhou, Cordelia Schmid, Leonidas Guibas, Alireza Fathi
•
Mar 6, 2025
•
8
2
PhysTwin: Физически обоснованная реконструкция и симуляция деформируемых объектов на основе видеозаписей
PhysTwin: Physics-Informed Reconstruction and Simulation of Deformable Objects from Videos
Hanxiao Jiang, Hao-Yu Hsu, Kaifeng Zhang, Hsin-Ni Yu, Shenlong Wang, Yunzhu Li
•
Mar 23, 2025
•
7
2
LookAhead Tuning: Более безопасные языковые модели через предварительный просмотр частичных ответов
LookAhead Tuning: Safer Language Models via Partial Answer Previews
Kangwei Liu, Mengru Wang, Yujie Luo, Lin Yuan, Mengshu Sun, Ningyu Zhang, Lei Liang, Zhiqiang Zhang, Jun Zhou, Huajun Chen
•
Mar 24, 2025
•
5
3
Эффективная разработка моделей посредством тонкой настройки трансферного обучения
Efficient Model Development through Fine-tuning Transfer
Pin-Jie Lin, Rishab Balasubramanian, Fengyuan Liu, Nikhil Kandpal, Tu Vu
•
Mar 25, 2025
•
4
2
FRESA: Прямое восстановление персонализированных скиннированных аватаров по нескольким изображениям
FRESA:Feedforward Reconstruction of Personalized Skinned Avatars from Few Images
Rong Wang, Fabian Prada, Ziyan Wang, Zhongshi Jiang, Chengxiang Yin, Junxuan Li, Shunsuke Saito, Igor Santesteban, Javier Romero, Rohan Joshi, Hongdong Li, Jason Saragih, Yaser Sheikh
•
Mar 24, 2025
•
4
2
xKV: Межслойное SVD для сжатия KV-кэша
xKV: Cross-Layer SVD for KV-Cache Compression
Chi-Chih Chang, Chien-Yu Lin, Yash Akhauri, Wei-Cheng Lin, Kai-Chiang Wu, Luis Ceze, Mohamed S. Abdelfattah
•
Mar 24, 2025
•
4
1
Сопоставление потоков Gumbel-Softmax с прямым сквозным управлением для контролируемой генерации биологических последовательностей
Gumbel-Softmax Flow Matching with Straight-Through Guidance for Controllable Biological Sequence Generation
Sophia Tang, Yinuo Zhang, Alexander Tong, Pranam Chatterjee
•
Mar 21, 2025
•
4
2
Надежный базовый подход: Многодроновое отслеживание с использованием YOLOv12 и BoT-SORT-ReID
Strong Baseline: Multi-UAV Tracking via YOLOv12 with BoT-SORT-ReID
Yu-Hsi Chen
•
Mar 21, 2025
•
4
5
Когда слова превосходят зрение: визуально-языковые модели могут самосовершенствоваться через обучение только на тексте для принятия решений, ориентированных на человека
When Words Outperform Vision: VLMs Can Self-Improve Via Text-Only Training For Human-Centered Decision Making
Zhe Hu, Jing Li, Yu Yin
•
Mar 21, 2025
•
4
2
К созданию унифицированной фундаментальной модели Copernicus для задач компьютерного зрения в области изучения Земли
Towards a Unified Copernicus Foundation Model for Earth Vision
Yi Wang, Zhitong Xiong, Chenying Liu, Adam J. Stewart, Thomas Dujardin, Nikolaos Ioannis Bountos, Angelos Zavras, Franziska Gerken, Ioannis Papoutsis, Laura Leal-Taixé, Xiao Xiang Zhu
•
Mar 14, 2025
•
4
3
LLaVAction: оценка и обучение мультимодальных больших языковых моделей для распознавания действий
LLaVAction: evaluating and training multi-modal large language models for action recognition
Shaokai Ye, Haozhe Qi, Alexander Mathis, Mackenzie W. Mathis
•
Mar 24, 2025
•
3
2
Any6D: Безмодельное 6D-оценивание позы новых объектов
Any6D: Model-free 6D Pose Estimation of Novel Objects
Taeyeop Lee, Bowen Wen, Minjun Kang, Gyuree Kang, In So Kweon, Kuk-Jin Yoon
•
Mar 24, 2025
•
3
2
OpenCity3D: Что знают модели "зрение-язык" о городской среде?
OpenCity3D: What do Vision-Language Models know about Urban Environments?
Valentin Bieri, Marco Zamboni, Nicolas S. Blumer, Qingxuan Chen, Francis Engelmann
•
Mar 21, 2025
•
3
2
Могут ли модели "зрение-язык" отвечать на вопросы лицом к лицу в реальном мире?
Can Vision-Language Models Answer Face to Face Questions in the Real-World?
Reza Pourreza, Rishit Dagli, Apratim Bhattacharyya, Sunny Panchal, Guillaume Berger, Roland Memisevic
•
Mar 25, 2025
•
2
2
Преодоление несоответствия словарного запаса: Моделирование языка с использованием словарно-независимого учителя
Overcoming Vocabulary Mismatch: Vocabulary-agnostic Teacher Guided Language Modeling
Haebin Shin, Lei Ji, Xiao Liu, Yeyun Gong
•
Mar 24, 2025
•
2
2
Частотно-динамическая свертка для плотного предсказания изображений
Frequency Dynamic Convolution for Dense Image Prediction
Linwei Chen, Lin Gu, Liang Li, Chenggang Yan, Ying Fu
•
Mar 24, 2025
•
2
2
LPOSS: Распространение меток по патчам и пикселям для семантической сегментации с открытым словарём
LPOSS: Label Propagation Over Patches and Pixels for Open-vocabulary Semantic Segmentation
Vladan Stojnić, Yannis Kalantidis, Jiří Matas, Giorgos Tolias
•
Mar 25, 2025
•
1
2
ST-VLM: Кинематическая настройка инструкций для пространственно-временного анализа в визуально-языковых моделях
ST-VLM: Kinematic Instruction Tuning for Spatio-Temporal Reasoning in Vision-Language Models
Dohwan Ko, Sihyeon Kim, Yumin Suh, Vijay Kumar B. G, Minseo Yoon, Manmohan Chandraker, Hyunwoo J. Kim
•
Mar 25, 2025
•
1
1
Co-SemDepth: Быстрое совместное семантическое сегментирование и оценка глубины на аэрофотоснимках
Co-SemDepth: Fast Joint Semantic Segmentation and Depth Estimation on Aerial Images
Yara AlaaEldin, Francesca Odone
•
Mar 23, 2025
•
0
2