ChatPaper.aiChatPaper.ai
Главная

arXiv

HuggingFace

ЦеныАккаунтРабочее пространство

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: [email protected]

X (Twitter)

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

MMDU: Многораундовый многокартинный набор данных для понимания диалогов и настройки инструкций для LVLM.
MMDU: A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs

Ziyu Liu, Tao Chu, Yuhang Zang, Xilin Wei, Xiaoyi Dong, Pan Zhang, Zijian Liang, Yuanjun Xiong, Yu Qiao, Dahua Lin, Jiaqi Wang•Jun 17, 2024•646

DataComp-LM: В поисках следующего поколения наборов данных для языковых моделей
DataComp-LM: In search of the next generation of training sets for language models

Jeffrey Li, Alex Fang, Georgios Smyrnis, Maor Ivgi, Matt Jordan, Samir Gadre, Hritik Bansal, Etash Guha, Sedrick Keh, Kushal Arora, Saurabh Garg, Rui Xin, Niklas Muennighoff, Reinhard Heckel, Jean Mercat, Mayee Chen, Suchin Gururangan, Mitchell Wortsman, Alon Albalak, Yonatan Bitton, Marianna Nezhurina, Amro Abbas, Cheng-Yu Hsieh, Dhruba Ghosh, Josh Gardner, Maciej Kilian, Hanlin Zhang, Rulin Shao, Sarah Pratt, Sunny Sanyal, Gabriel Ilharco, Giannis Daras, Kalyani Marathe, Aaron Gokaslan, Jieyu Zhang, Khyathi Chandu, Thao Nguyen, Igor Vasiljevic, Sham Kakade, Shuran Song, Sujay Sanghavi, Fartash Faghri, Sewoong Oh, Luke Zettlemoyer, Kyle Lo, Alaaeldin El-Nouby, Hadi Pouransari, Alexander Toshev, Stephanie Wang, Dirk Groeneveld, Luca Soldani, Pang Wei Koh, Jenia Jitsev, Thomas Kollar, Alexandros G. Dimakis, Yair Carmon, Achal Dave, Ludwig Schmidt, Vaishaal Shankar•Jun 17, 2024•534

mDPO: Условная оптимизация предпочтений для мультимодальных крупных языковых моделей
mDPO: Conditional Preference Optimization for Multimodal Large Language Models

Fei Wang, Wenxuan Zhou, James Y. Huang, Nan Xu, Sheng Zhang, Hoifung Poon, Muhao Chen•Jun 17, 2024•391

ТЕАНИН: Пересмотр управления памятью в долгосрочных разговорах с генерацией ответов, дополненных временной шкалой.
THEANINE: Revisiting Memory Management in Long-term Conversations with Timeline-augmented Response Generation

Seo Hyun Kim, Kai Tzu-iunn Ong, Taeyoon Kwon, Namyoung Kim, Keummin Ka, SeongHyeon Bae, Yohan Jo, Seung-won Hwang, Dongha Lee, Jinyoung Yeo•Jun 16, 2024•351

MeshAnything: Генерация сетки, созданная художником с помощью авторегрессивных трансформеров
MeshAnything: Artist-Created Mesh Generation with Autoregressive Transformers

Yiwen Chen, Tong He, Di Huang, Weicai Ye, Sijin Chen, Jiaxiang Tang, Xin Chen, Zhongang Cai, Lei Yang, Gang Yu, Guosheng Lin, Chi Zhang•Jun 14, 2024•342

Как крупные языковые модели приобретают фактические знания во время предварительного обучения?
How Do Large Language Models Acquire Factual Knowledge During Pretraining?

Hoyeon Chang, Jinho Park, Seonghyeon Ye, Sohee Yang, Youngkyung Seo, Du-Seong Chang, Minjoon Seo•Jun 17, 2024•321

VideoLLM-online: Онлайн видео большой языковой модель для потокового видео
VideoLLM-online: Online Video Large Language Model for Streaming Video

Joya Chen, Zhaoyang Lv, Shiwei Wu, Kevin Qinghong Lin, Chenan Song, Difei Gao, Jia-Wei Liu, Ziteng Gao, Dongxing Mao, Mike Zheng Shou•Jun 17, 2024•251

Простая и эффективная стратегия сжатия кэша KV на основе нормы L_2
A Simple and Effective L_2 Norm-Based Strategy for KV Cache Compression

Alessio Devoto, Yu Zhao, Simone Scardapane, Pasquale Minervini•Jun 17, 2024•243

Исследование роли крупных языковых моделей в кодировании подсказок для моделей диффузии
Exploring the Role of Large Language Models in Prompt Encoding for Diffusion Models

Bingqi Ma, Zhuofan Zong, Guanglu Song, Hongsheng Li, Yu Liu•Jun 17, 2024•224

MINT-1T: Масштабирование открытых мультимодальных данных на 10 раз: мультимодальный набор данных с одним триллионом токенов
MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens

Anas Awadalla, Le Xue, Oscar Lo, Manli Shu, Hannah Lee, Etash Kumar Guha, Matt Jordan, Sheng Shen, Mohamed Awadalla, Silvio Savarese, Caiming Xiong, Ran Xu, Yejin Choi, Ludwig Schmidt•Jun 17, 2024•211

GAMA: Большая аудио-языковая модель с продвинутым пониманием аудио и сложными способностями к рассуждениям.
GAMA: A Large Audio-Language Model with Advanced Audio Understanding and Complex Reasoning Abilities

Sreyan Ghosh, Sonal Kumar, Ashish Seth, Chandra Kiran Reddy Evuru, Utkarsh Tyagi, S Sakshi, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha•Jun 17, 2024•201

LLaNA: Большой языковой и ассистент NeRF
LLaNA: Large Language and NeRF Assistant

Andrea Amaduzzi, Pierluigi Zama Ramirez, Giuseppe Lisanti, Samuele Salti, Luigi Di Stefano•Jun 17, 2024•183

От пикселей к тексту: большой набор данных плотных описаний изображений.
From Pixels to Prose: A Large Dataset of Dense Image Captions

Vasu Singla, Kaiyu Yue, Sukriti Paul, Reza Shirkavand, Mayuka Jayawardhana, Alireza Ganjdanesh, Heng Huang, Abhinav Bhatele, Gowthami Somepalli, Tom Goldstein•Jun 14, 2024•182

WPO: Улучшение RLHF с оптимизацией взвешенных предпочтений
WPO: Enhancing RLHF with Weighted Preference Optimization

Wenxuan Zhou, Ravi Agrawal, Shujian Zhang, Sathish Reddy Indurthi, Sanqiang Zhao, Kaiqiang Song, Silei Xu, Chenguang Zhu•Jun 17, 2024•151

Редактирование в контексте: изучение знаний из самоиндуцированных распределений
In-Context Editing: Learning Knowledge from Self-Induced Distributions

Siyuan Qi, Bangcheng Yang, Kailin Jiang, Xiaobo Wang, Jiaqi Li, Yifan Zhong, Yaodong Yang, Zilong Zheng•Jun 17, 2024•155

Пандора: к общей модели мира с естественноязыковыми действиями и видео состояниями
Pandora: Towards General World Model with Natural Language Actions and Video States

Jiannan Xiang, Guangyi Liu, Yi Gu, Qiyue Gao, Yuting Ning, Yuheng Zha, Zeyu Feng, Tianhua Tao, Shibo Hao, Yemin Shi, Zhengzhong Liu, Eric P. Xing, Zhiting Hu•Jun 12, 2024•151

WildVision: Оценка моделей зрения-языка в естественной среде с участием предпочтений человека
WildVision: Evaluating Vision-Language Models in the Wild with Human Preferences

Yujie Lu, Dongfu Jiang, Wenhu Chen, William Yang Wang, Yejin Choi, Bill Yuchen Lin•Jun 16, 2024•144

L4GM: Модель крупномасштабной реконструкции Гаусса в 4D
L4GM: Large 4D Gaussian Reconstruction Model

Jiawei Ren, Kevin Xie, Ashkan Mirzaei, Hanxue Liang, Xiaohui Zeng, Karsten Kreis, Ziwei Liu, Antonio Torralba, Sanja Fidler, Seung Wook Kim, Huan Ling•Jun 14, 2024•131

Объединение мультимодального поиска с помощью встраивания снимка документа.
Unifying Multimodal Retrieval via Document Screenshot Embedding

Xueguang Ma, Sheng-Chieh Lin, Minghan Li, Wenhu Chen, Jimmy Lin•Jun 17, 2024•101

Задавайте мне любые вопросы
Task Me Anything

Jieyu Zhang, Weikai Huang, Zixian Ma, Oscar Michel, Dong He, Tanmay Gupta, Wei-Chiu Ma, Ali Farhadi, Aniruddha Kembhavi, Ranjay Krishna•Jun 17, 2024•81

Vid3D: Синтез динамических 3D сцен с использованием диффузии 2D видео
Vid3D: Synthesis of Dynamic 3D Scenes using 2D Video Diffusion

Rishab Parthasarathy, Zack Ankner, Aaron Gokaslan•Jun 17, 2024•81

Насколько гибкие на практике являются нейронные сети?
Just How Flexible are Neural Networks in Practice?

Ravid Shwartz-Ziv, Micah Goldblum, Arpit Bansal, C. Bayan Bruss, Yann LeCun, Andrew Gordon Wilson•Jun 17, 2024•71

Юмор в ИИ: масштабные предпочтения и стандарты для создания подписей к мультфильмам на основе массового коллективного источника данных
Humor in AI: Massive Scale Crowd-Sourced Preferences and Benchmarks for Cartoon Captioning

Jifan Zhang, Lalit Jain, Yang Guo, Jiayi Chen, Kuan Lok Zhou, Siddharth Suresh, Andrew Wagenmaker, Scott Sievert, Timothy Rogers, Kevin Jamieson, Robert Mankoff, Robert Nowak•Jun 15, 2024•72

Оценка открытых языковых моделей по типам задач, областям применения и типам рассуждений: глубинный экспериментальный анализ
Evaluating Open Language Models Across Task Types, Application Domains, and Reasoning Types: An In-Depth Experimental Analysis

Neelabh Sinha, Vinija Jain, Aman Chadha•Jun 17, 2024•61

Преодоление узкого места внимания
Breaking the Attention Bottleneck

Kalle Hilsenbek•Jun 16, 2024•44

HiddenTables & PyQTax: Кооперативная игра и набор данных для TableQA для обеспечения масштаба и конфиденциальности данных в различных таксономиях.
HiddenTables & PyQTax: A Cooperative Game and Dataset For TableQA to Ensure Scale and Data Privacy Across a Myriad of Taxonomies

William Watson, Nicole Cho, Tucker Balch, Manuela Veloso•Jun 16, 2024•41

CoLoR-Filter: Фильтрация с условным снижением потерь для предварительного обучения модели нацеленного языка
CoLoR-Filter: Conditional Loss Reduction Filtering for Targeted Language Model Pre-training

David Brandfonbrener, Hanlin Zhang, Andreas Kirsch, Jonathan Richard Schwarz, Sham Kakade•Jun 15, 2024•41

Согласованность^2: Согласованная и быстрая 3D-раскраска с латентными моделями согласованности
Consistency^2: Consistent and Fast 3D Painting with Latent Consistency Models

Tianfu Wang, Anton Obukhov, Konrad Schindler•Jun 17, 2024•31

Глубокое байесовское активное обучение для моделирования предпочтений в больших языковых моделях.
Deep Bayesian Active Learning for Preference Modeling in Large Language Models

Luckeciano C. Melo, Panagiotis Tigas, Alessandro Abate, Yarin Gal•Jun 14, 2024•21