ChatPaper.aiChatPaper.ai
Главная

arXiv

HuggingFace

ЦеныАккаунтРабочее пространство

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: [email protected]

X (Twitter)

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Эра 1-битных LLM: все крупные языковые модели теперь в 1,58 бита
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

Shuming Ma, Hongyu Wang, Lingxiao Ma, Lei Wang, Wenhui Wang, Shaohan Huang, Li Dong, Ruiping Wang, Jilong Xue, Furu Wei•Feb 27, 2024•618143

EMO: Emote Portrait Alive — Создание выразительных портретных видео с помощью аудио-видео диффузионной модели в условиях слабого контроля
EMO: Emote Portrait Alive - Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions

Linrui Tian, Qi Wang, Bang Zhang, Liefeng Bo•Feb 27, 2024•19620

Sora: Обзор предпосылок, технологий, ограничений и перспектив крупномасштабных моделей компьютерного зрения
Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models

Yixin Liu, Kai Zhang, Yuan Li, Zhiling Yan, Chujie Gao, Ruoxi Chen, Zhengqing Yuan, Yue Huang, Hanchi Sun, Jianfeng Gao, Lifang He, Lichao Sun•Feb 27, 2024•895

OmniACT: Набор данных и эталон для создания мультимодальных универсальных автономных агентов для работы с десктопом и вебом
OmniACT: A Dataset and Benchmark for Enabling Multimodal Generalist Autonomous Agents for Desktop and Web

Raghav Kapoor, Yash Parag Butala, Melisa Russak, Jing Yu Koh, Kiran Kamble, Waseem Alshikh, Ruslan Salakhutdinov•Feb 27, 2024•266

Когда масштабирование встречается с тонкой настройкой языковых моделей: влияние данных, модели и метода настройки
When Scaling Meets LLM Finetuning: The Effect of Data, Model and Finetuning Method

Biao Zhang, Zhongtao Liu, Colin Cherry, Orhan Firat•Feb 27, 2024•263

Масштабирование крупных языковых моделей на длинные контексты без обучения
Training-Free Long-Context Scaling of Large Language Models

Chenxin An, Fei Huang, Jun Zhang, Shansan Gong, Xipeng Qiu, Chang Zhou, Lingpeng Kong•Feb 27, 2024•254

DiffuseKronA: Метод эффективной тонкой настройки параметров для персонализированных моделей диффузии
DiffuseKronA: A Parameter Efficient Fine-tuning Method for Personalized Diffusion Model

Shyam Marjit, Harshit Singh, Nityanand Mathur, Sayak Paul, Chia-Mu Yu, Pin-Yu Chen•Feb 27, 2024•251

Видео как новый язык для принятия решений в реальном мире
Video as the New Language for Real-World Decision Making

Sherry Yang, Jacob Walker, Jack Parker-Holder, Yilun Du, Jake Bruce, Andre Barreto, Pieter Abbeel, Dale Schuurmans•Feb 27, 2024•221

Оценка сверхдолгосрочной памяти диалогов у агентов на основе крупных языковых моделей
Evaluating Very Long-Term Conversational Memory of LLM Agents

Adyasha Maharana, Dong-Ho Lee, Sergey Tulyakov, Mohit Bansal, Francesco Barbieri, Yuwei Fang•Feb 27, 2024•203

К оптимальному обучению языковых моделей
Towards Optimal Learning of Language Models

Yuxian Gu, Li Dong, Yaru Hao, Qingxiu Dong, Minlie Huang, Furu Wei•Feb 27, 2024•181

Sora создает видео с потрясающей геометрической согласованностью.
Sora Generates Videos with Stunning Geometrical Consistency

Xuanyi Li, Daquan Zhou, Chenxu Zhang, Shaodong Wei, Qibin Hou, Ming-Ming Cheng•Feb 27, 2024•181

Зрение и слух: генерация визуально-аудио контента в открытой области с использованием диффузионных моделей и латентных выравнивателей
Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion Latent Aligners

Yazhou Xing, Yingqing He, Zeyue Tian, Xintao Wang, Qifeng Chen•Feb 27, 2024•161

Playground v2.5: Три идеи для повышения эстетического качества в генерации изображений по текстовому описанию
Playground v2.5: Three Insights towards Enhancing Aesthetic Quality in Text-to-Image Generation

Daiqing Li, Aleks Kamko, Ehsan Akhgari, Ali Sabet, Linmiao Xu, Suhail Doshi•Feb 27, 2024•121

Генерация разъединенных 3D-сцен с обучением компоновки
Disentangled 3D Scene Generation with Layout Learning

Dave Epstein, Ben Poole, Ben Mildenhall, Alexei A. Efros, Aleksander Holynski•Feb 26, 2024•121

VastGaussian: Обширные 3D-гауссовы распределения для реконструкции крупномасштабных сцен
VastGaussian: Vast 3D Gaussians for Large Scene Reconstruction

Jiaqi Lin, Zhihao Li, Xiao Tang, Jianzhuang Liu, Shiyong Liu, Jiayue Liu, Yangdi Lu, Xiaofei Wu, Songcen Xu, Youliang Yan, Wenming Yang•Feb 27, 2024•1145