Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

SeerAttention: Обучение внутреннему разреженному вниманию в ваших LLMs
SeerAttention: Learning Intrinsic Sparse Attention in Your LLMs

Yizhao Gao, Zhichen Zeng, Dayou Du, Shijie Cao, Hayden Kwok-Hay So, Ting Cao, Fan Yang, Mao Yang•Oct 17, 2024•302

Диффузионная учебная программа: обучение генеративной программе от синтетического к реальному через диффузию, управляемую изображением.
Diffusion Curriculum: Synthetic-to-Real Generative Curriculum Learning via Image-Guided Diffusion

Yijun Liang, Shweta Bhardwaj, Tianyi Zhou•Oct 17, 2024•173

FiTv2: Масштабируемый и улучшенный гибкий видовой трансформер для моделирования диффузии
FiTv2: Scalable and Improved Flexible Vision Transformer for Diffusion Model

ZiDong Wang, Zeyu Lu, Di Huang, Cai Zhou, Wanli Ouyang, and Lei Bai•Oct 17, 2024•243

HART: Эффективная визуальная генерация с гибридным авторегрессивным трансформером
HART: Efficient Visual Generation with Hybrid Autoregressive Transformer

Haotian Tang, Yecheng Wu, Shang Yang, Enze Xie, Junsong Chen, Junyu Chen, Zhuoyang Zhang, Han Cai, Yao Lu, Song Han•Oct 14, 2024•182

Montessori-Instruct: Генерация влиятельных обучающих данных, адаптированных для обучения студентов.
Montessori-Instruct: Generate Influential Training Data Tailored for Student Learning

Xiaochuan Li, Zichun Yu, Chenyan Xiong•Oct 18, 2024•32

MagicTailor: Управляемая компонентами персонализация в текст-к-изображению моделях диффузии
MagicTailor: Component-Controllable Personalization in Text-to-Image Diffusion Models

Donghao Zhou, Jiancheng Huang, Jinbin Bai, Jiaze Wang, Hao Chen, Guangyong Chen, Xiaowei Hu, Pheng-Ann Heng•Oct 17, 2024•387

UCFE: Пользовательский финансовый экспертный бенчмарк для крупных языковых моделей
UCFE: A User-Centric Financial Expertise Benchmark for Large Language Models

Yuzhe Yang, Yifei Zhang, Yan Hu, Yilin Guo, Ruoli Gan, Yueru He, Mingcong Lei, Xiao Zhang, Haining Wang, Qianqian Xie, Jimin Huang, Honghai Yu, Benyou Wang•Oct 17, 2024•612

Mini-Omni2: На пути к открытому исходному коду GPT-4o с возможностями зрения, речи и дуплекса
Mini-Omni2: Towards Open-source GPT-4o with Vision, Speech and Duplex Capabilities

Zhifei Xie, Changqiao Wu•Oct 15, 2024•222

BiGR: Использование бинарных скрытых кодов для генерации изображений и улучшения возможностей визуального представления.
BiGR: Harnessing Binary Latent Codes for Image Generation and Improved Visual Representation Capabilities

Shaozhe Hao, Xuantong Liu, Xianbiao Qi, Shihao Zhao, Bojia Zi, Rong Xiao, Kai Han, Kwan-Yee K. Wong•Oct 18, 2024•82

Достаточно ли хороши детекторы ИИ? Обзор качества наборов данных с машинно-сгенерированным текстом.
Are AI Detectors Good Enough? A Survey on Quality of Datasets With Machine-Generated Texts

German Gritsai, Anastasia Voznyuk, Andrey Grabovoy, Yury Chekhovich•Oct 18, 2024•125

Веб-агенты с мировыми моделями: изучение и использование динамики окружения в навигации по вебу
Web Agents with World Models: Learning and Leveraging Environment Dynamics in Web Navigation

Hyungjoo Chae, Namyoung Kim, Kai Tzu-iunn Ong, Minju Gwak, Gwanwoo Song, Jihoon Kim, Sunghwan Kim, Dongha Lee, Jinyoung Yeo•Oct 17, 2024•442

NaturalBench: Оценка моделей видео-языкового взаимодействия на естественных адверсарных образцах
NaturalBench: Evaluating Vision-Language Models on Natural Adversarial Samples

Baiqi Li, Zhiqiu Lin, Wenxuan Peng, Jean de Dieu Nyandwi, Daniel Jiang, Zixian Ma, Simran Khanuja, Ranjay Krishna, Graham Neubig, Deva Ramanan•Oct 18, 2024•404

SHAKTI: Небольшая языковая модель с 2,5 миллиарда параметров, оптимизированная для Edge AI и низкоресурсных сред.
SHAKTI: A 2.5 Billion Parameter Small Language Model Optimized for Edge AI and Low-Resource Environments

Syed Abdul Gaffar Shakhadri, Kruthika KR, Rakshit Aralimatti•Oct 15, 2024•83

Контекст ключевой (NMF): Моделирование динамики тематической информации в китайских диаспорных медиа.
Context is Key(NMF): Modelling Topical Information Dynamics in Chinese Diaspora Media

Ross Deans Kristensen-McLachlan, Rebecca M. M. Hicke, Márton Kardos, Mette Thunø•Oct 16, 2024•53

DPLM-2: Мультимодельная модель языка диффузии белков
DPLM-2: A Multimodal Diffusion Protein Language Model

Xinyou Wang, Zaixiang Zheng, Fei Ye, Dongyu Xue, Shujian Huang, Quanquan Gu•Oct 17, 2024•223

Вглядываясь внутрь: Языковые модели могут учиться о самих себе через интроспекцию.
Looking Inward: Language Models Can Learn About Themselves by Introspection

Felix J Binder, James Chua, Tomek Korbak, Henry Sleight, John Hughes, Robert Long, Ethan Perez, Miles Turpin, Owain Evans•Oct 17, 2024•811

DAWN: Динамический аватар кадра с недоавторегрессионной диффузионной структурой для генерации видео с разговаривающей головой
DAWN: Dynamic Frame Avatar with Non-autoregressive Diffusion Framework for Talking Head Video Generation

Hanbo Cheng, Limin Lin, Chenyu Liu, Pengcheng Xia, Pengfei Hu, Jiefeng Ma, Jun Du, Jia Pan•Oct 17, 2024•122

Как методы обучения влияют на использование моделей компьютерного зрения?
How Do Training Methods Influence the Utilization of Vision Models?

Paul Gavrikov, Shashank Agnihotri, Margret Keuper, Janis Keuper•Oct 18, 2024•52

Обучение моделей находить баланс между сопротивлением и принятием убеждения.
Teaching Models to Balance Resisting and Accepting Persuasion

Elias Stengel-Eskin, Peter Hase, Mohit Bansal•Oct 18, 2024•32

Одна из распространенных ошибок выравнивания языковых моделей на основе отступов: запутанность градиентов.
A Common Pitfall of Margin-based Language Model Alignment: Gradient Entanglement

Hui Yuan, Yifan Zeng, Yue Wu, Huazheng Wang, Mengdi Wang, Liu Leqi•Oct 17, 2024•42