HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

10 papers found

DeepSeek-R1: Стимулирование способности к рассуждениям в LLM с помощью обучения с подкреплением
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Jan 22

ByDeepSeek-AI, Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z. F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao, Aixin Liu, Bing Xue, Bingxuan Wang, Bochao Wu, Bei Feng, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chenyu Zhang, Chong Ruan, Damai Dai, Deli Chen, Dongjie Ji, Erhang Li, Fangyun Lin, Fucong Dai, Fuli Luo, Guangbo Hao, Guanting Chen, Guowei Li, H. Zhang, Han Bao, Hanwei Xu, Haocheng Wang, Honghui Ding, Huajian Xin, Huazuo Gao, Hui Qu, Hui Li, Jianzhong Guo, Jiashi Li, Jiawei Wang, Jingchang Chen, Jingyang Yuan, Junjie Qiu, Junlong Li, J. L. Cai, Jiaqi Ni, Jian Liang, Jin Chen, Kai Dong, Kai Hu, Kaige Gao, Kang Guan, Kexin Huang, Kuai Yu, Lean Wang, Lecong Zhang, Liang Zhao, Litong Wang, Liyue Zhang, Lei Xu, Leyi Xia, Mingchuan Zhang, Minghua Zhang, Minghui Tang, Meng Li, Miaojun Wang, Mingming Li, Ning Tian, Panpan Huang, Peng Zhang, Qiancheng Wang, Qinyu Chen, Qiushi Du, Ruiqi Ge, Ruisong Zhang, Ruizhe Pan, Runji Wang, R. J. Chen, R. L. Jin, Ruyi Chen, Shanghao Lu, Shangyan Zhou, Shanhuang Chen, Shengfeng Ye, Shiyu Wang, Shuiping Yu, Shunfeng Zhou, Shuting Pan, S. S. Li, Shuang Zhou, Shaoqing Wu, Shengfeng Ye, Tao Yun, Tian Pei, Tianyu Sun, T. Wang, Wangding Zeng, Wanjia Zhao, Wen Liu, Wenfeng Liang, Wenjun Gao, Wenqin Yu, Wentao Zhang, W. L. Xiao, Wei An, Xiaodong Liu, Xiaohan Wang, Xiaokang Chen, Xiaotao Nie, Xin Cheng, Xin Liu, Xin Xie, Xingchao Liu, Xinyu Yang, Xinyuan Li, Xuecheng Su, Xuheng Lin, X. Q. Li, Xiangyue Jin, Xiaojin Shen, Xiaosha Chen, Xiaowen Sun, Xiaoxiang Wang, Xinnan Song, Xinyi Zhou, Xianzu Wang, Xinxia Shan, Y. K. Li, Y. Q. Wang, Y. X. Wei, Yang Zhang, Yanhong Xu, Yao Li, Yao Zhao, Yaofeng Sun, Yaohui Wang, Yi Yu, Yichao Zhang, Yifan Shi, Yiliang Xiong, Ying He, Yishi Piao, Yisong Wang, Yixuan Tan, Yiyang Ma, Yiyuan Liu, Yongqiang Guo, Yuan Ou, Yuduan Wang, Yue Gong, Yuheng Zou, Yujia He, Yunfan Xiong, Yuxiang Luo, Yuxiang You, Yuxuan Liu, Yuyang Zhou, Y. X. Zhu, Yanhong Xu, Yanping Huang, Yaohui Li, Yi Zheng, Yuchen Zhu, Yunxian Ma, Ying Tang, Yukun Zha, Yuting Yan, Z. Z. Ren, Zehui Ren, Zhangli Sha, Zhe Fu, Zhean Xu, Zhenda Xie, Zhengyan Zhang, Zhewen Hao, Zhicheng Ma, Zhigang Yan, Zhiyu Wu, Zihui Gu, Zijia Zhu, Zijun Liu, Zilin Li, Ziwei Xie, Ziyang Song, Zizheng Pan, Zhen Huang, Zhipeng Xu, Zhongyu Zhang, Zhen Zhang

420

Мы представляем наши модели рассуждения первого поколения, DeepSeek-R1-Zero и DeepSeek-R1. Модель DeepSeek-R1-Zero, обученная с использованием масштабного обучения с подкреплением (RL) без дополнительного обучения с учителем (SFT) в качестве предварительного этапа, проявляет замечательные способности к рассуждениям. Через RL DeepSeek-R1-Zero естественным образом приобретает множество мощных и увлекательных поведенческих моделей рассуждения. Однако он сталкивается с проблемами, такими как плохая читаемость и смешение языков. Для решения этих проблем и дальнейшего улучшения производительности рассуждения мы представляем DeepSeek-R1, которая включает многопроходное обучение и начальные данные перед RL. DeepSeek-R1 достигает производительности, сравнимой с OpenAI-o1-1217 на задачах рассуждения. Для поддержки научного сообщества мы предоставляем в открытый доступ DeepSeek-R1-Zero, DeepSeek-R1 и шесть плотных моделей (1.5B, 7B, 8B, 14B, 32B, 70B), дистиллированных из DeepSeek-R1 на основе Qwen и Llama.

Kimi k1.5: Масштабирование обучения с подкреплением с помощью LLMs
Kimi k1.5: Scaling Reinforcement Learning with LLMs

Jan 22

ByKimi Team, Angang Du, Bofei Gao, Bowei Xing, Changjiu Jiang, Cheng Chen, Cheng Li, Chenjun Xiao, Chenzhuang Du, Chonghua Liao, Chuning Tang, Congcong Wang, Dehao Zhang, Enming Yuan, Enzhe Lu, Fengxiang Tang, Flood Sung, Guangda Wei, Guokun Lai, Haiqing Guo, Han Zhu, Hao Ding, Hao Hu, Hao Yang, Hao Zhang, Haotian Yao, Haotian Zhao, Haoyu Lu, Haoze Li, Haozhen Yu, Hongcheng Gao, Huabin Zheng, Huan Yuan, Jia Chen, Jianhang Guo, Jianlin Su, Jianzhou Wang, Jie Zhao, Jin Zhang, Jingyuan Liu, Junjie Yan, Junyan Wu, Lidong Shi, Ling Ye, Longhui Yu, Mengnan Dong, Neo Zhang, Ningchen Ma, Qiwei Pan, Qucheng Gong, Shaowei Liu, Shengling Ma, Shupeng Wei, Sihan Cao, Siying Huang, Tao Jiang, Weihao Gao, Weimin Xiong, Weiran He, Weixiao Huang, Wenhao Wu, Wenyang He, Xianghui Wei, Xianqing Jia, Xingzhe Wu, Xinran Xu, Xinxing Zu, Xinyu Zhou, Xuehai Pan, Y. Charles, Yang Li, Yangyang Hu, Yangyang Liu, Yanru Chen, Yejie Wang, Yibo Liu, Yidao Qin, Yifeng Liu, Ying Yang, Yiping Bao, Yulun Du, Yuxin Wu, Yuzhi Wang, Zaida Zhou, Zhaoji Wang, Zhaowei Li, Zhen Zhu, Zheng Zhang, Zhexu Wang, Zhilin Yang, Zhiqi Huang, Zihao Huang, Ziyao Xu, Zonghan Yang

123

Предварительное обучение языковой модели с предсказанием следующего токена доказало свою эффективность для масштабирования вычислений, но ограничено объемом доступных обучающих данных. Увеличение масштаба обучения с подкреплением (RL) открывает новую ось для постоянного улучшения искусственного интеллекта, с обещанием того, что большие языковые модели (LLM) могут увеличить объем своих обучающих данных, изучая исследование с помощью вознаграждений. Однако ранее опубликованные работы не привели к конкурентоспособным результатам. В свете этого мы сообщаем о практике обучения Kimi k1.5, нашей последней мультимодальной LLM, обученной с помощью RL, включая ее техники обучения RL, рецепты мультимодальных данных и оптимизацию инфраструктуры. Увеличение длины контекста и улучшенные методы оптимизации политики являются ключевыми элементами нашего подхода, который устанавливает простую, эффективную структуру RL без использования более сложных техник, таких как поиск по дереву методом Монте-Карло, функции ценности и модели вознаграждения процесса. Заметно, что наша система достигает передовой производительности в рассуждениях по нескольким показателям и модальностям - например, 77,5 на AIME, 96,2 на MATH 500, 94-й процентиль на Codeforces, 74,9 на MathVista - соответствуя OpenAI's o1. Более того, мы представляем эффективные методы long2short, которые используют техники long-CoT для улучшения моделей short-CoT, давая передовые результаты в рассуждениях short-CoT - например, 60,8 на AIME, 94,6 на MATH500, 47,3 на LiveCodeBench - превосходящие существующие модели short-CoT, такие как GPT-4o и Claude Sonnet 3.5 на значительный процент (до +550%).

VideoLLaMA 3: Фундаментальные мультимодальные модели для понимания изображений и видео в области исследований.
VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding

Jan 22

ByBoqiang Zhang, Kehan Li, Zesen Cheng, Zhiqiang Hu, Yuqian Yuan, Guanzheng Chen, Sicong Leng, Yuming Jiang, Hang Zhang, Xin Li, Peng Jin, Wenqi Zhang, Fan Wang, Lidong Bing, Deli Zhao

В данной статье мы предлагаем VideoLLaMA3, более продвинутую мультимодальную базовую модель для понимания изображений и видео. Основная философия дизайна VideoLLaMA3 ориентирована на зрение. Понятие "ориентированность на зрение" имеет двойное значение: парадигма обучения, ориентированная на зрение, и дизайн фреймворка, ориентированный на зрение. Основное открытие нашей парадигмы обучения, ориентированной на зрение, заключается в том, что высококачественные данные изображений и текста критичны как для понимания изображений, так и видео. Вместо подготовки обширных наборов данных видео-текста, мы сосредотачиваемся на создании крупномасштабных и высококачественных наборов данных изображений и текста. VideoLLaMA3 имеет четыре этапа обучения: 1) этап выравнивания, ориентированный на зрение, который подготавливает к работе кодировщик и проектор зрения; 2) этап предварительного обучения зрение-язык, который совместно настраивает кодировщик зрения, проектор и LLM с крупномасштабными данными изображений и текста, охватывающими несколько типов (включая изображения сцен, документы, диаграммы), а также данные только текста; 3) этап многозадачной донастройки, который включает данные SFT изображений-текста для последующих задач и данные видео-текста для установления основы для понимания видео; 4) донастройка, ориентированная на видео, которая дополнительно улучшает способности модели в понимании видео. Что касается дизайна фреймворка, для более точного захвата мелких деталей на изображениях, предварительно обученный кодировщик зрения адаптирован для кодирования изображений различных размеров в зрительные токены с соответствующими номерами, а не фиксированным количеством токенов. Для видеовходов мы уменьшаем количество зрительных токенов в соответствии с их сходством, чтобы представление видео было более точным и компактным. Благодаря ориентированным на зрение конструкциям, VideoLLaMA3 достигает впечатляющих результатов как в бенчмарках понимания изображений, так и видео.

FilmAgent: Мультиагентный фреймворк для автоматизации создания фильмов в виртуальных 3D пространствах
FilmAgent: A Multi-Agent Framework for End-to-End Film Automation in Virtual 3D Spaces

Jan 22

ByZhenran Xu, Longyue Wang, Jifang Wang, Zhouyi Li, Senbao Shi, Xue Yang, Yiyu Wang, Baotian Hu, Jun Yu, Min Zhang

Виртуальное кино производство требует сложных процессов принятия решений, включая написание сценария, виртуальную кинематографию, а также точное позиционирование и действия актеров. Вдохновленные недавними достижениями в автоматизированном принятии решений с использованием агентов на основе языка, в данной статье представляется FilmAgent, новая многоагентная коллаборативная платформа на основе LLM для автоматизации производства фильмов в наших созданных 3D виртуальных пространствах. FilmAgent моделирует различные роли съемочной группы, включая режиссеров, сценаристов, актеров и кинематографистов, и охватывает ключевые этапы рабочего процесса производства фильма: (1) разработка идеи преобразует замыслы в структурированные обзоры сюжета; (2) написание сценария разрабатывает диалоги и действия персонажей для каждой сцены; (3) кинематография определяет настройки камеры для каждого кадра. Команда агентов сотрудничает через итеративную обратную связь и корректировки, тем самым проверяя промежуточные сценарии и уменьшая галлюцинации. Мы оцениваем созданные видео на 15 идеях и 4 ключевых аспектах. Человеческая оценка показывает, что FilmAgent превосходит все базовые показатели по всем аспектам и набирает в среднем 3,98 из 5, демонстрируя возможность многозначительного сотрудничества в кинопроизводстве. Дальнейший анализ показывает, что FilmAgent, несмотря на использование менее продвинутой модели GPT-4o, превосходит одноагентную o1, демонстрируя преимущество хорошо согласованной многоагентной системы. Наконец, мы обсуждаем дополняющие силы и слабости текстово-видео модели Sora от OpenAI и нашего FilmAgent в кинопроизводстве.

Оптимизация предпочтений во время тестирования: выравнивание на лету с помощью итеративной текстовой обратной связи
Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback

Jan 22

ByYafu Li, Xuyang Hu, Xiaoye Qu, Linjie Li, Yu Cheng

Большие языковые модели (LLM) демонстрируют впечатляющую производительность, но лишены гибкости быстро адаптироваться к человеческим предпочтениям без повторного обучения. В данной работе мы представляем Оптимизацию предпочтений во время тестирования (Test-time Preference Optimization, TPO), фреймворк, который выравнивает выводы LLM с человеческими предпочтениями во время вывода, устраняя необходимость обновления параметров модели. Вместо использования исключительно числовых вознаграждений, TPO преобразует сигналы вознаграждения в текстовые критики и использует их в качестве текстовых вознаграждений для итеративного улучшения своего ответа. Оценки на бенчмарках, охватывающих следование инструкциям, выравнивание предпочтений, безопасность и математику, показывают, что TPO постепенно улучшает выравнивание с человеческими предпочтениями. Особенно стоит отметить, что уже после нескольких шагов TPO модель Llama-3.1-70B-SFT, изначально не выровненная, может превзойти выровненный аналог, Llama-3.1-70B-Instruct. Более того, TPO эффективно масштабируется как по ширине, так и по глубине поиска во время вывода. Через кейс-стади, мы иллюстрируем, как TPO использует врожденную способность LLM интерпретировать и действовать на сигналы вознаграждения. Наши результаты утверждают TPO как практичную, легкую альтернативу для оптимизации предпочтений во время тестирования, достигая выравнивания на лету. Наш код общедоступен по адресу https://github.com/yafuly/TPO.

Модели автономии экспертов
Autonomy-of-Experts Models

Jan 22

ByAng Lv, Ruobing Xie, Yining Qian, Songhao Wu, Xingwu Sun, Zhanhui Kang, Di Wang, Rui Yan

Модели Mixture-of-Experts (MoE) в основном используют маршрутизатор для назначения токенов конкретным модулям экспертов, активируя только частичные параметры и часто превосходя плотные модели. Мы утверждаем, что разделение между принятием решений маршрутизатором и выполнением экспертами является критической, но недооцененной проблемой, приводящей к неоптимальному выбору экспертов и неэффективному обучению. Для решения этой проблемы мы предлагаем модель Autonomy-of-Experts (AoE), новую парадигму MoE, в которой эксперты автономно выбирают себя для обработки входных данных. AoE основан на понимании того, что эксперт осознает свою способность эффективно обрабатывать токен, осознание которой отражается в масштабе его внутренних активаций. В AoE маршрутизаторы убраны; вместо этого эксперты предварительно вычисляют внутренние активации для входных данных и ранжируются на основе их норм активации. Только эксперты с высшим рангом продолжают прямой проход, в то время как другие прекращают работу. Накладные расходы на предварительное вычисление активаций снижаются за счет факторизации весов низкого ранга. Этот подход самооценки-затем-сравнения-с-партнером обеспечивает улучшенный выбор экспертов и эффективное обучение. Мы предварительно обучаем языковые модели с 700M до 4B параметров, демонстрируя, что AoE превосходит традиционные модели MoE с сопоставимой эффективностью.

O1-Pruner: Тонкая настройка для согласования длины для обрезки рассуждений, подобных O1
O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning

Jan 22

ByHaotian Luo, Li Shen, Haiying He, Yibo Wang, Shiwei Liu, Wei Li, Naiqiang Tan, Xiaochun Cao, Dacheng Tao

Недавно долгие рассуждения LLM, такие как O1 от OpenAI, принимают расширенные процессы рассуждений, аналогичные тому, как люди обдумывают сложные проблемы. Этот парадигма рассуждений значительно улучшает способности модели в решении проблем и показывает многообещающие результаты. Однако долгий процесс рассуждений приводит к существенному увеличению времени вывода. Одной из насущных задач является снижение накладных расходов на вывод у LLM с долгими рассуждениями, обеспечивая при этом точность. В данной статье мы экспериментально демонстрируем, что модели с долгими рассуждениями испытывают затруднения в эффективном распределении токенов в зависимости от сложности проблемы и избыточности рассуждений. Для решения этой проблемы мы предлагаем метод тонкой настройки длины (O1-Pruner), нацеленный на минимизацию накладных расходов на рассуждения при сохранении точности. Этот эффективный метод тонкой настройки сначала оценивает базовую производительность LLM через предварительную выборку, а затем использует тонкую настройку в стиле RL для стимулирования модели к созданию более коротких процессов рассуждения при ограничениях точности. Это позволяет модели достигать эффективных рассуждений с меньшей избыточностью при сохранении точности. Эксперименты на различных бенчмарках математических рассуждений показывают, что O1-Pruner не только значительно снижает накладные расходы на вывод, но также достигает более высокой точности, предлагая новое и многообещающее решение этой проблемы. Наш код скоро будет доступен по адресу https://github.com/StarDewXXX/O1-Pruner

Попарное RM: выполнение выборки лучших с Knockout-турниром.
Pairwise RM: Perform Best-of-N Sampling with Knockout Tournament

Jan 22

ByYantao Liu, Zijun Yao, Rui Min, Yixin Cao, Lei Hou, Juanzi Li

Сэмплирование лучших N (Best-of-N, BoN), распространенная стратегия для масштабирования крупных языковых моделей (Large Language Models, LLM), основывается на моделях вознаграждения для выбора лучшего кандидата из нескольких поколений. Однако традиционные модели вознаграждения часто присваивают произвольные и несогласованные оценки, что ограничивает их эффективность. Для решения этой проблемы мы предлагаем модель парного вознаграждения (Pairwise Reward Model, Pairwise RM), объединенную с турниром с выбыванием для сэмплирования BoN. Вместо присвоения абсолютных оценок, Pairwise RM оценивает одновременно правильность двух кандидатских решений для одной математической задачи. Этот подход устраняет необходимость в произвольной оценке и позволяет кросс-валидацию решений через параллельное сравнение. В турнире с выбыванием Pairwise RM проводит попарные сравнения между кандидатскими решениями и итеративно устраняет неправильные. Мы создаем наш набор данных (\ourdataset), крупномасштабный набор данных из 443 тыс. попарных сравнений, полученных из NumiaMath и аннотированных с использованием gemini-1.5-flash, и обучаем модель Pairwise RM с помощью надзорного дообучения. Эксперименты на MATH-500 и Олимпийской площадке показывают значительные улучшения по сравнению с традиционными дискриминативными моделями вознаграждения. И достигается относительное улучшение на уровне от 40% до 60% на 50% самых сложных задач.

Fast3R: К 3D-восстановлению 1000+ изображений за один проход вперед
Fast3R: Towards 3D Reconstruction of 1000+ Images in One Forward Pass

Jan 23

ByJianing Yang, Alexander Sax, Kevin J. Liang, Mikael Henaff, Hao Tang, Ang Cao, Joyce Chai, Franziska Meier, Matt Feiszli

Многозначная реконструкция в 3D остается одним из основных вызовов в компьютерном зрении, особенно в приложениях, требующих точных и масштабируемых представлений с различных точек зрения. Текущие ведущие методы, такие как DUSt3R, используют в основном попарный подход, обрабатывая изображения парами и требуя дорогостоящих процедур глобального выравнивания для реконструкции из нескольких видов. В данной работе мы предлагаем Fast 3D Reconstruction (Fast3R), новую многозначную обобщенную версию DUSt3R, которая обеспечивает эффективную и масштабируемую 3D реконструкцию путем параллельной обработки множества видов. Архитектура Fast3R на основе трансформера передает N изображений за один проход, обходя необходимость итеративного выравнивания. Через обширные эксперименты по оценке позы камеры и 3D реконструкции Fast3R демонстрирует передовые характеристики, с значительными улучшениями скорости вывода и снижением накопления ошибок. Эти результаты утверждают Fast3R как надежную альтернативу для многозначных приложений, предлагая улучшенную масштабируемость без ущерба точности реконструкции.

IntellAgent: Мультиагентный фреймворк для оценки систем искусственного интеллекта в области разговорного интерфейса.
IntellAgent: A Multi-Agent Framework for Evaluating Conversational AI Systems

Jan 19

ByElad Levi, Ilan Kadar

Большие языковые модели (LLM) трансформируют искусственный интеллект, превращаясь в системы, ориентированные на задачи, способные к автономному планированию и выполнению. Одним из основных применений LLM являются системы разговорного искусственного интеллекта, которые должны управлять многоходовыми диалогами, интегрировать специфические для области API и соблюдать строгие политические ограничения. Однако оценка этих агентов остается значительным вызовом, поскольку традиционные методы не способны уловить сложность и изменчивость взаимодействий в реальном мире. Мы представляем IntellAgent, масштабную, открытую мультиагентную платформу, разработанную для всесторонней оценки систем разговорного искусственного интеллекта. IntellAgent автоматизирует создание разнообразных синтетических бенчмарков путем объединения графового моделирования, генерации реалистичных событий и интерактивных симуляций пользовательских агентов, управляемых политикой. Этот инновационный подход обеспечивает детальную диагностику, решая ограничения статических и ручных бенчмарков с грубыми метриками. IntellAgent представляет собой парадигмальное изменение в оценке разговорного искусственного интеллекта. Путем моделирования реалистичных многополитических сценариев на различных уровнях сложности IntellAgent улавливает тонкое взаимодействие возможностей агента и политических ограничений. В отличие от традиционных методов, он использует графовую модель политики для представления отношений, вероятностей и сложностей взаимодействия политик, обеспечивая высокодетальную диагностику. IntellAgent также выявляет критические пробелы в производительности, предлагая действенные идеи для целевой оптимизации. Его модульный, открытый дизайн поддерживает безшовную интеграцию новых областей, политик и API, способствуя воспроизводимости и сотрудничеству сообщества. Наши результаты показывают, что IntellAgent служит эффективной платформой для продвижения разговорного искусственного интеллекта, решая проблемы в мостике между исследованиями и внедрением. Платформа доступна по адресу https://github.com/plurai-ai/intellagent

DeepSeek-R1: Стимулирование способности к рассуждениям в LLM с помощью обучения с подкреплением
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Jan 22

420