ByDeepSeek-AI, Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z. F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao, Aixin Liu, Bing Xue, Bingxuan Wang, Bochao Wu, Bei Feng, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chenyu Zhang, Chong Ruan, Damai Dai, Deli Chen, Dongjie Ji, Erhang Li, Fangyun Lin, Fucong Dai, Fuli Luo, Guangbo Hao, Guanting Chen, Guowei Li, H. Zhang, Han Bao, Hanwei Xu, Haocheng Wang, Honghui Ding, Huajian Xin, Huazuo Gao, Hui Qu, Hui Li, Jianzhong Guo, Jiashi Li, Jiawei Wang, Jingchang Chen, Jingyang Yuan, Junjie Qiu, Junlong Li, J. L. Cai, Jiaqi Ni, Jian Liang, Jin Chen, Kai Dong, Kai Hu, Kaige Gao, Kang Guan, Kexin Huang, Kuai Yu, Lean Wang, Lecong Zhang, Liang Zhao, Litong Wang, Liyue Zhang, Lei Xu, Leyi Xia, Mingchuan Zhang, Minghua Zhang, Minghui Tang, Meng Li, Miaojun Wang, Mingming Li, Ning Tian, Panpan Huang, Peng Zhang, Qiancheng Wang, Qinyu Chen, Qiushi Du, Ruiqi Ge, Ruisong Zhang, Ruizhe Pan, Runji Wang, R. J. Chen, R. L. Jin, Ruyi Chen, Shanghao Lu, Shangyan Zhou, Shanhuang Chen, Shengfeng Ye, Shiyu Wang, Shuiping Yu, Shunfeng Zhou, Shuting Pan, S. S. Li, Shuang Zhou, Shaoqing Wu, Shengfeng Ye, Tao Yun, Tian Pei, Tianyu Sun, T. Wang, Wangding Zeng, Wanjia Zhao, Wen Liu, Wenfeng Liang, Wenjun Gao, Wenqin Yu, Wentao Zhang, W. L. Xiao, Wei An, Xiaodong Liu, Xiaohan Wang, Xiaokang Chen, Xiaotao Nie, Xin Cheng, Xin Liu, Xin Xie, Xingchao Liu, Xinyu Yang, Xinyuan Li, Xuecheng Su, Xuheng Lin, X. Q. Li, Xiangyue Jin, Xiaojin Shen, Xiaosha Chen, Xiaowen Sun, Xiaoxiang Wang, Xinnan Song, Xinyi Zhou, Xianzu Wang, Xinxia Shan, Y. K. Li, Y. Q. Wang, Y. X. Wei, Yang Zhang, Yanhong Xu, Yao Li, Yao Zhao, Yaofeng Sun, Yaohui Wang, Yi Yu, Yichao Zhang, Yifan Shi, Yiliang Xiong, Ying He, Yishi Piao, Yisong Wang, Yixuan Tan, Yiyang Ma, Yiyuan Liu, Yongqiang Guo, Yuan Ou, Yuduan Wang, Yue Gong, Yuheng Zou, Yujia He, Yunfan Xiong, Yuxiang Luo, Yuxiang You, Yuxuan Liu, Yuyang Zhou, Y. X. Zhu, Yanhong Xu, Yanping Huang, Yaohui Li, Yi Zheng, Yuchen Zhu, Yunxian Ma, Ying Tang, Yukun Zha, Yuting Yan, Z. Z. Ren, Zehui Ren, Zhangli Sha, Zhe Fu, Zhean Xu, Zhenda Xie, Zhengyan Zhang, Zhewen Hao, Zhicheng Ma, Zhigang Yan, Zhiyu Wu, Zihui Gu, Zijia Zhu, Zijun Liu, Zilin Li, Ziwei Xie, Ziyang Song, Zizheng Pan, Zhen Huang, Zhipeng Xu, Zhongyu Zhang, Zhen Zhang
420
7
Мы представляем наши модели рассуждения первого поколения, DeepSeek-R1-Zero и DeepSeek-R1. Модель DeepSeek-R1-Zero, обученная с использованием масштабного обучения с подкреплением (RL) без дополнительного обучения с учителем (SFT) в качестве предварительного этапа, проявляет замечательные способности к рассуждениям. Через RL DeepSeek-R1-Zero естественным образом приобретает множество мощных и увлекательных поведенческих моделей рассуждения. Однако он сталкивается с проблемами, такими как плохая читаемость и смешение языков. Для решения этих проблем и дальнейшего улучшения производительности рассуждения мы представляем DeepSeek-R1, которая включает многопроходное обучение и начальные данные перед RL. DeepSeek-R1 достигает производительности, сравнимой с OpenAI-o1-1217 на задачах рассуждения. Для поддержки научного сообщества мы предоставляем в открытый доступ DeepSeek-R1-Zero, DeepSeek-R1 и шесть плотных моделей (1.5B, 7B, 8B, 14B, 32B, 70B), дистиллированных из DeepSeek-R1 на основе Qwen и Llama.
Предварительное обучение языковой модели с предсказанием следующего токена доказало свою эффективность для масштабирования вычислений, но ограничено объемом доступных обучающих данных. Увеличение масштаба обучения с подкреплением (RL) открывает новую ось для постоянного улучшения искусственного интеллекта, с обещанием того, что большие языковые модели (LLM) могут увеличить объем своих обучающих данных, изучая исследование с помощью вознаграждений. Однако ранее опубликованные работы не привели к конкурентоспособным результатам. В свете этого мы сообщаем о практике обучения Kimi k1.5, нашей последней мультимодальной LLM, обученной с помощью RL, включая ее техники обучения RL, рецепты мультимодальных данных и оптимизацию инфраструктуры. Увеличение длины контекста и улучшенные методы оптимизации политики являются ключевыми элементами нашего подхода, который устанавливает простую, эффективную структуру RL без использования более сложных техник, таких как поиск по дереву методом Монте-Карло, функции ценности и модели вознаграждения процесса. Заметно, что наша система достигает передовой производительности в рассуждениях по нескольким показателям и модальностям - например, 77,5 на AIME, 96,2 на MATH 500, 94-й процентиль на Codeforces, 74,9 на MathVista - соответствуя OpenAI's o1. Более того, мы представляем эффективные методы long2short, которые используют техники long-CoT для улучшения моделей short-CoT, давая передовые результаты в рассуждениях short-CoT - например, 60,8 на AIME, 94,6 на MATH500, 47,3 на LiveCodeBench - превосходящие существующие модели short-CoT, такие как GPT-4o и Claude Sonnet 3.5 на значительный процент (до +550%).
ByBoqiang Zhang, Kehan Li, Zesen Cheng, Zhiqiang Hu, Yuqian Yuan, Guanzheng Chen, Sicong Leng, Yuming Jiang, Hang Zhang, Xin Li, Peng Jin, Wenqi Zhang, Fan Wang, Lidong Bing, Deli Zhao
90
4
В данной статье мы предлагаем VideoLLaMA3, более продвинутую мультимодальную базовую модель для понимания изображений и видео. Основная философия дизайна VideoLLaMA3 ориентирована на зрение. Понятие "ориентированность на зрение" имеет двойное значение: парадигма обучения, ориентированная на зрение, и дизайн фреймворка, ориентированный на зрение. Основное открытие нашей парадигмы обучения, ориентированной на зрение, заключается в том, что высококачественные данные изображений и текста критичны как для понимания изображений, так и видео. Вместо подготовки обширных наборов данных видео-текста, мы сосредотачиваемся на создании крупномасштабных и высококачественных наборов данных изображений и текста. VideoLLaMA3 имеет четыре этапа обучения: 1) этап выравнивания, ориентированный на зрение, который подготавливает к работе кодировщик и проектор зрения; 2) этап предварительного обучения зрение-язык, который совместно настраивает кодировщик зрения, проектор и LLM с крупномасштабными данными изображений и текста, охватывающими несколько типов (включая изображения сцен, документы, диаграммы), а также данные только текста; 3) этап многозадачной донастройки, который включает данные SFT изображений-текста для последующих задач и данные видео-текста для установления основы для понимания видео; 4) донастройка, ориентированная на видео, которая дополнительно улучшает способности модели в понимании видео. Что касается дизайна фреймворка, для более точного захвата мелких деталей на изображениях, предварительно обученный кодировщик зрения адаптирован для кодирования изображений различных размеров в зрительные токены с соответствующими номерами, а не фиксированным количеством токенов. Для видеовходов мы уменьшаем количество зрительных токенов в соответствии с их сходством, чтобы представление видео было более точным и компактным. Благодаря ориентированным на зрение конструкциям, VideoLLaMA3 достигает впечатляющих результатов как в бенчмарках понимания изображений, так и видео.
ByZhenran Xu, Longyue Wang, Jifang Wang, Zhouyi Li, Senbao Shi, Xue Yang, Yiyu Wang, Baotian Hu, Jun Yu, Min Zhang
71
3
Виртуальное кино производство требует сложных процессов принятия решений, включая написание сценария, виртуальную кинематографию, а также точное позиционирование и действия актеров. Вдохновленные недавними достижениями в автоматизированном принятии решений с использованием агентов на основе языка, в данной статье представляется FilmAgent, новая многоагентная коллаборативная платформа на основе LLM для автоматизации производства фильмов в наших созданных 3D виртуальных пространствах. FilmAgent моделирует различные роли съемочной группы, включая режиссеров, сценаристов, актеров и кинематографистов, и охватывает ключевые этапы рабочего процесса производства фильма: (1) разработка идеи преобразует замыслы в структурированные обзоры сюжета; (2) написание сценария разрабатывает диалоги и действия персонажей для каждой сцены; (3) кинематография определяет настройки камеры для каждого кадра. Команда агентов сотрудничает через итеративную обратную связь и корректировки, тем самым проверяя промежуточные сценарии и уменьшая галлюцинации. Мы оцениваем созданные видео на 15 идеях и 4 ключевых аспектах. Человеческая оценка показывает, что FilmAgent превосходит все базовые показатели по всем аспектам и набирает в среднем 3,98 из 5, демонстрируя возможность многозначительного сотрудничества в кинопроизводстве. Дальнейший анализ показывает, что FilmAgent, несмотря на использование менее продвинутой модели GPT-4o, превосходит одноагентную o1, демонстрируя преимущество хорошо согласованной многоагентной системы. Наконец, мы обсуждаем дополняющие силы и слабости текстово-видео модели Sora от OpenAI и нашего FilmAgent в кинопроизводстве.
Большие языковые модели (LLM) демонстрируют впечатляющую производительность, но лишены гибкости быстро адаптироваться к человеческим предпочтениям без повторного обучения. В данной работе мы представляем Оптимизацию предпочтений во время тестирования (Test-time Preference Optimization, TPO), фреймворк, который выравнивает выводы LLM с человеческими предпочтениями во время вывода, устраняя необходимость обновления параметров модели. Вместо использования исключительно числовых вознаграждений, TPO преобразует сигналы вознаграждения в текстовые критики и использует их в качестве текстовых вознаграждений для итеративного улучшения своего ответа. Оценки на бенчмарках, охватывающих следование инструкциям, выравнивание предпочтений, безопасность и математику, показывают, что TPO постепенно улучшает выравнивание с человеческими предпочтениями. Особенно стоит отметить, что уже после нескольких шагов TPO модель Llama-3.1-70B-SFT, изначально не выровненная, может превзойти выровненный аналог, Llama-3.1-70B-Instruct. Более того, TPO эффективно масштабируется как по ширине, так и по глубине поиска во время вывода. Через кейс-стади, мы иллюстрируем, как TPO использует врожденную способность LLM интерпретировать и действовать на сигналы вознаграждения. Наши результаты утверждают TPO как практичную, легкую альтернативу для оптимизации предпочтений во время тестирования, достигая выравнивания на лету. Наш код общедоступен по адресу https://github.com/yafuly/TPO.
ByAng Lv, Ruobing Xie, Yining Qian, Songhao Wu, Xingwu Sun, Zhanhui Kang, Di Wang, Rui Yan
44
5
Модели Mixture-of-Experts (MoE) в основном используют маршрутизатор для назначения токенов конкретным модулям экспертов, активируя только частичные параметры и часто превосходя плотные модели. Мы утверждаем, что разделение между принятием решений маршрутизатором и выполнением экспертами является критической, но недооцененной проблемой, приводящей к неоптимальному выбору экспертов и неэффективному обучению. Для решения этой проблемы мы предлагаем модель Autonomy-of-Experts (AoE), новую парадигму MoE, в которой эксперты автономно выбирают себя для обработки входных данных. AoE основан на понимании того, что эксперт осознает свою способность эффективно обрабатывать токен, осознание которой отражается в масштабе его внутренних активаций. В AoE маршрутизаторы убраны; вместо этого эксперты предварительно вычисляют внутренние активации для входных данных и ранжируются на основе их норм активации. Только эксперты с высшим рангом продолжают прямой проход, в то время как другие прекращают работу. Накладные расходы на предварительное вычисление активаций снижаются за счет факторизации весов низкого ранга. Этот подход самооценки-затем-сравнения-с-партнером обеспечивает улучшенный выбор экспертов и эффективное обучение. Мы предварительно обучаем языковые модели с 700M до 4B параметров, демонстрируя, что AoE превосходит традиционные модели MoE с сопоставимой эффективностью.
ByHaotian Luo, Li Shen, Haiying He, Yibo Wang, Shiwei Liu, Wei Li, Naiqiang Tan, Xiaochun Cao, Dacheng Tao
27
2
Недавно долгие рассуждения LLM, такие как O1 от OpenAI, принимают расширенные процессы рассуждений, аналогичные тому, как люди обдумывают сложные проблемы. Этот парадигма рассуждений значительно улучшает способности модели в решении проблем и показывает многообещающие результаты. Однако долгий процесс рассуждений приводит к существенному увеличению времени вывода. Одной из насущных задач является снижение накладных расходов на вывод у LLM с долгими рассуждениями, обеспечивая при этом точность. В данной статье мы экспериментально демонстрируем, что модели с долгими рассуждениями испытывают затруднения в эффективном распределении токенов в зависимости от сложности проблемы и избыточности рассуждений. Для решения этой проблемы мы предлагаем метод тонкой настройки длины (O1-Pruner), нацеленный на минимизацию накладных расходов на рассуждения при сохранении точности. Этот эффективный метод тонкой настройки сначала оценивает базовую производительность LLM через предварительную выборку, а затем использует тонкую настройку в стиле RL для стимулирования модели к созданию более коротких процессов рассуждения при ограничениях точности. Это позволяет модели достигать эффективных рассуждений с меньшей избыточностью при сохранении точности. Эксперименты на различных бенчмарках математических рассуждений показывают, что O1-Pruner не только значительно снижает накладные расходы на вывод, но также достигает более высокой точности, предлагая новое и многообещающее решение этой проблемы. Наш код скоро будет доступен по адресу https://github.com/StarDewXXX/O1-Pruner
ByYantao Liu, Zijun Yao, Rui Min, Yixin Cao, Lei Hou, Juanzi Li
20
3
Сэмплирование лучших N (Best-of-N, BoN), распространенная стратегия для масштабирования крупных языковых моделей (Large Language Models, LLM), основывается на моделях вознаграждения для выбора лучшего кандидата из нескольких поколений. Однако традиционные модели вознаграждения часто присваивают произвольные и несогласованные оценки, что ограничивает их эффективность. Для решения этой проблемы мы предлагаем модель парного вознаграждения (Pairwise Reward Model, Pairwise RM), объединенную с турниром с выбыванием для сэмплирования BoN. Вместо присвоения абсолютных оценок, Pairwise RM оценивает одновременно правильность двух кандидатских решений для одной математической задачи. Этот подход устраняет необходимость в произвольной оценке и позволяет кросс-валидацию решений через параллельное сравнение. В турнире с выбыванием Pairwise RM проводит попарные сравнения между кандидатскими решениями и итеративно устраняет неправильные. Мы создаем наш набор данных (\ourdataset), крупномасштабный набор данных из 443 тыс. попарных сравнений, полученных из NumiaMath и аннотированных с использованием gemini-1.5-flash, и обучаем модель Pairwise RM с помощью надзорного дообучения. Эксперименты на MATH-500 и Олимпийской площадке показывают значительные улучшения по сравнению с традиционными дискриминативными моделями вознаграждения. И достигается относительное улучшение на уровне от 40% до 60% на 50% самых сложных задач.
ByJianing Yang, Alexander Sax, Kevin J. Liang, Mikael Henaff, Hao Tang, Ang Cao, Joyce Chai, Franziska Meier, Matt Feiszli
17
5
Многозначная реконструкция в 3D остается одним из основных вызовов в компьютерном зрении, особенно в приложениях, требующих точных и масштабируемых представлений с различных точек зрения. Текущие ведущие методы, такие как DUSt3R, используют в основном попарный подход, обрабатывая изображения парами и требуя дорогостоящих процедур глобального выравнивания для реконструкции из нескольких видов. В данной работе мы предлагаем Fast 3D Reconstruction (Fast3R), новую многозначную обобщенную версию DUSt3R, которая обеспечивает эффективную и масштабируемую 3D реконструкцию путем параллельной обработки множества видов. Архитектура Fast3R на основе трансформера передает N изображений за один проход, обходя необходимость итеративного выравнивания. Через обширные эксперименты по оценке позы камеры и 3D реконструкции Fast3R демонстрирует передовые характеристики, с значительными улучшениями скорости вывода и снижением накопления ошибок. Эти результаты утверждают Fast3R как надежную альтернативу для многозначных приложений, предлагая улучшенную масштабируемость без ущерба точности реконструкции.
Большие языковые модели (LLM) трансформируют искусственный интеллект, превращаясь в системы, ориентированные на задачи, способные к автономному планированию и выполнению. Одним из основных применений LLM являются системы разговорного искусственного интеллекта, которые должны управлять многоходовыми диалогами, интегрировать специфические для области API и соблюдать строгие политические ограничения. Однако оценка этих агентов остается значительным вызовом, поскольку традиционные методы не способны уловить сложность и изменчивость взаимодействий в реальном мире. Мы представляем IntellAgent, масштабную, открытую мультиагентную платформу, разработанную для всесторонней оценки систем разговорного искусственного интеллекта. IntellAgent автоматизирует создание разнообразных синтетических бенчмарков путем объединения графового моделирования, генерации реалистичных событий и интерактивных симуляций пользовательских агентов, управляемых политикой. Этот инновационный подход обеспечивает детальную диагностику, решая ограничения статических и ручных бенчмарков с грубыми метриками. IntellAgent представляет собой парадигмальное изменение в оценке разговорного искусственного интеллекта. Путем моделирования реалистичных многополитических сценариев на различных уровнях сложности IntellAgent улавливает тонкое взаимодействие возможностей агента и политических ограничений. В отличие от традиционных методов, он использует графовую модель политики для представления отношений, вероятностей и сложностей взаимодействия политик, обеспечивая высокодетальную диагностику. IntellAgent также выявляет критические пробелы в производительности, предлагая действенные идеи для целевой оптимизации. Его модульный, открытый дизайн поддерживает безшовную интеграцию новых областей, политик и API, способствуя воспроизводимости и сотрудничеству сообщества. Наши результаты показывают, что IntellAgent служит эффективной платформой для продвижения разговорного искусственного интеллекта, решая проблемы в мостике между исследованиями и внедрением. Платформа доступна по адресу https://github.com/plurai-ai/intellagent