HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

24 papers found

Технический отчет Seed1.5-VL
Seed1.5-VL Technical Report

May 11

ByDong Guo, Faming Wu, Feida Zhu, Fuxing Leng, Guang Shi, Haobin Chen, Haoqi Fan, Jian Wang, Jianyu Jiang, Jiawei Wang, Jingji Chen, Jingjia Huang, Kang Lei, Liping Yuan, Lishu Luo, Pengfei Liu, Qinghao Ye, Rui Qian, Shen Yan, Shixiong Zhao, Shuai Peng, Shuangye Li, Sihang Yuan, Sijin Wu, Tianheng Cheng, Weiwei Liu, Wenqian Wang, Xianhan Zeng, Xiao Liu, Xiaobo Qin, Xiaohan Ding, Xiaojun Xiao, Xiaoying Zhang, Xuanwei Zhang, Xuehan Xiong, Yanghua Peng, Yangrui Chen, Yanwei Li, Yanxu Hu, Yi Lin, Yiyuan Hu, Yiyuan Zhang, Youbin Wu, Yu Li, Yudong Liu, Yue Ling, Yujia Qin, Zanbo Wang, Zhiwu He, Aoxue Zhang, Bairen Yi, Bencheng Liao, Can Huang, Can Zhang, Chaorui Deng, Chaoyi Deng, Cheng Lin, Cheng Yuan, Chenggang Li, Chenhui Gou, Chenwei Lou, Chengzhi Wei, Chundian Liu, Chunyuan Li, Deyao Zhu, Donghong Zhong, Feng Li, Feng Zhang, Gang Wu, Guodong Li, Guohong Xiao, Haibin Lin, Haihua Yang, Haoming Wang, Heng Ji, Hongxiang Hao, Hui Shen, Huixia Li, Jiahao Li, Jialong Wu, Jianhua Zhu, Jianpeng Jiao, Jiashi Feng, Jiaze Chen, Jianhui Duan, Jihao Liu, Jin Zeng, Jingqun Tang, Jingyu Sun, Joya Chen, Jun Long, Junda Feng, Junfeng Zhan, Junjie Fang, Junting Lu, Kai Hua, Kai Liu, Kai Shen, Kaiyuan Zhang, Ke Shen, Ke Wang, Keyu Pan, Kun Zhang, Kunchang Li, Lanxin Li, Lei Li, Lei Shi, Li Han, Liang Xiang, Liangqiang Chen, Lin Chen, Lin Li, Lin Yan, Liying Chi, Longxiang Liu, Mengfei Du, Mingxuan Wang, Ningxin Pan, Peibin Chen, Pengfei Chen, Pengfei Wu, Qingqing Yuan, Qingyao Shuai, Qiuyan Tao, Renjie Zheng, Renrui Zhang, Ru Zhang, Rui Wang, Rui Yang, Rui Zhao, Shaoqiang Xu, Shihao Liang, Shipeng Yan, Shu Zhong, Shuaishuai Cao, Shuangzhi Wu, Shufan Liu, Shuhan Chang, Songhua Cai, Tenglong Ao, Tianhao Yang, Tingting Zhang, Wanjun Zhong, Wei Jia, Wei Weng, Weihao Yu, Wenhao Huang, Wenjia Zhu, Wenli Yang, Wenzhi Wang, Xiang Long, XiangRui Yin, Xiao Li, Xiaolei Zhu, Xiaoying Jia, Xijin Zhang, Xin Liu, Xinchen Zhang, Xinyu Yang, Xiongcai Luo, Xiuli Chen, Xuantong Zhong, Xuefeng Xiao, Xujing Li, Yan Wu, Yawei Wen, Yifan Du, Yihao Zhang, Yining Ye, Yonghui Wu, Yu Liu, Yu Yue, Yufeng Zhou, Yufeng Yuan, Yuhang Xu, Yuhong Yang, Yun Zhang, Yunhao Fang, Yuntao Li, Yurui Ren, Yuwen Xiong, Zehua Hong, Zehua Wang, Zewei Sun, Zeyu Wang, Zhao Cai, Zhaoyue Zha, Zhecheng An, Zhehui Zhao, Zhengzhuo Xu, Zhipeng Chen, Zhiyong Wu, Zhuofan Zheng, Zihao Wang, Zilong Huang, Ziyu Zhu, Zuquan Song

151

Мы представляем Seed1.5-VL, базовую модель для обработки визуальной и текстовой информации, разработанную для продвижения универсального мультимодального понимания и рассуждений. Seed1.5-VL состоит из визуального энкодера с 532 миллионами параметров и модели Mixture-of-Experts (MoE) с 20 миллиардами активных параметров. Несмотря на относительно компактную архитектуру, модель демонстрирует высокую производительность на широком спектре публичных бенчмарков для мультимодальных моделей и внутренних оценочных наборов, достигая наилучших результатов на 38 из 60 публичных бенчмарков. Кроме того, в задачах, ориентированных на агентов, таких как управление графическим интерфейсом и игровой процесс, Seed1.5-VL превосходит ведущие мультимодальные системы, включая OpenAI CUA и Claude 3.7. Помимо понимания изображений и видео, модель также демонстрирует сильные способности к рассуждениям, что делает её особенно эффективной для мультимодальных задач, таких как визуальные головоломки. Мы считаем, что эти возможности откроют более широкие возможности для применения в разнообразных задачах. В данном отчёте мы в основном предоставляем всесторонний обзор нашего опыта в создании Seed1.5-VL, включая проектирование модели, создание данных и обучение на различных этапах, надеясь, что этот отчёт вдохновит на дальнейшие исследования. Seed1.5-VL теперь доступна по адресу https://www.volcengine.com/ (ID модели Volcano Engine: doubao-1-5-thinking-vision-pro-250428).

MiMo: Раскрытие потенциала языковых моделей в логических рассуждениях — от предварительного обучения до постобработки
MiMo: Unlocking the Reasoning Potential of Language Model -- From Pretraining to Posttraining

May 12

ByXiaomi LLM-Core Team, Bingquan Xia, Bowen Shen, Cici, Dawei Zhu, Di Zhang, Gang Wang, Hailin Zhang, Huaqiu Liu, Jiebao Xiao, Jinhao Dong, Liang Zhao, Peidian Li, Peng Wang, Shihua Yu, Shimao Chen, Weikun Wang, Wenhan Ma, Xiangwei Deng, Yi Huang, Yifan Song, Zihan Jiang, Bowen Ye, Can Cai, Chenhong He, Dong Zhang, Duo Zhang, Guoan Wang, Hao Tian, Haochen Zhao, Heng Qu, Hongshen Xu, Jun Shi, Kainan Bao, QingKai Fang, Kang Zhou, Kangyang Zhou, Lei Li, Menghang Zhu, Nuo Chen, Qiantong Wang, Shaohui Liu, Shicheng Li, Shuhao Gu, Shuhuai Ren, Shuo Liu, Sirui Deng, Weiji Zhuang, Weiwei Lv, Wenyu Yang, Xin Zhang, Xing Yong, Xing Zhang, Xingchen Song, Xinzhe Xu, Xu Wang, Yihan Yan, Yu Tu, Yuanyuan Tian, Yudong Wang, Yue Yu, Zhenru Lin, Zhichao Song, Zihao Yue

Представляем MiMo-7B, крупную языковую модель, созданную для задач логического рассуждения, с оптимизацией на этапах как предварительного, так и последующего обучения. В процессе предварительного обучения мы улучшили конвейер предобработки данных и применили трехэтапную стратегию смешивания данных для усиления потенциала базовой модели в решении логических задач. MiMo-7B-Base была предварительно обучена на 25 триллионах токенов с дополнительной целью Multi-Token Prediction для повышения производительности и ускорения скорости вывода. На этапе последующего обучения мы подготовили набор данных из 130 тысяч проверяемых задач по математике и программированию для обучения с подкреплением, интегрировав схему вознаграждения на основе сложности тестов для смягчения проблемы разреженного вознаграждения и применив стратегическое повторное сэмплирование данных для стабилизации обучения. Обширные оценки показывают, что MiMo-7B-Base обладает исключительным потенциалом для логического рассуждения, превосходя даже значительно более крупные модели объемом 32B. Финальная модель, настроенная с помощью обучения с подкреплением, MiMo-7B-RL, демонстрирует превосходные результаты в задачах по математике, программированию и общему логическому рассуждению, превосходя производительность OpenAI o1-mini. Чекпоинты модели доступны по адресу https://github.com/xiaomimimo/MiMo.

Step1X-3D: В направлении создания высококачественных и управляемых текстурных 3D-активов
Step1X-3D: Towards High-Fidelity and Controllable Generation of Textured 3D Assets

May 12

ByWeiyu Li, Xuanyang Zhang, Zheng Sun, Di Qi, Hao Li, Wei Cheng, Weiwei Cai, Shihao Wu, Jiarui Liu, Zihao Wang, Xiao Chen, Feipeng Tian, Jianxiong Pan, Zeming Li, Gang Yu, Xiangyu Zhang, Daxin Jiang, Ping Tan

Хотя генеративный искусственный интеллект значительно продвинулся в областях текста, изображений, аудио и видео, генерация 3D-контента остается сравнительно слаборазвитой из-за фундаментальных проблем, таких как нехватка данных, ограничения алгоритмов и фрагментация экосистемы. В связи с этим мы представляем Step1X-3D — открытую платформу, решающую эти проблемы за счет: (1) строгого конвейера обработки данных, включающего более 5 млн активов для создания высококачественного набора данных объемом 2 млн с стандартизированными геометрическими и текстурными свойствами; (2) двухэтапной 3D-ориентированной архитектуры, сочетающей гибридный генератор геометрии VAE-DiT с модулем синтеза текстур на основе диффузии; и (3) полного открытого доступа к моделям, коду обучения и модулям адаптации. Для генерации геометрии гибридный компонент VAE-DiT создает TSDF-представления, используя кодирование латентных признаков на основе перцептронов с выборкой острых краев для сохранения деталей. Модуль синтеза текстур на основе диффузии обеспечивает согласованность между видами за счет геометрического кондиционирования и синхронизации в латентном пространстве. Результаты тестирования демонстрируют передовые показатели, превосходящие существующие открытые методы, а также конкурентоспособное качество по сравнению с проприетарными решениями. Примечательно, что платформа уникальным образом объединяет парадигмы 2D и 3D генерации, поддерживая прямой перенос 2D-методов управления (например, LoRA) в 3D-синтез. Одновременно улучшая качество данных, точность алгоритмов и воспроизводимость, Step1X-3D стремится установить новые стандарты для открытых исследований в области управляемой генерации 3D-активов.

Обучение на примерах в моделях рассуждений
Learning from Peers in Reasoning Models

May 12

ByTongxu Luo, Wenyu Du, Jiaxi Bi, Stephen Chung, Zhengyang Tang, Hao Yang, Min Zhang, Benyou Wang

Крупные модели рассуждений (Large Reasoning Models, LRMs) обладают способностью к самокоррекции даже при допущении ошибок в своих цепочках рассуждений. Однако наше исследование показывает, что если процесс рассуждения начинается с короткого, но неудачного старта, модели становится сложно восстановиться. Мы называем это явление "Ловушкой доминирования префикса". Вдохновленные психологическими исследованиями, которые демонстрируют, что взаимодействие с коллегами может способствовать самокоррекции, не оказывая негативного влияния на уже точные результаты, мы предлагаем подход **Обучение у коллег** (Learning from Peers, LeaP) для решения этой проблемы. В частности, на каждом этапе каждая цепочка рассуждений суммирует свои промежуточные результаты и делится ими с другими через механизм маршрутизации, что позволяет цепочкам учитывать мнения коллег в процессе вывода. Однако мы наблюдаем, что меньшие модели иногда не справляются с эффективным выполнением инструкций по суммированию и рефлексии. Для решения этой проблемы мы дообучаем их, создавая серию моделей **LeaP-T**. Эксперименты на наборах данных AIME 2024, AIME 2025, AIMO 2025 и GPQA Diamond показывают, что LeaP обеспечивает значительные улучшения. Например, модель QwQ-32B с LeaP демонстрирует в среднем на 5 абсолютных пунктов выше, чем базовый вариант, и превосходит DeepSeek-R1-671B на трех математических бенчмарках с средним приростом в 3,3 пункта. Примечательно, что наша дообученная модель LeaP-T-7B соответствует производительности DeepSeek-R1-Distill-Qwen-14B на AIME 2024. Глубокий анализ выявляет устойчивую коррекцию ошибок в LeaP благодаря своевременному обмену мнениями, демонстрируя высокую устойчивость к ошибкам и способность справляться с различной сложностью задач. LeaP знаменует собой важный этап, позволяя LRM взаимодействовать в процессе рассуждений. Наш код, наборы данных и модели доступны по адресу https://learning-from-peers.github.io/.

Унифицированные непрерывные генеративные модели
Unified Continuous Generative Models

May 12

ByPeng Sun, Yi Jiang, Tao Lin

Последние достижения в области непрерывных генеративных моделей, включая многошаговые подходы, такие как диффузия и согласование потоков (обычно требующие 8-1000 шагов выборки), и малошаговые методы, такие как модели согласованности (обычно 1-8 шагов), продемонстрировали впечатляющие результаты в генерации. Однако существующие работы часто рассматривают эти подходы как отдельные парадигмы, что приводит к различным методикам обучения и выборки. Мы представляем унифицированную структуру для обучения, выборки и анализа этих моделей. Наша реализация, Унифицированный Тренажер и Сэмплер для Непрерывных Генеративных Моделей (UCGM-{T,S}), достигает наилучших на сегодняшний день результатов. Например, на наборе данных ImageNet 256x256 с использованием диффузионного трансформера на 675 миллионов параметров, UCGM-T обучает многошаговую модель, достигающую 1.30 FID за 20 шагов, и малошаговую модель, достигающую 1.42 FID всего за 2 шага. Кроме того, применение UCGM-S к предварительно обученной модели (ранее 1.26 FID за 250 шагов) улучшает производительность до 1.06 FID всего за 40 шагов. Код доступен по адресу: https://github.com/LINs-lab/UCGM.

DanceGRPO: Применение GRPO для задач визуальной генерации
DanceGRPO: Unleashing GRPO on Visual Generation

May 12

ByZeyue Xue, Jie Wu, Yu Gao, Fangyuan Kong, Lingting Zhu, Mengzhao Chen, Zhiheng Liu, Wei Liu, Qiushan Guo, Weilin Huang, Ping Luo

Недавние прорывы в области генеративных моделей, в частности диффузионных моделей и исправленных потоков, произвели революцию в создании визуального контента, однако согласование выходных данных моделей с предпочтениями человека остается важной задачей. Существующие методы визуальной генерации, основанные на обучении с подкреплением (RL), сталкиваются с серьезными ограничениями: несовместимостью с современными парадигмами выборки на основе обыкновенных дифференциальных уравнений (ODE), нестабильностью при обучении в крупных масштабах и отсутствием проверки для генерации видео. В данной статье представлен DanceGRPO — первый унифицированный фреймворк, адаптирующий метод оптимизации групповой относительной политики (GRPO) к парадигмам визуальной генерации, что позволяет использовать единый алгоритм RL для двух генеративных парадигм (диффузионные модели и исправленные потоки), трех задач (текст-в-изображение, текст-в-видео, изображение-в-видео), четырех базовых моделей (Stable Diffusion, HunyuanVideo, FLUX, SkyReel-I2V) и пяти моделей вознаграждения (эстетика изображения/видео, соответствие текста и изображения, качество движения видео и бинарное вознаграждение). Насколько нам известно, DanceGRPO является первым унифицированным фреймворком на основе RL, способным к бесшовной адаптации для различных генеративных парадигм, задач, базовых моделей и моделей вознаграждения. DanceGRPO демонстрирует стабильные и значительные улучшения, превосходя базовые методы до 181% на таких бенчмарках, как HPS-v2.1, CLIP Score, VideoAlign и GenEval. Примечательно, что DanceGRPO не только стабилизирует оптимизацию политики для сложной генерации видео, но и позволяет генеративной политике лучше захватывать траектории удаления шума для масштабирования вывода Best-of-N и обучаться на основе редких бинарных отзывов. Наши результаты подтверждают, что DanceGRPO является надежным и универсальным решением для масштабирования задач обучения с подкреплением на основе человеческих отзывов (RLHF) в визуальной генерации, предлагая новые идеи для гармонизации обучения с подкреплением и визуального синтеза. Код будет опубликован.

REFINE-AF: Задача-агностичная фреймворк для выравнивания языковых моделей через самогенерируемые инструкции с использованием обучения с подкреплением на основе автоматизированной обратной связи
REFINE-AF: A Task-Agnostic Framework to Align Language Models via Self-Generated Instructions using Reinforcement Learning from Automated Feedback

May 10

ByAniruddha Roy, Pretam Ray, Abhilash Nandy, Somak Aditya, Pawan Goyal

Крупные языковые модели (LLM), ориентированные на выполнение инструкций, доказали свою эффективность в решении множества задач обработки естественного языка (NLP) в условиях малого количества примеров или даже без них. Однако создание аннотированных человеком данных с инструкциями является трудоемким, дорогостоящим процессом и часто ограничено в количестве и разнообразии задач. Предыдущие исследования пытались решить эту проблему, предлагая фреймворки, способные генерировать инструкции полуавтоматически и независимо от задачи, непосредственно на основе самой модели. Многие из этих подходов опирались на крупные модели с большим количеством параметров, такие как GPT-3.5 (175B), которые являются дорогостоящими и имеют ограничения на количество запросов. В данной работе исследуется производительность трех открытых небольших LLM, таких как LLaMA 2-7B, LLaMA 2-13B и Mistral 7B, с использованием полуавтоматического фреймворка, что позволяет сократить необходимое вмешательство человека, усилия и затраты на создание набора данных с инструкциями для тонкой настройки LLM. Кроме того, мы показываем, что включение алгоритма обучения с подкреплением (RL) в этот фреймворк на основе LLM приводит к дальнейшему улучшению результатов. Наша оценка набора данных показывает, что такие RL-ориентированные фреймворки обеспечивают значительное улучшение в 63–66% задач по сравнению с предыдущими подходами.

Skywork-VL Reward: Эффективная модель вознаграждения для многомодального понимания и рассуждений
Skywork-VL Reward: An Effective Reward Model for Multimodal Understanding and Reasoning

May 12

ByXiaokun Wang, Chris, Jiangbo Pei, Wei Shen, Yi Peng, Yunzhuo Hao, Weijie Qiu, Ai Jian, Tianyidan Xie, Xuchen Song, Yang Liu, Yahui Zhou

Мы представляем Skywork-VL Reward — многомодальную модель вознаграждения, которая предоставляет сигналы вознаграждения как для задач многомодального понимания, так и для задач рассуждения. Наш технический подход включает два ключевых компонента: во-первых, мы создаем крупномасштабный набор данных о предпочтениях, охватывающий широкий спектр задач и сценариев, с ответами, собранными как от стандартных моделей визуально-языкового взаимодействия (VLMs), так и от продвинутых моделей-рассуждателей. Во-вторых, мы разрабатываем архитектуру модели вознаграждения на основе Qwen2.5-VL-7B-Instruct, интегрируя голову вознаграждения и применяя многоэтапную тонкую настройку с использованием функции потерь на основе парного ранжирования для данных о парных предпочтениях. Экспериментальные оценки показывают, что Skywork-VL Reward достигает передовых результатов на многомодальном бенчмарке VL-RewardBench и демонстрирует конкурентоспособную производительность на текстовом бенчмарке RewardBench. Кроме того, данные о предпочтениях, построенные на основе Skywork-VL Reward, оказываются высокоэффективными для обучения метода Mixed Preference Optimization (MPO), что приводит к значительному улучшению многомодальных способностей рассуждения. Наши результаты подчеркивают, что Skywork-VL Reward представляет собой значительный шаг вперед в создании универсальных и надежных моделей вознаграждения для многомодального согласования. Наша модель была публично выпущена для обеспечения прозрачности и воспроизводимости.

AttentionInfluence: Использование влияния голов внимания для выбора данных предварительного обучения от слабого к сильному
AttentionInfluence: Adopting Attention Head Influence for Weak-to-Strong Pretraining Data Selection

May 12

ByKai Hua, Steven Wu, Ge Zhang, Ke Shen

В последнее время наблюдается растущий интерес к сбору данных для предварительного обучения, требующих интенсивного рассуждения, с целью улучшения способности крупных языковых моделей (LLM) к сложным умозаключениям. Предыдущие подходы обычно полагались на контролируемые классификаторы для идентификации таких данных, что требует аннотирования людьми или LLM, что часто приводит к внесению доменно-специфических предубеждений. Поскольку механизмы внимания играют ключевую роль в контекстном рассуждении, мы предлагаем AttentionInfluence — простой, но эффективный метод, не требующий обучения и не использующий сигналы контроля. Наш подход позволяет небольшой предварительно обученной языковой модели выступать в роли мощного селектора данных с помощью простой операции маскирования механизмов внимания. В частности, мы идентифицируем механизмы извлечения и вычисляем разницу в потере при маскировании этих механизмов. Мы применяем AttentionInfluence к плотной модели с 1,3 миллиардами параметров для отбора данных в корпусе SmolLM, содержащем 241 миллиард токенов, и смешиваем корпус SmolLM с выбранным подмножеством из 73 миллиардов токенов для предварительного обучения плотной модели с 7 миллиардами параметров, используя 1 триллион токенов для обучения и планирование скорости обучения WSD. Наши экспериментальные результаты демонстрируют значительные улучшения, варьирующиеся от 1,4 до 3,5 процентных пунктов, на нескольких тестах, требующих интенсивных знаний и сложных рассуждений (например, MMLU, MMLU-Pro, AGIEval-en, GSM8K и HumanEval). Это демонстрирует эффективное свойство масштабирования от слабых к сильным моделям, где небольшие модели улучшают итоговую производительность более крупных моделей, предлагая перспективный и масштабируемый путь для отбора данных, ориентированного на рассуждения.

Динамика обучения в процессе непрерывного предварительного обучения крупных языковых моделей
Learning Dynamics in Continual Pre-Training for Large Language Models

May 12

ByXingjin Wang, Howe Tissue, Lu Wang, Linjing Li, Daniel Dajun Zeng

Постоянное предварительное обучение (Continual Pre-Training, CPT) стало популярным и эффективным методом для адаптации мощных базовых моделей к конкретным задачам. В данной работе мы исследуем динамику обучения на протяжении процесса CPT для крупных языковых моделей. Особое внимание уделяется тому, как изменяется производительность на общих и целевых задачах на каждом этапе обучения, где производительность измеряется с помощью потерь на валидации. Мы обнаружили, что кривая потерь CPT фундаментально характеризует переход от одной кривой к другой скрытой кривой, что можно описать, разделив эффекты сдвига распределения и уменьшения скорости обучения. Мы выводим закон масштабирования CPT, который объединяет эти два фактора, позволяя прогнозировать потери на любом этапе (постоянного) обучения и при различных графиках изменения скорости обучения (LRS) в CPT. Наша формулировка предлагает всестороннее понимание нескольких критических факторов в CPT, включая потенциал потерь, пиковую скорость обучения, количество шагов обучения, коэффициент повторения и т.д. Более того, наш подход может быть адаптирован для настройки гиперпараметров обучения в соответствии с различными целями CPT, такими как баланс между общей и доменно-специфической производительностью. Многочисленные эксперименты демонстрируют, что наш закон масштабирования применим к различным наборам данных CPT и гиперпараметрам обучения.

WebGen-Bench: Оценка способности языковых моделей генерировать интерактивные и функциональные веб-сайты с нуля
WebGen-Bench: Evaluating LLMs on Generating Interactive and Functional Websites from Scratch

May 6

ByZimu Lu, Yunqiao Yang, Houxing Ren, Haotian Hou, Han Xiao, Ke Wang, Weikang Shi, Aojun Zhou, Mingjie Zhan, Hongsheng Li

Агенты на основе языковых моделей (LLM) продемонстрировали значительный потенциал в генерации и управлении кодом в сложных кодовых базах. В данной статье мы представляем WebGen-Bench — новый бенчмарк, разработанный для оценки способности LLM-агентов создавать многокомпонентные кодовые базы веб-сайтов с нуля. Он включает разнообразные инструкции для генерации веб-сайтов, созданные совместными усилиями человеческих аннотаторов и GPT-4o. Эти инструкции охватывают три основные категории и тринадцать подкатегорий, включая практически все важные типы веб-приложений. Для оценки качества сгенерированных веб-сайтов мы используем GPT-4o для создания тестовых случаев, нацеленных на каждую функциональность, описанную в инструкциях, а затем вручную фильтруем, корректируем и организуем их для обеспечения точности, в результате чего получаем 647 тестовых случаев. Каждый тестовый случай определяет операцию, которую необходимо выполнить на веб-сайте, и ожидаемый результат после её выполнения. Для автоматизации тестирования и повышения воспроизводимости мы применяем мощного агента для навигации по веб-сайтам, который выполняет тесты на сгенерированных веб-сайтах и определяет, соответствуют ли наблюдаемые результаты ожидаемым. Мы оцениваем три высокопроизводительных фреймворка для работы с кодом — Bolt.diy, OpenHands и Aider, используя несколько проприетарных и открытых LLM в качестве движков. Лучшая комбинация, Bolt.diy с движком DeepSeek-R1, достигает точности всего 27,8% на тестовых случаях, что подчеркивает сложность нашего бенчмарка. Кроме того, мы создаем WebGen-Instruct — обучающий набор, состоящий из 6 667 инструкций для генерации веб-сайтов. Обучение модели Qwen2.5-Coder-32B-Instruct на траекториях Bolt.diy, сгенерированных на основе подмножества этого обучающего набора, позволяет достичь точности 38,2%, превосходящей производительность лучшей проприетарной модели.

INTELLECT-2: Модель рассуждений, обученная с использованием глобально децентрализованного обучения с подкреплением
INTELLECT-2: A Reasoning Model Trained Through Globally Decentralized Reinforcement Learning

May 12

ByPrime Intellect Team, Sami Jaghouar, Justus Mattern, Jack Min Ong, Jannik Straube, Manveer Basra, Aaron Pazdera, Kushal Thaman, Matthew Di Ferrante, Felix Gabriel, Fares Obeid, Kemal Erdem, Michael Keiblinger, Johannes Hagemann

Мы представляем INTELLECT-2 — первый глобально распределенный процесс обучения с подкреплением (RL) языковой модели с 32 миллиардами параметров. В отличие от традиционных централизованных подходов к обучению, INTELLECT-2 обучает модель рассуждений с использованием полностью асинхронного RL в динамическом, гетерогенном рое вычислительных узлов, работающих без разрешений. Для реализации обучения с такой уникальной инфраструктурой мы разработали с нуля различные компоненты: мы представляем PRIME-RL — нашу обучающую платформу, специально созданную для распределенного асинхронного обучения с подкреплением, основанную на новых компонентах, таких как TOPLOC, который проверяет результаты выполнения задач от ненадежных вычислительных узлов, и SHARDCAST, который эффективно распространяет веса политики от обучающих узлов к вычислительным. Помимо инфраструктурных компонентов, мы предлагаем модификации стандартного рецепта обучения GRPO и методы фильтрации данных, которые были критически важны для обеспечения стабильности обучения и успешного усвоения моделью целевой задачи, что позволило превзойти QwQ-32B — передовую модель рассуждений в диапазоне 32 миллиардов параметров. Мы открываем исходный код INTELLECT-2 вместе со всем нашим кодом и данными, надеясь стимулировать и поддержать более открытые исследования в области децентрализованного обучения.

MonetGPT: Решение головоломок улучшает навыки ретуширования изображений в мультимодальных языковых моделях
MonetGPT: Solving Puzzles Enhances MLLMs' Image Retouching Skills

May 9

ByNiladri Shekhar Dutt, Duygu Ceylan, Niloy J. Mitra

Ретушь является важной задачей в постобработке необработанных фотографий. Генеративное редактирование, управляемое текстом или штрихами, предоставляет новый инструмент, доступный пользователям, но может легко изменить идентичность исходных объектов неприемлемым и непредсказуемым образом. В отличие от этого, традиционные процедурные правки, которые обычно поддерживаются фоторедакторами (например, Gimp, Lightroom), хотя и консервативны, всё же предпочитаются профессионалами. К сожалению, профессиональная ретушь включает множество отдельных процедурных операций, которые сложно планировать для большинства новичков. В данной статье мы задаёмся вопросом, можно ли обучить мультимодальную большую языковую модель (MLLM) анализировать необработанные фотографии, предлагать подходящие исправления и реализовывать их с помощью заданного набора предварительно созданных процедурных операций с изображениями. Мы демонстрируем, что MLLM можно сначала ознакомить с базовыми операциями обработки изображений, обучая их решать специально разработанные визуальные головоломки. Впоследствии такая модель, осведомлённая об операциях, может как планировать, так и предлагать последовательности правок. Для облегчения обучения, используя набор фотографий, отредактированных экспертами, мы синтезируем набор данных для рассуждений, процедурно манипулируя экспертными правками, а затем закрепляя предварительно обученную языковую модель на визуальных корректировках, чтобы синтезировать рассуждения для тонкой настройки. Предлагаемые операции ретуши, по своей сути, понятны пользователям, сохраняют детали объектов и разрешение, а также могут быть при необходимости переопределены. Мы оцениваем нашу систему на различных тестовых примерах и показываем её преимущества в плане объяснимости и сохранения идентичности по сравнению с существующими генеративными и другими процедурными альтернативами. Код, данные, модели и дополнительные результаты доступны на нашем проектом сайте по адресу https://monetgpt.github.io.

Непрерывная визуальная авторегрессионная генерация через максимизацию оценки
Continuous Visual Autoregressive Generation via Score Maximization

May 12

ByChenze Shao, Fandong Meng, Jie Zhou

Традиционный подход предполагает, что авторегрессионные модели используются для обработки дискретных данных. При применении к непрерывным модальностям, таким как визуальные данные, визуальное авторегрессионное моделирование (VAR) обычно прибегает к методам, основанным на квантовании, чтобы преобразовать данные в дискретное пространство, что может привести к значительной потере информации. Для решения этой проблемы мы представляем фреймворк Continuous VAR, который позволяет осуществлять прямое визуальное авторегрессионное генеративное моделирование без использования векторного квантования. Теоретической основой этого подхода являются строго правильные оценочные правила, которые предоставляют мощные статистические инструменты для оценки того, насколько точно генеративная модель аппроксимирует истинное распределение. В рамках этого фреймворка нам достаточно выбрать строго правильную оценку и установить её в качестве целевой функции для оптимизации. Мы в основном исследуем класс целевых функций, основанных на энергетической оценке, которая не требует вычисления правдоподобия и, таким образом, преодолевает трудности, связанные с вероятностными предсказаниями в непрерывном пространстве. Предыдущие работы по непрерывной авторегрессионной генерации, такие как GIVT и диффузионные потери, также могут быть выведены из нашего фреймворка с использованием других строго правильных оценок. Исходный код: https://github.com/shaochenze/EAR.

Усиленное синергетическое рассуждение на основе внутренних и внешних знаний для эффективного адаптивного поискового агента
Reinforced Internal-External Knowledge Synergistic Reasoning for Efficient Adaptive Search Agent

May 12

ByZiyang Huang, Xiaowei Yuan, Yiming Ju, Jun Zhao, Kang Liu

Генерация с использованием поиска (RAG) — это распространенная стратегия для снижения галлюцинаций в больших языковых моделях (LLM). Хотя обучение с подкреплением (RL) может позволить LLM действовать как поисковые агенты, активируя возможности поиска, существующие модели часто недостаточно используют свои внутренние знания. Это может приводить к избыточным поискам, потенциальным конфликтам знаний и увеличению задержек при выводе. Для устранения этих ограничений срочно необходим эффективный и адаптивный поисковый агент, способный определять оптимальное время для поиска и синергетически интегрировать параметрические (внутренние) и полученные (внешние) знания. В данной статье представлен агент синергетического рассуждения с использованием внутренних и внешних знаний (IKEA), который может определять границы своих знаний и отдавать приоритет использованию внутренних знаний, прибегая к внешнему поиску только в случае недостаточности внутренних знаний. Это достигается с помощью новой функции вознаграждения, учитывающей границы знаний, и обучающего набора данных, также учитывающего эти границы. Они разработаны для RL, ориентированного на синергию внутренних и внешних знаний, что стимулирует модель давать точные ответы, минимизировать ненужные поиски и поощрять соответствующие внешние запросы при недостатке собственных знаний. Оценки на множестве задач, связанных с рассуждениями на основе знаний, демонстрируют, что IKEA значительно превосходит базовые методы, существенно снижает частоту поисков и демонстрирует устойчивые обобщающие способности.

Позиция: Соревнования по ИИ задают золотой стандарт эмпирической строгости в оценке генеративного ИИ
Position: AI Competitions Provide the Gold Standard for Empirical Rigor in GenAI Evaluation

May 1

ByD. Sculley, Will Cukierski, Phil Culliton, Sohier Dane, Maggie Demkin, Ryan Holbrook, Addison Howard, Paul Mooney, Walter Reade, Megan Risdal, Nate Keating

В данной позиционной статье мы отмечаем, что эмпирическая оценка в области генеративного ИИ находится в кризисной точке, поскольку традиционные стратегии оценки и тестирования в машинном обучении недостаточны для удовлетворения потребностей в оценке современных моделей и систем генеративного ИИ. Это обусловлено множеством причин, включая тот факт, что эти модели обычно имеют практически неограниченные пространства входных и выходных данных, часто не имеют четко определенной целевой истины (ground truth) и обычно демонстрируют сильные петли обратной связи и зависимость предсказаний от контекста предыдущих выходов модели. Помимо этих критических проблем, мы утверждаем, что вопросы {\em утечки данных} (leakage) и {\em загрязнения} (contamination) являются наиболее важными и сложными для решения в контексте оценки генеративного ИИ. Интересно, что в области ИИ-соревнований были разработаны эффективные меры и практики для борьбы с утечками с целью противодействия мошенничеству со стороны недобросовестных участников в рамках соревнований. Это делает ИИ-соревнования особенно ценным (но недостаточно используемым) ресурсом. Настало время для сообщества рассматривать ИИ-соревнования как золотой стандарт эмпирической строгости в оценке генеративного ИИ и использовать их результаты с соответствующей ценностью.

UMoE: Унификация внимания и FFN с использованием общих экспертов
UMoE: Unifying Attention and FFN with Shared Experts

May 12

ByYuanhang Yang, Chaozheng Wang, Jing Li

Разреженные архитектуры смеси экспертов (Sparse Mixture of Experts, MoE) стали перспективным подходом для масштабирования моделей Transformer. Хотя первоначальные работы в основном интегрировали MoE в слои прямого распространения (feed-forward network, FFN), недавние исследования изучили возможность расширения парадигмы MoE на слои внимания для повышения производительности модели. Однако существующие MoE-слои, основанные на механизме внимания, требуют специализированных реализаций и демонстрируют менее оптимальную производительность по сравнению с их аналогами, основанными на FFN. В данной статье мы стремимся унифицировать дизайн MoE в слоях внимания и FFN, предлагая новую реформулировку механизма внимания, которая раскрывает лежащую в его основе структуру, подобную FFN. Наша предложенная архитектура, UMoE, достигает превосходной производительности за счет MoE-слоев, основанных на внимании, при этом обеспечивая эффективное совместное использование параметров между компонентами FFN и внимания.

DynamicRAG: Использование выходных данных крупной языковой модели в качестве обратной связи для динамического переранжирования в генерации с усилением поиска
DynamicRAG: Leveraging Outputs of Large Language Model as Feedback for Dynamic Reranking in Retrieval-Augmented Generation

May 12

ByJiashuo Sun, Xianrui Zhong, Sizhe Zhou, Jiawei Han

Системы генерации с усилением поиском (RAG) объединяют большие языковые модели (LLM) с извлечением внешних знаний, что делает их высокоэффективными для задач, требующих глубоких знаний. Ключевым, но часто недостаточно изученным компонентом этих систем является реранкер, который уточняет извлеченные документы для повышения качества генерации и объяснимости. Проблема выбора оптимального количества документов (k) остается нерешенной: слишком малое количество может упустить критически важную информацию, а слишком большое — вносит шум и неэффективность. Хотя в последних исследованиях изучались реранкеры на основе LLM, они в основном используют внутренние знания модели и упускают богатые сигналы, которые LLM могут предоставить, такие как использование качества ответа в качестве обратной связи для оптимизации решений по реранкингу. В данной статье мы предлагаем DynamicRAG, новую RAG-структуру, в которой реранкер динамически корректирует как порядок, так и количество извлеченных документов на основе запроса. Мы моделируем реранкер как агента, оптимизированного с помощью обучения с подкреплением (RL), используя награды, полученные из качества вывода LLM. На семи наборах данных, требующих глубоких знаний, DynamicRAG демонстрирует превосходную производительность, достигая результатов, соответствующих современным стандартам. Модель, данные и код доступны по адресу https://github.com/GasolSun36/DynamicRAG.

LLAMAPIE: Активные внутриушные ассистенты для ведения диалогов
LLAMAPIE: Proactive In-Ear Conversation Assistants

May 7

ByTuochao Chen, Nicholas Batchelder, Alisa Liu, Noah Smith, Shyamnath Gollakota

Мы представляем LlamaPIE — первого в мире ассистента, работающего в реальном времени и оказывающего проактивную поддержку для улучшения человеческих диалогов с помощью ненавязчивых и лаконичных подсказок, доставляемых через носимые аудиоустройства. В отличие от традиционных языковых моделей, требующих явного вызова пользователем, этот ассистент работает в фоновом режиме, предугадывая потребности пользователя, не прерывая разговора. Мы решаем несколько ключевых задач, включая определение момента для ответа, создание кратких ответов, которые улучшают диалог, использование знаний о пользователе для контекстно-зависимой помощи, а также обработку данных в реальном времени на устройстве. Для этого мы создаем полусинтетический набор данных диалогов и предлагаем двухмодельный конвейер: небольшая модель решает, когда отвечать, а более крупная модель генерирует ответ. Мы оцениваем наш подход на реальных наборах данных, демонстрируя его эффективность в предоставлении полезной и ненавязчивой помощи. Пользовательские исследования с нашим ассистентом, реализованным на аппаратной платформе Apple Silicon M2, показывают явное предпочтение проактивного ассистента по сравнению как с базовым сценарием без помощи, так и с реактивной моделью, подчеркивая потенциал LlamaPIE для улучшения живых разговоров.

H^{3}DP: Трехуровневая диффузионная политика для визуомоторного обучения
H^{3}DP: Triply-Hierarchical Diffusion Policy for Visuomotor Learning

May 12

ByYiyang Lu, Yufeng Tian, Zhecheng Yuan, Xianbang Wang, Pu Hua, Zhengrong Xue, Huazhe Xu

Обучение визуомоторным стратегиям достигло значительного прогресса в области роботизированной манипуляции, при этом современные подходы в основном полагаются на генеративные модели для моделирования распределения действий. Однако эти методы часто упускают из виду критическую взаимосвязь между визуальным восприятием и предсказанием действий. В данной работе мы представляем Triply-Hierarchical Diffusion Policy (H^{3}DP), новую структуру для обучения визуомоторным стратегиям, которая явно включает иерархические структуры для усиления интеграции между визуальными признаками и генерацией действий. H^{3}DP содержит три уровня иерархии: (1) слоистую организацию входных данных с учетом глубины, которая упорядочивает RGB-D наблюдения на основе информации о глубине; (2) многомасштабные визуальные представления, кодирующие семантические признаки на различных уровнях детализации; и (3) иерархически обусловленный процесс диффузии, который согласует генерацию действий от грубых к точным с соответствующими визуальными признаками. Многочисленные эксперименты демонстрируют, что H^{3}DP обеспечивает среднее относительное улучшение на +27,5% по сравнению с базовыми методами в 44 симуляционных задачах и достигает превосходной производительности в 4 сложных задачах двуручной манипуляции в реальном мире. Страница проекта: https://lyy-iiis.github.io/h3dp/.

Предотвращение переполнения улучшает рекуррентные языковые модели с длинным контекстом.
Overflow Prevention Enhances Long-Context Recurrent LLMs

May 12

ByAssaf Ben-Kish, Itamar Zimerman, M. Jehanzeb Mirza, James Glass, Leonid Karlinsky, Raja Giryes

Недавним трендом в области больших языковых моделей (LLM) стало развитие рекуррентных моделей с субквадратичной сложностью, которые повышают эффективность обработки длинных контекстов. Мы исследуем ведущие модели для работы с длинными контекстами, уделяя особое внимание тому, как их фиксированный размер рекуррентной памяти влияет на производительность. Наши эксперименты показывают, что даже при обучении на расширенных контекстах использование длинных контекстов в этих моделях остается недостаточно эффективным. В частности, мы демонстрируем, что процедура вывода на основе фрагментов, которая идентифицирует и обрабатывает только наиболее релевантную часть входных данных, может смягчить сбои рекуррентной памяти и быть эффективной для многих задач с длинными контекстами: на тестовом наборе LongBench наш метод улучшает общую производительность модели Falcon3-Mamba-Inst-7B на 14%, Falcon-Mamba-Inst-7B на 28%, RecurrentGemma-IT-9B на 50% и RWKV6-Finch-7B на 51%. Удивительно, но этот простой подход также приводит к передовым результатам в сложном бенчмарке LongBench v2, показывая конкурентоспособную производительность с моделями Transformers аналогичного размера. Более того, наши результаты ставят под сомнение, действительно ли рекуррентные модели используют долгосрочные зависимости, поскольку наша стратегия обработки одного фрагмента демонстрирует более высокую производительность — даже в задачах, которые, предположительно, требуют связей между контекстами.

Атрибуция документов: анализ цитирования с использованием крупных языковых моделей
Document Attribution: Examining Citation Relationships using Large Language Models

May 9

ByVipula Rawte, Ryan A. Rossi, Franck Dernoncourt, Nedim Lipka

По мере того как крупные языковые модели (LLM) всё чаще применяются для задач, связанных с обработкой документов — таких как суммаризация документов, ответы на вопросы и извлечение информации — где требования пользователей сосредоточены на получении информации из предоставленных документов, а не на использовании параметрических знаний модели, обеспечение доверия и интерпретируемости этих систем становится критически важной задачей. Ключевым подходом к решению этой проблемы является атрибуция, которая предполагает отслеживание сгенерированных выводов до их исходных документов. Однако, поскольку LLM могут выдавать неточные или неоднозначные ответы, крайне важно оценивать надёжность этих ссылок. Для решения этой проблемы наша работа предлагает два метода. (1) Подход с нулевым обучением (zero-shot), который формулирует атрибуцию как простую задачу текстового следования. Наш метод с использованием модели flan-ul2 демонстрирует улучшение на 0,27% и 2,4% по сравнению с лучшим базовым результатом на наборах данных ID и OOD из AttributionBench соответственно. (2) Мы также исследуем роль механизма внимания в улучшении процесса атрибуции. Используя меньшую модель flan-t5-small, показатели F1 превосходят базовый уровень почти на всех слоях, за исключением 4-го слоя и слоёв с 8 по 11.

Физически-ассистированное и топологически-информированное глубокое обучение для прогнозирования погоды
Physics-Assisted and Topology-Informed Deep Learning for Weather Prediction

May 8

ByJiaqi Zheng, Qing Ling, Yerong Feng

Хотя модели глубокого обучения продемонстрировали впечатляющий потенциал в прогнозировании погоды, большинство из них игнорируют либо физику, лежащую в основе эволюции погоды, либо топографию поверхности Земли. Учитывая эти недостатки, мы разработали PASSAT — новую модель глубокого обучения, учитывающую физику и топографию, для прогнозирования погоды. PASSAT связывает эволюцию погоды с двумя ключевыми факторами: (i) процессом адвекции, который может быть описан уравнением адвекции и уравнениями Навье-Стокса; (ii) взаимодействием Земли и атмосферы, которое сложно как моделировать, так и вычислять. PASSAT также учитывает топографию поверхности Земли, вместо того чтобы рассматривать её просто как плоскость. С учётом этих аспектов PASSAT численно решает уравнение адвекции и уравнения Навье-Стокса на сферическом многообразии, использует сферическую графовую нейронную сеть для моделирования взаимодействия Земли и атмосферы и генерирует начальные поля скоростей, необходимые для решения уравнения адвекции, с помощью той же сферической графовой нейронной сети. На наборе данных ERA5 с разрешением 5,625° PASSAT превосходит как современные модели прогнозирования погоды на основе глубокого обучения, так и оперативную модель численного прогнозирования погоды IFS T42. Код и контрольные точки доступны по адресу https://github.com/Yumenomae/PASSAT_5p625.

Многоцелевое управляемое дискретное согласование потоков для контролируемого проектирования биологических последовательностей
Multi-Objective-Guided Discrete Flow Matching for Controllable Biological Sequence Design

May 11

ByTong Chen, Yinuo Zhang, Sophia Tang, Pranam Chatterjee

Создание биологических последовательностей, удовлетворяющих множественным, зачастую противоречивым функциональным и биофизическим критериям, остается ключевой задачей в инженерии биомолекул. Хотя модели дискретного согласования потоков (Discrete Flow Matching) недавно продемонстрировали потенциал для эффективной выборки в высокоразмерных пространствах последовательностей, существующие подходы решают лишь отдельные задачи или требуют непрерывных вложений, которые могут искажать дискретные распределения. Мы представляем Multi-Objective-Guided Discrete Flow Matching (MOG-DFM) — универсальную структуру для направления любого предобученного генератора дискретного согласования потоков к Парето-оптимальным компромиссам между несколькими скалярными целями. На каждом шаге выборки MOG-DFM вычисляет гибридный ранг-направленный показатель для кандидатных переходов и применяет адаптивный гиперконусный фильтр для обеспечения согласованного прогресса по множественным целям. Мы также обучили две безусловные модели дискретного согласования потоков: PepDFM для генерации разнообразных пептидов и EnhancerDFM для создания функциональных энхансерных ДНК, которые служат базовыми моделями для MOG-DFM. Мы демонстрируем эффективность MOG-DFM в генерации пептидных связующих, оптимизированных по пяти свойствам (гемолиз, антифоулинг, растворимость, период полураспада и аффинность связывания), а также в проектировании ДНК-последовательностей с определенными классами энхансеров и формами ДНК. В целом, MOG-DFM доказывает свою мощь как инструмент для проектирования последовательностей биомолекул, управляемого множественными свойствами.