Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем Seed1.5-VL, базовую модель для обработки визуальной и текстовой информации, разработанную для продвижения универсального мультимодального понимания и рассуждений. Seed1.5-VL состоит из визуального энкодера с 532 миллионами параметров и модели Mixture-of-Experts (MoE) с 20 миллиардами активных параметров. Несмотря на относительно компактную архитектуру, модель демонстрирует высокую производительность на широком спектре публичных бенчмарков для мультимодальных моделей и внутренних оценочных наборов, достигая наилучших результатов на 38 из 60 публичных бенчмарков. Кроме того, в задачах, ориентированных на агентов, таких как управление графическим интерфейсом и игровой процесс, Seed1.5-VL превосходит ведущие мультимодальные системы, включая OpenAI CUA и Claude 3.7. Помимо понимания изображений и видео, модель также демонстрирует сильные способности к рассуждениям, что делает её особенно эффективной для мультимодальных задач, таких как визуальные головоломки. Мы считаем, что эти возможности откроют более широкие возможности для применения в разнообразных задачах. В данном отчёте мы в основном предоставляем всесторонний обзор нашего опыта в создании Seed1.5-VL, включая проектирование модели, создание данных и обучение на различных этапах, надеясь, что этот отчёт вдохновит на дальнейшие исследования. Seed1.5-VL теперь доступна по адресу https://www.volcengine.com/ (ID модели Volcano Engine: doubao-1-5-thinking-vision-pro-250428).
Представляем MiMo-7B, крупную языковую модель, созданную для задач логического рассуждения, с оптимизацией на этапах как предварительного, так и последующего обучения. В процессе предварительного обучения мы улучшили конвейер предобработки данных и применили трехэтапную стратегию смешивания данных для усиления потенциала базовой модели в решении логических задач. MiMo-7B-Base была предварительно обучена на 25 триллионах токенов с дополнительной целью Multi-Token Prediction для повышения производительности и ускорения скорости вывода. На этапе последующего обучения мы подготовили набор данных из 130 тысяч проверяемых задач по математике и программированию для обучения с подкреплением, интегрировав схему вознаграждения на основе сложности тестов для смягчения проблемы разреженного вознаграждения и применив стратегическое повторное сэмплирование данных для стабилизации обучения. Обширные оценки показывают, что MiMo-7B-Base обладает исключительным потенциалом для логического рассуждения, превосходя даже значительно более крупные модели объемом 32B. Финальная модель, настроенная с помощью обучения с подкреплением, MiMo-7B-RL, демонстрирует превосходные результаты в задачах по математике, программированию и общему логическому рассуждению, превосходя производительность OpenAI o1-mini. Чекпоинты модели доступны по адресу https://github.com/xiaomimimo/MiMo.
Хотя генеративный искусственный интеллект значительно продвинулся в областях текста, изображений, аудио и видео, генерация 3D-контента остается сравнительно слаборазвитой из-за фундаментальных проблем, таких как нехватка данных, ограничения алгоритмов и фрагментация экосистемы. В связи с этим мы представляем Step1X-3D — открытую платформу, решающую эти проблемы за счет: (1) строгого конвейера обработки данных, включающего более 5 млн активов для создания высококачественного набора данных объемом 2 млн с стандартизированными геометрическими и текстурными свойствами; (2) двухэтапной 3D-ориентированной архитектуры, сочетающей гибридный генератор геометрии VAE-DiT с модулем синтеза текстур на основе диффузии; и (3) полного открытого доступа к моделям, коду обучения и модулям адаптации. Для генерации геометрии гибридный компонент VAE-DiT создает TSDF-представления, используя кодирование латентных признаков на основе перцептронов с выборкой острых краев для сохранения деталей. Модуль синтеза текстур на основе диффузии обеспечивает согласованность между видами за счет геометрического кондиционирования и синхронизации в латентном пространстве. Результаты тестирования демонстрируют передовые показатели, превосходящие существующие открытые методы, а также конкурентоспособное качество по сравнению с проприетарными решениями. Примечательно, что платформа уникальным образом объединяет парадигмы 2D и 3D генерации, поддерживая прямой перенос 2D-методов управления (например, LoRA) в 3D-синтез. Одновременно улучшая качество данных, точность алгоритмов и воспроизводимость, Step1X-3D стремится установить новые стандарты для открытых исследований в области управляемой генерации 3D-активов.
Крупные модели рассуждений (Large Reasoning Models, LRMs) обладают способностью к самокоррекции даже при допущении ошибок в своих цепочках рассуждений. Однако наше исследование показывает, что если процесс рассуждения начинается с короткого, но неудачного старта, модели становится сложно восстановиться. Мы называем это явление "Ловушкой доминирования префикса". Вдохновленные психологическими исследованиями, которые демонстрируют, что взаимодействие с коллегами может способствовать самокоррекции, не оказывая негативного влияния на уже точные результаты, мы предлагаем подход **Обучение у коллег** (Learning from Peers, LeaP) для решения этой проблемы. В частности, на каждом этапе каждая цепочка рассуждений суммирует свои промежуточные результаты и делится ими с другими через механизм маршрутизации, что позволяет цепочкам учитывать мнения коллег в процессе вывода. Однако мы наблюдаем, что меньшие модели иногда не справляются с эффективным выполнением инструкций по суммированию и рефлексии. Для решения этой проблемы мы дообучаем их, создавая серию моделей **LeaP-T**. Эксперименты на наборах данных AIME 2024, AIME 2025, AIMO 2025 и GPQA Diamond показывают, что LeaP обеспечивает значительные улучшения. Например, модель QwQ-32B с LeaP демонстрирует в среднем на 5 абсолютных пунктов выше, чем базовый вариант, и превосходит DeepSeek-R1-671B на трех математических бенчмарках с средним приростом в 3,3 пункта. Примечательно, что наша дообученная модель LeaP-T-7B соответствует производительности DeepSeek-R1-Distill-Qwen-14B на AIME 2024. Глубокий анализ выявляет устойчивую коррекцию ошибок в LeaP благодаря своевременному обмену мнениями, демонстрируя высокую устойчивость к ошибкам и способность справляться с различной сложностью задач. LeaP знаменует собой важный этап, позволяя LRM взаимодействовать в процессе рассуждений. Наш код, наборы данных и модели доступны по адресу https://learning-from-peers.github.io/.
Последние достижения в области непрерывных генеративных моделей, включая многошаговые подходы, такие как диффузия и согласование потоков (обычно требующие 8-1000 шагов выборки), и малошаговые методы, такие как модели согласованности (обычно 1-8 шагов), продемонстрировали впечатляющие результаты в генерации. Однако существующие работы часто рассматривают эти подходы как отдельные парадигмы, что приводит к различным методикам обучения и выборки. Мы представляем унифицированную структуру для обучения, выборки и анализа этих моделей. Наша реализация, Унифицированный Тренажер и Сэмплер для Непрерывных Генеративных Моделей (UCGM-{T,S}), достигает наилучших на сегодняшний день результатов. Например, на наборе данных ImageNet 256x256 с использованием диффузионного трансформера на 675 миллионов параметров, UCGM-T обучает многошаговую модель, достигающую 1.30 FID за 20 шагов, и малошаговую модель, достигающую 1.42 FID всего за 2 шага. Кроме того, применение UCGM-S к предварительно обученной модели (ранее 1.26 FID за 250 шагов) улучшает производительность до 1.06 FID всего за 40 шагов. Код доступен по адресу: https://github.com/LINs-lab/UCGM.
Крупные языковые модели (LLM), ориентированные на выполнение инструкций, доказали свою эффективность в решении множества задач обработки естественного языка (NLP) в условиях малого количества примеров или даже без них. Однако создание аннотированных человеком данных с инструкциями является трудоемким, дорогостоящим процессом и часто ограничено в количестве и разнообразии задач. Предыдущие исследования пытались решить эту проблему, предлагая фреймворки, способные генерировать инструкции полуавтоматически и независимо от задачи, непосредственно на основе самой модели. Многие из этих подходов опирались на крупные модели с большим количеством параметров, такие как GPT-3.5 (175B), которые являются дорогостоящими и имеют ограничения на количество запросов. В данной работе исследуется производительность трех открытых небольших LLM, таких как LLaMA 2-7B, LLaMA 2-13B и Mistral 7B, с использованием полуавтоматического фреймворка, что позволяет сократить необходимое вмешательство человека, усилия и затраты на создание набора данных с инструкциями для тонкой настройки LLM. Кроме того, мы показываем, что включение алгоритма обучения с подкреплением (RL) в этот фреймворк на основе LLM приводит к дальнейшему улучшению результатов. Наша оценка набора данных показывает, что такие RL-ориентированные фреймворки обеспечивают значительное улучшение в 63–66% задач по сравнению с предыдущими подходами.
Недавние прорывы в области генеративных моделей, в частности диффузионных моделей и исправленных потоков, произвели революцию в создании визуального контента, однако согласование выходных данных моделей с предпочтениями человека остается важной задачей. Существующие методы визуальной генерации, основанные на обучении с подкреплением (RL), сталкиваются с серьезными ограничениями: несовместимостью с современными парадигмами выборки на основе обыкновенных дифференциальных уравнений (ODE), нестабильностью при обучении в крупных масштабах и отсутствием проверки для генерации видео. В данной статье представлен DanceGRPO — первый унифицированный фреймворк, адаптирующий метод оптимизации групповой относительной политики (GRPO) к парадигмам визуальной генерации, что позволяет использовать единый алгоритм RL для двух генеративных парадигм (диффузионные модели и исправленные потоки), трех задач (текст-в-изображение, текст-в-видео, изображение-в-видео), четырех базовых моделей (Stable Diffusion, HunyuanVideo, FLUX, SkyReel-I2V) и пяти моделей вознаграждения (эстетика изображения/видео, соответствие текста и изображения, качество движения видео и бинарное вознаграждение). Насколько нам известно, DanceGRPO является первым унифицированным фреймворком на основе RL, способным к бесшовной адаптации для различных генеративных парадигм, задач, базовых моделей и моделей вознаграждения. DanceGRPO демонстрирует стабильные и значительные улучшения, превосходя базовые методы до 181% на таких бенчмарках, как HPS-v2.1, CLIP Score, VideoAlign и GenEval. Примечательно, что DanceGRPO не только стабилизирует оптимизацию политики для сложной генерации видео, но и позволяет генеративной политике лучше захватывать траектории удаления шума для масштабирования вывода Best-of-N и обучаться на основе редких бинарных отзывов. Наши результаты подтверждают, что DanceGRPO является надежным и универсальным решением для масштабирования задач обучения с подкреплением на основе человеческих отзывов (RLHF) в визуальной генерации, предлагая новые идеи для гармонизации обучения с подкреплением и визуального синтеза. Код будет опубликован.
Мы представляем Skywork-VL Reward — многомодальную модель вознаграждения, которая предоставляет сигналы вознаграждения как для задач многомодального понимания, так и для задач рассуждения. Наш технический подход включает два ключевых компонента: во-первых, мы создаем крупномасштабный набор данных о предпочтениях, охватывающий широкий спектр задач и сценариев, с ответами, собранными как от стандартных моделей визуально-языкового взаимодействия (VLMs), так и от продвинутых моделей-рассуждателей. Во-вторых, мы разрабатываем архитектуру модели вознаграждения на основе Qwen2.5-VL-7B-Instruct, интегрируя голову вознаграждения и применяя многоэтапную тонкую настройку с использованием функции потерь на основе парного ранжирования для данных о парных предпочтениях. Экспериментальные оценки показывают, что Skywork-VL Reward достигает передовых результатов на многомодальном бенчмарке VL-RewardBench и демонстрирует конкурентоспособную производительность на текстовом бенчмарке RewardBench. Кроме того, данные о предпочтениях, построенные на основе Skywork-VL Reward, оказываются высокоэффективными для обучения метода Mixed Preference Optimization (MPO), что приводит к значительному улучшению многомодальных способностей рассуждения. Наши результаты подчеркивают, что Skywork-VL Reward представляет собой значительный шаг вперед в создании универсальных и надежных моделей вознаграждения для многомодального согласования. Наша модель была публично выпущена для обеспечения прозрачности и воспроизводимости.
В последнее время наблюдается растущий интерес к сбору данных для предварительного обучения, требующих интенсивного рассуждения, с целью улучшения способности крупных языковых моделей (LLM) к сложным умозаключениям. Предыдущие подходы обычно полагались на контролируемые классификаторы для идентификации таких данных, что требует аннотирования людьми или LLM, что часто приводит к внесению доменно-специфических предубеждений. Поскольку механизмы внимания играют ключевую роль в контекстном рассуждении, мы предлагаем AttentionInfluence — простой, но эффективный метод, не требующий обучения и не использующий сигналы контроля. Наш подход позволяет небольшой предварительно обученной языковой модели выступать в роли мощного селектора данных с помощью простой операции маскирования механизмов внимания. В частности, мы идентифицируем механизмы извлечения и вычисляем разницу в потере при маскировании этих механизмов. Мы применяем AttentionInfluence к плотной модели с 1,3 миллиардами параметров для отбора данных в корпусе SmolLM, содержащем 241 миллиард токенов, и смешиваем корпус SmolLM с выбранным подмножеством из 73 миллиардов токенов для предварительного обучения плотной модели с 7 миллиардами параметров, используя 1 триллион токенов для обучения и планирование скорости обучения WSD. Наши экспериментальные результаты демонстрируют значительные улучшения, варьирующиеся от 1,4 до 3,5 процентных пунктов, на нескольких тестах, требующих интенсивных знаний и сложных рассуждений (например, MMLU, MMLU-Pro, AGIEval-en, GSM8K и HumanEval). Это демонстрирует эффективное свойство масштабирования от слабых к сильным моделям, где небольшие модели улучшают итоговую производительность более крупных моделей, предлагая перспективный и масштабируемый путь для отбора данных, ориентированного на рассуждения.
Постоянное предварительное обучение (Continual Pre-Training, CPT) стало популярным и эффективным методом для адаптации мощных базовых моделей к конкретным задачам. В данной работе мы исследуем динамику обучения на протяжении процесса CPT для крупных языковых моделей. Особое внимание уделяется тому, как изменяется производительность на общих и целевых задачах на каждом этапе обучения, где производительность измеряется с помощью потерь на валидации. Мы обнаружили, что кривая потерь CPT фундаментально характеризует переход от одной кривой к другой скрытой кривой, что можно описать, разделив эффекты сдвига распределения и уменьшения скорости обучения. Мы выводим закон масштабирования CPT, который объединяет эти два фактора, позволяя прогнозировать потери на любом этапе (постоянного) обучения и при различных графиках изменения скорости обучения (LRS) в CPT. Наша формулировка предлагает всестороннее понимание нескольких критических факторов в CPT, включая потенциал потерь, пиковую скорость обучения, количество шагов обучения, коэффициент повторения и т.д. Более того, наш подход может быть адаптирован для настройки гиперпараметров обучения в соответствии с различными целями CPT, такими как баланс между общей и доменно-специфической производительностью. Многочисленные эксперименты демонстрируют, что наш закон масштабирования применим к различным наборам данных CPT и гиперпараметрам обучения.
Агенты на основе языковых моделей (LLM) продемонстрировали значительный потенциал в генерации и управлении кодом в сложных кодовых базах. В данной статье мы представляем WebGen-Bench — новый бенчмарк, разработанный для оценки способности LLM-агентов создавать многокомпонентные кодовые базы веб-сайтов с нуля. Он включает разнообразные инструкции для генерации веб-сайтов, созданные совместными усилиями человеческих аннотаторов и GPT-4o. Эти инструкции охватывают три основные категории и тринадцать подкатегорий, включая практически все важные типы веб-приложений. Для оценки качества сгенерированных веб-сайтов мы используем GPT-4o для создания тестовых случаев, нацеленных на каждую функциональность, описанную в инструкциях, а затем вручную фильтруем, корректируем и организуем их для обеспечения точности, в результате чего получаем 647 тестовых случаев. Каждый тестовый случай определяет операцию, которую необходимо выполнить на веб-сайте, и ожидаемый результат после её выполнения. Для автоматизации тестирования и повышения воспроизводимости мы применяем мощного агента для навигации по веб-сайтам, который выполняет тесты на сгенерированных веб-сайтах и определяет, соответствуют ли наблюдаемые результаты ожидаемым. Мы оцениваем три высокопроизводительных фреймворка для работы с кодом — Bolt.diy, OpenHands и Aider, используя несколько проприетарных и открытых LLM в качестве движков. Лучшая комбинация, Bolt.diy с движком DeepSeek-R1, достигает точности всего 27,8% на тестовых случаях, что подчеркивает сложность нашего бенчмарка. Кроме того, мы создаем WebGen-Instruct — обучающий набор, состоящий из 6 667 инструкций для генерации веб-сайтов. Обучение модели Qwen2.5-Coder-32B-Instruct на траекториях Bolt.diy, сгенерированных на основе подмножества этого обучающего набора, позволяет достичь точности 38,2%, превосходящей производительность лучшей проприетарной модели.
Традиционный подход предполагает, что авторегрессионные модели используются для обработки дискретных данных. При применении к непрерывным модальностям, таким как визуальные данные, визуальное авторегрессионное моделирование (VAR) обычно прибегает к методам, основанным на квантовании, чтобы преобразовать данные в дискретное пространство, что может привести к значительной потере информации. Для решения этой проблемы мы представляем фреймворк Continuous VAR, который позволяет осуществлять прямое визуальное авторегрессионное генеративное моделирование без использования векторного квантования. Теоретической основой этого подхода являются строго правильные оценочные правила, которые предоставляют мощные статистические инструменты для оценки того, насколько точно генеративная модель аппроксимирует истинное распределение. В рамках этого фреймворка нам достаточно выбрать строго правильную оценку и установить её в качестве целевой функции для оптимизации. Мы в основном исследуем класс целевых функций, основанных на энергетической оценке, которая не требует вычисления правдоподобия и, таким образом, преодолевает трудности, связанные с вероятностными предсказаниями в непрерывном пространстве. Предыдущие работы по непрерывной авторегрессионной генерации, такие как GIVT и диффузионные потери, также могут быть выведены из нашего фреймворка с использованием других строго правильных оценок. Исходный код: https://github.com/shaochenze/EAR.
Мы представляем INTELLECT-2 — первый глобально распределенный процесс обучения с подкреплением (RL) языковой модели с 32 миллиардами параметров. В отличие от традиционных централизованных подходов к обучению, INTELLECT-2 обучает модель рассуждений с использованием полностью асинхронного RL в динамическом, гетерогенном рое вычислительных узлов, работающих без разрешений. Для реализации обучения с такой уникальной инфраструктурой мы разработали с нуля различные компоненты: мы представляем PRIME-RL — нашу обучающую платформу, специально созданную для распределенного асинхронного обучения с подкреплением, основанную на новых компонентах, таких как TOPLOC, который проверяет результаты выполнения задач от ненадежных вычислительных узлов, и SHARDCAST, который эффективно распространяет веса политики от обучающих узлов к вычислительным. Помимо инфраструктурных компонентов, мы предлагаем модификации стандартного рецепта обучения GRPO и методы фильтрации данных, которые были критически важны для обеспечения стабильности обучения и успешного усвоения моделью целевой задачи, что позволило превзойти QwQ-32B — передовую модель рассуждений в диапазоне 32 миллиардов параметров. Мы открываем исходный код INTELLECT-2 вместе со всем нашим кодом и данными, надеясь стимулировать и поддержать более открытые исследования в области децентрализованного обучения.
Ретушь является важной задачей в постобработке необработанных фотографий. Генеративное редактирование, управляемое текстом или штрихами, предоставляет новый инструмент, доступный пользователям, но может легко изменить идентичность исходных объектов неприемлемым и непредсказуемым образом. В отличие от этого, традиционные процедурные правки, которые обычно поддерживаются фоторедакторами (например, Gimp, Lightroom), хотя и консервативны, всё же предпочитаются профессионалами. К сожалению, профессиональная ретушь включает множество отдельных процедурных операций, которые сложно планировать для большинства новичков. В данной статье мы задаёмся вопросом, можно ли обучить мультимодальную большую языковую модель (MLLM) анализировать необработанные фотографии, предлагать подходящие исправления и реализовывать их с помощью заданного набора предварительно созданных процедурных операций с изображениями. Мы демонстрируем, что MLLM можно сначала ознакомить с базовыми операциями обработки изображений, обучая их решать специально разработанные визуальные головоломки. Впоследствии такая модель, осведомлённая об операциях, может как планировать, так и предлагать последовательности правок. Для облегчения обучения, используя набор фотографий, отредактированных экспертами, мы синтезируем набор данных для рассуждений, процедурно манипулируя экспертными правками, а затем закрепляя предварительно обученную языковую модель на визуальных корректировках, чтобы синтезировать рассуждения для тонкой настройки. Предлагаемые операции ретуши, по своей сути, понятны пользователям, сохраняют детали объектов и разрешение, а также могут быть при необходимости переопределены. Мы оцениваем нашу систему на различных тестовых примерах и показываем её преимущества в плане объяснимости и сохранения идентичности по сравнению с существующими генеративными и другими процедурными альтернативами. Код, данные, модели и дополнительные результаты доступны на нашем проектом сайте по адресу https://monetgpt.github.io.
Генерация с использованием поиска (RAG) — это распространенная стратегия для снижения галлюцинаций в больших языковых моделях (LLM). Хотя обучение с подкреплением (RL) может позволить LLM действовать как поисковые агенты, активируя возможности поиска, существующие модели часто недостаточно используют свои внутренние знания. Это может приводить к избыточным поискам, потенциальным конфликтам знаний и увеличению задержек при выводе. Для устранения этих ограничений срочно необходим эффективный и адаптивный поисковый агент, способный определять оптимальное время для поиска и синергетически интегрировать параметрические (внутренние) и полученные (внешние) знания. В данной статье представлен агент синергетического рассуждения с использованием внутренних и внешних знаний (IKEA), который может определять границы своих знаний и отдавать приоритет использованию внутренних знаний, прибегая к внешнему поиску только в случае недостаточности внутренних знаний. Это достигается с помощью новой функции вознаграждения, учитывающей границы знаний, и обучающего набора данных, также учитывающего эти границы. Они разработаны для RL, ориентированного на синергию внутренних и внешних знаний, что стимулирует модель давать точные ответы, минимизировать ненужные поиски и поощрять соответствующие внешние запросы при недостатке собственных знаний. Оценки на множестве задач, связанных с рассуждениями на основе знаний, демонстрируют, что IKEA значительно превосходит базовые методы, существенно снижает частоту поисков и демонстрирует устойчивые обобщающие способности.
В данной позиционной статье мы отмечаем, что эмпирическая оценка в области генеративного ИИ находится в кризисной точке, поскольку традиционные стратегии оценки и тестирования в машинном обучении недостаточны для удовлетворения потребностей в оценке современных моделей и систем генеративного ИИ. Это обусловлено множеством причин, включая тот факт, что эти модели обычно имеют практически неограниченные пространства входных и выходных данных, часто не имеют четко определенной целевой истины (ground truth) и обычно демонстрируют сильные петли обратной связи и зависимость предсказаний от контекста предыдущих выходов модели. Помимо этих критических проблем, мы утверждаем, что вопросы {\em утечки данных} (leakage) и {\em загрязнения} (contamination) являются наиболее важными и сложными для решения в контексте оценки генеративного ИИ. Интересно, что в области ИИ-соревнований были разработаны эффективные меры и практики для борьбы с утечками с целью противодействия мошенничеству со стороны недобросовестных участников в рамках соревнований. Это делает ИИ-соревнования особенно ценным (но недостаточно используемым) ресурсом. Настало время для сообщества рассматривать ИИ-соревнования как золотой стандарт эмпирической строгости в оценке генеративного ИИ и использовать их результаты с соответствующей ценностью.
Разреженные архитектуры смеси экспертов (Sparse Mixture of Experts, MoE) стали перспективным подходом для масштабирования моделей Transformer. Хотя первоначальные работы в основном интегрировали MoE в слои прямого распространения (feed-forward network, FFN), недавние исследования изучили возможность расширения парадигмы MoE на слои внимания для повышения производительности модели. Однако существующие MoE-слои, основанные на механизме внимания, требуют специализированных реализаций и демонстрируют менее оптимальную производительность по сравнению с их аналогами, основанными на FFN. В данной статье мы стремимся унифицировать дизайн MoE в слоях внимания и FFN, предлагая новую реформулировку механизма внимания, которая раскрывает лежащую в его основе структуру, подобную FFN. Наша предложенная архитектура, UMoE, достигает превосходной производительности за счет MoE-слоев, основанных на внимании, при этом обеспечивая эффективное совместное использование параметров между компонентами FFN и внимания.
Системы генерации с усилением поиском (RAG) объединяют большие языковые модели (LLM) с извлечением внешних знаний, что делает их высокоэффективными для задач, требующих глубоких знаний. Ключевым, но часто недостаточно изученным компонентом этих систем является реранкер, который уточняет извлеченные документы для повышения качества генерации и объяснимости. Проблема выбора оптимального количества документов (k) остается нерешенной: слишком малое количество может упустить критически важную информацию, а слишком большое — вносит шум и неэффективность. Хотя в последних исследованиях изучались реранкеры на основе LLM, они в основном используют внутренние знания модели и упускают богатые сигналы, которые LLM могут предоставить, такие как использование качества ответа в качестве обратной связи для оптимизации решений по реранкингу. В данной статье мы предлагаем DynamicRAG, новую RAG-структуру, в которой реранкер динамически корректирует как порядок, так и количество извлеченных документов на основе запроса. Мы моделируем реранкер как агента, оптимизированного с помощью обучения с подкреплением (RL), используя награды, полученные из качества вывода LLM. На семи наборах данных, требующих глубоких знаний, DynamicRAG демонстрирует превосходную производительность, достигая результатов, соответствующих современным стандартам. Модель, данные и код доступны по адресу https://github.com/GasolSun36/DynamicRAG.
Мы представляем LlamaPIE — первого в мире ассистента, работающего в реальном времени и оказывающего проактивную поддержку для улучшения человеческих диалогов с помощью ненавязчивых и лаконичных подсказок, доставляемых через носимые аудиоустройства. В отличие от традиционных языковых моделей, требующих явного вызова пользователем, этот ассистент работает в фоновом режиме, предугадывая потребности пользователя, не прерывая разговора. Мы решаем несколько ключевых задач, включая определение момента для ответа, создание кратких ответов, которые улучшают диалог, использование знаний о пользователе для контекстно-зависимой помощи, а также обработку данных в реальном времени на устройстве. Для этого мы создаем полусинтетический набор данных диалогов и предлагаем двухмодельный конвейер: небольшая модель решает, когда отвечать, а более крупная модель генерирует ответ. Мы оцениваем наш подход на реальных наборах данных, демонстрируя его эффективность в предоставлении полезной и ненавязчивой помощи. Пользовательские исследования с нашим ассистентом, реализованным на аппаратной платформе Apple Silicon M2, показывают явное предпочтение проактивного ассистента по сравнению как с базовым сценарием без помощи, так и с реактивной моделью, подчеркивая потенциал LlamaPIE для улучшения живых разговоров.
Обучение визуомоторным стратегиям достигло значительного прогресса в области роботизированной манипуляции, при этом современные подходы в основном полагаются на генеративные модели для моделирования распределения действий. Однако эти методы часто упускают из виду критическую взаимосвязь между визуальным восприятием и предсказанием действий. В данной работе мы представляем Triply-Hierarchical Diffusion Policy (H^{3}DP), новую структуру для обучения визуомоторным стратегиям, которая явно включает иерархические структуры для усиления интеграции между визуальными признаками и генерацией действий. H^{3}DP содержит три уровня иерархии: (1) слоистую организацию входных данных с учетом глубины, которая упорядочивает RGB-D наблюдения на основе информации о глубине; (2) многомасштабные визуальные представления, кодирующие семантические признаки на различных уровнях детализации; и (3) иерархически обусловленный процесс диффузии, который согласует генерацию действий от грубых к точным с соответствующими визуальными признаками. Многочисленные эксперименты демонстрируют, что H^{3}DP обеспечивает среднее относительное улучшение на +27,5% по сравнению с базовыми методами в 44 симуляционных задачах и достигает превосходной производительности в 4 сложных задачах двуручной манипуляции в реальном мире. Страница проекта: https://lyy-iiis.github.io/h3dp/.
Недавним трендом в области больших языковых моделей (LLM) стало развитие рекуррентных моделей с субквадратичной сложностью, которые повышают эффективность обработки длинных контекстов. Мы исследуем ведущие модели для работы с длинными контекстами, уделяя особое внимание тому, как их фиксированный размер рекуррентной памяти влияет на производительность. Наши эксперименты показывают, что даже при обучении на расширенных контекстах использование длинных контекстов в этих моделях остается недостаточно эффективным. В частности, мы демонстрируем, что процедура вывода на основе фрагментов, которая идентифицирует и обрабатывает только наиболее релевантную часть входных данных, может смягчить сбои рекуррентной памяти и быть эффективной для многих задач с длинными контекстами: на тестовом наборе LongBench наш метод улучшает общую производительность модели Falcon3-Mamba-Inst-7B на 14%, Falcon-Mamba-Inst-7B на 28%, RecurrentGemma-IT-9B на 50% и RWKV6-Finch-7B на 51%. Удивительно, но этот простой подход также приводит к передовым результатам в сложном бенчмарке LongBench v2, показывая конкурентоспособную производительность с моделями Transformers аналогичного размера. Более того, наши результаты ставят под сомнение, действительно ли рекуррентные модели используют долгосрочные зависимости, поскольку наша стратегия обработки одного фрагмента демонстрирует более высокую производительность — даже в задачах, которые, предположительно, требуют связей между контекстами.
По мере того как крупные языковые модели (LLM) всё чаще применяются для задач, связанных с обработкой документов — таких как суммаризация документов, ответы на вопросы и извлечение информации — где требования пользователей сосредоточены на получении информации из предоставленных документов, а не на использовании параметрических знаний модели, обеспечение доверия и интерпретируемости этих систем становится критически важной задачей. Ключевым подходом к решению этой проблемы является атрибуция, которая предполагает отслеживание сгенерированных выводов до их исходных документов. Однако, поскольку LLM могут выдавать неточные или неоднозначные ответы, крайне важно оценивать надёжность этих ссылок. Для решения этой проблемы наша работа предлагает два метода. (1) Подход с нулевым обучением (zero-shot), который формулирует атрибуцию как простую задачу текстового следования. Наш метод с использованием модели flan-ul2 демонстрирует улучшение на 0,27% и 2,4% по сравнению с лучшим базовым результатом на наборах данных ID и OOD из AttributionBench соответственно. (2) Мы также исследуем роль механизма внимания в улучшении процесса атрибуции. Используя меньшую модель flan-t5-small, показатели F1 превосходят базовый уровень почти на всех слоях, за исключением 4-го слоя и слоёв с 8 по 11.
Хотя модели глубокого обучения продемонстрировали впечатляющий потенциал в прогнозировании погоды, большинство из них игнорируют либо физику, лежащую в основе эволюции погоды, либо топографию поверхности Земли. Учитывая эти недостатки, мы разработали PASSAT — новую модель глубокого обучения, учитывающую физику и топографию, для прогнозирования погоды. PASSAT связывает эволюцию погоды с двумя ключевыми факторами: (i) процессом адвекции, который может быть описан уравнением адвекции и уравнениями Навье-Стокса; (ii) взаимодействием Земли и атмосферы, которое сложно как моделировать, так и вычислять. PASSAT также учитывает топографию поверхности Земли, вместо того чтобы рассматривать её просто как плоскость. С учётом этих аспектов PASSAT численно решает уравнение адвекции и уравнения Навье-Стокса на сферическом многообразии, использует сферическую графовую нейронную сеть для моделирования взаимодействия Земли и атмосферы и генерирует начальные поля скоростей, необходимые для решения уравнения адвекции, с помощью той же сферической графовой нейронной сети. На наборе данных ERA5 с разрешением 5,625° PASSAT превосходит как современные модели прогнозирования погоды на основе глубокого обучения, так и оперативную модель численного прогнозирования погоды IFS T42. Код и контрольные точки доступны по адресу https://github.com/Yumenomae/PASSAT_5p625.
Создание биологических последовательностей, удовлетворяющих множественным, зачастую противоречивым функциональным и биофизическим критериям, остается ключевой задачей в инженерии биомолекул. Хотя модели дискретного согласования потоков (Discrete Flow Matching) недавно продемонстрировали потенциал для эффективной выборки в высокоразмерных пространствах последовательностей, существующие подходы решают лишь отдельные задачи или требуют непрерывных вложений, которые могут искажать дискретные распределения. Мы представляем Multi-Objective-Guided Discrete Flow Matching (MOG-DFM) — универсальную структуру для направления любого предобученного генератора дискретного согласования потоков к Парето-оптимальным компромиссам между несколькими скалярными целями. На каждом шаге выборки MOG-DFM вычисляет гибридный ранг-направленный показатель для кандидатных переходов и применяет адаптивный гиперконусный фильтр для обеспечения согласованного прогресса по множественным целям. Мы также обучили две безусловные модели дискретного согласования потоков: PepDFM для генерации разнообразных пептидов и EnhancerDFM для создания функциональных энхансерных ДНК, которые служат базовыми моделями для MOG-DFM. Мы демонстрируем эффективность MOG-DFM в генерации пептидных связующих, оптимизированных по пяти свойствам (гемолиз, антифоулинг, растворимость, период полураспада и аффинность связывания), а также в проектировании ДНК-последовательностей с определенными классами энхансеров и формами ДНК. В целом, MOG-DFM доказывает свою мощь как инструмент для проектирования последовательностей биомолекул, управляемого множественными свойствами.