Ежедневно отобранные исследовательские статьи по ИИ с переводами
В данном отчете представлена Kandinsky 5.0 — семейство современных базовых моделей для синтеза изображений высокого разрешения и 10-секундных видеороликов. Фреймворк включает три основные линейки моделей: Kandinsky 5.0 Image Lite — линейку моделей генерации изображений с 6 миллиардами параметров, Kandinsky 5.0 Video Lite — быстрые и легковесные модели преобразования текста в видео и изображения в видео с 2 миллиардами параметров, а также Kandinsky 5.0 Video Pro — модели с 19 миллиардами параметров, обеспечивающие превосходное качество генерации видео. В работе представлен всесторонний обзор жизненного цикла подготовки данных, включающего сбор, обработку, фильтрацию и кластеризацию, для многоэтапного процесса обучения, который включает обширное предварительное обучение и использует методы повышения качества, такие как самообучаемая тонкая настройка (SFT) и пост-обучение на основе обучения с подкреплением (RL). Также описаны новые архитектурные, обучающие и оптимизационные подходы, которые позволяют Kandinsky 5.0 достигать высокой скорости генерации и передовых показателей производительности в различных задачах, что подтверждено оценкой экспертов. Как крупномасштабный и общедоступный генеративный фреймворк, Kandinsky 5.0 раскрывает весь потенциал своего предварительного обучения и последующих этапов, что делает его пригодным для широкого спектра генеративных приложений. Мы надеемся, что данный отчет, наряду с публикацией нашего открытого исходного кода и контрольных точек обучения, внесет значительный вклад в развитие и доступность высококачественных генеративных моделей для исследовательского сообщества.
Видеомодели достигли значительных успехов в генерации высококачественных видео с согласованной динамикой движения. По аналогии с развитием от генерации текста к текстовым рассуждениям в языковом моделировании, прогресс видеомоделей побуждает нас задаться вопросом: способны ли видеомодели к рассуждениям посредством генерации видео? В отличие от дискретного текстового корпуса, видео обеспечивает grounding рассуждений в явных пространственных структурах и временной непрерывности, что делает его идеальным субстратом для пространственных умозаключений. В данной работе мы исследуем парадигму reasoning via video и представляем VR-Bench — комплексный бенчмарк, разработанный для систематической оценки способностей видеомоделей к рассуждениям. Основываясь на задачах решения лабиринтов, которые по своей природе требуют пространственного планирования и многошаговых рассуждений, VR-Bench содержит 7 920 процедурно сгенерированных видео пяти типов лабиринтов в различных визуальных стилях. Наш эмпирический анализ показывает, что SFT эффективно раскрывает способность видеомоделей к рассуждениям. Видеомодели демонстрируют более сильное пространственное восприятие в процессе рассуждений, превосходя ведущие VLM и успешно обобщаясь на разнообразные сценарии, задачи и уровни сложности. Мы также обнаруживаем эффект масштабирования на этапе тестирования: разнообразный сэмплинг во время вывода повышает надежность рассуждений на 10–20%. Эти результаты подчеркивают уникальный потенциал и масштабируемость парадигмы reasoning via video для задач пространственного мышления.
Исследовательские агенты искусственного интеллекта открывают перспективу ускорения научного прогресса за счет автоматизации проектирования, реализации и обучения моделей машинного обучения. Однако данная область все еще находится в зачаточном состоянии, и ключевые факторы, определяющие успех или неудачу траекторий агентов, до конца не изучены. Мы исследуем роль, которую разнообразие идей играет в производительности агентов. Во-первых, мы анализируем траектории агентов на MLE-bench, известном бенчмарке для оценки исследовательских ИИ-агентов, для различных моделей и архитектур агентов. Наш анализ показывает, что разные модели и архитектуры агентов дают различную степень разнообразия идей, и что более эффективные агенты, как правило, обладают повышенным разнообразием идей. Далее мы проводим контролируемый эксперимент, в котором изменяем степень разнообразия идей, демонстрируя, что большее разнообразие идей приводит к более высокой производительности. Наконец, мы укрепляем наши результаты, исследуя дополнительные метрики оценки помимо стандартной бальной системы MLE-bench, показывая, что наши выводы остаются справедливыми и для других метрик производительности агентов.
Обучение с подкреплением (RL) предоставляет принципиальную основу для улучшения визуально-языковых моделей (VLM) в задачах сложного логического вывода. Однако существующие подходы RL часто полагаются на размеченные человеком метки или специфичные для задачи эвристики для определения верифицируемых функций вознаграждения, что является дорогостоящим и сложно масштабируемым. Мы представляем VisPlay, саморазвивающуюся RL-структуру, которая позволяет VLM автономно улучшать свои способности к рассуждению, используя большие объемы немаркированных изображений. Начиная с одной базовой VLM, VisPlay назначает модели две взаимодействующие роли: Формулировщик вопросов на основе изображений, который ставит сложные, но разрешимые визуальные вопросы, и Мультимодальный агент рассуждений, который генерирует серебряные ответы. Эти роли совместно обучаются с помощью Оптимизации относительной групповой политики (GRPO), которая включает вознаграждения за разнообразие и сложность для балансировки сложности генерируемых вопросов и качества серебряных ответов. VisPlay эффективно масштабируется для двух семейств моделей. При обучении на Qwen2.5-VL и MiMo-VL, VisPlay демонстрирует устойчивое улучшение в визуальном reasoning, композиционном обобщении и снижении галлюцинаций на восьми бенчмарках, включая MM-Vet и MMMU, показывая масштабируемый путь к саморазвивающемуся мультимодальному интеллекту. Страница проекта доступна по адресу https://bruno686.github.io/VisPlay/.
Применимость современных моделей сегментации поражений для рентгенограмм органов грудной клетки (РОГК) ограничивается как малым количеством целевых меток, так и зависимостью от длинных, детализированных текстовых описаний экспертного уровня, что создает барьер для практического использования. Для преодоления этих ограничений мы представляем новую парадигму: сегментацию поражений по инструкциям (instruction-guided lesion segmentation, ILS), предназначенную для сегментации различных типов поражений на основе простых, удобных для пользователя инструкций. В рамках этой парадигмы мы создаем MIMIC-ILS — первый масштабный набор данных «инструкция-ответ» для сегментации поражений на РОГК, используя наш полностью автоматизированный мультимодальный конвейер, генерирующий разметку из изображений рентгенограмм и соответствующих им медицинских заключений. MIMIC-ILS содержит 1.1 миллион пар «инструкция-ответ», полученных из 192 тысяч изображений и 91 тысячи уникальных масок сегментации, охватывающих семь основных типов поражений. Для эмпирической демонстрации его полезности мы представляем ROSALIA — модель обработки визуальной и текстовой информации, дообученную на MIMIC-ILS. ROSALIA способна сегментировать различные поражения и предоставлять текстовые объяснения в ответ на пользовательские инструкции. Модель демонстрирует высокую точность сегментации и текстовых ответов в нашей новой задаче, что подчеркивает эффективность нашего конвейера и ценность MIMIC-ILS как фундаментального ресурса для пиксельной локализации поражений на РОГК.
Распространение часовых видеоматериалов (лекций, подкастов, документальных фильмов) усилило потребность в эффективной структуризации контента. Однако существующие подходы ограничены обучением на небольших наборах данных с краткими и обобщенными аннотациями, что снижает их способность к обобщению тонких переходов в длинных видео. Мы представляем ARC-Chapter — первую крупномасштабную модель разделения видео на главы, обученную на более чем миллионе аннотированных глав длинных видео с двуязычными, временно привязанными и иерархическими аннотациями глав. Для достижения этой цели мы создали двуязычный англо-китайский набор данных глав с помощью структурированного конвейера, объединяющего транскрипты ASR, текстовые сцены и визуальные описания в многоуровневые аннотации — от кратких заголовков до развернутых summaries. Мы демонстрируем значительное улучшение производительности при масштабировании данных как по объему, так и по детализации аннотаций. Кроме того, мы разработали новую метрику оценки GRACE, учитывающую множественные пересечения сегментов и семантическое сходство, что лучше отражает гибкость разделения на главы в реальных условиях. Многочисленные эксперименты показывают, что ARC-Chapter устанавливает новый state-of-the-art с существенным отрывом, превосходя предыдущий лучший результат на 14.0% по F1-мере и 11.3% по SODA. Более того, модель демонстрирует отличную трансферную способность, улучшая state-of-the-art в таких downstream-задачах, как плотное описание видео на наборе данных YouCook2.
Мы представляем MHR — параметрическую модель человеческого тела, которая объединяет раздельную парадигму скелета/формы ATLAS с гибкой современной системой риггинга и позовых коррекций, вдохновленной библиотекой Momentum. Наша модель обеспечивает выразительную анатомически достоверную анимацию человека, поддерживает нелинейные позовые коррекции и предназначена для надежной интеграции в конвейеры дополненной/виртуальной реальности и компьютерной графики.
Мы представляем MoS (Mixture of States, Смешение Состояний) — новую парадигму фьюжена для мультимодальных диффузионных моделей, которая объединяет модальности с помощью гибких взаимодействий на основе состояний. В основе MoS лежит обучаемый, покомпонентный (token-wise) маршрутизатор, который создает взаимодействия между скрытыми состояниями модальностей, зависящие от шага денойзинга и входных данных, точно выравнивая признаки на уровне компонентов с траекторией диффузии. Этот маршрутизатор разреженно выбирает топ-k скрытых состояний и обучается по стратегии ε-жадности, эффективно отбирая контекстные признаки с минимальным количеством обучаемых параметров и пренебрежимо малыми вычислительными затратами. Мы проверяем нашу разработку на задачах генерации (MoS-Image) и редактирования (MoS-Editing) изображений по тексту, которые достигают наилучших на сегодняшний день результатов. Всего с 3 до 5 миллиардами параметров наши модели соответствуют или превосходят аналоги размером до 4 раз больше. Эти результаты утверждают MoS как гибкую и вычислительно эффективную парадигму для масштабирования мультимодальных диффузионных моделей.
По мере того как воплощенный интеллект становится ключевым направлением исследований в области искусственного интеллекта, симуляционные платформы должны эволюционировать за пределы низкоуровневых физических взаимодействий, чтобы охватывать сложные, ориентированные на человека социальные поведения. Мы представляем FreeAskWorld — интерактивную симуляционную платформу, которая интегрирует большие языковые модели (LLM) для планирования поведений высокого уровня и семантически обоснованного взаимодействия, опираясь на теории интенциональности и социального познания. Наша платформа поддерживает масштабируемые, реалистичные симуляции "человек-агент" и включает модульный конвейер генерации данных, адаптированный для разнообразных воплощенных задач. Для валидации платформы мы расширяем классическую задачу навигации на основе зрения и языка (VLN) до обогащенной взаимодействием постановки "Направленный запрос", в которой агенты могут активно запрашивать и интерпретировать навигационные указания. Мы представляем и публично выпускаем FreeAskWorld — масштабный эталонный набор данных, включающий реконструированные среды, шесть различных типов задач, 16 основных категорий объектов, 63 429 аннотированных кадров-примеров и более 17 часов данных взаимодействия для поддержки обучения и оценки воплощенных систем ИИ. Мы проводим сравнительный анализ моделей VLN и участников-людей в условиях как разомкнутого, так и замкнутого контура. Результаты экспериментов демонстрируют, что модели, дообученные на FreeAskWorld, превосходят свои исходные аналоги, достигая улучшенного семантического понимания и компетентности во взаимодействии. Эти результаты подчеркивают эффективность социально обоснованных симуляционных платформ в продвижении воплощенных систем ИИ к сложному планированию высокого уровня и более естественному взаимодействию "человек-агент". Важно отметить, что наша работа подчеркивает, что само взаимодействие служит дополнительной модальностью информации.
Плотное сопоставление признаков направлено на оценку всех соответствий между двумя изображениями трёхмерной сцены и в последнее время стало золотым стандартом благодаря своей высокой точности и надёжности. Однако существующие алгоритмы плотного сопоставления по-прежнему дают сбои или работают неудовлетворительно во многих сложных реальных сценариях, а высокоточные модели часто оказываются медленными, что ограничивает область их применения. В данной статье мы устраняем эти недостатки по широкому фронту с помощью серии систематических улучшений, которые в совокупности дают значительно лучшую модель. В частности, мы создаём новую архитектуру сопоставления и функцию потерь, которые в сочетании с тщательно подобранным разнообразным распределением обучающих данных позволяют нашей модели решать множество сложных задач сопоставления. Мы дополнительно ускоряем обучение за счёт разделённого двухэтапного конвейера «сопоставление → уточнение» и одновременно значительно сокращаем использование памяти на этапе уточнения с помощью специального CUDA-ядра. Наконец, мы используем недавно появившуюся базовую модель DINOv3 наряду с другими идеями, чтобы сделать модель более устойчивой и менее смещённой. В нашем обширном цикле экспериментов мы показываем, что получившийся новый алгоритм сопоставления устанавливает новый state-of-the-art, значительно превосходя по точности своих предшественников. Код доступен по адресу https://github.com/Parskatt/romav2
Последние достижения в области генеративного искусственного интеллекта для музыки позволили добиться впечатляющей точности и стилевого разнообразия, однако эти системы часто не соответствуют тонким человеческим предпочтениям из-за используемых ими функций потерь. В данной статье обосновывается необходимость систематического применения методов согласования с предпочтениями в генерации музыки для преодоления фундаментального разрыва между вычислительной оптимизацией и человеческим восприятием музыки. Опираясь на недавние прорывы, включая масштабное обучение предпочтениям в MusicRL, многокритериальные фреймворки согласования, такие как оптимизация предпочтений на основе диффузии в DiffRhythm+, и техники оптимизации на этапе вывода, такие как Text2midi-InferAlign, мы обсуждаем, как эти методы могут решить уникальные задачи музыки: временную согласованность, гармоническую целостность и субъективную оценку качества. Мы определяем ключевые исследовательские проблемы, включая масштабируемость для крупномасштабных композиций и надежность моделирования предпочтений. В перспективе мы видим, что генерация музыки, согласованная с предпочтениями, откроет transformative возможности для интерактивных инструментов композиции и персонализированных музыкальных сервисов. Эта работа призывает к устойчивым междисциплинарным исследованиям, объединяющим достижения в машинном обучении и музыковедении для создания музыкальных ИИ-систем, которые действительно служат творческим и экзистенциальным потребностям человека.
Мы представляем Medal S — фундаментальную модель для медицинской сегментации, поддерживающую нативные пространственные и текстовые промпты в рамках сквозной обучаемой архитектуры. В отличие от методов, использующих только текст и лишённых пространственного контекста, Medal S обеспечивает поэлементное выравнивание объёмных промптов и текстовых эмбеддингов, минимизируя погрешности, вызванные несоответствием разрешений. Сохраняя полный 3D-контекст, модель эффективно обрабатывает несколько масок в нативном разрешении параллельно, повышая производительность при многоклассовой сегментации. Лёгкий 3D-свёрточный модуль обеспечивает точное уточнение в воксельном пространстве на основе обоих типов промптов, поддерживая до 243 классов для данных КТ, МРТ, ПЭТ, УЗИ и микроскопии из набора данных BiomedSegFM. Medal S предлагает два режима промптинга: текстовый режим, в котором прогнозы модели служат пространственными промптами для самоуточнения без участия человека, и гибридный режим, включающий ручные разметки для повышения гибкости. При 24-классовой сегментации параллельный пространственный промптинг сокращает время вывода более чем на 90% по сравнению с последовательным промптингом. Мы предлагаем метод динамического передискретизации для устранения дисбаланса соотношения целевых участков и патчей, расширяя подходы SAT и nnU-Net для аугментации данных. Кроме того, мы разработали оптимизированную текстовую предобработку, двухэтапную стратегию вывода и методы постобработки для улучшения эффективности использования памяти, точности и скорости вывода. На валидационной выборке по усреднённым показателям пяти модальностей Medal S превосходит SAT с DSC 75.44 (против 69.83), NSD 77.34 (против 71.06), F1 38.24 (против 24.88) и DSC TP 65.46 (против 46.97). Medal S демонстрирует высокую производительность за счёт гармонизации пространственной точности и семантической текстовой guidance, обеспечивая превосходную эффективность и точность в задачах многоклассовой медицинской сегментации по сравнению с подходами на основе последовательных промптов. Модель Medal S будет общедоступна по адресу https://github.com/yinghemedical/Medal-S.