HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

12 papers found

Kandinsky 5.0: Семейство базовых моделей для генерации изображений и видео
Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation

Nov 19

ByVladimir Arkhipkin, Vladimir Korviakov, Nikolai Gerasimenko, Denis Parkhomenko, Viacheslav Vasilev, Alexey Letunovskiy, Maria Kovaleva, Nikolai Vaulin, Ivan Kirillov, Lev Novitskiy, Denis Koposov, Nikita Kiselev, Alexander Varlamov, Dmitrii Mikhailov, Vladimir Polovnikov, Andrey Shutkin, Ilya Vasiliev, Julia Agafonova, Anastasiia Kargapoltseva, Anna Dmitrienko, Anastasia Maltseva, Anna Averchenkova, Olga Kim, Tatiana Nikulina, Denis Dimitrov

125

В данном отчете представлена Kandinsky 5.0 — семейство современных базовых моделей для синтеза изображений высокого разрешения и 10-секундных видеороликов. Фреймворк включает три основные линейки моделей: Kandinsky 5.0 Image Lite — линейку моделей генерации изображений с 6 миллиардами параметров, Kandinsky 5.0 Video Lite — быстрые и легковесные модели преобразования текста в видео и изображения в видео с 2 миллиардами параметров, а также Kandinsky 5.0 Video Pro — модели с 19 миллиардами параметров, обеспечивающие превосходное качество генерации видео. В работе представлен всесторонний обзор жизненного цикла подготовки данных, включающего сбор, обработку, фильтрацию и кластеризацию, для многоэтапного процесса обучения, который включает обширное предварительное обучение и использует методы повышения качества, такие как самообучаемая тонкая настройка (SFT) и пост-обучение на основе обучения с подкреплением (RL). Также описаны новые архитектурные, обучающие и оптимизационные подходы, которые позволяют Kandinsky 5.0 достигать высокой скорости генерации и передовых показателей производительности в различных задачах, что подтверждено оценкой экспертов. Как крупномасштабный и общедоступный генеративный фреймворк, Kandinsky 5.0 раскрывает весь потенциал своего предварительного обучения и последующих этапов, что делает его пригодным для широкого спектра генеративных приложений. Мы надеемся, что данный отчет, наряду с публикацией нашего открытого исходного кода и контрольных точек обучения, внесет значительный вклад в развитие и доступность высококачественных генеративных моделей для исследовательского сообщества.

Рассуждение через видео: первая оценка способностей видеомоделей к рассуждению с помощью задач по прохождению лабиринтов
Reasoning via Video: The First Evaluation of Video Models' Reasoning Abilities through Maze-Solving Tasks

Nov 19

ByCheng Yang, Haiyuan Wan, Yiran Peng, Xin Cheng, Zhaoyang Yu, Jiayi Zhang, Junchi Yu, Xinlei Yu, Xiawu Zheng, Dongzhan Zhou, Chenglin Wu

Видеомодели достигли значительных успехов в генерации высококачественных видео с согласованной динамикой движения. По аналогии с развитием от генерации текста к текстовым рассуждениям в языковом моделировании, прогресс видеомоделей побуждает нас задаться вопросом: способны ли видеомодели к рассуждениям посредством генерации видео? В отличие от дискретного текстового корпуса, видео обеспечивает grounding рассуждений в явных пространственных структурах и временной непрерывности, что делает его идеальным субстратом для пространственных умозаключений. В данной работе мы исследуем парадигму reasoning via video и представляем VR-Bench — комплексный бенчмарк, разработанный для систематической оценки способностей видеомоделей к рассуждениям. Основываясь на задачах решения лабиринтов, которые по своей природе требуют пространственного планирования и многошаговых рассуждений, VR-Bench содержит 7 920 процедурно сгенерированных видео пяти типов лабиринтов в различных визуальных стилях. Наш эмпирический анализ показывает, что SFT эффективно раскрывает способность видеомоделей к рассуждениям. Видеомодели демонстрируют более сильное пространственное восприятие в процессе рассуждений, превосходя ведущие VLM и успешно обобщаясь на разнообразные сценарии, задачи и уровни сложности. Мы также обнаруживаем эффект масштабирования на этапе тестирования: разнообразный сэмплинг во время вывода повышает надежность рассуждений на 10–20%. Эти результаты подчеркивают уникальный потенциал и масштабируемость парадигмы reasoning via video для задач пространственного мышления.

Что необходимо для создания эффективного исследовательского агента ИИ? Изучение роли разнообразия идей
What Does It Take to Be a Good AI Research Agent? Studying the Role of Ideation Diversity

Nov 19

ByAlexis Audran-Reiss, Jordi Armengol Estapé, Karen Hambardzumyan, Amar Budhiraja, Martin Josifoski, Edan Toledo, Rishi Hazra, Despoina Magka, Michael Shvartsman, Parth Pathak, Justine T Kao, Lucia Cipolina-Kun, Bhavul Gauri, Jean-Christophe Gagnon-Audet, Emanuel Tewolde, Jenny Zhang, Taco Cohen, Yossi Adi, Tatiana Shavrina, Yoram Bachrach

Исследовательские агенты искусственного интеллекта открывают перспективу ускорения научного прогресса за счет автоматизации проектирования, реализации и обучения моделей машинного обучения. Однако данная область все еще находится в зачаточном состоянии, и ключевые факторы, определяющие успех или неудачу траекторий агентов, до конца не изучены. Мы исследуем роль, которую разнообразие идей играет в производительности агентов. Во-первых, мы анализируем траектории агентов на MLE-bench, известном бенчмарке для оценки исследовательских ИИ-агентов, для различных моделей и архитектур агентов. Наш анализ показывает, что разные модели и архитектуры агентов дают различную степень разнообразия идей, и что более эффективные агенты, как правило, обладают повышенным разнообразием идей. Далее мы проводим контролируемый эксперимент, в котором изменяем степень разнообразия идей, демонстрируя, что большее разнообразие идей приводит к более высокой производительности. Наконец, мы укрепляем наши результаты, исследуя дополнительные метрики оценки помимо стандартной бальной системы MLE-bench, показывая, что наши выводы остаются справедливыми и для других метрик производительности агентов.

VisPlay: Саморазвивающиеся модели «визуальный язык» на основе изображений
VisPlay: Self-Evolving Vision-Language Models from Images

Nov 19

ByYicheng He, Chengsong Huang, Zongxia Li, Jiaxin Huang, Yonghui Yang

Обучение с подкреплением (RL) предоставляет принципиальную основу для улучшения визуально-языковых моделей (VLM) в задачах сложного логического вывода. Однако существующие подходы RL часто полагаются на размеченные человеком метки или специфичные для задачи эвристики для определения верифицируемых функций вознаграждения, что является дорогостоящим и сложно масштабируемым. Мы представляем VisPlay, саморазвивающуюся RL-структуру, которая позволяет VLM автономно улучшать свои способности к рассуждению, используя большие объемы немаркированных изображений. Начиная с одной базовой VLM, VisPlay назначает модели две взаимодействующие роли: Формулировщик вопросов на основе изображений, который ставит сложные, но разрешимые визуальные вопросы, и Мультимодальный агент рассуждений, который генерирует серебряные ответы. Эти роли совместно обучаются с помощью Оптимизации относительной групповой политики (GRPO), которая включает вознаграждения за разнообразие и сложность для балансировки сложности генерируемых вопросов и качества серебряных ответов. VisPlay эффективно масштабируется для двух семейств моделей. При обучении на Qwen2.5-VL и MiMo-VL, VisPlay демонстрирует устойчивое улучшение в визуальном reasoning, композиционном обобщении и снижении галлюцинаций на восьми бенчмарках, включая MM-Vet и MMMU, показывая масштабируемый путь к саморазвивающемуся мультимодальному интеллекту. Страница проекта доступна по адресу https://bruno686.github.io/VisPlay/.

Сегментация поражений на рентгенограммах органов грудной клетки с управлением по инструкциям на основе автоматически сгенерированного масштабного набора данных
Instruction-Guided Lesion Segmentation for Chest X-rays with Automatically Generated Large-Scale Dataset

Nov 19

ByGeon Choi, Hangyul Yoon, Hyunju Shin, Hyunki Park, Sang Hoon Seo, Eunho Yang, Edward Choi

Применимость современных моделей сегментации поражений для рентгенограмм органов грудной клетки (РОГК) ограничивается как малым количеством целевых меток, так и зависимостью от длинных, детализированных текстовых описаний экспертного уровня, что создает барьер для практического использования. Для преодоления этих ограничений мы представляем новую парадигму: сегментацию поражений по инструкциям (instruction-guided lesion segmentation, ILS), предназначенную для сегментации различных типов поражений на основе простых, удобных для пользователя инструкций. В рамках этой парадигмы мы создаем MIMIC-ILS — первый масштабный набор данных «инструкция-ответ» для сегментации поражений на РОГК, используя наш полностью автоматизированный мультимодальный конвейер, генерирующий разметку из изображений рентгенограмм и соответствующих им медицинских заключений. MIMIC-ILS содержит 1.1 миллион пар «инструкция-ответ», полученных из 192 тысяч изображений и 91 тысячи уникальных масок сегментации, охватывающих семь основных типов поражений. Для эмпирической демонстрации его полезности мы представляем ROSALIA — модель обработки визуальной и текстовой информации, дообученную на MIMIC-ILS. ROSALIA способна сегментировать различные поражения и предоставлять текстовые объяснения в ответ на пользовательские инструкции. Модель демонстрирует высокую точность сегментации и текстовых ответов в нашей новой задаче, что подчеркивает эффективность нашего конвейера и ценность MIMIC-ILS как фундаментального ресурса для пиксельной локализации поражений на РОГК.

ARC-Chapter: Структурирование часовых видео в навигационные главы и иерархические сводки
ARC-Chapter: Structuring Hour-Long Videos into Navigable Chapters and Hierarchical Summaries

Nov 18

ByJunfu Pu, Teng Wang, Yixiao Ge, Yuying Ge, Chen Li, Ying Shan

Распространение часовых видеоматериалов (лекций, подкастов, документальных фильмов) усилило потребность в эффективной структуризации контента. Однако существующие подходы ограничены обучением на небольших наборах данных с краткими и обобщенными аннотациями, что снижает их способность к обобщению тонких переходов в длинных видео. Мы представляем ARC-Chapter — первую крупномасштабную модель разделения видео на главы, обученную на более чем миллионе аннотированных глав длинных видео с двуязычными, временно привязанными и иерархическими аннотациями глав. Для достижения этой цели мы создали двуязычный англо-китайский набор данных глав с помощью структурированного конвейера, объединяющего транскрипты ASR, текстовые сцены и визуальные описания в многоуровневые аннотации — от кратких заголовков до развернутых summaries. Мы демонстрируем значительное улучшение производительности при масштабировании данных как по объему, так и по детализации аннотаций. Кроме того, мы разработали новую метрику оценки GRACE, учитывающую множественные пересечения сегментов и семантическое сходство, что лучше отражает гибкость разделения на главы в реальных условиях. Многочисленные эксперименты показывают, что ARC-Chapter устанавливает новый state-of-the-art с существенным отрывом, превосходя предыдущий лучший результат на 14.0% по F1-мере и 11.3% по SODA. Более того, модель демонстрирует отличную трансферную способность, улучшая state-of-the-art в таких downstream-задачах, как плотное описание видео на наборе данных YouCook2.

MHR: Momentum Human Rig
MHR: Momentum Human Rig

Nov 19

ByAaron Ferguson, Ahmed A. A. Osman, Berta Bescos, Carsten Stoll, Chris Twigg, Christoph Lassner, David Otte, Eric Vignola, Federica Bogo, Igor Santesteban, Javier Romero, Jenna Zarate, Jeongseok Lee, Jinhyung Park, Jinlong Yang, John Doublestein, Kishore Venkateshan, Kris Kitani, Ladislav Kavan, Marco Dal Farra, Matthew Hu, Matthew Cioffi, Michael Fabris, Michael Ranieri, Mohammad Modarres, Petr Kadlecek, Rinat Abdrashitov, Romain Prévost, Roman Rajbhandari, Ronald Mallet, Russel Pearsall, Sandy Kao, Sanjeev Kumar, Scott Parrish, Te-Li Wang, Tony Tung, Yuan Dong, Yuhua Chen, Yuanlu Xu, Yuting Ye, Zhongshi Jiang

Мы представляем MHR — параметрическую модель человеческого тела, которая объединяет раздельную парадигму скелета/формы ATLAS с гибкой современной системой риггинга и позовых коррекций, вдохновленной библиотекой Momentum. Наша модель обеспечивает выразительную анатомически достоверную анимацию человека, поддерживает нелинейные позовые коррекции и предназначена для надежной интеграции в конвейеры дополненной/виртуальной реальности и компьютерной графики.

Смесь состояний: маршрутизация токен-уровневой динамики для мультимодального порождения
Mixture of States: Routing Token-Level Dynamics for Multimodal Generation

Nov 15

ByHaozhe Liu, Ding Liu, Mingchen Zhuge, Zijian Zhou, Tian Xie, Sen He, Yukang Yang, Shuming Liu, Yuren Cong, Jiadong Guo, Hongyu Xu, Ke Xu, Kam-Woh Ng, Juan C. Pérez, Juan-Manuel~Pérez-Rúa, Tao Xiang, Wei Liu, Shikun Liu, Jürgen Schmidhuber

Мы представляем MoS (Mixture of States, Смешение Состояний) — новую парадигму фьюжена для мультимодальных диффузионных моделей, которая объединяет модальности с помощью гибких взаимодействий на основе состояний. В основе MoS лежит обучаемый, покомпонентный (token-wise) маршрутизатор, который создает взаимодействия между скрытыми состояниями модальностей, зависящие от шага денойзинга и входных данных, точно выравнивая признаки на уровне компонентов с траекторией диффузии. Этот маршрутизатор разреженно выбирает топ-k скрытых состояний и обучается по стратегии ε-жадности, эффективно отбирая контекстные признаки с минимальным количеством обучаемых параметров и пренебрежимо малыми вычислительными затратами. Мы проверяем нашу разработку на задачах генерации (MoS-Image) и редактирования (MoS-Editing) изображений по тексту, которые достигают наилучших на сегодняшний день результатов. Всего с 3 до 5 миллиардами параметров наши модели соответствуют или превосходят аналоги размером до 4 раз больше. Эти результаты утверждают MoS как гибкую и вычислительно эффективную парадигму для масштабирования мультимодальных диффузионных моделей.

FreeAskWorld: Интерактивный и замкнутый симулятор для человеко-ориентированного воплощенного искусственного интеллекта
FreeAskWorld: An Interactive and Closed-Loop Simulator for Human-Centric Embodied AI

Nov 17

ByYuhang Peng, Yizhou Pan, Xinning He, Jihaoyu Yang, Xinyu Yin, Han Wang, Xiaoji Zheng, Chao Gao, Jiangtao Gong

По мере того как воплощенный интеллект становится ключевым направлением исследований в области искусственного интеллекта, симуляционные платформы должны эволюционировать за пределы низкоуровневых физических взаимодействий, чтобы охватывать сложные, ориентированные на человека социальные поведения. Мы представляем FreeAskWorld — интерактивную симуляционную платформу, которая интегрирует большие языковые модели (LLM) для планирования поведений высокого уровня и семантически обоснованного взаимодействия, опираясь на теории интенциональности и социального познания. Наша платформа поддерживает масштабируемые, реалистичные симуляции "человек-агент" и включает модульный конвейер генерации данных, адаптированный для разнообразных воплощенных задач. Для валидации платформы мы расширяем классическую задачу навигации на основе зрения и языка (VLN) до обогащенной взаимодействием постановки "Направленный запрос", в которой агенты могут активно запрашивать и интерпретировать навигационные указания. Мы представляем и публично выпускаем FreeAskWorld — масштабный эталонный набор данных, включающий реконструированные среды, шесть различных типов задач, 16 основных категорий объектов, 63 429 аннотированных кадров-примеров и более 17 часов данных взаимодействия для поддержки обучения и оценки воплощенных систем ИИ. Мы проводим сравнительный анализ моделей VLN и участников-людей в условиях как разомкнутого, так и замкнутого контура. Результаты экспериментов демонстрируют, что модели, дообученные на FreeAskWorld, превосходят свои исходные аналоги, достигая улучшенного семантического понимания и компетентности во взаимодействии. Эти результаты подчеркивают эффективность социально обоснованных симуляционных платформ в продвижении воплощенных систем ИИ к сложному планированию высокого уровня и более естественному взаимодействию "человек-агент". Важно отметить, что наша работа подчеркивает, что само взаимодействие служит дополнительной модальностью информации.

RoMa v2: Быстрее, лучше, мощнее — более плотное сопоставление признаков
RoMa v2: Harder Better Faster Denser Feature Matching

Nov 19

ByJohan Edstedt, David Nordström, Yushan Zhang, Georg Bökman, Jonathan Astermark, Viktor Larsson, Anders Heyden, Fredrik Kahl, Mårten Wadenbäck, Michael Felsberg

Плотное сопоставление признаков направлено на оценку всех соответствий между двумя изображениями трёхмерной сцены и в последнее время стало золотым стандартом благодаря своей высокой точности и надёжности. Однако существующие алгоритмы плотного сопоставления по-прежнему дают сбои или работают неудовлетворительно во многих сложных реальных сценариях, а высокоточные модели часто оказываются медленными, что ограничивает область их применения. В данной статье мы устраняем эти недостатки по широкому фронту с помощью серии систематических улучшений, которые в совокупности дают значительно лучшую модель. В частности, мы создаём новую архитектуру сопоставления и функцию потерь, которые в сочетании с тщательно подобранным разнообразным распределением обучающих данных позволяют нашей модели решать множество сложных задач сопоставления. Мы дополнительно ускоряем обучение за счёт разделённого двухэтапного конвейера «сопоставление → уточнение» и одновременно значительно сокращаем использование памяти на этапе уточнения с помощью специального CUDA-ядра. Наконец, мы используем недавно появившуюся базовую модель DINOv3 наряду с другими идеями, чтобы сделать модель более устойчивой и менее смещённой. В нашем обширном цикле экспериментов мы показываем, что получившийся новый алгоритм сопоставления устанавливает новый state-of-the-art, значительно превосходя по точности своих предшественников. Код доступен по адресу https://github.com/Parskatt/romav2

Согласование генеративного музыкального ИИ с человеческими предпочтениями: методы и вызовы
Aligning Generative Music AI with Human Preferences: Methods and Challenges

Nov 19

ByDorien Herremans, Abhinaba Roy

Последние достижения в области генеративного искусственного интеллекта для музыки позволили добиться впечатляющей точности и стилевого разнообразия, однако эти системы часто не соответствуют тонким человеческим предпочтениям из-за используемых ими функций потерь. В данной статье обосновывается необходимость систематического применения методов согласования с предпочтениями в генерации музыки для преодоления фундаментального разрыва между вычислительной оптимизацией и человеческим восприятием музыки. Опираясь на недавние прорывы, включая масштабное обучение предпочтениям в MusicRL, многокритериальные фреймворки согласования, такие как оптимизация предпочтений на основе диффузии в DiffRhythm+, и техники оптимизации на этапе вывода, такие как Text2midi-InferAlign, мы обсуждаем, как эти методы могут решить уникальные задачи музыки: временную согласованность, гармоническую целостность и субъективную оценку качества. Мы определяем ключевые исследовательские проблемы, включая масштабируемость для крупномасштабных композиций и надежность моделирования предпочтений. В перспективе мы видим, что генерация музыки, согласованная с предпочтениями, откроет transformative возможности для интерактивных инструментов композиции и персонализированных музыкальных сервисов. Эта работа призывает к устойчивым междисциплинарным исследованиям, объединяющим достижения в машинном обучении и музыковедении для создания музыкальных ИИ-систем, которые действительно служат творческим и экзистенциальным потребностям человека.

Medal S: Пространственно-текстовая промпт-модель для медицинской сегментации
Medal S: Spatio-Textual Prompt Model for Medical Segmentation

Nov 17

ByPengcheng Shi, Jiawei Chen, Jiaqi Liu, Xinglin Zhang, Tao Chen, Lei Li

Мы представляем Medal S — фундаментальную модель для медицинской сегментации, поддерживающую нативные пространственные и текстовые промпты в рамках сквозной обучаемой архитектуры. В отличие от методов, использующих только текст и лишённых пространственного контекста, Medal S обеспечивает поэлементное выравнивание объёмных промптов и текстовых эмбеддингов, минимизируя погрешности, вызванные несоответствием разрешений. Сохраняя полный 3D-контекст, модель эффективно обрабатывает несколько масок в нативном разрешении параллельно, повышая производительность при многоклассовой сегментации. Лёгкий 3D-свёрточный модуль обеспечивает точное уточнение в воксельном пространстве на основе обоих типов промптов, поддерживая до 243 классов для данных КТ, МРТ, ПЭТ, УЗИ и микроскопии из набора данных BiomedSegFM. Medal S предлагает два режима промптинга: текстовый режим, в котором прогнозы модели служат пространственными промптами для самоуточнения без участия человека, и гибридный режим, включающий ручные разметки для повышения гибкости. При 24-классовой сегментации параллельный пространственный промптинг сокращает время вывода более чем на 90% по сравнению с последовательным промптингом. Мы предлагаем метод динамического передискретизации для устранения дисбаланса соотношения целевых участков и патчей, расширяя подходы SAT и nnU-Net для аугментации данных. Кроме того, мы разработали оптимизированную текстовую предобработку, двухэтапную стратегию вывода и методы постобработки для улучшения эффективности использования памяти, точности и скорости вывода. На валидационной выборке по усреднённым показателям пяти модальностей Medal S превосходит SAT с DSC 75.44 (против 69.83), NSD 77.34 (против 71.06), F1 38.24 (против 24.88) и DSC TP 65.46 (против 46.97). Medal S демонстрирует высокую производительность за счёт гармонизации пространственной точности и семантической текстовой guidance, обеспечивая превосходную эффективность и точность в задачах многоклассовой медицинской сегментации по сравнению с подходами на основе последовательных промптов. Модель Medal S будет общедоступна по адресу https://github.com/yinghemedical/Medal-S.

Medal S: Пространственно-текстовая промпт-модель для медицинской сегментации
Medal S: Spatio-Textual Prompt Model for Medical Segmentation

Nov 17

ByPengcheng Shi, Jiawei Chen, Jiaqi Liu, Xinglin Zhang, Tao Chen, Lei Li