Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Seaweed-7B: Экономически эффективное обучение базовой модели для генерации видео
Seaweed-7B: Cost-Effective Training of Video Generation Foundation Model

Apr 11

ByTeam Seawead, Ceyuan Yang, Zhijie Lin, Yang Zhao, Shanchuan Lin, Zhibei Ma, Haoyuan Guo, Hao Chen, Lu Qi, Sen Wang, Feng Cheng, Feilong Zuo Xuejiao Zeng, Ziyan Yang, Fangyuan Kong, Zhiwu Qing, Fei Xiao, Meng Wei, Tuyen Hoang, Siyu Zhang, Peihao Zhu, Qi Zhao, Jiangqiao Yan, Liangke Gui, Sheng Bi, Jiashi Li, Yuxi Ren, Rui Wang, Huixia Li, Xuefeng Xiao, Shu Liu, Feng Ling, Heng Zhang, Houmin Wei, Huafeng Kuang, Jerry Duncan, Junda Zhang, Junru Zheng, Li Sun, Manlin Zhang, Renfei Sun, Xiaobin Zhuang, Xiaojie Li, Xin Xia, Xuyan Chi, Yanghua Peng, Yuping Wang, Yuxuan Wang, Zhongkai Zhao, Zhuo Chen, Zuquan Song, Zhenheng Yang, Jiashi Feng, Jianchao Yang, Lu Jiang

130

В данном техническом отчете представлена экономически эффективная стратегия обучения базовой модели для генерации видео. Мы представляем исследовательскую модель среднего размера с примерно 7 миллиардами параметров (7B), названную Seaweed-7B, которая была обучена с нуля с использованием 665 000 часов работы GPU H100. Несмотря на обучение с умеренными вычислительными ресурсами, Seaweed-7B демонстрирует высококонкурентную производительность по сравнению с современными моделями генерации видео значительно большего размера. В условиях ограниченных ресурсов особенно важны продуманные проектные решения. В этом техническом отчете выделены ключевые проектные решения, которые повышают производительность модели диффузии среднего размера. Эмпирически мы делаем два наблюдения: (1) Seaweed-7B достигает производительности, сопоставимой или даже превосходящей более крупные модели, обученные с использованием значительно больших вычислительных ресурсов, и (2) наша модель, обладающая сильной способностью к обобщению, может быть эффективно адаптирована для широкого спектра прикладных задач либо путем легкой дообучения, либо продолжения обучения. Подробнее на странице проекта: https://seaweed.video/

GigaTok: Масштабирование визуальных токенизаторов до 3 миллиардов параметров для авторегрессивной генерации изображений
GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation

Apr 11

ByTianwei Xiong, Jun Hao Liew, Zilong Huang, Jiashi Feng, Xihui Liu

В авторегрессионной (AR) генерации изображений визуальные токенизаторы сжимают изображения в компактные дискретные латентные токены, что позволяет эффективно обучать последующие авторегрессионные модели для визуальной генерации через предсказание следующего токена. Хотя масштабирование визуальных токенизаторов улучшает качество реконструкции изображений, оно часто ухудшает качество последующей генерации — проблема, которая недостаточно освещена в существующей литературе. Чтобы решить эту задачу, мы представляем GigaTok — первый подход, который одновременно улучшает реконструкцию изображений, генерацию и обучение представлений при масштабировании визуальных токенизаторов. Мы выявляем растущую сложность латентного пространства как ключевой фактор, стоящий за дилеммой реконструкции и генерации. Для смягчения этого эффекта мы предлагаем семантическую регуляризацию, которая согласует признаки токенизатора с семантически согласованными признаками из предварительно обученного визуального энкодера. Это ограничение предотвращает чрезмерную сложность латентного пространства при масштабировании, обеспечивая последовательные улучшения как в реконструкции, так и в последующей авторегрессионной генерации. Основываясь на семантической регуляризации, мы исследуем три ключевых практики для масштабирования токенизаторов: (1) использование 1D токенизаторов для лучшей масштабируемости, (2) приоритет масштабирования декодера при расширении как энкодера, так и декодера и (3) применение энтропийной потери для стабилизации обучения токенизаторов с миллиардами параметров. Масштабируя до 3 миллиардов параметров, GigaTok достигает передовых результатов в реконструкции, последующей AR-генерации и качестве AR-представлений.

MineWorld: интерактивная модель мира в реальном времени с открытым исходным кодом на базе Minecraft
MineWorld: a Real-Time and Open-Source Interactive World Model on Minecraft

Apr 11

ByJunliang Guo, Yang Ye, Tianyu He, Haoyu Wu, Yushu Jiang, Tim Pearce, Jiang Bian

Моделирование мира является ключевой задачей для создания интеллектуальных агентов, способных эффективно взаимодействовать с людьми и функционировать в динамичных средах. В данной работе мы представляем MineWorld — интерактивную модель мира в реальном времени, разработанную на основе Minecraft, открытой песочницы, которая широко используется как тестовая платформа для моделирования мира. MineWorld основана на визуально-действенном авторегрессивном трансформере, который принимает на вход парные игровые сцены и соответствующие действия, а затем генерирует последующие новые сцены в соответствии с этими действиями. В частности, преобразуя визуальные игровые сцены и действия в дискретные идентификаторы токенов с помощью токенизатора изображений и токенизатора действий соответственно, мы формируем входные данные модели путем конкатенации этих двух типов идентификаторов, чередующихся между собой. Модель обучается с использованием предсказания следующего токена, что позволяет ей одновременно изучать богатые представления игровых состояний и взаимосвязи между состояниями и действиями. На этапе вывода мы разработали новый алгоритм параллельного декодирования, который предсказывает пространственно избыточные токены в каждом кадре одновременно, что позволяет моделям различных масштабов генерировать от 4 до 7 кадров в секунду и обеспечивает взаимодействие с игроками в реальном времени. В рамках оценки мы предлагаем новые метрики, которые оценивают не только визуальное качество, но и способность модели следовать действиям при генерации новых сцен, что является критически важным для модели мира. Наши всесторонние эксперименты демонстрируют эффективность MineWorld, значительно превосходящей современные открытые модели мира, основанные на диффузии. Код и модель были опубликованы.

VLM-R1: Стабильная и обобщаемая крупномасштабная модель обработки визуально-языковых данных в стиле R1
VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model

Apr 10

ByHaozhan Shen, Peng Liu, Jingcheng Li, Chunxin Fang, Yibo Ma, Jiajia Liao, Qiaoli Shen, Zilun Zhang, Kangjia Zhao, Qianqian Zhang, Ruochen Xu, Tiancheng Zhao

Недавно DeepSeek R1 продемонстрировал, что обучение с подкреплением (RL) может существенно улучшить способности к рассуждению у крупных языковых моделей (LLMs) благодаря простой, но эффективной конструкции. Основой R1 является его правило-ориентированная формулировка вознаграждения, которая использует задачи с детерминированными правильными ответами для обеспечения точного и стабильного вычисления вознаграждения. В визуальной области мы аналогично наблюдаем, что широкий спектр задач визуального понимания изначально снабжен четко определенными аннотациями. Это свойство делает их естественно совместимыми с правило-ориентированными механизмами вознаграждения. Вдохновленные этим наблюдением, мы исследуем расширение стиля обучения с подкреплением R1 на визуально-языковые модели (VLMs), стремясь улучшить их способности к визуальному рассуждению. Для этого мы разрабатываем VLM-R1, специализированную структуру, предназначенную для использования RL для повышения производительности VLMs на общих задачах визуально-языкового взаимодействия. Используя эту структуру, мы также исследуем возможность применения RL в визуальной области. Результаты экспериментов показывают, что модель на основе RL не только демонстрирует конкурентоспособную производительность на задачах визуального понимания, но и превосходит тонкую настройку с учителем (SFT) в способности к обобщению. Кроме того, мы проводим всесторонние исследования, которые выявляют ряд значимых инсайтов, включая наличие "взлома вознаграждения" в обнаружении объектов, возникновение "момента озарения OD", влияние качества обучающих данных и масштабируемость RL для моделей разных размеров. Через эти анализы мы стремимся углубить понимание того, как обучение с подкреплением улучшает возможности визуально-языковых моделей, и надеемся, что наши результаты и открытые исходные материалы будут способствовать дальнейшему прогрессу в сообществе RL для визуально-языковых задач. Наш код и модель доступны по адресу https://github.com/om-ai-lab/VLM-R1.

SQL-R1: Обучение модели преобразования естественного языка в SQL с использованием обучения с подкреплением
SQL-R1: Training Natural Language to SQL Reasoning Model By Reinforcement Learning

Apr 11

ByPeixian Ma, Xialie Zhuang, Chengjin Xu, Xuhui Jiang, Ran Chen, Jian Guo

Преобразование естественного языка в SQL (NL2SQL) обеспечивает интуитивное взаимодействие с базами данных, преобразуя запросы на естественном языке в структурированные SQL-выражения. Несмотря на недавние достижения в улучшении взаимодействия человека с компьютером в приложениях баз данных, сохраняются значительные проблемы, особенно в отношении производительности вывода в сложных сценариях, включающих соединения нескольких таблиц и вложенные запросы. Современные методы в основном используют контролируемую тонкую настройку (SFT) для обучения модели NL2SQL, что может ограничивать адаптируемость и интерпретируемость в новых средах (например, в финансах и здравоохранении). Для повышения производительности рассуждений модели NL2SQL в указанных сложных ситуациях мы представляем SQL-R1 — новую модель рассуждений NL2SQL, обученную с использованием алгоритмов обучения с подкреплением (RL). Мы разработали специализированную функцию вознаграждения на основе RL, адаптированную для задач NL2SQL, и обсудили влияние холодного старта на эффективность интенсивного обучения. Кроме того, мы достигаем конкурентоспособной точности, используя лишь небольшое количество синтетических данных NL2SQL для расширенного обучения, и дополнительно исследуем инженерию данных для RL. В проведенных экспериментах SQL-R1 достигает точности выполнения 88,6% и 66,6% на эталонных наборах данных Spider и BIRD соответственно, используя только базовую модель объемом 7B.

PixelFlow: Генеративные модели в пространстве пикселей с использованием потоков
PixelFlow: Pixel-Space Generative Models with Flow

Apr 10

ByShoufa Chen, Chongjian Ge, Shilong Zhang, Peize Sun, Ping Luo

Мы представляем PixelFlow — семейство моделей генерации изображений, которые работают непосредственно в пространстве сырых пикселей, в отличие от преобладающих моделей, оперирующих в латентном пространстве. Этот подход упрощает процесс генерации изображений, устраняя необходимость в предварительно обученном вариационном автоэнкодере (VAE) и делая всю модель обучаемой от начала до конца. Благодаря эффективному каскадному моделированию потоков, PixelFlow достигает приемлемых вычислительных затрат в пространстве пикселей. Модель демонстрирует показатель FID 1.98 на бенчмарке условной генерации изображений размером 256×256 на основе ImageNet. Качественные результаты генерации изображений по текстовым описаниям показывают, что PixelFlow превосходит конкурентов по качеству изображений, художественности и семантическому контролю. Мы надеемся, что эта новая парадигма вдохновит и откроет новые возможности для моделей визуальной генерации следующего поколения. Код и модели доступны по адресу https://github.com/ShoufaChen/PixelFlow.

ZipIR: Трансформер с латентной пирамидальной диффузией для восстановления изображений высокого разрешения
ZipIR: Latent Pyramid Diffusion Transformer for High-Resolution Image Restoration

Apr 11

ByYongsheng Yu, Haitian Zheng, Zhifei Zhang, Jianming Zhang, Yuqian Zhou, Connelly Barnes, Yuchen Liu, Wei Xiong, Zhe Lin, Jiebo Luo

Последние достижения в области генеративных моделей значительно улучшили возможности восстановления изображений, особенно благодаря мощным диффузионным моделям, которые обеспечивают впечатляющее восстановление семантических деталей и локальной точности. Однако применение этих моделей на сверхвысоких разрешениях сталкивается с критическим компромиссом между качеством и эффективностью из-за вычислительных затрат на механизмы внимания с большим радиусом действия. Для решения этой проблемы мы представляем ZipIR — новую архитектуру, которая повышает эффективность, масштабируемость и моделирование на больших расстояниях для восстановления изображений высокого разрешения. ZipIR использует высоко сжатое латентное представление, которое сжимает изображение в 32 раза, эффективно уменьшая количество пространственных токенов и позволяя использовать высокопроизводительные модели, такие как Diffusion Transformer (DiT). Для достижения этой цели мы предлагаем архитектуру Latent Pyramid VAE (LP-VAE), которая структурирует латентное пространство в поддиапазоны для упрощения обучения диффузии. Обучаясь на полных изображениях с разрешением до 2K, ZipIR превосходит существующие методы на основе диффузии, предлагая непревзойденную скорость и качество восстановления изображений высокого разрешения из сильно деградированных входных данных.

Понимают ли языковые модели уровня PhD элементарное сложение? Исследование обучения правилам против запоминания в больших языковых моделях
Do PhD-level LLMs Truly Grasp Elementary Addition? Probing Rule Learning vs. Memorization in Large Language Models

Apr 7

ByYang Yan, Yu Lu, Renjun Xu, Zhenzhong Lan

Несмотря на высокие результаты на тестовых наборах, крупные языковые модели (LLM) часто не справляются с простыми задачами, что поднимает важный вопрос: изучают ли LLM математические принципы или просто запоминают шаблоны? Вместо разработки всё более сложных тестов, как это делается в последних работах, мы исследуем этот вопрос на примере элементарного сложения двух целых чисел (от 0 до 2^{64}), проверяя два ключевых свойства: коммутативность (A+B=B+A) и композиционное обобщение (через изоморфные символические отображения, например, 7 → y). Хотя современные LLM достигают точности 73,8–99,8% при численном сложении, их производительность падает до ≤7,5% при символическом отображении, что указывает на неспособность обобщать изученные правила. Немонотонное изменение производительности в зависимости от количества цифр и частые нарушения коммутативности (более 1700 случаев, когда A+B ≠ B+A) дополнительно подтверждают это. Явное предоставление правил сложения снижает производительность в среднем на 81,2%, в то время как самообъяснение сохраняет базовую точность, что свидетельствует о несоответствии арифметической обработки в LLM принципам, определённым человеком. Наши результаты показывают, что современные LLM полагаются на запоминание шаблонов, а не на подлинное изучение правил, что подчеркивает архитектурные ограничения и необходимость новых подходов для достижения истинного математического мышления.

Визуальные хроники: применение мультимодальных больших языковых моделей для анализа обширных коллекций изображений
Visual Chronicles: Using Multimodal LLMs to Analyze Massive Collections of Images

Apr 11

ByBoyang Deng, Songyou Peng, Kyle Genova, Gordon Wetzstein, Noah Snavely, Leonidas Guibas, Thomas Funkhouser

Мы представляем систему, использующую мультимодальные языковые модели (MLLM) для анализа обширной базы данных, содержащей десятки миллионов изображений, сделанных в разное время, с целью выявления закономерностей временных изменений. В частности, мы стремимся зафиксировать часто встречающиеся совместные изменения ("тренды") в городе за определенный период. В отличие от предыдущих визуальных анализов, наш анализ отвечает на открытые запросы (например, "какие типы изменений часто происходят в городе?") без заранее заданных целевых объектов или обучающих меток. Эти свойства делают непригодными ранее используемые инструменты визуального анализа, основанные на обучении или без учителя. Мы определяем MLLM как новый инструмент благодаря их способности к открытому семантическому пониманию. Однако наши наборы данных на четыре порядка величины превышают объем, который MLLM может обработать в качестве контекста. Поэтому мы вводим процедуру снизу вверх, которая разбивает масштабную задачу визуального анализа на более управляемые подзадачи. Мы тщательно разрабатываем решения на основе MLLM для каждой подзадачи. В ходе экспериментов и исследований с нашей системой мы обнаруживаем, что она значительно превосходит базовые методы и способна выявлять интересные тренды из изображений, сделанных в крупных городах (например, "добавление уличных кафе", "путепровод был покрашен в синий цвет" и т.д.). Дополнительные результаты и интерактивные демонстрации доступны по ссылке: https://boyangdeng.com/visual-chronicles.

FlexIP: Динамическое управление сохранением и индивидуальностью для персонализированной генерации изображений
FlexIP: Dynamic Control of Preservation and Personality for Customized Image Generation

Apr 10

ByLinyan Huang, Haonan Lin, Yanning Zhou, Kaiwen Xiao

С быстрым развитием 2D-генеративных моделей сохранение идентичности объекта при обеспечении разнообразного редактирования стало ключевым направлением исследований. Существующие методы обычно сталкиваются с неизбежным компромиссом между сохранением идентичности и персонализированным управлением. Мы представляем FlexIP — новую структуру, которая разделяет эти задачи с помощью двух специализированных компонентов: адаптера персонализации для стилевого управления и адаптера сохранения для поддержания идентичности. Явно внедряя оба механизма управления в генеративную модель, наша структура обеспечивает гибкий параметризованный контроль во время вывода через динамическую настройку весов адаптера. Экспериментальные результаты показывают, что наш подход преодолевает ограничения производительности традиционных методов, достигая превосходного сохранения идентичности при поддержке более разнообразных возможностей персонализированной генерации (Страница проекта: https://flexip-tech.github.io/flexip/).

In-2-4D: Интерполяция между двумя одноракурсными изображениями для генерации 4D
In-2-4D: Inbetweening from Two Single-View Images to 4D Generation

Apr 11

BySauradip Nag, Daniel Cohen-Or, Hao Zhang, Ali Mahdavi-Amiri

Мы предлагаем новую задачу, In-2-4D, для генерации промежуточных состояний в 4D (т.е. 3D + движение) на основе минималистичного входного набора: двух однокадровых изображений, запечатлеющих объект в двух различных состояниях движения. Имея два изображения, представляющих начальное и конечное состояние объекта в движении, наша цель — сгенерировать и восстановить движение в 4D. Мы используем модель интерполяции видео для предсказания движения, однако большие изменения между кадрами могут приводить к неоднозначным интерпретациям. Чтобы преодолеть это, мы применяем иерархический подход для идентификации ключевых кадров, которые визуально близки к входным состояниям и демонстрируют значительное движение, а затем генерируем плавные фрагменты между ними. Для каждого фрагмента мы строим 3D-представление ключевого кадра с использованием метода Gaussian Splatting. Временные кадры внутри фрагмента направляют движение, позволяя преобразовать их в динамические гауссовы распределения через поле деформации. Для улучшения временной согласованности и уточнения 3D-движения мы расширяем механизм self-attention в многокадровой диффузии на временные шаги и применяем регуляризацию жестких преобразований. Наконец, мы объединяем независимо сгенерированные 3D-сегменты движения путем интерполяции граничных полей деформации и их оптимизации для согласования с направляющим видео, обеспечивая плавные и без мерцания переходы. Благодаря обширным качественным и количественным экспериментам, а также исследованию с участием пользователей, мы демонстрируем эффективность нашего метода и его компонентов. Страница проекта доступна по адресу https://in-2-4d.github.io/.

ModernBERT или DeBERTaV3? Исследование влияния архитектуры и данных на производительность моделей с трансформерным кодировщиком
ModernBERT or DeBERTaV3? Examining Architecture and Data Influence on Transformer Encoder Models Performance

Apr 11

ByWissam Antoun, Benoît Sagot, Djamé Seddah

Предобученные модели с трансформер-энкодером, такие как DeBERTaV3 и ModernBERT, представляют архитектурные усовершенствования, направленные на повышение эффективности и производительности. Хотя авторы ModernBERT сообщают о более высокой производительности по сравнению с DeBERTaV3 на нескольких бенчмарках, отсутствие раскрытых данных для обучения и сравнений на общем наборе данных затрудняет определение, обусловлены ли эти улучшения архитектурными изменениями или различиями в данных обучения. В данной работе мы проводим контролируемое исследование, предобучая ModernBERT на том же наборе данных, что и CamemBERTaV2, модель DeBERTaV3 для французского языка, чтобы изолировать влияние архитектуры модели. Наши результаты показывают, что предыдущее поколение моделей остается превосходящим в эффективности использования данных и общей производительности на бенчмарках, при этом основное преимущество ModernBERT заключается в более быстром обучении и скорости вывода. Тем не менее, новая предложенная модель все же обеспечивает значительные архитектурные улучшения по сравнению с более ранними моделями, такими как BERT и RoBERTa. Кроме того, мы наблюдаем, что высококачественные данные предобучения ускоряют сходимость, но незначительно улучшают итоговую производительность, что указывает на возможное насыщение бенчмарков. Эти результаты подчеркивают важность разделения влияния данных предобучения и архитектурных инноваций при оценке моделей на основе трансформеров.

CoRAG: Совместная генерация с расширением на основе поиска
CoRAG: Collaborative Retrieval-Augmented Generation

Apr 2

ByAashiq Muhamed, Mona Diab, Virginia Smith

Модели генерации с усилением поиска (RAG) демонстрируют выдающиеся результаты в задачах, требующих глубоких знаний, особенно в условиях обучения с малым количеством примеров. Мы представляем CoRAG — фреймворк, расширяющий RAG для совместных сценариев, где клиенты совместно обучают общую модель, используя коллективное хранилище текстовых фрагментов. Для оценки CoRAG мы вводим CRAB — эталонный тест для совместного однородного открытого поиска ответов на вопросы. Наши эксперименты показывают, что CoRAG стабильно превосходит как параметрические методы совместного обучения, так и локально обученные модели RAG в условиях ограниченных ресурсов. Дополнительный анализ выявляет критическую важность релевантных фрагментов в общем хранилище, неожиданные преимущества включения нерелевантных фрагментов и потенциальное негативное влияние сложных негативных примеров на производительность. Это вводит новое соображение в совместном RAG: компромисс между использованием коллективно обогащенной базы знаний и потенциальным риском включения вредоносных фрагментов от других клиентов. Наши результаты подчеркивают жизнеспособность CoRAG, а также выделяют ключевые проблемы проектирования и перспективные направления для будущих исследований.

UKBOB: Один миллиард размеченных масок МРТ для обобщаемой 3D-сегментации медицинских изображений
UKBOB: One Billion MRI Labeled Masks for Generalizable 3D Medical Image Segmentation

Apr 9

ByEmmanuelle Bourigault, Amir Jamaludin, Abdullah Hamdi

В области медицинской визуализации основной проблемой является сбор крупномасштабных размеченных данных из-за вопросов конфиденциальности, логистических сложностей и высоких затрат на разметку. В данной работе мы представляем UK Biobank Organs and Bones (UKBOB) — крупнейший размеченный набор данных органов тела, включающий 51 761 3D-образцов МРТ (что эквивалентно 17,9 миллионам 2D-изображений) и более 1,37 миллиарда 2D-масок сегментации для 72 органов, все они основаны на наборе данных МРТ UK Biobank. Мы используем автоматическую разметку, внедряем автоматизированный конвейер очистки меток с органоспецифичными фильтрами и вручную аннотируем подмножество из 300 МРТ с 11 классами брюшной полости для проверки качества (называемое UKBOB-manual). Такой подход позволяет масштабировать сбор данных, сохраняя уверенность в качестве меток. Мы дополнительно подтверждаем достоверность меток, демонстрируя обобщение обученных моделей на отфильтрованном UKBOB в режиме zero-shot на другие небольшие размеченные наборы данных из схожих областей (например, МРТ брюшной полости). Чтобы дополнительно снизить влияние зашумленных меток, мы предлагаем новый метод под названием Entropy Test-time Adaptation (ETTA) для уточнения выходных данных сегментации. Мы используем UKBOB для обучения базовой модели Swin-BOB для 3D-сегментации медицинских изображений на основе архитектуры Swin-UNetr, достигая передовых результатов в нескольких бенчмарках 3D-медицинской визуализации, включая задачу BRATS по сегментации опухолей мозга на МРТ (с улучшением на 0,4%) и бенчмарк BTCV для КТ брюшной полости (с улучшением на 1,3%). Предобученные модели и код доступны по адресу https://emmanuelleb985.github.io/ukbob, а отфильтрованные метки будут предоставлены вместе с UK Biobank.

Бесплатное управление в генерации видео из текста с помощью мультимодального планирования и структурированной инициализации шума
Training-free Guidance in Text-to-Video Generation via Multimodal Planning and Structured Noise Initialization

Apr 11

ByJialu Li, Shoubin Yu, Han Lin, Jaemin Cho, Jaehong Yoon, Mohit Bansal

Последние достижения в области диффузионных моделей для преобразования текста в видео (T2V) значительно улучшили визуальное качество генерируемых видеороликов. Однако даже современные T2V-модели испытывают трудности с точным следованием текстовым описаниям, особенно когда запрос требует точного управления пространственной композицией или траекториями объектов. Недавние исследования предлагают использовать управление композицией для T2V-моделей, что требует тонкой настройки или итеративного манипулирования картами внимания во время вывода. Это значительно увеличивает требования к памяти, что затрудняет использование крупных T2V-моделей в качестве основы. Для решения этой проблемы мы представляем Video-MSG — метод управления генерацией T2V без необходимости обучения, основанный на мультимодальном планировании и структурированной инициализации шума. Video-MSG состоит из трех этапов: на первых двух этапах создается Video Sketch — детализированный пространственно-временной план для финального видео, определяющий фон, передний план и траектории объектов в виде черновых кадров. На последнем этапе Video-MSG направляет работу базовой T2V-диффузионной модели с помощью Video Sketch через инверсию шума и денойзинг. Важно отметить, что Video-MSG не требует тонкой настройки или манипуляций с вниманием, что исключает дополнительные затраты памяти во время вывода и упрощает использование крупных T2V-моделей. Video-MSG демонстрирует свою эффективность в улучшении соответствия тексту при работе с несколькими T2V-моделями (VideoCrafter2 и CogVideoX-5B) на популярных бенчмарках для генерации видео (T2VCompBench и VBench). Мы проводим всесторонние исследования влияния параметров, таких как коэффициент инверсии шума, различные генераторы фона, детекция объектов на фоне и сегментация объектов на переднем плане.

BlenderGym: Бенчмаркинг систем базовых моделей для редактирования графики
BlenderGym: Benchmarking Foundational Model Systems for Graphics Editing

Apr 2

ByYunqi Gu, Ian Huang, Jihyeon Je, Guandao Yang, Leonidas Guibas

Редактирование 3D-графики играет ключевую роль в таких областях, как производство фильмов и разработка игр, однако этот процесс остается трудоемким и требует узкоспециализированных знаний. Автоматизация этого процесса является сложной задачей, поскольку графическое редактирование предполагает выполнение множества задач, каждая из которых требует уникальных навыков. В последнее время модели, объединяющие зрение и язык (Vision-Language Models, VLMs), стали мощным инструментом для автоматизации процесса редактирования, но их разработка и оценка ограничены отсутствием всеобъемлющего бенчмарка, который требовал бы человеческого уровня восприятия и представлял бы сложность реального редактирования. В данной работе мы представляем BlenderGym — первый всеобъемлющий бенчмарк для систем VLM, ориентированный на редактирование 3D-графики. BlenderGym оценивает системы VLM через задачи 3D-реконструкции на основе кода. Мы тестируем как закрытые, так и открытые системы VLM и наблюдаем, что даже передовые системы VLM испытывают трудности с задачами, которые относительно просты для опытных пользователей Blender. Благодаря BlenderGym мы изучаем, как методы масштабирования вывода влияют на производительность VLM в задачах графического редактирования. Примечательно, что наши результаты показывают, что верификатор, используемый для управления масштабированием генерации, сам может быть улучшен за счет масштабирования вывода, что дополняет недавние открытия в области масштабирования вывода генерации в задачах кодирования и математики. Мы также демонстрируем, что вычислительные ресурсы для вывода не одинаково эффективны и могут быть оптимизированы за счет стратегического распределения между генерацией и верификацией.

InteractVLM: Рассуждения о 3D-взаимодействиях на основе 2D-фундаментальных моделей
InteractVLM: 3D Interaction Reasoning from 2D Foundational Models

Apr 7

BySai Kumar Dwivedi, Dimitrije Antić, Shashank Tripathi, Omid Taheri, Cordelia Schmid, Michael J. Black, Dimitrios Tzionas

Мы представляем InteractVLM — новый метод для оценки 3D точек контакта на телах людей и объектах по одиночным изображениям в естественных условиях, что позволяет точно восстанавливать совместное 3D взаимодействие человека и объекта. Эта задача является сложной из-за окклюзий, неоднозначностей глубины и широкого разнообразия форм объектов. Существующие методы полагаются на 3D аннотации контактов, собранные с помощью дорогостоящих систем захвата движения или трудоемкой ручной разметки, что ограничивает масштабируемость и обобщаемость. Чтобы преодолеть это, InteractVLM использует обширные визуальные знания крупных Vision-Language моделей (VLM), дообученных на ограниченных данных о 3D контактах. Однако прямое применение этих моделей нетривиально, так как они работают только в 2D, в то время как контакт человека и объекта по своей природе является 3D. Поэтому мы вводим новый модуль Render-Localize-Lift, который: (1) встраивает 3D поверхности тела и объекта в 2D пространство с помощью многовидового рендеринга, (2) обучает новую многовидовую модель локализации (MV-Loc) для вывода контактов в 2D и (3) поднимает их в 3D. Кроме того, мы предлагаем новую задачу под названием Semantic Human Contact estimation, где предсказания контактов человека явно зависят от семантики объектов, что позволяет более богато моделировать взаимодействия. InteractVLM превосходит существующие работы по оценке контактов и также способствует 3D реконструкции по изображению в естественных условиях. Код и модели доступны по адресу https://interactvlm.is.tue.mpg.de.

SpecReason: Быстрые и точные вычисления во время вывода с использованием спекулятивного рассуждения
SpecReason: Fast and Accurate Inference-Time Compute via Speculative Reasoning

Apr 10

ByRui Pan, Yinwei Dai, Zhihao Zhang, Gabriele Oliaro, Zhihao Jia, Ravi Netravali

Недавние достижения в области вычислений во время вывода значительно улучшили производительность на сложных задачах за счет генерации длинных цепочек рассуждений (CoTs) с использованием крупных моделей рассуждений (LRMs). Однако это улучшение точности достигается за счет высокой задержки вывода, вызванной длиной генерируемых последовательностей рассуждений и авторегрессивной природой декодирования. Наше ключевое понимание для преодоления этих накладных расходов заключается в том, что вывод LRM и заложенные в нем рассуждения обладают высокой толерантностью к аппроксимациям: сложные задачи обычно разбиваются на более простые шаги, каждый из которых приносит пользу на основе семантического понимания, которое он предоставляет для последующих шагов, а не точных токенов, которые он генерирует. Соответственно, мы представляем SpecReason — систему, которая автоматически ускоряет вывод LRM, используя легковесную модель для (спекулятивного) выполнения более простых промежуточных шагов рассуждений и оставляя затратную базовую модель только для оценки (и потенциальной коррекции) спекулятивных выводов. Важно отметить, что фокус SpecReason на использовании семантической гибкости токенов мышления для сохранения точности конечного ответа дополняет предыдущие методы спекуляции, в частности спекулятивное декодирование, которое требует эквивалентности на уровне токенов на каждом шаге. На различных тестах рассуждений SpecReason достигает ускорения в 1.5-2.5 раза по сравнению с обычным выводом LRM, одновременно улучшая точность на 1.0-9.9%. По сравнению со спекулятивным декодированием без SpecReason, их комбинация дает дополнительное снижение задержки на 19.4-44.2%. Мы открываем исходный код SpecReason по адресу https://github.com/ruipeterpan/specreason.

Латентные диффузионные автоэнкодеры: к эффективному и содержательному обучению представлений без учителя в медицинской визуализации
Latent Diffusion Autoencoders: Toward Efficient and Meaningful Unsupervised Representation Learning in Medical Imaging

Apr 11

ByGabriele Lozupone, Alessandro Bria, Francesco Fontanella, Frederick J. A. Meijer, Claudio De Stefano, Henkjan Huisman

В данном исследовании представлен Latent Diffusion Autoencoder (LDAE) — новый подход на основе диффузионной модели с архитектурой "кодировщик-декодировщик", предназначенный для эффективного и содержательного обучения без учителя в медицинской визуализации. В качестве примера рассматривается задача анализа болезни Альцгеймера (БА) с использованием данных МРТ головного мозга из базы данных ADNI. В отличие от традиционных диффузионных автоэнкодеров, работающих в пространстве изображений, LDAE применяет процесс диффузии в сжатом латентном представлении, что повышает вычислительную эффективность и делает обучение представлений для 3D медицинских изображений более доступным. Для проверки предложенного подхода исследуются две ключевые гипотезы: (i) LDAE эффективно захватывает содержательные семантические представления 3D МРТ головного мозга, связанные с БА и старением, и (ii) LDAE обеспечивает высокое качество генерации и реконструкции изображений при высокой вычислительной эффективности. Экспериментальные результаты подтверждают обе гипотезы: (i) оценки с использованием линейного зондирования демонстрируют перспективные диагностические показатели для БА (ROC-AUC: 90%, ACC: 84%) и предсказания возраста (MAE: 4.1 года, RMSE: 5.2 года); (ii) изученные семантические представления позволяют манипулировать атрибутами, создавая анатомически правдоподобные модификации; (iii) эксперименты с семантической интерполяцией показывают качественную реконструкцию отсутствующих снимков с SSIM 0.969 (MSE: 0.0019) для 6-месячного интервала. Даже для более длительных интервалов (24 месяца) модель сохраняет устойчивую производительность (SSIM > 0.93, MSE < 0.004), что указывает на способность захватывать временные тенденции прогрессирования; (iv) по сравнению с традиционными диффузионными автоэнкодерами, LDAE значительно увеличивает пропускную способность вывода (в 20 раз быстрее), одновременно улучшая качество реконструкции. Эти результаты позиционируют LDAE как перспективный подход для масштабируемых приложений в медицинской визуализации с потенциалом стать базовой моделью для анализа медицинских изображений. Код доступен по адресу: https://github.com/GabrieleLozupone/LDAE.

SAE могут улучшить процесс "забывания": Динамические разреженные автоэнкодеры как защитные механизмы для точного "забывания" в больших языковых моделях
SAEs Can Improve Unlearning: Dynamic Sparse Autoencoder Guardrails for Precision Unlearning in LLMs

Apr 11

ByAashiq Muhamed, Jacopo Bonato, Mona Diab, Virginia Smith

Машинное "разучивание" представляет собой перспективный подход для повышения безопасности больших языковых моделей (LLM) путем удаления нежелательных знаний из модели. Однако преобладающие методы "разучивания", основанные на градиентах, страдают от таких проблем, как высокие вычислительные затраты, нестабильность гиперпараметров, слабая способность к последовательному "разучиванию", уязвимость к атакам повторного обучения, низкая эффективность использования данных и отсутствие интерпретируемости. Хотя разреженные автоэнкодеры (Sparse Autoencoders, SAE) хорошо подходят для улучшения этих аспектов благодаря целенаправленному "разучиванию" на основе активаций, предыдущие подходы уступают методам, основанным на градиентах. В данной работе показано, что, вопреки этим ранним выводам, SAE могут значительно улучшить "разучивание" при динамическом использовании. Мы представляем Dynamic DAE Guardrails (DSG) — новый метод точного "разучивания", который использует принципиальный отбор признаков и динамический классификатор. Наши эксперименты демонстрируют, что DSG существенно превосходит ведущие методы "разучивания", достигая оптимального баланса между забыванием и полезностью. DSG устраняет ключевые недостатки градиентных подходов к "разучиванию", предлагая повышенную вычислительную эффективность и стабильность, устойчивую производительность при последовательном "разучивании", более сильную устойчивость к атакам повторного обучения, лучшую эффективность использования данных, включая настройки с нулевым обучением, и более интерпретируемое "разучивание".

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Seaweed-7B: Экономически эффективное обучение базовой модели для генерации видео
Seaweed-7B: Cost-Effective Training of Video Generation Foundation Model

Apr 11

130

GigaTok: Масштабирование визуальных токенизаторов до 3 миллиардов параметров для авторегрессивной генерации изображений
GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation

Apr 11

ByTianwei Xiong, Jun Hao Liew, Zilong Huang, Jiashi Feng, Xihui Liu

MineWorld: интерактивная модель мира в реальном времени с открытым исходным кодом на базе Minecraft
MineWorld: a Real-Time and Open-Source Interactive World Model on Minecraft

Apr 11

ByJunliang Guo, Yang Ye, Tianyu He, Haoyu Wu, Yushu Jiang, Tim Pearce, Jiang Bian

VLM-R1: Стабильная и обобщаемая крупномасштабная модель обработки визуально-языковых данных в стиле R1
VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model

Apr 10

ByHaozhan Shen, Peng Liu, Jingcheng Li, Chunxin Fang, Yibo Ma, Jiajia Liao, Qiaoli Shen, Zilun Zhang, Kangjia Zhao, Qianqian Zhang, Ruochen Xu, Tiancheng Zhao