Ежедневно отобранные исследовательские статьи по ИИ с переводами
Последние достижения в области больших мультимодальных генеративных моделей продемонстрировали впечатляющие возможности в мультимодальной генерации, включая создание изображений и видео. Эти модели обычно строятся на основе многошаговых архитектур, таких как диффузионные модели и модели с согласованием потоков (flow matching), что изначально ограничивает их эффективность при выводе (требуя 40-100 оценок функции (NFE)). Хотя различные методы с малым числом шагов направлены на ускорение вывода, существующие решения имеют явные ограничения. Известные методы, основанные на дистилляции, такие как прогрессивная дистилляция и дистилляция согласованности, либо требуют итеративного процесса дистилляции, либо демонстрируют значительную деградацию качества при очень малом числе шагов (< 4-NFE). В то же время интеграция состязательного обучения в дистилляцию (например, DMD/DMD2 и SANA-Sprint) для повышения производительности влечет за собой нестабильность обучения, повышенную сложность и высокие затраты памяти GPU из-за использования дополнительно обучаемых моделей. В связи с этим мы предлагаем TwinFlow — простую, но эффективную框架 для обучения одношаговых генеративных моделей, которая обходится без необходимости в фиксированных предварительно обученных учительских моделях и избегает использования стандартных состязательных сетей в процессе обучения, что делает ее идеальной для создания крупномасштабных эффективных моделей. В задачах генерации изображений по тексту наш метод достигает показателя GenEval, равного 0.83, всего за 1-NFE, превосходя такие сильные базовые методы, как SANA-Sprint (framework на основе GAN-потерь) и RCGM (framework на основе согласованности). Примечательно, что мы демонстрируем масштабируемость TwinFlow путем обучения с полными параметрами на модели Qwen-Image-20B и преобразуем ее в эффективный генератор с малым числом шагов. Всего за 1-NFE наш подход достигает производительности исходной 100-NFE модели на бенчмарках GenEval и DPG-Bench, сокращая вычислительные затраты в 100 раз при незначительной деградации качества. Страница проекта доступна по адресу https://zhenglin-cheng.com/twinflow.
Редактирование изображений на основе инструкций стало важным направлением исследований. Благодаря использованию базовых моделей генерации изображений, такие системы достигли высокой эстетической качества, что сделало способность следовать инструкциям ключевой проблемой. Существующие подходы улучшают соответствие инструкциям с помощью обучения с учителем или с подкреплением, однако процент успешных обработок в одном цикле остается ограниченным из-за стохастичности процесса и отсутствия продуманного подхода. В данной работе мы предлагаем систему продуманного редактирования, которая «обдумывает» действия в процессе работы, имитируя человеческий когнитивный цикл через итеративное выполнение цикла «Думай-во-время-Редактирования»: анализ результатов и уточнение инструкций с последующим повторением генерации до достижения удовлетворительного результата. В частности, мы обучаем единую мультимодальную языковую модель EditThinker, которая служит механизмом логического вывода в нашей системе и совместно формирует оценку критики, процесс рассуждения и уточненные инструкции. Мы применяем обучение с подкреплением для согласования процесса «обдумывания» EditThinker с редактированием, что позволяет генерировать более целенаправленные улучшения инструкций. Масштабные эксперименты на четырех наборах данных демонстрируют, что наш подход значительно повышает способность моделей редактирования изображений следовать инструкциям. Мы планируем опубликовать нашу систему сбора данных, датасеты и модели для развития научного сообщества.
Обучение с подкреплением стало парадигмой для посттренировки больших языковых моделей, повышая их способности к рассуждениям. Такие подходы вычисляют значение преимущества для каждого образца, отражающее лучшее или худшее производительность по сравнению с ожидаемой, тем самым создавая как позитивные, так и негативные сигналы для обучения. Однако бессистемное смешение двух сигналов в существующих методах, особенно на ранних этапах, может приводить к неоднозначным указаниям и ограниченному прогрессу. Для решения этой проблемы мы предлагаем **CAPO** (**C**urriculum **A**dvantage **P**olicy **O**ptimization) — адаптивный механизм учебного плана, основанный на сигналах преимущества. Предложенный механизм инициирует обучение с подражанием, используя только образцы с позитивным преимуществом для создания надежной основы, а затем вводит негативные сигналы для развития дискриминативных способностей, тем самым улучшая обобщение в сложных сценариях. Совместимый с различными методами оптимизации, включая GRPO, PPO, RLOO и Reinforce++, наш метод стабильно достигает значительных улучшений в задачах математических рассуждений и эффективно обобщается на мультимодальные сценарии рассуждений о графических пользовательских интерфейсах (GUI), утверждая себя как универсальная и надежная оптимизационная структура.
Согласованная генерация изображений требует точного сохранения идентичностей, стилей и логической связности между несколькими изображениями, что крайне важно для таких приложений, как создание визуальных нарративов и дизайн персонажей. Подходы с обучением с учителем сталкиваются с трудностями при решении этой задачи из-за отсутствия крупномасштабных наборов данных, фиксирующих визуальную согласованность, и сложности моделирования перцептивных предпочтений человека. В данной статье мы доказываем, что обучение с подкреплением (RL) представляет собой перспективную альтернативу, позволяя моделям осваивать сложные и субъективные визуальные критерии без использования данных. Для достижения этой цели мы представляем PaCo-RL — комплексную framework, объединяющую специализированную модель вознаграждения за согласованность с эффективным RL-алгоритмом. Первый компонент, PaCo-Reward, представляет собой попарный оценщик согласованности, обученный на крупномасштабном наборе данных, созданном с помощью автоматизированного парного сопоставления субизображений. Он оценивает согласованность посредством генеративного авторегрессионного механизма оценки, усиленного инструкциями, учитывающими задачу, и причинными обоснованиями (CoT). Второй компонент, PaCo-GRPO, использует новую стратегию оптимизации с разделением по разрешению для существенного снижения затрат на RL, а также механизм агрегации множественных вознаграждений с логарифмическим ограничением, обеспечивающий сбалансированную и стабильную оптимизацию вознаграждений. Многочисленные эксперименты по двум репрезентативным подзадачам показывают, что PaCo-Reward значительно улучшает соответствие человеческому восприятию визуальной согласованности, а PaCo-GRPO демонстрирует наилучшие показатели согласованности при повышенной эффективности и стабильности обучения. В совокупности эти результаты подчеркивают потенциал PaCo-RL как практичного и масштабируемого решения для согласованной генерации изображений. Страница проекта доступна по адресу https://x-gengroup.github.io/HomePage_PaCo-RL/.
Мы представляем EMMA — эффективную и унифицированную архитектуру для мультимодального понимания, генерации и редактирования. В частности, EMMA включает: 1) Эффективный автоэнкодер со степенью сжатия 32x, который значительно сокращает количество токенов, необходимых для генерации. Это также обеспечивает баланс обучения между задачами понимания и генерации за счёт применения одинаковой степени сжатия к изображениям. 2) Поэлементную конкатенацию по каналам вместо покомпонентной конкатенации токенов визуального понимания и генерации, что дополнительно сокращает количество визуальных токенов в унифицированных архитектурах. 3) Совместно-раздельную сеть, которая позволяет достигать взаимного улучшения между задачами при соблюдении специфических требований к моделированию. 4) Механизм смеси экспертов, применяемый в энкодере визуального понимания, который существенно улучшает перцептивные возможности при незначительном увеличении параметров. Многочисленные эксперименты показали, что EMMA-4B значительно превосходит современные унифицированные мультимодальные подходы (например, BAGEL-7B) как по эффективности, так и по производительности, одновременно достигая конкурентоспособных результатов по сравнению с последними экспертами в области мультимодального понимания и генерации (например, Qwen3-VL и Qwen-Image). Мы считаем, что EMMA закладывает прочную основу для будущего развития унифицированных мультимодальных архитектур.
Несмотря на недавний прогресс, создание анимации персонажей, соответствующей студийным стандартам производства, остается сложной задачей. Существующие подходы позволяют переносить движение с исходного видео на эталонное изображение, но часто не обеспечивают сохранения структурной точности и временной согласованности в сложных сценариях, включающих комплексные движения и анимацию между различными идентичностями. В данной работе мы представляем SCAIL (Studio-grade Character Animation via In-context Learning) — фреймворк, разработанный для решения этих проблем на основе двух ключевых инноваций. Во-первых, мы предлагаем новое представление трехмерных поз, обеспечивающее более надежный и гибкий сигнал движения. Во-вторых, мы внедряем механизм полноконтекстной инъекции поз в архитектуру диффузионного трансформера, что позволяет эффективно анализировать пространственно-временные зависимости в полных последовательностях движений. Для соответствия студийным требованиям мы разработали курируемый конвейер данных, обеспечивающий как разнообразие, так и качество, а также создали комплексный бенчмарк для систематической оценки. Эксперименты показывают, что SCAIL демонстрирует передовую производительность и приближает анимацию персонажей к студийной надежности и реализму.
Послеобучение больших языковых моделей опирается на обучение с подкреплением для повышения способностей модели и качества согласованности. Однако парадигма обучения с использованием данных вне текущей политики (off-policy) вносит сдвиг распределения, который часто выталкивает политику за пределы доверительной области, приводя к нестабильности обучения, проявляющейся в виде флуктуаций энтропии политики и нестабильных градиентов. Хотя метод PPO-Clip смягчает эту проблему посредством клиппинга важности, он всё же упускает из виду глобальный распределительный сдвиг действий. Для решения этих проблем мы предлагаем использовать отношение энтропии между текущей и предыдущей политиками в качестве новой глобальной метрики, которая эффективно количественно оценивает относительное изменение исследования политики в процессе обновлений. На основе этой метрики мы вводим механизм клиппинга по отношению энтропии (ERC), который накладывает двусторонние ограничения на отношение энтропии. Это стабилизирует обновления политики на глобальном распределительном уровне и компенсирует неспособность PPO-clip регулировать вероятностные сдвиги невыборочных действий. Мы интегрируем ERC в алгоритмы обучения с подкреплением DAPO и GPPO. Эксперименты на нескольких тестовых наборах показывают, что ERC последовательно улучшает производительность.
Создание интерактивных и динамичных 4D-сцен из одного статического изображения остается ключевой проблемой. Большинство существующих методов "сначала сгенерировать, затем восстановить" и "сначала восстановить, затем сгенерировать" разделяют геометрию и движение, что приводит к пространственно-временным несоответствиям и плохой обобщающей способности. Для решения этих проблем мы расширяем подход "сначала восстановить, затем сгенерировать" для совместного выполнения генерации движения и геометрической реконструкции для синтеза 4D (MoRe4D). Сначала мы представляем TrajScene-60K — масштабный набор данных из 60 000 видеосэмплов с плотными траекториями точек, решающий проблему нехватки высококачественных данных 4D-сцен. На его основе мы предлагаем диффузионный генератор траекторий 4D-сцен (4D-STraG) для совместной генерации геометрически согласованных и правдоподобных по движению 4D-траекторий точек. Для использования априорной информации одновидовых изображений мы разрабатываем стратегию нормализации движения с управлением по глубине и модуль, учитывающий движение, для эффективной интеграции геометрии и динамики. Затем мы предлагаем модуль синтеза 4D-видов (4D-ViSM) для рендеринга видео с произвольными траекториями камеры из представлений 4D-треков точек. Эксперименты показывают, что MoRe4D генерирует высококачественные 4D-сцены с многовидовой согласованностью и богатыми динамическими деталями из одного изображения. Код: https://github.com/Zhangyr2022/MoRe4D.
С непрерывным развитием технологий генерации изображений передовые модели, такие как GPT-Image-1 и Qwen-Image, достигли выдающейся согласованности текст-изображение и интеграции знаний о мире. Однако эти модели всё ещё отстают в области фотореалистичной генерации изображений. Даже при выполнении простых задач T2I они склонны создавать «ненастоящие» изображения с характерными артефактами ИИ, часто отличающиеся «излишне гладкой кожей» и «маслянистым блеском лица». Чтобы вернуться к изначальной цели генерации «неотличимых от реальности» изображений, мы предлагаем RealGen — фотореалистичную фреймворк-систему преобразования текста в изображение. RealGen интегрирует LLM-компонент для оптимизации промптов и диффузионную модель для реалистичной генерации изображений. Вдохновлённые принципами adversarial-генерации, мы внедряем в RealGen механизм «Detector Reward», который количественно оценивает артефакты и анализирует реалистичность с использованием детекторов синтетических изображений как на семантическом, так и на feature-уровне. Мы используем этот сигнал вознаграждения вместе с алгоритмом GRPO для оптимизации всего конвейера генерации, значительно повышая реалистичность и детализацию изображений. Кроме того, мы предлагаем RealBench — автоматизированный бенчмарк для оценки, использующий Detector-Scoring и Arena-Scoring. Он позволяет проводить оценку фотореалистичности без участия человека, давая более точные результаты, соответствующие реальному пользовательскому опыту. Эксперименты показывают, что RealGen значительно превосходит как универсальные модели, такие как GPT-Image-1 и Qwen-Image, так и специализированные фотореалистичные модели, подобные FLUX-Krea, по параметрам реалистичности, детализации и эстетики. Код доступен по адресу https://github.com/yejy53/RealGen.
Эффективные системы оценки моделей зрения и языка (VLM) крайне важны для разработки моделей. Современные методы обучения оценщиков VLM в основном опираются на масштабные аннотации человеческих предпочтений. Однако такой подход является дорогостоящим, а аннотации быстро устаревают по мере стремительного улучшения моделей. В данной работе мы представляем фреймворк для самостоятельного обучения модели-оценщика VLM без каких-либо аннотаций человеческих предпочтений, используя только самостоятельно синтезированные данные. Наш метод является итеративным и состоит из трех этапов: (1) генерация разнообразных мультимодальных пар "инструкция-ответ" различного уровня качества, (2) генерация цепочек рассуждений и оценок для каждой пары с удалением тех, которые не соответствуют ожидаемым уровням качества, и (3) обучение на корректных ответах оценщика и соответствующих им цепочках рассуждений. Мы оцениваем полученную модель-оценщик на Multimodal RewardBench и VL-RewardBench в различных областях: корректность, предпочтения, логические рассуждения, безопасность и визуальные вопросы-ответы. Наш метод улучшает мультимодальный оценщик Llama-3.2-11B, повышая общую точность на VL-RewardBench с 0,38 до 0,51, и часто превосходит гораздо более крупные модели, включая Llama-3.2-90B, GPT-4o и Claude 3.5 Sonnet, с особенно значительным прогрессом в общих, анти-галлюцинационных и логических измерениях. Общая сила этих результатов, полученных без участия человека, указывает на потенциал для создания в будущем самооценивающей системы, которая будет эволюционировать вместе с быстро растущими возможностями VLM.
Методы генеративного создания 3D-ассетов в последнее время достигли значительного прогресса, однако обеспечение интуитивного и точного контроля над геометрией объекта остается ключевой проблемой. Существующие подходы в основном полагаются на текстовые или изображенческие промпты, которые часто не обладают достаточной геометрической специфичностью: язык может быть неоднозначным, а изображения неудобны для редактирования. В данной работе мы представляем SpaceControl — метод, не требующий обучения и применяемый на этапе тестирования, для явного пространственного контроля генерации 3D. Наш подход принимает широкий спектр геометрических входных данных, от грубых примитивов до детализированных сеток, и бесшовно интегрируется с современными предобученными генеративными моделями без необходимости какого-либо дополнительного обучения. Контролируемый параметр позволяет пользователю выбирать баланс между геометрической точностью и реалистичностью результата. Масштабная количественная оценка и пользовательские исследования демонстрируют, что SpaceControl превосходит как основанные на обучении, так и на оптимизации базовые методы по точности воспроизведения геометрии, сохраняя при этом высокое визуальное качество. Наконец, мы представляем интерактивный пользовательский интерфейс, который позволяет в реальном времени редактировать суперквадрики для их непосредственного преобразования в текстурированные 3D-ассеты, что облегчает практическое внедрение в творческие рабочие процессы. Страница проекта доступна по адресу https://spacecontrol3d.github.io/
Визуально-пространственное мышление играет ключевую роль в способности мультимодальных больших языковых моделей (МБЯМ) понимать свойства объектов и пространственные отношения, однако современные модели по-прежнему испытывают трудности с трехмерным анализом. Существующие подходы обычно усиливают либо восприятие — путем дополнения RGB-входных данных вспомогательными модальностями, такими как глубина и сегментация, — либо логические рассуждения — через обучение на пространственных VQA-наборах данных и применение обучения с подкреплением, — таким образом рассматривая эти два аспекта изолированно. В данной работе мы исследуем, может ли унифицированная МБЯМ развить внутреннюю способность к усилению пространственного восприятия и, благодаря адаптивному чередующемуся рассуждению, достичь более высокого уровня пространственного интеллекта. Мы предлагаем COOPER — унифицированную МБЯМ, которая использует глубину и сегментацию в качестве вспомогательных модальностей и обучается в два этапа для приобретения способностей генерации вспомогательных модальностей и адаптивного чередующегося рассуждения. COOPER демонстрирует среднее улучшение на 6,91% в пространственном мышлении при сохранении общей производительности. Более того, даже вариант модели, обученный только для генерации вспомогательных модальностей, достигает улучшения на 7,92% в оценке расстояний и размеров, что свидетельствует о том, что обучение генерации вспомогательных модальностей помогает интериоризировать пространственные знания и укреплять пространственное понимание.
Сегментация объектов на видео, ориентированная на рассуждения, является по своей природе сложной задачей: запрос часто отсылает к динамике, причинно-следственным связям и временным взаимодействиям, а не к статичным внешним признакам. Однако существующие решения обычно сводят эти факторы к упрощенному рассуждению с латентными представлениями, что делает цепочку рассуждений непрозрачной и по сути не поддающейся анализу. Поэтому мы принимаем перспективу явной декомпозиции и представляем ReVSeg, который выполняет рассуждения как последовательность решений в естественном интерфейсе предварительно обученных визуально-языковых моделей (VLM). Вместо того чтобы объединять все рассуждения в одношаговый прогноз, ReVSeg выполняет три явные операции — интерпретацию семантики, выбор временных свидетельств и пространственную привязку — согласуя предобученные возможности. Мы также используем обучение с подкреплением для оптимизации многошаговой цепочки рассуждений, позволяя модели самостоятельно улучшать качество своих решений на основе сигналов, определяемых результатом. Результаты экспериментов показывают, что ReVSeg достигает передовых результатов на стандартных бенчмарках для сегментации объектов на видео и порождает интерпретируемые траектории рассуждений. Страница проекта доступна по адресу https://clementine24.github.io/ReVSeg/.
Последние достижения в области генеративных видео-моделей привели к значительным прорывам в синтезе видео высокой точности, в частности, в управляемой генерации видео, где создаваемое видео обусловлено текстовыми и действиями, например, в редактировании видео по инструкциям и моделировании мира в робототехнике. Несмотря на эти исключительные возможности, управляемые видео-модели часто подвержены галлюцинациям — генерации будущих кадров, которые не соответствуют физической реальности, — что вызывает серьезную озабоченность при выполнении многих задач, таких как оценка политик роботов и планирование. Однако современные видео-модели не способны оценивать и выражать свою уверенность, что препятствует устранению галлюцинаций. Для строгого решения этой проблемы мы предлагаем C3 — метод количественной оценки неопределенности (UQ) для обучения управляемых видео-моделей с непрерывной калибровкой для плотной оценки достоверности на уровне субпатчей, точно локализуя неопределенность в каждом сгенерированном кадре. Наш метод UQ включает три ключевых нововведения, позволяющих видео-моделям оценивать свою неопределенность. Во-первых, наш метод разрабатывает новую структуру, которая обучает видео-модели на корректность и калибровку с помощью строго правильных scoring rules. Во-вторых, мы оцениваем неопределенность видео-модели в латентном пространстве, избегая нестабильности обучения и запретительно высоких затрат на обучение, связанных с подходами в пиксельном пространстве. В-третьих, мы проецируем плотную неопределенность из латентного пространства в интерпретируемую неопределенность на уровне пикселей в RGB-пространстве для интуитивной визуализации, предоставляя тепловые карты неопределенности высокого разрешения, которые идентифицируют ненадежные области. В ходе обширных экспериментов на крупных наборах данных по обучению роботов (Bridge и DROID) и реальных оценок мы демонстрируем, что наш метод не только обеспечивает калиброванные оценки неопределенности в пределах обучающего распределения, но и позволяет эффективно обнаруживать выбросы.
Самосовершенствование — это цель, которая в настоящее время волнует область ИИ, но сопряжена с опасностями и может потребовать времени для полного достижения. Мы утверждаем, что более достижимой и лучшей целью для человечества является максимизация совместного совершенствования: сотрудничества между исследователями-людьми и ИИ для достижения совместного сверхразума. А именно, целенаправленное улучшение способности систем ИИ работать с исследователями-людьми для совместного проведения исследований в области ИИ — от генерации идей до экспериментирования — с целью как ускорения исследований в области ИИ, так и наделения как ИИ, так и людей в целом более безопасным сверхразумом через их симбиоз. Сосредоточение на включении улучшения человеческих исследований в этот цикл позволит достичь этой цели быстрее и безопаснее.
Мультимодальные системы поиска документов демонстрируют значительный прогресс в согласовании визуального и текстового контента для семантического поиска. Однако большинство существующих подходов остаются в значительной степени ориентированными на английский язык, что ограничивает их эффективность в многоязычных контекстах. В данной работе мы представляем M3DR (Multilingual Multimodal Document Retrieval) — фреймворк, разработанный для преодоления этого разрыва между языками, что обеспечивает применимость в разнообразных лингвистических и культурных контекстах. M3DR использует синтетические многоязычные данные документов и обобщает различные архитектуры «визуальный язык-текст» и размеры моделей, обеспечивая надежное кросс-лингвальное и кросс-модальное согласование. С помощью контрастивного обучения наши модели изучают унифицированные представления для текста и изображений документов, которые эффективно переносятся между языками. Мы проверяем эту возможность на 22 типологически разнообразных языках, демонстрируя стабильную производительность и адаптивность к лингвистическим вариациям и вариациям письменности. Мы также представляем комплексный бенчмарк, отражающий реальные многоязычные сценарии, и оцениваем модели в условиях одноязычного, многоязычного и смешанного языкового поиска. M3DR обобщает как парадигмы поиска с одним плотным вектором, так и парадигмы поиска на уровне токенов с несколькими векторами в стиле ColBERT. Наши модели NetraEmbed и ColNetraEmbed достигают наилучшей производительности с относительным улучшением примерно на 150% при кросс-лингвальном поиске.
Понимание длинных видео (LVU) представляет сложную задачу, поскольку ответы на реальные запросы часто зависят от редких, временно распределенных подсказок, скрытых в часах в основном избыточного и нерелевантного контента. Хотя агентные пайплайны улучшают возможности анализа видео, преобладающие фреймворки полагаются на не зависящий от запроса описатель для восприятия видеоинформации, что приводит к бесполезным вычислениям над нерелевантным контентом и размыванию детальной временной и пространственной информации. Мотивированные теорией активного восприятия, мы утверждаем, что LVU-агенты должны активно решать, что, когда и где наблюдать, а также постоянно оценивать, достаточно ли текущего наблюдения для ответа на запрос. Мы представляем Active Video Perception (AVP) — фреймворк поиска доказательств, который рассматривает видео как интерактивную среду и извлекает компактные, релевантные запросу доказательства непосредственно из пикселей. Конкретно, AVP запускает итеративный процесс «планирование-наблюдение-анализ» с помощью MLLM-агентов. В каждом раунде планировщик предлагает целевые взаимодействия с видео, наблюдатель выполняет их для извлечения доказательств с временными метками, а анализатор оценивает достаточность доказательств для ответа на запрос, либо останавливаясь с ответом, либо инициируя дальнейшее наблюдение. На пяти LVU-бенчмарках AVP демонстрирует наивысшую производительность со значительным улучшением. Примечательно, что AVP превосходит лучший агентный метод на 5.7% по средней точности, требуя при этом лишь 18.4% времени вывода и 12.4% входных токенов.
Временное понимание в автономном вождении (АВ) остается серьезной проблемой даже для современных передовых Vision-Language Models (VLM). Предыдущие работы представили наборы данных и бенчмарки, направленные на улучшение временного анализа, но они были сосредоточены на другом видеоконтенте, включая спорт, кулинарию и фильмы. Не существует ни одного бенчмарка, который бы целенаправленно рассматривал уникальные проблемы временного понимания в эгоцентричных видеоданных АВ. Чтобы восполнить этот пробел, представлен бенчмарк Temporal Understanding in Autonomous Driving (TAD), который оценивает способность VLM улавливать динамические взаимосвязи между действиями в АВ. TAD включает почти 6000 пар «вопрос-ответ», охватывающих 7 задач, разработанных человеком. Кроме того, проводится оценка, включающая 9 общедоступных и проприетарных моделей-универсалов, а также передовых специализированных моделей для АВ. При применении к TAD современные передовые модели показали неудовлетворительную точность, в основном из-за несовершенного понимания мелкомасштабных движений. Для улучшения понимания движения и общей точности на TAD предложены два новых решения, не требующих обучения: Scene-CoT, использующий цепочку рассуждений (Chain-of-Thought, CoT), и TCogMap, который включает эгоцентричную временную когнитивную карту. Предложенные подходы интегрированы с существующими VLM и повышают среднюю точность на TAD до 17,72%. Вводя TAD, тестируя множество передовых моделей и предлагая эффективные улучшения, данная работа направлена на стимулирование будущих исследований в области временного понимания в АВ. Бенчмарк и код для оценки доступны по адресам https://huggingface.co/datasets/vbdai/TAD и https://github.com/vbdi/tad_bench соответственно.
В данном исследовании мы представляем Colon-X — открытую инициативу, направленную на развитие мультимодального искусственного интеллекта для колоноскопии. Мы начинаем с создания ColonVQA, наиболее полного мультимодального набора данных для колоноскопии из когда-либо разработанных, содержащего более 1,1 миллиона записей визуальных вопросов и ответов, охватывающих 76 клинических находок и 18 мультимодальных задач. Помимо создания общедоступной основы данных, мы исследуем ключевой, но недостаточно изученный переход в колоноскопии — эволюцию от мультимодального понимания к клиническому рассуждению: (a) Чтобы оценить текущее состояние моделей мультимодального понимания, мы систематически тестируем обобщающую способность 22 больших мультимодальных языковых моделей и исследуем их надежность при антропогенных возмущениях. Результаты показывают, что клинические выводы ведущих MLLM-моделей остаются далекими от робастности и достоверности. (b) Чтобы сократить этот разрыв, мы исследуем рассужденчески-ориентированный интеллект, адаптированный для колоноскопии. В частности, мы создаем ColonReason — клинически обоснованный набор данных для рассуждений, аннотированный с помощью многоэкспертного дебатного пайплайна, и разрабатываем ColonR1 — первую модель в стиле R1, включающую методы адаптивного вознаграждения задач и градиентно-стабильной оптимизации. В условиях дефицита данных наша модель ColonR1 достигает общей точности 56,61%, превосходя supervised fine-tuning на 25,22%, и устанавливает новую базовую линию для мультимодального анализа колоноскопии с поддержкой рассуждений. Все данные и модельные ресурсы находятся в открытом доступе по адресу https://github.com/ai4colonoscopy/Colon-X.
Последние достижения в области генерации видео продемонстрировали значительный потенциал для создания симуляторов реального мира. Однако современные модели по-прежнему сталкиваются с трудностями при генерации физически согласованных результатов, особенно при обработке крупномасштабных или сложных динамических процессов. Это ограничение возникает главным образом из-за того, что существующие подходы изотропно реагируют на физические промпты и игнорируют тонкое соответствие между генерируемым контентом и локализованными физическими сигналами. Для решения этих проблем мы предлагаем ProPhy — прогрессивную структуру физического согласования, которая обеспечивает явное физически-ориентированное кондиционирование и анизотропную генерацию. ProPhy использует двухэтапный механизм смеси экспертов по физике (MoPE) для дискриминативного извлечения физических априорных знаний: семантические эксперты выводят физические принципы на семантическом уровне из текстовых описаний, а эксперты по уточнению захватывают физическую динамику на уровне токенов. Этот механизм позволяет модели изучать детализированные, физически-ориентированные видеопредставления, лучше отражающие фундаментальные физические законы. Кроме того, мы представляем стратегию физического согласования, которая переносит возможности физического рассуждения моделей «визуальный язык» (VLM) в экспертов по уточнению, способствуя более точному представлению динамических физических явлений. Многочисленные эксперименты на бенчмарках по физически-осознанной генерации видео показывают, что ProPhy создает более реалистичные, динамичные и физически согласованные результаты по сравнению с современными методами.
Квантование после обучения (PTQ) играет ключевую роль в демократизации больших языковых моделей (LLM). Однако существующие методы низкобитного квантования и разрежения сложно балансируют точность и эффективность из-за ограниченной аппаратной поддержки. Например, W4A8 может достичь лишь той же пиковой производительности (TOPS), что и W8A8, тогда как поддерживаемый GPU разреженный формат данных (2:4 полуструктурное разрежение) редко применяется из-за потери точности. Чтобы устранить этот разрыв, в данной статье мы предлагаем Разреженно-Квантованный Формат (SQ-формат) — унифицированный формат данных для квантования и разрежения, потенциально легко поддерживаемый как новым оборудованием, так и существующими GPU. SQ-формат использует тот факт, что разреженные матрицы можно ускорять в высокоточном режиме, а низкоточное матричное умножение также может быть соответствующим образом ускорено. Таким образом, SQ-формат предлагается для достижения Парето-улучшения между производительностью и пропускной способностью. Этот формат особенно подходит для активаций с неравномерным распределением выбросов и делает возможным их статическое сжатие. Мы демонстрируем передовую производительность PTQ с SQ-форматом, предлагаем аппаратные требования для его поддержки и дополнительно предоставляем исследование проектирования и инсайты для следующего поколения AI-ускорителей.
Эффективное снижение сейсмического риска основывается на точных оценках для конкретных площадок. Это требует моделей, способных учитывать влияние локальных грунтовых условий на характеристики колебаний грунта. В этом контексте перспективным направлением являются подходы, основанные на данных, которые извлекают признаки, контролируемые площадкой, из записанных акселерограмм. Мы рассматриваем задачу генерации сильных движений грунта из временны́х записей акселерометров и представляем TimesNet-Gen — условный генератор во временно́й области. Данный подход использует специфичное для сейсмической станции латентное узкое место (bottleneck). Оценка генерации проводится путем сравнения кривых HVSR и распределений основной частоты площадки f₀ между реальными и сгенерированными записями для каждой станции, а специфичность станции суммируется с помощью оценки, основанной на матрицах ошибок распределения f₀. TimesNet-Gen демонстрирует высокое соответствие для каждой станции и показывает сравнимые или лучшие результаты по сравнению с условным VAE-базисом, основанным на спектрограммах, для синтеза специфичных для площадки сильных движений. Наши коды доступны по адресу: https://github.com/brsylmz23/TimesNet-Gen.
По мере роста вычислительных потребностей оценка экологического следа ИИ требует выхода за рамки учета энергопотребления и водопользования и включения материальных затрат на специализированное оборудование. В данном исследовании количественно оценивается материальный след обучения ИИ путем связи вычислительных нагрузок с потребностями в физическом оборудовании. Элементный состав графического процессора (GPU) Nvidia A100 SXM 40 ГБ был проанализирован с помощью атомно-эмиссионной спектрометрии с индуктивно-связанной плазмой, что позволило идентифицировать 32 элемента. Результаты показывают, что аппаратное обеспечение ИИ примерно на 90% состоит из тяжелых металлов и лишь следовых количеств драгоценных металлов. По массе в составе GPU преобладают медь, железо, олово, кремний и никель. Используя многоэтапную методологию, мы интегрируем эти измерения с вычислительной пропускной способностью на один GPU при различных сроках службы, учитывая вычислительные требования для обучения конкретных моделей ИИ в разных режимах эффективности обучения. Сценарный анализ показывает, что в зависимости от утилизации FLOPs модели (MFU) и срока службы оборудования для обучения GPT-4 требуется от 1 174 до 8 800 GPU A100, что соответствует извлечению и последующему захоронению до 7 тонн токсичных элементов. Совместные стратегии оптимизации программного и аппаратного обеспечения могут снизить материальные затраты: увеличение MFU с 20% до 60% сокращает потребность в GPU на 67%, а увеличение срока службы с 1 до 3 лет дает сопоставимую экономию; реализация обеих мер вместе снижает потребность в GPU до 93%. Наши выводы подчеркивают, что инкрементальное повышение производительности, как, например, наблюдаемое между GPT-3.5 и GPT-4, сопряжено с непропорционально высокими материальными затратами. Исследование указывает на необходимость включения соображений о материальных ресурсах в дискуссии о масштабируемости ИИ, подчеркивая, что будущий прогресс в области ИИ должен соответствовать принципам ресурсоэффективности и экологической ответственности.
Крупные языковые модели (LLM) обычно проходят донастройку для обеспечения безопасности на этапе пост-обучения; тем не менее, они могут по-прежнему генерировать неподобающие ответы, потенциально создающие риски для пользователей. Эта проблема подчеркивает необходимость создания надежных защитных механизмов, функционирующих как на входе, так и на выходе модели. В данной работе мы представляем Roblox Guard 1.0 — передовую LLM, донастроенную на инструкциях для повышения безопасности LLM-систем за счет всесторонней модерации входных и выходных данных с использованием конвейера LLM для усиления возможностей модерации. Построенная на базе модели Llama-3.1-8B-Instruct, наша модель донастроена на инструкциях для обобщения работы с ранее неизвестными таксономиями безопасности и демонстрирует высокую производительность на внешних бенчмарках безопасности. Процесс инструктивной донастройки использует смесь синтетических и открытых наборов данных по безопасности, дополненных цепочками рассуждений (Chain-of-Thought, CoT) и инверсией входных данных для улучшения контекстного понимания и принятия решений. Для поддержки систематической оценки мы также выпускаем RobloxGuard-Eval — новый бенчмарк с расширяемой таксономией безопасности для оценки эффективности защитных ограничений и фреймворков модерации LLM.