Ежедневно отобранные исследовательские статьи по ИИ с переводами
Генерация молекул с помощью диффузионных моделей стала перспективным направлением для ИИ-управляемого открытия лекарств и материаловедения. Хотя графовые диффузионные модели получили широкое распространение благодаря дискретной природе двумерных молекулярных графов, существующие модели страдают от низкой химической валидности и уступают одномерному моделированию по соответствию желаемым свойствам. В данной работе мы представляем MolHIT — мощную框架 генерации молекулярных графов, преодолевающую давние ограничения производительности существующих методов. MolHIT основан на иерархической дискретной диффузионной модели, которая обобщает дискретную диффузию на дополнительные категории, кодирующие химические априорные знания, и использовании раздельного кодирования атомов по их химическим ролям. В целом MolHIT демонстрирует новое состояние искусства на наборе данных MOSES, впервые в графовой диффузии достигнув почти идеальной валидности и превзойдя сильные одномерные базовые линии по множеству метрик. Мы также показываем высокую производительность в downstream-задачах, включая генерацию с управлением по нескольким свойствам и расширение каркасов.
Моделирование длинных последовательностей пользовательского поведения стало ключевым направлением в генеративной рекомендательной системе. Однако существующие решения сталкиваются с дилеммой: линейные механизмы внимания обеспечивают эффективность ценой потери точности извлечения данных из-за ограниченной емкости состояния, в то время как softmax-внимание приводит к запретительно высоким вычислительным затратам. Для решения этой проблемы мы предлагаем HyTRec — модель с гибридной архитектурой внимания, которая явно разделяет долгосрочные стабильные предпочтения и краткосрочные всплески намерений. Назначая массовые исторические последовательности ветви линейного внимания и резервируя специализированную ветвь softmax-внимания для недавних взаимодействий, наш подход восстанавливает точные возможности извлечения данных в промышленных масштабах, включающих десятки тысяч взаимодействий. Для компенсации задержки в捕捉 быстрых смещений интересов в линейных слоях мы дополнительно разработали Temporal-Aware Delta Network (TADN), которая динамически усиливает свежие поведенческие сигналы, эффективно подавляя исторический шум. Экспериментальные результаты на промышленных наборах данных подтверждают превосходство нашей модели: она сохраняет линейную скорость вывода и превосходит сильные базовые методы, демонстрируя более чем 8%-ное улучшение Hit Rate для пользователей со сверхдлинными последовательностями при высокой эффективности.
SkyReels V4 — это унифицированная мультимодальная видео-фундаментальная модель для совместного генерации видео и аудио, инпейнтинга и редактирования. Модель использует архитектуру двухпотокового Мультимодального Трансформера с Диффузией (MMDiT), в которой один поток синтезирует видео, а другой генерирует временно выровненное аудио, при этом оба используют общий мощный текстовый энкодер на основе Мультимодальных Больших Языковых Моделей (MMLM). SkyReels V4 принимает богатые мультимодальные инструкции, включая текст, изображения, видеофрагменты, маски и аудиореференсы. Объединяя способность MMLM следовать мультимодальным инструкциям и обучение в контексте в видео-потоке MMDiT, модель может внедрять детальное визуальное руководство при сложных условиях, в то время как аудио-поток MMDiT одновременно использует аудиореференсы для управления генерацией звука. Со стороны видео мы применяем подход конкатенации каналов, который объединяет широкий спектр задач в стиле инпейнтинга, таких как image-to-video, расширение видео и редактирование видео, в единый интерфейс и естественным образом расширяется до инпейнтинга и редактирования на основе визуальных референсов через мультимодальные промпты. SkyReels V4 поддерживает разрешение до 1080p, 32 кадра в секунду и длительность до 15 секунд, что позволяет создавать видео кинематографического уровня с высокой детализацией, несколькими сценами и синхронизированным аудио. Чтобы сделать генерацию в таком высоком разрешении и большой длительности вычислительно осуществимой, мы вводим стратегию эффективности: совместную генерацию полных последовательностей в низком разрешении и ключевых кадров в высоком разрешении с последующим применением специализированных моделей супер-разрешения и интерполяции кадров. Насколько нам известно, SkyReels V4 является первой видео-фундаментальной моделью, которая одновременно поддерживает мультимодальный ввод, совместную генерацию видео и аудио, а также унифицированный подход к генерации, инпейнтингу и редактированию, сохраняя при этом высокую эффективность и качество на кинематографических разрешениях и длительностях.
Последние достижения в области базовых моделей произвели революцию в совместной генерации аудио и видео. Однако существующие подходы обычно рассматривают ориентированные на человека задачи, включая генерацию аудио-видео по ссылке (R2AV), редактирование видео (RV2AV) и анимацию видео на основе аудио (RA2V), как изолированные цели. Более того, достижение точного, раздельного управления множественными идентичностями персонажей и тембрами голоса в рамках единой системы остается нерешенной задачей. В данной статье мы предлагаем DreamID-Omni — унифицированную систему для управляемой ориентированной на человека генерации аудио и видео. В частности, мы разрабатываем Симметричный Условный Трансформер Диффузии, который интегрирует гетерогенные управляющие сигналы посредством схемы симметричного условного внедрения. Для решения повсеместных проблем связывания идентичности и тембра и путаницы между говорящими в сценариях с несколькими людьми мы вводим стратегию Двухуровневой Диссоциации: Synchronized RoPE на сигнальном уровне для обеспечения жесткой привязки в пространстве внимания и Структурированные Подписи на семантическом уровне для установления явных соответствий между атрибутами и субъектами. Кроме того, мы разрабатываем схему Многоцелевого Прогрессивного Обучения, которая использует слабоограниченные генеративные априорные данные для регуляризации сильноограниченных задач, предотвращая переобучение и гармонизируя различные цели. Многочисленные эксперименты демонстрируют, что DreamID-Omni достигает всестороннего передового уровня производительности по видео, аудио и аудиовизуальной согласованности, превосходя даже ведущие проприетарные коммерческие модели. Мы опубликуем наш код, чтобы сократить разрыв между академическими исследованиями и коммерческими приложениями.
Агентное обучение с подкреплением (ARL) быстро привлекло внимание как перспективная парадигма для обучения агентов решению сложных многошаговых интерактивных задач. Несмотря на обнадеживающие первоначальные результаты, ARL остается крайне нестабильным, часто приводя к коллапсу обучения. Эта нестабильность ограничивает масштабируемость в более крупных средах и на более длительных горизонтах взаимодействия, а также сдерживает систематическое исследование вариантов алгоритмического дизайна. В данной статье мы сначала предлагаем ARLArena — стабильный рецепт обучения и framework для системного анализа, который исследует устойчивость обучения в контролируемых и воспроизводимых условиях. ARLArena сначала создает чистый и стандартизированный тестовый стенд. Затем мы декомпозируем политику градиента на четыре ключевых измерения дизайна и оцениваем производительность и стабильность каждого измерения. Благодаря этому детализированному анализу мы формулируем унифицированный взгляд на ARL и предлагаем SAMPO — стабильный метод оптимизации агентной политики, предназначенный для смягчения основных источников нестабильности в ARL. Экспериментально SAMPO демонстрирует стабильное обучение и высокую производительность на разнообразных агентных задачах. В целом, данное исследование предлагает унифицированную перспективу политики градиента для ARL и предоставляет практические рекомендации для построения стабильных и воспроизводимых конвейеров обучения агентов на основе больших языковых моделей.
Существующие модели генерации видео с учетом действий (видеовероятностные модели мира) ограничены перспективой одного агента и не способны улавливать многоагентные взаимодействия, характерные для реальных сред. Мы представляем Solaris — многопользовательскую видеовероятностную модель, которая симулирует согласованные многовидовые наблюдения. Для этого мы разработали систему сбора многопользовательских данных, предназначенную для надежного, непрерывного и автоматизированного сбора данных в видеоиграх, таких как Minecraft. В отличие от предыдущих платформ, созданных для одиночных режимов, наша система поддерживает скоординированное многоагентное взаимодействие и синхронную запись видео и действий. С помощью этой системы мы собрали 12,64 миллиона многопользовательских кадров и предложили оценочную систему для проверки многопользовательского перемещения, памяти, ситуационной осведомленности, строительства и согласованности видов. Мы обучаем Solaris с использованием поэтапного конвейера, который постепенно переходит от моделирования одиночного игрока к многопользовательскому, комбинируя двунаправленное, причинное обучение и обучение с самонавязыванием. На заключительном этапе мы внедряем Checkpointed Self Forcing — вариант метода самонавязывания с экономией памяти, который позволяет использовать учителя с более длительным горизонтом планирования. Результаты показывают, что наша архитектура и подход к обучению превосходят существующие базовые методы. Путем открытого публикования нашей системы и моделей мы надеемся заложить основу для нового поколения многоагентных вероятностных моделей мира.
Производительность многошагового инференса агентных больших языковых моделей все больше определяется операциями ввода-вывода с KV-кэшем, а не вычислениями. В распространенных дис-агрегированных архитектурах загрузка огромного KV-кэша из внешнего хранилища создает фундаментальный дисбаланс: сетевые карты хранилища на движках префилла насыщаются по пропускной способности, в то время как на движках декодирования они простаивают. Эта асимметрия серьезно ограничивает общую пропускную способность системы. Мы представляем DualPath, систему инференса, которая устраняет это узкое место за счет введения двухпутевой загрузки KV-кэша. В дополнение к традиционному пути "хранилище-префилл", DualPath реализует новый путь "хранилище-декодер", при котором KV-кэш загружается в движки декодирования, а затем эффективно передается на движки префилла через RDMA по вычислительной сети. DualPath сочетает этот оптимизированный путь передачи данных — который по своей сути избегает сетевой перегрузки и не мешает задержко-критичным коммуникациям выполнения модели — с глобальным планировщиком, который динамически балансирует нагрузку между движками префилла и декодирования. Наша оценка на трех моделях с рабочими агентными нагрузками показывает, что DualPath повышает пропускную способность офлайн-инференса до 1.87 раз в нашей внутренней системе. Она также может повысить пропускную способность онлайн-обслуживания в среднем в 1.96 раз без нарушения SLA.
Свободно распространяемые нативные GUI-агенты по-прежнему отстают от проприетарных систем в задачах навигации с длинным горизонтом планирования. Этот разрыв обусловлен двумя ограничениями: нехваткой высококачественных данных рассуждений, согласованных с действиями, и прямым заимствованием общих пайплайнов пост-обучения, которые игнорируют уникальные проблемы GUI-агентов. Мы выявляем две фундаментальные проблемы в этих пайплайнах: (i) стандартное SFT с рассуждениями CoT часто ухудшает граундинг, и (ii) пошаговое обучение в стиле RLVR сталкивается с проблемой частичной верифицируемости, когда несколько действий могут быть правильными, но для проверки используется лишь одно демонстрируемое действие. Это делает оффлайн пошаговые метрики слабыми предикторами успешности решения задачи в онлайн-режиме. В данной работе мы представляем GUI-Libra — специализированную методику обучения, которая решает эти проблемы. Во-первых, для смягчения дефицита данных рассуждений, согласованных с действиями, мы предлагаем пайплайн создания и фильтрации данных и публикуем отобранный набор данных на 81K примеров для GUI-рассуждений. Во-вторых, для согласования рассуждений с граундингом мы предлагаем action-aware SFT, которое комбинирует данные формата «рассуждение-затем-действие» и данные прямого действия и перевзвешивает токены, чтобы акцентировать действия и граундинг. В-третьих, для стабилизации RL в условиях частичной верифицируемости мы определяем недооцененную важность KL-регуляризации в RLVR и показываем, что KL-регион доверия критически важен для улучшения предсказуемости перехода от оффлайн- к онлайн-режиму; мы также вводим success-adaptive scaling для снижения веса ненадежных отрицательных градиентов. На различных бенчмарках для веб- и мобильных интерфейсов GUI-Libra последовательно улучшает как пошаговую точность, так и сквозное завершение задач. Наши результаты позволяют предположить, что тщательно спроектированное пост-обучение и курация данных могут раскрыть значительно более сильные способности к решению задач без дорогостоящего сбора онлайн-данных. Мы публикуем наш набор данных, код и модели для содействия дальнейшим исследованиям в области ресурсоэффективного пост-обучения GUI-агентов, способных к рассуждениям.
Мы представляем Sphere Encoder — эффективную генеративную архитектуру, способную создавать изображения за один прямой проход и конкурирующую с многошаговыми диффузионными моделями, используя менее пяти шагов. Наш подход заключается в обучении энкодера, который равномерно отображает натуральные изображения на сферическое латентное пространство, и декодера, который преобразует случайные латентные векторы обратно в пространство изображений. Модель, обученная исключительно на задачах реконструкции изображений, генерирует изображение простым декодированием случайной точки на сфере. Наша архитектура естественным образом поддерживает условную генерацию, а несколько итераций энкодера и декодера могут дополнительно улучшить качество изображения. На нескольких наборах данных подход со сферическим энкодером демонстрирует результаты, сопоставимые с современными диффузионными моделями, но при значительно меньших вычислительных затратах на вывод. Страница проекта доступна по адресу https://sphere-encoder.github.io.
AIGC быстро расширилась от генерации изображений по тексту до высококачественного мультимодального синтеза, охватывающего видео и аудио. В этом контексте совместная генерация аудио и видео (JAVG) стала фундаментальной задачей, которая производит синхронизированные и семантически согласованные звук и изображение из текстовых описаний. Однако по сравнению с передовыми коммерческими моделями, такими как Veo3, существующие открытые методы все еще страдают от ограничений в качестве генерации, временной синхронности и соответствии человеческим предпочтениям. Чтобы сократить этот разрыв, данная статья представляет JavisDiT++, краткую, но мощную структуру для унифицированного моделирования и оптимизации JAVG. Во-первых, мы представляем модуль Mixture-of-Experts для модальностей (MS-MoE), который обеспечивает эффективность кросс-модального взаимодействия, одновременно повышая качество одномодальной генерации. Затем мы предлагаем стратегию временно-выровненного RoPE (TA-RoPE) для достижения явной синхронизации на уровне кадров между аудио- и видео-токенами. Кроме того, мы разрабатываем метод прямой оптимизации предпочтений для аудио-видео (AV-DPO), чтобы согласовать выходные данные модели с человеческими предпочтениями по измерениям качества, согласованности и синхронности. Построенная на основе Wan2.1-1.3B-T2V, наша модель достигает наилучших результатов, используя всего около 1 миллиона публичных обучающих примеров, значительно превосходя предыдущие подходы как в качественных, так и в количественных оценках. Проведены всесторонние аблиционные исследования для проверки эффективности предложенных модулей. Весь код, модель и набор данных опубликованы по адресу https://JavisVerse.github.io/JavisDiT2-page.
Векторные глифы являются атомарными единицами цифровой типографики, однако большинство обучаемых конвейеров по-прежнему зависят от тщательно отобранных образцовых листов и растрово-векторной постобработки, что ограничивает доступность и возможность редактирования. Мы представляем VecGlypher — единственную мультимодальную языковую модель, которая генерирует высококачественные векторные глифы непосредственно из текстовых описаний или образцов изображений. Получив стилевой промт, опциональные эталонные изображения глифов и целевой символ, VecGlypher авторегрессивно выдает токены SVG-путей, избегая растровых промежуточных представлений и создавая редактируемые, водонепроницаемые контуры за один проход. Это стало возможным благодаря типографски ориентированным данным и методике обучения: (i) масштабный этап продолжения на 39 тыс. зашумленных шрифтов Envato для освоения синтаксиса SVG и долгосрочной геометрии, за которым следует (ii) дообучение на 2,5 тыс. экспертно размеченных шрифтов Google Fonts с описательными тегами и образцами для согласования языка и изображений с геометрией; предобработка нормализует системы координат, канонизирует пути, устраняет дубликаты семейств и квантует координаты для стабильного декодирования длинных последовательностей. При кросс-семейной оценке на несмещенных данных VecGlypher значительно превосходит как общецелевые большие языковые модели, так и специализированные векторно-шрифтовые базовые методы для генерации только по тексту, в то время как генерация с опорой на изображения достигает уровня современных достижений с существенным преимуществом над DeepVecFont-v2 и DualVector. Абляционные исследования показывают, что масштаб модели и двухэтапная методика обучения являются критически важными, а сериализация в абсолютных координатах дает наилучшую геометрию. VecGlypher снижает барьер для создания шрифтов, позволяя пользователям проектировать с помощью слов или образцов, и закладывает масштабируемую основу для будущих мультимодальных инструментов дизайна.
Использование моделирования будущих наблюдений для облегчения генерации действий представляет перспективный путь для расширения возможностей моделей Vision-Language-Action (VLA). Однако существующие подходы испытывают трудности с достижением баланса между поддержанием эффективных, предсказуемых представлений будущего и сохранением достаточной детализированной информации для управления точной генерацией действий. Для преодоления этого ограничения мы предлагаем WoG (World Guidance) — фреймворк, который отображает будущие наблюдения в компактные условия путем их инжекции в конвейер вывода действий. Затем модель VLA обучается одновременно предсказывать эти сжатые условия вместе с будущими действиями, достигая тем самым эффективного моделирования мира в пространстве условий для вывода действий. Мы демонстрируем, что моделирование и предсказание этого пространства условий не только способствует детализированной генерации действий, но и проявляет превосходные способности к обобщению. Более того, метод эффективно обучается на обширных видео с демонстрациями манипуляций человеком. Многочисленные эксперименты как в симуляции, так и в реальных условиях подтверждают, что наш метод значительно превосходит существующие подходы, основанные на предсказании будущего. Страница проекта доступна по адресу: https://selen-suyue.github.io/WoGNet/
Редактирование изображений на основе инструкций достигло значительных успехов в семантическом согласовании, однако современные модели часто не способны воспроизводить физически правдоподобные результаты, когда редактирование затрагивает сложные причинно-следственные динамики, такие как преломление или деформация материалов. Мы объясняем это ограничение доминирующей парадигмой, которая трактует редактирование как дискретное отображение между парами изображений, что обеспечивает лишь граничные условия и оставляет переходные динамики неопределенными. Для решения этой проблемы мы переформулируем физически осознанное редактирование как предсказание переходов физических состояний и представляем PhysicTran38K — масштабный видеоданных набор, содержащий 38 тысяч траекторий переходов в пяти физических доменах, созданный с помощью двухэтапного конвейера фильтрации и аннотирования с учетом ограничений. На основе этой разметки мы предлагаем PhysicEdit — сквозную архитектуру, оснащенную механизмом текстуально-визуального двойного мышления. Она объединяет замороженный Qwen2.5-VL для физически обоснованных рассуждений с обучаемыми переходными запросами, которые предоставляют адаптивное к временным шагам визуальное руководство для диффузионной основы. Эксперименты показывают, что PhysicEdit превосходит Qwen-Image-Edit на 5.9% по показателю физического реализма и на 10.1% по обоснованному знаниями редактированию, устанавливая новый рекорд для открытых методов, оставаясь при этом конкурентоспособным с ведущими проприетарными моделями.
Диагностика гепатоцеллюлярной карциномы в значительной степени основана на интерпретации гигапиксельных изображений целых срезов. Однако современные вычислительные подходы ограничены механизмами обработки с фиксированным разрешением и неэффективной агрегацией признаков, что неизбежно приводит либо к значительной потере информации, либо к высокой избыточности признаков. Для решения этих проблем мы предлагаем Hepato-LLaVA — специализированную мультимодальную большую языковую модель, предназначенную для тонкого анализа патологии печени. Мы представляем новый механизм разреженного топо-пакетированного внимания, который явно моделирует двумерную топологию ткани. Этот механизм эффективно агрегирует локальные диагностические признаки в семантические суммаризирующие токены, сохраняя при этом глобальный контекст. Кроме того, чтобы преодолеть нехватку мультимасштабных данных, мы представляем HepatoPathoVQA — клинически обоснованный набор данных, содержащий 33 тыс. иерархически структурированных вопросно-ответных пар, валидированных экспертами-патологами. Наши эксперименты демонстрируют, что Hepato-LLaVA достигает передовых результатов в задачах диагностики и описания ГЦК, значительно превосходя существующие методы. Наш код и детали реализации доступны по адресу https://pris-cv.github.io/Hepto-LLaVA/.
Как большие языковые модели (LLM) узнают то, что они знают? Ответить на этот вопрос было сложно, поскольку данные предварительного обучения часто представляют собой «черный ящик» — неизвестны или недоступны. Недавний выпуск семейства небольших LLM nanochat с полностью открытыми данными предварительного обучения решает эту проблему, предоставляя прозрачное представление о том, откуда берется параметрическое знание модели. С целью понять, как знания кодируются в LLM, мы представляем NanoKnow — эталонный набор данных, который разделяет вопросы из Natural Questions и SQuAD на категории в зависимости от того, присутствуют ли их ответы в предварительно обучающем корпусе nanochat. Используя это разделение, мы теперь можем точно разграничить источники знаний, на которые полагаются LLM при генерации ответа. Чтобы продемонстрировать полезность NanoKnow, мы провели эксперименты с использованием восьми контрольных точек nanochat. Наши результаты показывают: (1) точность в закрытом режиме сильно зависит от частоты встречаемости ответа в данных предварительного обучения, (2) предоставление внешних доказательств может смягчить эту зависимость от частоты, (3) даже при наличии внешних доказательств модели точнее, когда ответы были увидены во время предварительного обучения, что демонстрирует комплементарность параметрических и внешних знаний, и (4) нерелевантная информация вредна, причем точность снижается в зависимости как от позиции, так и от количества нерелевантных контекстов. Мы публикуем все материалы NanoKnow по адресу https://github.com/castorini/NanoKnow.
Диффузионные модели являются мощной основой для визуальной генерации, однако их изначально последовательный процесс шумоподавления приводит к медленному выводу. Существующие методы ускоряют семплирование за счет кэширования и повторного использования промежуточных результатов на основе расстояний между признаками соседних временных шагов. Однако современные стратегии кэширования обычно опираются на сырые разности признаков, в которых переплетены содержание и шум. Такой подход игнорирует спектральную эволюцию, при которой низкочастотная структура появляется раньше, а высокочастотные детали уточняются позднее. Мы представляем Spectral-Evolution-Aware Cache (SeaCache) — свободный от обучения график кэширования, который основывает решения о повторном использовании на спектрально выровненном представлении. Благодаря теоретическому и эмпирическому анализу мы выводим Spectral-Evolution-Aware (SEA) фильтр, который сохраняет содержательно релевантные компоненты, подавляя шум. Использование SEA-фильтрованных входных признаков для оценки избыточности приводит к динамическим графикам, которые адаптируются к содержанию, учитывая спектральные априорные знания, лежащие в основе диффузионной модели. Многочисленные эксперименты на разнообразных моделях визуальной генерации и базовых методах показывают, что SeaCache достигает наилучшего баланса между задержкой и качеством.
Современные методы Dropout для 3D Gaussian Splatting (3DGS) решают проблему переобучения в условиях скудного набора видов путем случайного обнуления непрозрачности гауссоидов. Однако мы выявили в этих подходах эффект компенсации соседей: удаленные гауссоиды часто компенсируются их соседями, что ослабляет предполагаемую регуляризацию. Более того, эти методы упускают из виду вклад сферических гармоник высоких степеней (SH) в переобучение. Для решения этих проблем мы предлагаем DropAnSH-GS — новую якорную стратегию Dropout. Вместо независимого удаления гауссоидов наш метод случайным образом выбирает определенные гауссоиды в качестве якорей и одновременно удаляет их пространственных соседей. Это эффективно нарушает локальные избыточности вблизи якорей и побуждает модель изучать более устойчивые, глобально осведомленные представления. Кроме того, мы расширяем Dropout на цветовые атрибуты, случайным образом удаляя SH высоких степеней, чтобы сконцентрировать информацию о внешнем виде в SH низких степеней. Эта стратегия дополнительно смягчает переобучение и позволяет осуществлять гибкое сжатие модели после обучения путем усечения SH. Результаты экспериментов показывают, что DropAnSH-GS существенно превосходит существующие методы Dropout с незначительными вычислительными затратами и может быть легко интегрирован в различные варианты 3DGS для улучшения их производительности. Сайт проекта: https://sk-fun.fun/DropAnSH-GS
Дискретные диффузионные модели стали мощной альтернативой авторегрессионным языковым моделям, при этом в последних работах базовую унимодальную модель инициализируют и дообучают для бимодального поколения. В отличие от предыдущих подходов, мы представляем первую тримодальную маскированную диффузионную модель, предобученную с нуля на данных текста, изображений-текста и аудио-текста. Мы систематически анализируем законы масштабирования для мультимодальных данных, соотношения смешения модальностей, графики зашумления и эффекты размера пакета, а также предоставляем оптимизированные настройки по умолчанию для вывода. Наш анализ размера пакета приводит к новой параметризации на основе стохастических дифференциальных уравнений (СДУ), которая устраняет необходимость подбора оптимального размера пакета, как сообщалось в недавних работах. Эта параметризация разделяет физический размер пакета, часто выбираемый на основе вычислительных ограничений (насыщение GPU, эффективность FLOP, реальное время выполнения), и логический размер пакета, выбираемый для балансировки дисперсии градиента при стохастической оптимизации. Наконец, мы предобучаем предварительную тримодальную модель с 3 миллиардами параметров на 6,4 триллионах токенов, демонстрируя возможности унифицированного подхода и достигая высоких результатов в задачах генерации текста, тексто-изображения и тексто-речи. Наша работа представляет собой наиболее масштабное систематическое открытое исследование мультимодальных дискретных диффузионных моделей, проведенное на сегодняшний день, и дает представление о закономерностях масштабирования для множественных модальностей.
Глубокое исследование стало важной задачей, направленной на решение сложных запросов путём масштабного изучения открытых веб-ресурсов. Для её решения большинство существующих подходов оснащают агентов на основе больших языковых моделей (LLM) непрозрачными API веб-поиска, что позволяет агентам итеративно формировать поисковые запросы, извлекать внешние свидетельства и проводить над ними рассуждения. Несмотря на ключевую роль поиска в глубоком исследовании, использование «чёрного ящика» API веб-поиска затрудняет систематический анализ поисковых компонентов, оставляя поведение устоявшихся методов ранжирования текста в данном контексте в значительной степени неясным. Чтобы заполнить этот пробел, мы воспроизводим ряд ключевых выводов и лучших практик для методов ранжирования текста в информационном поиске в условиях глубокого исследования. В частности, мы исследуем их эффективность с трёх точек зрения: (i) единицы извлечения (документы против пассажей), (ii) конфигурации конвейера (разные ритриверы, реранкеры и глубина реранкинга) и (iii) характеристики запросов (расхождение между запросами, генерируемыми агентом, и обучающими запросами текстовых ранкеров). Мы проводим эксперименты на наборе данных BrowseComp-Plus для глубокого исследования с фиксированным корпусом, оценивая 2 агента с открытым исходным кодом, 5 ритриверов и 3 реранкера в различных конфигурациях. Мы обнаруживаем, что запросы, формируемые агентом, обычно следуют синтаксису веб-поиска (например, точные совпадения в кавычках), благоприятствуя лексическим, разреженным с обучением и мультивекторным ритриверам; пассажи как единицы извлечения более эффективны при ограниченных контекстных окнах и позволяют избежать трудностей нормализации длины документа в лексическом поиске; реранкинг высокоэффективен; перевод запросов агента в естественно-языковые вопросы существенно сокращает расхождение между запросами.
Протокол Model Context Protocol (MCP) представляет стандартную спецификацию, определяющую, как агенты на основе базовых моделей (Foundation Models, FM) должны взаимодействовать с внешними системами путем вызова инструментов. Однако для понимания назначения и функциональности инструментов FM полагаются на их описания на естественном языке, что делает эти описания критически важным компонентом, направляющим FM к выбору оптимального инструмента для данной (под)задачи и передаче правильных аргументов. Хотя дефекты или "запахи" в таких описаниях могут дезориентировать агентов на основе FM, их распространенность и последствия в экосистеме MCP остаются неясными. Следовательно, мы эмпирически исследуем 856 инструментов, распределенных по 103 серверам MCP, оцениваем качество их описаний и их влияние на производительность агента. Мы выявляем шесть компонентов описаний инструментов из литературы, разрабатываем оценочную рубрику, используя эти компоненты, и затем формализуем "запахи" описаний на основе данной рубрики. Операционализируя эту рубрику с помощью сканера на основе FM, мы обнаруживаем, что 97,1% проанализированных описаний инструментов содержат по крайней мере один "запах", причем 56% не четко указывают свою цель. Хотя дополнение этих описаний по всем компонентам повышает процент успешного выполнения задач в медианном значении на 5,85 процентных пункта и улучшает частичное достижение цели на 15,12%, это также увеличивает количество шагов выполнения на 67,46% и ухудшает производительность в 16,67% случаев. Эти результаты указывают, что достижение прироста производительности не является прямолинейным: хотя стоимость выполнения может выступать в качестве компромисса, контекст выполнения также может оказывать влияние. Кроме того, абляционные исследования компонентов показывают, что компактные варианты различных комбинаций компонентов часто сохраняют поведенческую надежность, одновременно снижая избыточную токенную нагрузку, что позволяет более эффективно использовать контекстное окно FM и снижать стоимость выполнения.
Видеофундаментальные модели ставят целью объединить понимание, генерацию, редактирование видео и выполнение инструкций в единой системе, что делает их центральным направлением для систем следующего поколения, работающих с несколькими модальностями. Однако существующие бенчмарки для оценки остаются фрагментированными и ограниченными по охвату, поскольку каждый из них нацелен на одну задачу, опирается на специфичные для задачи метрики и обычно использует короткие или простые видеофрагменты. В результате они не отражают унифицированные возможности, для предоставления которых эти модели и создаются. Чтобы устранить этот пробел, мы представляем UniVBench — бенчмарк, специально разработанный для оценки видеофундаментальных моделей по четырем ключевым способностям: понимание видео, генерация видео, редактирование видео и новая предлагаемая задача — реконструкция видео, которая оценивает, насколько точно модель может воспроизвести просмотренное видео. Наш бенчмарк существенно расширяет сложность оценки за счет включения 200 высококачественных, разнообразных и многокадровых видео, каждое из которых снабжено детальными описаниями, инструкциями по редактированию в различных форматах и референсными изображениями. Все видео созданы человеком и тщательно проверены, предлагая более богатую кинематографическую информацию по сравнению с предыдущими бенчмарками. Кроме того, мы разработали унифицированную агентскую систему оценки (UniV-Eval), которая стандартизирует формирование промптов, парсинг инструкций и оценку по всем задачам, что позволяет проводить справедливые, масштабируемые и воспроизводимые сравнения унифицированных видео-моделей. Основывая оценку на задачах с многокадровыми видео, управляемыми инструкциями, UniVBench предоставляет первую систему для измерения интегрированных возможностей, которых стремятся достичь видеофундаментальные модели. Обширные человеческие аннотации гарантируют, что наша оценка согласуется с человеческим суждением, обеспечивая строгий анализ и ускоряя прогресс в направлении создания надежного видеоинтеллекта.
Мы системно оцениваем качество широко используемых наборов данных по безопасности ИИ с двух точек зрения: изолированно и на практике. При изолированном рассмотрении мы анализируем, насколько точно эти наборы данных отражают реальные адверсарные атаки, основываясь на трех ключевых свойствах: обусловленность скрытыми мотивами, тщательная проработка и отличие от распределения обучающих данных. Мы обнаруживаем, что эти наборы данных чрезмерно полагаются на «триггерные сигналы» — слова или фразы с явными негативными/чувствительными коннотациями, предназначенные для явного срабатывания механизмов безопасности, что нереалистично по сравнению с реальными атаками. На практике мы оцениваем, действительно ли эти наборы данных измеряют риски безопасности или merely провоцируют отказы через триггерные сигналы. Для исследования этого мы вводим концепцию «отмывания намерения»: процедуру абстрагирования от триггерных сигналов в адверсарных атаках (точках данных) при строгом сохранении их вредоносного намерения и всех релевантных деталей. Наши результаты показывают, что текущие наборы данных по безопасности ИИ неадекватно отражают поведение реальных злоумышленников из-за чрезмерной зависимости от триггерных сигналов. После удаления этих сигналов все ранее оцененные как «достаточно безопасные» модели становятся небезопасными, включая Gemini 3 Pro и Claude Sonnet 3.7. Более того, когда отмывание намерения адаптируется как техника взлома, оно стабильно демонстрирует высокий процент успешных атак — от 90% до свыше 98% — в условиях полностью черного ящика. В целом, наши выводы выявляют значительный разрыв между тем, как безопасность моделей оценивается существующими наборами данных, и тем, как ведут себя реальные злоумышленники.
Галлюцинации объектов — это серьёзная проблема в больших визуально-языковых моделях (LVLM), когда выходные данные содержат объекты, отсутствующие во входном изображении. Из этого явления возникает естественный вопрос: какой компонент конвейера LVLM в основном способствует возникновению галлюцинаций объектов? Визуальный кодировщик, воспринимающий зрительную информацию, или языковой декодер, генерирующий текстовые ответы? В данной работе мы стремимся ответить на этот вопрос, разработав систематический эксперимент для анализа ролей визуального кодировщика и языкового декодера в генерации галлюцинаций. Наши наблюдения показывают, что галлюцинации объектов в основном связаны с сильными априорными предположениями языкового декодера. На основе этого открытия мы предлагаем простую и не требующую обучения структуру — декодирование без языковых галлюцинаций (NoLan), которая уточняет распределение выходных данных путём динамического подавления языковых априорных предположений, регулируемого на основе разницы в распределении выходных данных между мультимодальными и чисто текстовыми входами. Результаты экспериментов демонстрируют, что NoLan эффективно снижает галлюцинации объектов в различных LVLM при решении разных задач. Например, NoLan обеспечивает значительное улучшение на benchmark POPE, повышая точность моделей LLaVA-1.5 7B и Qwen-VL 7B до 6,45 и 7,21 соответственно. Код доступен по адресу: https://github.com/lingfengren/NoLan.
Современные аудиовизуальные большие языковые модели (AV-LLM) в основном ограничены двумерным восприятием, основанным на RGB-видео и монофоническом аудио. Такой подход создает фундаментальное несоответствие размерностей, которое препятствует надежному определению местоположения источников и пространственному мышлению в сложных трехмерных средах. Мы преодолеваем это ограничение, представляя JAEGER — фреймворк, расширяющий AV-LLM в трехмерное пространство для совместного пространственного позиционирования и логического вывода путем интеграции RGB-D наблюдений и многоканального аудио первого порядка в формате амбисонкс. Ключевым вкладом нашей работы является нейронный вектор интенсивности (Neural IV) — обученное пространственное аудиопредставление, кодирующее надежные направленные сигналы для улучшения оценки направления прихода звука даже в сложных акустических сценариях с перекрывающимися источниками. Для обеспечения масштабируемого обучения и систематической оценки мы предлагаем SpatialSceneQA — бенчмарк, содержащий 61 тыс. инструкций для тонкой настройки, созданных на основе смоделированных физических сред. Многочисленные эксперименты демонстрируют, что наш подход стабильно превосходит ориентированные на 2D базовые методы в разнообразных задачах пространственного восприятия и логического вывода, подчеркивая необходимость явного 3D-моделирования для развития ИИ в физических средах. Наш исходный код, предобученные модельные чекпоинты и наборы данных будут опубликованы после принятия статьи.
Анализ нестационарных временных рядов требует понимания их локальных и глобальных паттернов с физической интерпретируемостью. Однако традиционные алгоритмы сглаживания, такие как B-сплайны, фильтр Савицкого-Голея и эмпирическая модовая декомпозиция (EMD), не способны выполнять параметрическую оптимизацию с гарантированной непрерывностью. В данной статье мы предлагаем Функциональную Непрерывную Декомпозицию (FCD) — ускоренный с помощью JAX фреймворк, выполняющий параметрическую непрерывную оптимизацию для широкого класса математических функций. Используя оптимизацию Левенберга-Марквардта для достижения аппроксимации с непрерывностью до C^1, FCD преобразует исходные данные временных рядов в M мод, которые捕捉ляют различные временные паттерны от краткосрочных до долгосрочных трендов. Применения FCD включают физику, медицину, финансовый анализ и машинное обучение, где она обычно используется для анализа временных паттернов сигналов, оптимизированных параметров, производных и интегралов декомпозиции. Более того, FCD может применяться для физического анализа и извлечения признаков со средним SRMSE 0.735 на сегмент и скоростью 0.47 с при полной декомпозиции 1000 точек. Наконец, мы демонстрируем, что сверточная нейронная сеть (CNN), усиленная признаками FCD, такими как оптимизированные значения функций, параметры и производные, достигла на 16.8% более быстрой сходимости и на 2.5% более высокой точности по сравнению со стандартной CNN.
Извлечение клинической информации из медицинских транскриптов на языках с ограниченными ресурсами остается серьезной проблемой в обработке естественного языка (ОЕЯ) для здравоохранения. В данном исследовании оценивается двухэтапный конвейер, сочетающий модель перевода с персидского на английский Aya-expanse-8B с пятью открытыми малыми языковыми моделями (МЯМ) — Qwen2.5-7B-Instruct, Llama-3.1-8B-Instruct, Llama-3.2-3B-Instruct, Qwen2.5-1.5B-Instruct и Gemma-3-1B-it — для бинарного извлечения 13 клинических признаков из 1221 анонимизированной персидской транскрипции, собранной в кол-центре паллиативной помощи онкологическим больным. Используя стратегию немногих примеров (few-shot) без дообучения, модели оценивались по макро-усредненной F1-мере, коэффициенту корреляции Мэттьюса (MCC), чувствительности и специфичности для учета дисбаланса классов. Qwen2.5-7B-Instruct показала наивысшую общую производительность (медиана macro-F1: 0,899; MCC: 0,797), в то время как Gemma-3-1B-it продемонстрировала наихудшие результаты. Более крупные модели (7–8 млрд параметров) стабильно превосходили меньшие аналоги по чувствительности и MCC. Двуязычный анализ Aya-expanse-8B показал, что перевод персидских транскриптов на английский язык повышал чувствительность, сокращал количество пропущенных ответов и улучшал метрики, устойчивые к дисбалансу классов, хотя и ценой некоторого снижения специфичности и точности. Результаты на уровне признаков показали надежное извлечение физиологических симптомов большинством моделей, тогда как психологические жалобы, административные запросы и сложные соматические признаки оставались трудными для извлечения. Эти результаты представляют практичный, сохраняющий конфиденциальность подход к развертыванию открытых МЯМ в условиях многозадачной клинической ОЕЯ с ограниченной инфраструктурой и ресурсами для разметки, а также подчеркивают важность совместной оптимизации масштаба модели и стратегии входного языка для чувствительных приложений в здравоохранении.
Сообщалось, что большие языковые модели (БЯМ) линейно кодируют правдивость, однако недавние исследования ставят под вопрос универсальность этого вывода. Мы примиряем эти точки зрения с помощью гипотезы спектра правдивости: репрезентационное пространство содержит направления, варьирующиеся от широких доменно-общих до узких доменно-специфичных. Чтобы проверить эту гипотезу, мы систематически оцениваем обобщаемость проб (линейных классификаторов) для пяти типов истинности (дефиниционных, эмпирических, логических, вымышленных и этических), сикофантской лжи и лжи с инвертированными ожиданиями, а также существующих бенчмарков честности. Линейные пробы хорошо обобщаются в большинстве доменов, но не справляются с сикофантской ложью и ложью с инвертированными ожиданиями. Однако совместное обучение на всех доменах восстанавливает высокую производительность, подтверждая существование доменно-общих направлений, несмотря на слабый попарный перенос. Геометрия направлений проб объясняет эти закономерности: косинусное сходство Махаланобиса между пробами почти идеально предсказывает междоменное обобщение (R²=0.98). Методы стирания концептов дополнительно выделяют направления правдивости, которые являются (1) доменно-общими, (2) доменно-специфичными или (3) общими только для определенных подмножеств доменов. Каузальные интервенции показывают, что доменно-специфичные направления управляют поведением эффективнее, чем доменно-общие. Наконец, посттренинг изменяет геометрию правдивости, отодвигая сикофантскую ложь дальше от других типов истинности, что указывает на репрезентационную основу склонности чат-моделей к сикофантству. В совокупности наши результаты подтверждают гипотезу спектра правдивости: в репрезентационном пространстве сосуществуют направления правдивости разной степени общности, а посттренинг изменяет их геометрию. Код для всех экспериментов доступен по адресу https://github.com/zfying/truth_spec.
Мы представляем ISO-Bench — бенчмарк для оценки способностей кодирующих агентов решать практические задачи оптимизации логики вывода. Эти задачи взяты из vLLM и SGLang, двух наиболее популярных фреймворков для сервинга больших языковых моделей. Каждая задача предоставляет агенту кодобазу и описание узкого места, после чего агент должен создать патч для оптимизации, который оценивается в сравнении с экспертными решениями, разработанными людьми. Мы отобрали 54 задачи из принятых пул-реквестов, имеющих измеримое улучшение производительности. В то время как существующие бенчмарки широко используют метрики на основе времени выполнения, такие подходы можно обойти для прохождения тестов, не отражая истинного предназначения изменений в коде. Поэтому мы комбинируем как жесткие (основанные на выполнении), так и мягкие (основанные на LLM) метрики, чтобы показать, что обе необходимы для комплексной оценки. Оценивая как проприетарные, так и открытые кодирующие агенты, мы обнаружили, что ни один агент не доминирует во всех кодобазах. Неожиданно, агенты часто правильно определяют узкие места, но не могут реализовать рабочие решения. Мы также демонстрируем, что агенты с идентичными базовыми моделями существенно различаются, что указывает на важность каркаса системы, сопоставимую с важностью самой модели.
Мы стремимся изучить совместное представление между сигналами инерциальных измерительных модулей (IMU) и последовательностями 2D-поз, извлеченными из видео, что позволит выполнять точный кросс-модальный поиск, временную синхронизацию, локализацию субъекта и частей тела, а также распознавание действий. Для этого мы представляем MoBind — иерархическую контрастную модель обучения, разработанную для решения трех задач: (1) фильтрации нерелевантного визуального фона, (2) моделирования структурированных конфигураций многодатчиковых IMU и (3) достижения детального временного выравнивания с субсекундной точностью. Чтобы изолировать релевантные для движения сигналы, MoBind выравнивает данные IMU с последовательностями скелетных движений, а не с исходными пикселями. Мы дополнительно декомпозируем движение всего тела на траектории локальных частей тела, сопоставляя каждую с соответствующим IMU для обеспечения семантически обоснованного многодатчикового выравнивания. Для захвата детальных временных соответствий MoBind использует иерархическую контрастную стратегию, которая сначала выравнивает временные сегменты на уровне токенов, а затем объединяет локальное (для частей тела) выравнивание с глобальной (для всего тела) агрегацией движения. При оценке на наборах данных mRi, TotalCapture и EgoHumans MoBind стабильно превосходит сильные базовые линии по всем четырем задачам, демонстрируя надежное детальное временное выравнивание при сохранении грубой семантической согласованности между модальностями. Код доступен по адресу https://github.com/bbvisual/MoBind.
В последнее время диффузионные модели стали мощными априорными распределениями для решения обратных задач. Хотя компьютерная томография (КТ) теоретически является линейной обратной задачей, на практике она сталкивается со множеством вызовов. К ним относятся коррелированный шум, артефакты изображений, зависимость от геометрии системы и несовпадение диапазонов значений, что затрудняет прямое применение диффузионных моделей по сравнению с такими областями, как генерация натуральных изображений. Для систематической оценки работы диффузионных моделей в этом контексте и их сравнения с устоявшимися методами реконструкции мы представляем DM4CT — комплексный бенчмарк для реконструкции КТ. DM4CT включает наборы данных из медицинской и промышленной областей с разреженными проекциями и зашумленными конфигурациями. Для изучения сложностей практического развертывания диффузионных моделей мы дополнительно получили высокоразрешающий набор данных КТ на высокоэнергетическом синхротронном комплексе и оценили все методы в реальных экспериментальных условиях. Мы провели сравнительный анализ десяти современных методов на основе диффузии вместе с семью сильными базовыми методами, включая модельно-ориентированные, неконтролируемые и контролируемые подходы. Наш анализ дает детальное представление о поведении, преимуществах и ограничениях диффузионных моделей для реконструкции КТ. Набор реальных данных общедоступен по адресу zenodo.org/records/15420527, а кодовая база имеет открытый исходный код на github.com/DM4CT/DM4CT.
Распознавание сарказма представляет собой фундаментальную проблему в вычислительной семантике, требующую от моделей разрешения расхождений между буквальным и подразумеваемым значением. Эта задача усложняется для малосегментированных языков, где размеченные наборы данных稀缺ны или отсутствуют. Мы представляем Yor-Sarc, первый золотой стандарт набора данных для обнаружения сарказма на языке йоруба, тональном языке нигеро-конголезской семьи, на котором говорят более 50 миллионов человек. Набор данных включает 436 примеров, размеченных тремя носителями языка из различных диалектных групп с использованием протокола разметки, специально разработанного для йорубского сарказма с учетом культурных особенностей. Данный протокол включает контекстно-зависимую интерпретацию и основанные на знаниях сообщества рекомендации, а также сопровождается всесторонним анализом согласованности между аннотаторами для поддержки воспроизведения в других африканских языках. Было достигнуто существенное или почти полное согласие (каппа Флейсса κ=0,7660; попарная каппа Кохена κ=0,6732–0,8743) с 83,3% единогласного консенсуса. Одна пара аннотаторов достигла почти полного согласия (κ=0,8743; 93,8% сырого согласия), превзойдя ряд заявленных ориентиров для исследований сарказма в английском языке. Оставшиеся 16,7% случаев согласия большинства сохранены в виде мягких меток для моделирования с учетом неопределенности. Ожидается, что Yor-Sarchttps://github.com/toheebadura/yor-sarc будет способствовать исследованиям в области семантической интерпретации и культурно-ориентированной обработки естественного языка для малосегментированных африканских языков.