Ежедневно отобранные исследовательские статьи по ИИ с переводами
Современный ландшафт моделей генерации изображений высокого качества в настоящее время доминируется проприетарными системами, такими как Nano Banana Pro и Seedream 4.0. Ведущие открытые альтернативы, включая Qwen-Image, Hunyuan-Image-3.0 и FLUX.2, характеризуются огромным количеством параметров (от 20 до 80 миллиардов), что делает их непрактичными для инференса и тонкой настройки на потребительском оборудовании. Чтобы заполнить этот пробел, мы представляем Z-Image — эффективную базовую генеративную модель с 6 миллиардами параметров, построенную на основе масштабируемой диффузионной трансформерной архитектуры с единым потоком (S3-DiT), которая бросает вызов парадигме «масштабирования любой ценой». Системно оптимизируя полный жизненный цикл модели — от курируемой инфраструктуры данных до оптимизированного учебного плана — мы завершаем полный рабочий процесс обучения всего за 314 тысяч GPU-часов на H800 (приблизительно $630 тыс.). Наша схема дистилляции за несколько шагов с последующим пост-тренингом по вознаграждению дополнительно позволяет получить Z-Image-Turbo, который обеспечивает как задержку инференса менее секунды на GPU корпоративного класса H800, так и совместимость с потребительским оборудованием (<16 ГБ VRAM). Кроме того, наша парадигма универсального предварительного обучения также позволяет эффективно обучать Z-Image-Edit — модель для редактирования с впечатляющими способностями к следованию инструкциям. Качественные и количественные эксперименты демонстрируют, что наша модель достигает производительности, сравнимой или превосходящей ведущих конкурентов в различных измерениях. Особенно примечательно, что Z-Image демонстрирует исключительные способности в области фотореалистичной генерации изображений и двуязычного рендеринга текста, обеспечивая результаты, сопоставимые с топовыми коммерческими моделями, тем самым доказывая, что передовые результаты достижимы при значительно сниженных вычислительных затратах. Мы публично выпускаем наш код, веса моделей и онлайн-демо для стимулирования разработки доступных, экономичных, но современных генеративных моделей.
Последние достижения в области моделей редактирования изображений демонстрируют значительный прогресс. Распространенная архитектурная схема предполагает объединение кодера мультимодальной большой языковой модели (MLLM) с диффузионным декодером, что можно наблюдать в таких системах, как Step1X-Edit и Qwen-Image-Edit, где MLLM кодирует как эталонное изображение, так и инструкцию, но остается замороженной в процессе обучения. В данной работе мы показываем, что раскрытие способностей MLLM к логическому выводу может еще больше расширить границы возможностей моделей редактирования. В частности, мы исследуем два механизма рассуждения — мышление и рефлексию, — которые улучшают понимание инструкций и точность редактирования. На основе этого наша предлагаемая архитектура позволяет осуществлять редактирование изображений в цикле «мышление-редактирование-рефлексия»: механизм мышления использует знания MLLM о мире для интерпретации абстрактных инструкций, в то время как рефлексия анализирует результаты редактирования, автоматически исправляет непреднамеренные изменения и определяет момент остановки. Многочисленные эксперименты демонстрируют, что наш подход с использованием рассуждений обеспечивает значительный прирост производительности: улучшение показателей на ImgEdit (+4.3%), GEdit (+4.7%) и Kris (+8.2%) при инициализации нашей DiT из Step1X-Edit (ReasonEdit-S), а также превосходство над предыдущими открытыми методами как на GEdit, так и на Kris при интеграции с Qwen-Image-Edit (ReasonEdit-Q).
В последнее время все большее значение приобретает генерация многопользовательских видео. Хотя некоторые предварительные работы исследовали создание аудиоуправляемых разговорных видео с участием нескольких человек, они часто сталкиваются с проблемами из-за высокой стоимости сбора разнообразных многопользовательских данных и сложности согласованного управления несколькими идентичностями. Для решения этих задач мы предлагаем AnyTalker — многопользовательскую генеративную систему с расширяемой архитектурой многопоточной обработки. В частности, мы расширяем блок внимания Diffusion Transformer с помощью нового механизма attention, учитывающего идентичность, который итеративно обрабатывает пары «идентичность-аудио», позволяя произвольно масштабировать количество управляемых идентичностей. Кроме того, обучение многопользовательских генеративных моделей требует огромных объемов многопользовательских данных. Наш предлагаемый конвейер обучения использует исключительно однопользовательские видео для изучения моделей речи нескольких человек и улучшает интерактивность с помощью всего нескольких реальных многопользовательских клипов. Кроме того, мы представляем специализированную метрику и набор данных, предназначенные для оценки естественности и интерактивности генерируемых многопользовательских видео. Многочисленные эксперименты демонстрируют, что AnyTalker достигает впечатляющей синхронизации губ, визуального качества и естественной интерактивности, обеспечивая благоприятный баланс между стоимостью данных и масштабируемостью идентичностей.
Мы представляем Vision Bridge Transformer (ViBT) — крупномасштабную реализацию моделей броуновского моста, предназначенную для условной генерации. В отличие от традиционных диффузионных моделей, преобразующих шум в данные, модели моста непосредственно описывают траекторию между входными и выходными данными, создавая эффективную парадигму преобразования «данные-в-данные». Масштабировав эти модели до 20 млрд и 1,3 млрд параметров, мы демонстрируем их эффективность для задач трансляции изображений и видео. Для поддержки такого масштаба мы используем архитектуру трансформера и предлагаем стабилизированный по дисперсии целевой функционал согласования скоростей для устойчивого обучения. В совокупности эти достижения подчеркивают потенциал масштабирования моделей моста для редактирования изображений на основе инструкций и сложного преобразования видео.
Унифицированные мультимодальные модели для генерации и понимания изображений представляют значительный шаг на пути к ОИИ и привлекли широкое внимание исследователей. Основная сложность данной задачи заключается в трудности установления оптимальной парадигмы обучения из-за присущей противоречивости целей задач понимания и генерации. Для смягчения этих конфликтов и достижения более высокой производительности многие исследователи применяют различные степени развязки модели (например, двойные энкодеры изображений, архитектуры MOE/MOT или замороженные MLLM). Однако чрезмерная развязка модели может привести к утрате способности к чередующейся генерации, что подрывает исходный замысел унифицированных моделей. В данной работе мы стремимся исследовать, как смягчить конфликты задач без прибегания к развязке модели. Во-первых, мы анализируем, почему развязка смягчает конфликты, изучая поведение кросс-модальной внимательности моделей. Мы наблюдаем, что развязка модели по сути направляет модели к специфичным для задач паттернам мультимодального взаимодействия, как видно в Qwen-VL и HunyuanImage, причем чем тщательнее развязка, тем более согласованным становится поведение. Руководствуясь этим наблюдением, мы предлагаем функцию потерь выравнивания взаимодействия внимания (AIA), которая явно обучает специфичным для задач паттернам мультимодального взаимодействия в процессе обучения. Для демонстрации обобщаемости нашей функции потерь AIA мы применяем ее к Emu3 и Janus-Pro на этапах SFT и пост-обучения соответственно. Без каких-либо дополнительных усложнений, AIA не только уточняет паттерны кросс-модального внимания, но и повышает производительность как в генерации, так и в понимании.
Крупные языковые модели достигли значительного прогресса в математических рассуждениях, которые служат важным полигоном для испытаний ИИ и в случае дальнейшего развития могут оказать влияние на научные исследования. Благодаря масштабированию рассуждений с помощью обучения с подкреплением, поощряющего правильные итоговые ответы, языковые модели всего за год эволюционировали от низких результатов до насыщения количественных соревнований по reasoning, таких как AIME и HMMT. Однако у этого подхода есть фундаментальные ограничения. Стремление к повышению точности итогового ответа не решает ключевую проблему: правильный ответ не гарантирует корректности рассуждений. Более того, многие математические задачи (например, доказательство теорем) требуют строгого пошагового вывода, а не численных ответов, что делает неприменимым вознаграждение за конечный результат. Чтобы раздвинуть границы глубинных рассуждений, мы считаем необходимым проверять полноту и строгость математических выводов. Самопроверка особенно важна для масштабирования вычислительных ресурсов на этапе тестирования, особенно для открытых проблем без известных решений. В направлении самопроверяемых математических рассуждений мы исследуем, как обучить точный и достоверный верификатор на основе языковой модели для доказательства теорем. Затем мы обучаем генератор доказательств, используя верификатор в качестве модели вознаграждения, и стимулируем генератор выявлять и устранять как можно больше проблем в собственных доказательствах перед их финализацией. Чтобы сохранять разрыв между генерацией и проверкой по мере усиления генератора, мы предлагаем масштабировать вычислительные ресурсы верификации для автоматической разметки новых сложных для проверки доказательств, создавая обучающие данные для дальнейшего улучшения верификатора. Наша итоговая модель DeepSeekMath-V2 демонстрирует мощные возможности в доказательстве теорем, достигая золотого уровня на Международной математической олимпиаде 2025 года и Канадской математической олимпиаде 2024 года, а также почти идеального результата 118/120 на конкурсе Путнэма 2024 года при масштабировании тестовых вычислений.
Модели диффузии сталкиваются с фундаментальным компромиссом между качеством генерации и вычислительной эффективностью. Латентные модели диффузии (LDM) предлагают эффективное решение, но страдают от потенциальной потери информации и не сквозного обучения. В отличие от них, существующие модели в пиксельном пространстве обходятся без VAEs, но становятся вычислительно неподъемными для синтеза высокого разрешения. Для разрешения этой дилеммы мы предлагаем DiP — эффективную диффузионную архитектуру в пиксельном пространстве. DiP разделяет генерацию на глобальную и локальную стадии: основа на базе диффузионного трансформера (DiT) работает с крупными патчами для эффективного построения глобальной структуры, в то время как совместно обучаемая легковесная голова детализации патчей (Patch Detailer Head) использует контекстные признаки для восстановления мелкозернистых локальных деталей. Такая синергетическая конструкция достигает вычислительной эффективности, сопоставимой с LDM, без использования VAE. DiP обеспечивает до 10-кратного ускорения вывода по сравнению с предыдущими методами при увеличении общего числа параметров всего на 0.3% и достигает показателя FID 1.79 на ImageNet 256×256.
Для создания обобщающей модели «Vision-Language-Action» (VLA) с развитыми способностями к рассуждению распространенной стратегией является предварительное обучение специализированной VLA на демонстрационных данных от роботов для приобретения надежных навыков манипулирования, с последующим включением размеченных роботизированных данных вместе с мультимодальными данными для восстановления широких возможностей логического вывода. Однако мы наблюдаем, что результирующая рассуждающая VLA часто демонстрирует ухудшенную производительность действий по сравнению со специализированной моделью до дообучения — феномен, который мы называем **деградацией действий**. Для решения этой проблемы мы предлагаем **DualVLA**, который повышает производительность действий за счет тщательно спроектированного пост-тренинга, сохраняя при этом способность к рассуждению. Сначала мы вводим двухуровневый метод очистки данных, который удаляет избыточные рассуждения в контексте воплощенного ИИ, предотвращая их негативное влияние на обучение действиям. Для дальнейшего усиления генерации действий мы разрабатываем стратегию адаптивного дистилляции с двумя учителями, которая назначает различные сигналы обучения для разных доменов данных, сохраняя способность к рассуждению. Чтобы восполнить пробел в оценке универсальных VLA, мы также предлагаем **VLA Score**, который декомпозирует способности VLA на измерения рассуждения, намерения, действия и согласованности для более детальной оценки. Эксперименты показывают, что DualVLA достигает среднего уровня успеха 61.0 в SimplerEnv и среднего балла 65.4 на восьми конкурентных мультимодальных бенчмарках, демонстрируя более сбалансированное соотношение между точным выполнением действий и мультимодальным пониманием. Страница проекта: https://costaliya.github.io/DualVLA/.
Мы представляем состязательные модели потоков — класс генеративных моделей, объединяющий состязательные модели и модели потоков. Наш метод поддерживает одношаговую или многошаговую генерацию и обучается с использованием состязательной цели. В отличие от традиционных GAN, где генератор изучает произвольный план транспортировки между распределениями шума и данных, наш генератор изучает детерминированное отображение "шум-данные", которое соответствует оптимальному транспорту, как и в моделях согласования потоков. Это значительно стабилизирует состязательное обучение. Кроме того, в отличие от методов на основе согласованности, наша модель непосредственно изучает одношаговую или малошаговую генерацию без необходимости изучения промежуточных временных шагов вероятностного потока для распространения. Это экономит емкость модели, сокращает количество итераций обучения и избегает накопления ошибок. В тех же условиях 1NFE на ImageNet-256px наша модель B/2 приближается к производительности моделей XL/2 на основе согласованности, в то время как наша модель XL/2 устанавливает новый рекорд FID, равный 2.38. Мы также демонстрируем возможность сквозного обучения 56-слойных и 112-слойных моделей за счет повторения глубины без какого-либо промежуточного контроля и достигаем FID 2.08 и 1.94 при использовании одного прямого прохода, превосходя их аналоги с 2NFE и 4NFE.
Данная работа исследует задачу создания «Машин, которые могут помнить», формулируя долговременную память как проблему эффективного моделирования сверхдлинного контекста. Мы утверждаем, что для этого необходимы три ключевых свойства: разреженность, гибкость произвольного доступа и обобщение на большую длину. Для решения задачи моделирования сверхдлинного контекста мы используем Иерархическую Разреженную Внимание (HSA) — новый механизм внимания, удовлетворяющий всем трём свойствам. Мы интегрируем HSA в архитектуру Transformers, создавая HSA-UltraLong, — 8-миллиардную MoE-модель, обученную на более чем 8 триллионах токенов, которая проходит тщательную оценку на различных задачах с внутридоменными и внедоменными длинами контекста для демонстрации её способности работать со сверхдлинными контекстами. Результаты показывают, что наша модель демонстрирует производительность, сопоставимую с базовыми моделями с полным вниманием на внутридоменных длинах, при этом достигая точности свыше 90% на большинстве задач извлечения информации в контексте при длинах контекста до 16 миллионов токенов. В данном отчёте излагаются наши экспериментальные инсайты и нерешённые проблемы, внося вклад в основу для будущих исследований в области моделирования сверхдлинного контекста.
Дистилляция диффузионных моделей стала мощной методикой для создания эффективных генераторов с малым и однократным числом шагов. Среди них Distillation Matching Distillation (DMD) и её варианты выделяются впечатляющей производительностью, что обычно связывают с их основным механизмом — согласованием распределения выходных данных ученика с распределением предварительно обученной модели-учителя. В данной работе мы оспариваем это устоявшееся представление. Посредством строгой декомпозиции целевой функции обучения DMD мы показываем, что в сложных задачах, таких как генерация изображений по тексту, где для достижения желаемой производительности при малом числе шагов обычно требуется CFG (Classifier-Free Guidance), главным драйвером дистилляции является не согласование распределений, а ранее упускавшийся из виду компонент, который мы определяем как CFG-аугментация (CA). Мы демонстрируем, что этот член действует как центральный «двигатель» дистилляции, в то время как член согласования распределений (DM) функционирует как «регуляризатор», обеспечивающий стабильность обучения и снижающий артефакты. Мы дополнительно подтверждаем это разделение, показывая, что хотя член DM является высокоэффективным регуляризатором, он не уникален; более простые непараметрические ограничения или цели на основе GAN могут выполнять ту же стабилизирующую функцию, хотя и с различными компромиссами. Такое разделение функций мотивирует более принципиальный анализ свойств обоих членов, ведущий к более систематическому и глубокому пониманию. Это новое понимание, в свою очередь, позволяет нам предложить принципиальные модификации процесса дистилляции, такие как разделение графиков шума для «двигателя» и регуляризатора, что приводит к дальнейшему повышению производительности. Примечательно, что наш метод был принят проектом Z-Image ( https://github.com/Tongyi-MAI/Z-Image ) для разработки высококлассной модели генерации изображений за 8 шагов, что эмпирически подтверждает обобщаемость и надежность наших выводов.
Способны ли языковые модели (ЯМ) самостоятельно дорабатывать свои ответы? Этот вопрос приобретает все большую актуальность, поскольку множество реальных взаимодействий с пользователями включают запросы на улучшение. Однако предыдущие исследования в основном тестировали способности ЯМ к доработке на верифицируемых задачах, таких как олимпиадная математика или символьные рассуждения с упрощенными шаблонами, тогда как пользователи часто задают открытые вопросы и предоставляют обратную связь разной степени детализации о своих пожеланиях. Недавнее появление моделей рассуждений, демонстрирующих паттерны саморефлексии в своих цепочках мыслей, дополнительно стимулирует интерес к этому вопросу. Для его анализа мы представляем RefineBench — бенчмарк, содержащий 1000 сложных задач из 11 областей, сопряженный с оценочной системой на основе контрольных списков. Мы оцениваем два режима доработки: (1) направленную доработку, когда ЯМ предоставляется обратная связь на естественном языке, и (2) само-доработку, когда ЯМ пытаются улучшить ответ без внешних указаний. В условиях само-доработки даже передовые ЯМ, такие как Gemini 2.5 Pro и GPT-5, демонстрируют скромные базовые результаты в 31,3% и 29,1% соответственно, и большинство моделей не могут последовательно улучшать результаты на протяжении итераций (например, Gemini-2.5-Pro улучшает результат лишь на +1,8%, а DeepSeek-R1 показывает снижение на -0,1%). Напротив, в режиме направленной доработки как проприетарные ЯМ, так и крупные модели с открытыми весами (>70B) способны использовать целевую обратную связь для доведения ответов до почти идеального уровня в течение пяти циклов. Эти результаты позволяют предположить, что передовым ЯМ необходимы прорывные достижения для самостоятельной доработки некорректных ответов, и что RefineBench представляет собой ценную испытательную площадку для отслеживания прогресса.
Эффективное развертывание малых языковых моделей (SLM) крайне важно для множества практических приложений со строгими ограничениями на задержку. В то время как предыдущие работы по проектированию SLM в основном были сосредоточены на сокращении количества параметров для достижения параметрически-оптимальных моделей, параметрическая эффективность не обязательно приводит к пропорциональному ускорению на реальных устройствах. Данная работа направлена на выявление ключевых факторов, определяющих задержку SLM на реальных устройствах, и предлагает обобщающие принципы и методологии для проектирования и обучения SLM, когда задержка на реальном устройстве является основным критерием. В частности, мы определяем два ключевых архитектурных фактора: соотношение глубины и ширины сети и выбор операторов. Первый фактор критически важен для задержки при малом размере пакета, тогда как второй влияет как на задержку, так и на пропускную способность при большом размере пакета. В свете этого мы сначала исследуем оптимальные с точки зрения задержки соотношения глубины и ширины, с ключевым выводом: хотя глубокие и узкие модели, как правило, достигают лучшей точности при том же бюджете параметров, они могут не находиться на границе компромисса между точностью и задержкой. Далее мы исследуем новые эффективные альтернативы механизму внимания, чтобы оценить их потенциал в качестве кандидатов в базовые операторы. Используя выявленные перспективные операторы, мы构建 (строим) фреймворк эволюционного поиска для автоматического обнаружения оптимальных по задержке комбинаций этих операторов в гибридных SLM, тем самым продвигая границу компромисса точность-задержка. Помимо архитектурных улучшений, мы дополнительно усиливаем обучение SLM с помощью техники нормализации весов, которая обеспечивает более эффективное обновление весов и улучшает конечную сходимость. Комбинируя эти методы, мы представляем новое семейство гибридных SLM под названием Nemotron-Flash, которое значительно продвигает границу компромисса точность-эффективность современных SLM, например, демонстрируя в среднем более чем на +5.5%更高的准确率 (более высокую точность), в 1.3x/1.9x меньшую задержку и в 18.7x/45.6x более высокую пропускную способность по сравнению с Qwen3-1.7B/0.6B соответственно.
Системы мирового моделирования (world engines) стремятся синтезировать длинные, 3D-согласованные видео, поддерживающие интерактивное исследование сцены при управляемом пользователем движении камеры. Однако существующие системы испытывают трудности при агрессивных 6-DoF траекториях и сложных сценах на открытом пространстве: они теряют геометрическую согласованность на больших расстояниях, отклоняются от целевого пути или вырождаются в излишне консервативное движение. Для решения этой проблемы мы представляем Captain Safari — систему мирового моделирования, управляемую позой камеры, которая генерирует видео, извлекая данные из постоянной памяти мира. Для заданного пути камеры наш метод поддерживает динамическую локальную память и использует механизм извлечения для получения токенов мира, выровненных по позе, которые затем используются для управления генерацией видео вдоль траектории. Такой подход позволяет модели сохранять стабильную 3D-структуру, точно выполняя сложные маневры камеры. Для оценки в этом сценарии мы создали OpenSafari — новый набор данных от первого лица (FPV) из реальных условий, содержащий высокодинамичные видеозаписи с дронов с проверенными траекториями камер, построенный с помощью многоступенчатого конвейера геометрической и кинематической валидации. По показателям качества видео, 3D-согласованности и следования траектории Captain Safari существенно превосходит современные генераторы с управлением камерой. Метод снижает показатель MEt3R с 0,3703 до 0,3690, улучшает AUC@30 с 0,181 до 0,200 и демонстрирует значительно более низкий FVD, чем все базовые методы с управлением камерой. Что более важно, в 5-стороннем исследовании с участием 50 человек, где аннотаторы выбирали лучший результат среди пяти анонимных моделей, 67,6% предпочтений были отданы нашему методу по всем осям оценки. Наши результаты демонстрируют, что управляемая позой память мира является мощным механизмом для генерации управляемого видео на длинных горизонтах, и мы представляем OpenSafari в качестве новой сложной контрольной точки для будущих исследований в области мирового моделирования.
В условиях глобализации культурные элементы различного происхождения часто соседствуют в рамках единого визуального сцены. Мы называем такие сценарии культурным смешением, однако то, как крупные языково-визуальные модели (LVLM) воспринимают их, остается малоизученным. Мы исследуем культурное смешение как серьезную проблему для LVLM и анализируем поведение современных моделей, когда культурные объекты из разных регионов появляются вместе. Для систематического анализа этого поведения мы создали CultureMix — бенчмарк визуального вопросно-ответного задания (VQA) по теме еды, содержащий 23 тыс. сгенерированных диффузионными моделями и проверенных человеком изображений культурного смешения по четырем подзадачам: (1) только еда, (2) еда+еда, (3) еда+фон, (4) еда+еда+фон. Оценив 10 LVLM, мы выявили устойчивые ошибки в сохранении индивидуальных культурных идентичностей в смешанных сценах. Модели демонстрируют сильную зависимость от фона: точность падает на 14% при добавлении культурного фона к базовым сценам с едой, а также выдают противоречивые предсказания для одинаковых блюд в разных контекстах. Для преодоления этих ограничений мы исследуем три стратегии повышения устойчивости. Мы обнаружили, что контролируемое тонкое обучение с использованием разнообразного набора данных культурного смешения существенно улучшает согласованность моделей и снижает их чувствительность к фону. Мы призываем уделять больше внимания сценариям культурного смешения как критическому шагу на пути к созданию LVLM, способных надежно функционировать в культурно разнообразной реальной среде.
Мультимодальные большие языковые модели (MLLM) продемонстрировали огромный потенциал в многочисленных медицинских специальностях; однако стоматология остается недостаточно изученной, отчасти из-за ограниченного количества предметных данных, дефицита экспертных аннотаций в стоматологии, недостаточного моделирования для конкретных модальностей и проблем с надежностью. В данной статье мы представляем OralGPT-Omni — первую специализированную стоматологическую MLLM, предназначенную для комплексного и достоверного анализа разнообразных модальностей стоматологической визуализации и клинических задач. Чтобы явно отразить диагностическую логику стоматологов, мы создали TRACE-CoT — клинически обоснованный набор данных типа «цепь рассуждений», который воспроизводит процесс принятия решений стоматологами-рентгенологами. Это обучение рассуждениям в сочетании с предложенной нами четырехэтапной парадигмой обучения существенно усиливает способность модели к пониманию и анализу стоматологических изображений. Параллельно мы представляем MMOral-Uni — первый унифицированный мультимодальный бенчмарк для анализа стоматологических изображений. Он включает 2809 открытых вопросно-ответных пар, охватывающих пять модальностей и пять задач, и предлагает на сегодняшний день наиболее комплексный набор для оценки MLLM в цифровой стоматологии. OralGPT-Omni достигает общего балла 51.84 по бенчмарку MMOral-Uni и 45.31 по бенчмарку MMOral-OPG, что значительно превосходит показатели GPT-5. Наша работа способствует развитию интеллектуальной стоматологии и прокладывает путь для будущих достижений в анализе стоматологических изображений. Весь код, бенчмарки и модели будут общедоступны.
Наблюдение за определенными участками изображения снижает неопределенность других. Их реализация уменьшает энтропию распределения характеристик каждого оставшегося участка, что аналогично коллапсу волновой функции частицы в квантовой механике. Это явление можно интуитивно назвать коллапсом участков. Чтобы определить, на какие участки больше всего опираются при коллапсе целевой области, мы обучаем автоэнкодер, который мягко выбирает подмножество участков для реконструкции каждого целевого участка. Визуализация этих изученных зависимостей через показатель PageRank для каждого участка выявляет оптимальный порядок реализации участков изображения. Мы показываем, что учет этого порядка улучшает различные методы моделирования замаскированных изображений. Во-первых, авторегрессионную генерацию изображений можно улучшить, переобучив передовую модель MAR. Далее мы представляем новую схему классификации изображений, предоставляя Vision Transformer'ам доступ только к участкам с высоким рангом в порядке коллапса. Достаточно видеть 22% таких участков для достижения высокой точности. Эти эксперименты позволяют предложить коллапс участков как новую перспективу моделирования изображений, повышающую эффективность компьютерного зрения. Наш проект доступен по адресу https://github.com/wguo-ai/CoP.
Современные крупные языковые модели демонстрируют высокие результаты в логических рассуждениях благодаря генерации развернутых цепочек мыслей (chain-of-thought), однако это часто приводит к чрезмерному использованию токенов и высокой задержке вывода. Существующие методы повышения эффективности обычно сосредоточены на модельно-ориентированных подходах, таких как обучение с подкреплением или контролируемая тонкая настройка, для сокращения многословия. В противоположность этому мы предлагаем бесплатный при обучении, входо-ориентированный подход. Вдохновляясь когнитивной психологией, мы представляем Сфокусированную Цепочку Мыслей (F-CoT), которая разделяет извлечение информации и процесс рассуждения. F-CoT сначала организует ключевую информацию из запроса в лаконичный структурированный контекст, а затем направляет модель на рассуждение исключительно в рамках этого контекста. Предотвращая внимание к нерелевантным деталям, F-CoT естественным образом порождает более короткие пути рассуждений. В арифметических текстовых задачах F-CoT сокращает количество генерируемых токенов в 2–3 раза при сохранении точности, сопоставимой со стандартным zero-shot CoT. Эти результаты подчеркивают, что структурированный ввод является простым, но эффективным рычагом для повышения эффективности логических рассуждений в больших языковых моделях.
Подписи к изображениям служат эффективными суррогатами визуального контента в мультимодальных системах, таких как поисковые механизмы, рекомендательные сервисы и многоэтапные агентные цепочки вывода. Однако современные практики оценки упускают фундаментальный вопрос: могут ли подписи полноценно заменять изображения в реальных прикладных задачах? Мы предлагаем утилитарный бенчмарк CaptionQA для оценки модельных подписей, где качество измеряется по их способности поддерживать решение прикладных задач. CaptionQA представляет собой расширяемый доменно-зависимый бенчмарк, охватывающий 4 области — Естественные сцены, Документы, Электронную коммерцию и Воплощенный ИИ — каждая с детализированными таксономиями (25 верхнеуровневых и 69 подкатегорий), идентифицирующими полезную информацию для доменно-специфичных задач. CaptionQA включает 33 027 плотно размеченных вопросов с множественным выбором (в среднем 50.3 на изображение), для ответа на которые явно требуется визуальная информация, что обеспечивает комплексную проверку полезности подписей. В нашем протоколе оценки ИЯМ отвечает на эти вопросы, используя только подписи, напрямую измеряя, сохраняют ли подписи полезность изображения и пригодны ли они для использования нижестоящим ИЯМ. Оценка передовых MLLM выявляет существенный разрыв между полезностью изображения и его подписи. Примечательно, что модели, показывающие почти идентичные результаты в традиционных бенчмарках «изображение-вопрос», демонстрируют до 32% снижения полезности подписей. Мы публикуем CaptionQA вместе с открытым конвейером для расширения на новые домены. Код доступен по адресу https://github.com/bronyayang/CaptionQA.
Распространенным методом улучшения диффузионных моделей во время тестирования для получения сэмплов с высокими показателями заданной пользователем функции вознаграждения является введение градиента этой функции в динамику самой диффузии. Однако данная процедура часто оказывается некорректно поставленной, поскольку пользовательские функции вознаграждения обычно определены лишь на распределении данных в конце генерации. В то время как стандартные обходные пути этой проблемы используют денойзер для оценки того, каким был бы сэмпл в конце генерации, мы предлагаем простое решение путем непосредственной работы с потоковым отображением. Используя взаимосвязь между потоковым отображением и полем скорости, управляющим мгновенным переносом, мы конструируем алгоритм FMTT (Flow Map Trajectory Tilting – Наклон Траектории Потокового Отображения), который теоретически обеспечивает лучший подъем по функции вознаграждения, чем стандартные методы тестирования, использующие градиент вознаграждения. Данный подход может быть использован для выполнения точной выборки посредством важностного взвешивания или для принципиального поиска, идентифицирующего локальные максимизаторы распределения, наклоненного по вознаграждению. Мы демонстрируем эффективность нашего подхода в сравнении с другими методами упреждения и показываем, как потоковое отображение позволяет работать со сложными функциями вознаграждения, что открывает новые возможности редактирования изображений, например, путем взаимодействия с языковыми моделями компьютерного зрения.
Мультимодальные большие языковые модели (MLLM) все чаще развертываются в реальных агентских сценариях, где выходные данные должны быть не только корректными, но и соответствовать предопределенным схемам данных. Несмотря на недавний прогресс в области структурированного генерирования в текстовой сфере, до сих пор не существует бенчмарка, который бы систематически оценивал извлечение информации и рассуждения, основанные на схемах, для визуальных входных данных. В данной работе мы проводим всестороннее исследование возможностей MLLM по формированию визуального структурного вывода с помощью тщательно разработанного бенчмарка SO-Bench. Охватывая четыре визуальные области, включая экраны пользовательского интерфейса, натуральные изображения, документы и диаграммы, SO-Bench построен на основе более 6,5 тысяч разнообразных JSON-схем и 1,8 тысяч отобранных пар "изображение-схема" с качеством, проверенным человеком. Эксперименты по тестированию открытых и передовых проприетарных моделей выявляют устойчивые пробелы в прогнозировании точных выходных данных, соответствующих схеме, что подчеркивает необходимость улучшения мультимодального структурированного мышления. Помимо тестирования, мы также проводим обучающие эксперименты, которые значительно повышают способность модели к структурированному выводу. Мы планируем сделать бенчмарк доступным для сообщества.
Мы представляем Split-then-Merge (StM) — новую концепцию, разработанную для улучшения управления в генеративной композиции видео и решения проблемы нехватки данных. В отличие от традиционных методов, основанных на размеченных наборах данных или ручных правилах, StM разделяет большой корпус немаркированных видео на динамические слои переднего и заднего плана, а затем самостоятельно компонует их, чтобы научиться тому, как динамические объекты взаимодействуют с различными сценами. Этот процесс позволяет модели изучить сложную композиционную динамику, необходимую для реалистичного генерации видео. StM представляет собой новую обучающую процедуру, учитывающую трансформации, которая использует многоуровневое слияние и аугментацию для достижения композиции с учетом аффордансов, а также функцию потерь для сохранения идентичности, которая поддерживает достоверность переднего плана при смешивании. Эксперименты показывают, что StM превосходит современные методы как по количественным метрикам, так и в качественных оценках, проведенных людьми и с помощью VLLM. Более подробная информация доступна на странице проекта: https://split-then-merge.github.io.
В то время как мультимодальные большие языковые модели (MБЯМ) успешно справляются с ответами на вопрос о том, *что* изображено на картинке — идентифицируя объекты и описывая сцены — они часто не способны понять, *как* это изображение воспринимается человеком. Этот разрыв наиболее очевиден при рассмотрении субъективных когнитивных свойств, таких как то, что делает изображение запоминающимся, забавным, эстетически приятным или эмоционально заряженным. Для систематического решения этой задачи мы представляем CogIP-Bench — всеобъемлющий эталонный набор для оценки MБЯМ по таким когнитивным свойствам изображений. Наша оценка выявляет значительный разрыв: современные модели плохо согласованы с человеческим восприятием этих тонких свойств. Затем мы показываем, что этап последующего дообучения может эффективно устранить этот разрыв, значительно улучшив согласованность модели с человеческими оценками. Более того, мы демонстрируем, что эта приобретенная когнитивная согласованность не просто предсказательна, но и переносима на последующие творческие задачи. Интегрируя нашу когнитивно-согласованную MБЯМ в конвейер генерации изображений, мы можем направлять процесс синтеза для создания изображений, которые лучше воплощают желаемые черты, такие как большая запоминаемость или визуальная привлекательность. Наша работа предоставляет эталон для измерения этого человеко-подобного восприятия, конвейер последующего дообучения для его улучшения и демонстрирует, что такая согласованность открывает путь к более человеко-ориентированному искусственному интеллекту.
Генерация изображений с использованием референсов стремительно развивается, однако современные диффузионные модели по-прежнему испытывают трудности с сохранением мелкозернистых визуальных деталей при доработке сгенерированного изображения на основе образца. Это ограничение возникает из-за того, что латентное сжатие на основе VAE по своей природе отбрасывает тонкую текстурную информацию, что приводит к исчезновению идентификационных и атрибутивных признаков. Более того, подходы к постобработке, усиливающие локальные детали на основе существующих методов, часто дают результаты, не согласованные с исходным изображением по освещению, текстуре или форме. Для решения этой проблемы мы представляем — фреймворк детализированной доработки, который выполняет две последовательные стадии коррекции на основе референса для повышения согласованности на пиксельном уровне. Сначала мы адаптируем редактор диффузии для одиночных изображений, дообучая его для совместной обработки чернового изображения и образца, что обеспечивает глобально согласованную доработку при сохранении структурной точности. Затем мы применяем обучение с подкреплением для дальнейшего усиления возможностей локализованного редактирования, явно оптимизируя точность деталей и семантическую согласованность. Многочисленные эксперименты демонстрируют, что значительно улучшает соответствие референсу и сохранение мелкозернистых деталей, создавая достоверные и визуально согласованные правки, превосходящие как открытые, так и коммерческие модели на сложных бенчмарках референс-ориентированного восстановления.
В данной статье представлена новая архитектура Mixture-of-Experts для детектирования объектов, которая включает адаптивную маршрутизацию между несколькими экспертами YOLOv9-T. Это позволяет достичь динамической специализации признаков и повышения среднего precision (mAP) и среднего recall (AR) по сравнению с одиночной моделью YOLOv9-T.
Диффузионные модели достигли впечатляющего качества генерации в различных модальностях, таких как 2D-изображения, видео и 3D-формы, но их вывод остается вычислительно дорогим из-за итеративного процесса шумоподавления. В то время как современные методы на основе кэширования эффективно переиспользуют избыточные вычисления для ускорения генерации 2D-изображений и видео, прямое применение этих техник к 3D-диффузионным моделям может серьезно нарушить геометрическую согласованность. В 3D-синтезе даже незначительные численные ошибки в кэшированных латентных признаках накапливаются, вызывая структурные артефакты и топологические несоответствия. Чтобы преодолеть это ограничение, мы предлагаем Fast3Dcache — не требующую дообучения геометрически осознанную систему кэширования, которая ускоряет вывод 3D-диффузионных моделей, сохраняя геометрическую точность. Наш метод вводит Ограничение Планировщика Прогнозирующего Кэширования (Predictive Caching Scheduler Constraint, PCSC) для динамического определения квот кэширования в соответствии с паттернами стабилизации вокселей и Пространственно-временной Критерий Стабильности (Spatiotemporal Stability Criterion, SSC) для выбора стабильных признаков для повторного использования на основе критериев величины скорости и ускорения. Комплексные эксперименты показывают, что Fast3Dcache значительно ускоряет вывод, достигая до 27.12% ускорения и 54.8% сокращения FLOPs при минимальной деградации геометрического качества, измеряемой по расстоянию Чемфера (2.48%) и F-мере (1.95%).
Мы решаем задачу обнаружения редких и разнообразных аномалий в видеонаблюдении, используя только обучение на уровне видео. Наша двухмодульная архитектура объединяет сверточные и трансформерные представления с помощью топ-k пулинга, достигая 90,7% площади под кривой (AUC) на наборе данных UCF-Crime.
Высокое разрешение (HR) в магнитно-резонансной томографии (МРТ) имеет решающее значение для многих клинических и исследовательских задач. Однако его достижение остается дорогостоящим и ограниченным техническими компромиссами и экспериментальными ограничениями. Методы сверхвысокого разрешения (Super-Resolution, SR) предлагают перспективный вычислительный подход для преодоления этих трудностей путем генерации HR-изображений из более доступных сканов низкого разрешения (LR), что потенциально позволяет повысить точность и эффективность диагностики без необходимости в дополнительном оборудовании. В данном обзоре рассматриваются последние достижения в области методов SR для МРТ, с особым акцентом на подходы, основанные на глубоком обучении (Deep Learning, DL). Исследуются DL-методы повышения разрешения МРТ с точек зрения компьютерного зрения, вычислительной визуализации, обратных задач и физики МРТ, охватывая теоретические основы, архитектурные решения, стратегии обучения, эталонные наборы данных и метрики производительности. Мы предлагаем систематическую таксономию для классификации этих методов и представляем углубленное исследование как устоявшихся, так и новых SR-техник, применимых к МРТ, с учетом уникальных проблем в клинических и исследовательских контекстах. Также выделены открытые проблемы и направления, которые необходимо решить научному сообществу. Дополнительно представлена подборка важных открытых ресурсов, инструментов и руководств, доступных на нашем GitHub: https://github.com/mkhateri/Awesome-MRI-Super-Resolution. Ключевые слова IEEE: МРТ, Сверхвысокое разрешение, Глубокое обучение, Вычислительная визуализация, Обратная задача, Обзор.
Мы предлагаем стратегию выбора кадров на основе кластеризации для снижения утечки информации в наборах данных, полученных из видео. Метод предполагает группировку визуально схожих кадров перед разделением на обучающую, валидационную и тестовую выборки, что позволяет создавать более репрезентативные, сбалансированные и надежные разделы набора данных.
Федеративное обучение (FL) позволяет проводить совместное обучение на клиентах без ущерба для конфиденциальности. В то время как большинство существующих методов FL предполагают однородные архитектуры моделей, гетерогенность клиентов по данным и ресурсам делает это предположение нереалистичным, что мотивирует развитие FL с гетерогенными моделями. Для решения этой проблемы мы предлагаем Федеративное Переплетение Представлений (FedRE) — фреймворк, основанный на новой форме знаний клиента, называемой переплетённым представлением. В FedRE каждый клиент агрегирует свои локальные представления в единое переплетённое представление с помощью нормализованных случайных весов и применяет те же веса для интеграции соответствующих one-hot кодировок меток в переплетённую кодировку меток. Затем они загружаются на сервер для обучения глобального классификатора. В процессе обучения каждое переплетённое представление контролируется across категорий через свою переплетённую кодировку меток, в то время как случайные веса перевыбираются каждый раунд для внесения разнообразия, что снижает избыточную уверенность глобального классификатора и способствует формированию более гладких границ решений. Кроме того, каждый клиент загружает единственное переплетённое представление across категорий вместе с его переплетённой кодировкой меток, что снижает риск атак инверсии представлений и уменьшает коммуникационные затраты. Многочисленные эксперименты демонстрируют, что FedRE достигает эффективного баланса между производительностью модели, защитой приватности и коммуникационными затратами. Код доступен по адресу https://github.com/AIResearch-Group/FedRE.