Ежедневно отобранные исследовательские статьи по ИИ с переводами
Эгоцентрическое восприятие позволяет людям непосредственно переживать и познавать мир с собственной точки зрения. Преобразование экзоцентрических (от третьего лица) видеозаписей в эгоцентрические (от первого лица) открывает новые возможности для иммерсивного понимания, но остаётся крайне сложной задачей из-за значительных вариаций положения камеры и минимального перекрытия полей обзора. Эта задача требует точного сохранения видимого контента при синтезе невидимых областей геометрически согласованным образом. Для её решения мы представляем EgoX — новую архитектуру для генерации эгоцентрических видео на основе единственного экзоцентрического входного сигнала. EgoX использует предварительно обученные пространственно-временные знания моделей диффузии видео большого масштаба через лёгкую адаптацию LoRA и вводит унифицированную стратегию кондиционирования, объединяющую экзоцентрические и эгоцентрические априорные данные посредством конкатенации по ширине и каналам. Кроме того, механизм самовнимания с геометрическим guidance выборочно фокусируется на пространственно релевантных областях, обеспечивая геометрическую согласованность и высокую визуальную достоверность. Наш подход позволяет достигать последовательной и реалистичной генерации эгоцентрического видео, демонстрируя при этом высокую масштабируемость и устойчивость на незнакомых и реальных видеозаписях.
Достоверная интерпретация мультимодальных данных в стоматологии крайне важна для автоматизации здравоохранения в этой области, однако современные мультимодальные большие языковые модели (MLLM) испытывают трудности с распознаванием мелких визуальных деталей и не обладают достаточными способностями к рассуждению для постановки точного диагноза. Для преодоления этих ограничений мы представляем DentalGPT — специализированную стоматологическую MLLM, разработанную с помощью инжектирования высококачественных доменных знаний и обучения с подкреплением. В частности, была создана крупнейшая на сегодняшний день аннотированная мультимодальная база данных по стоматологии, объединяющая более 120 тысяч стоматологических изображений с подробными описаниями, акцентирующими диагностически значимые визуальные признаки, что делает её мультимодальным набором данных с наиболее обширной коллекцией стоматологических изображений. Обучение на этом наборе данных значительно улучшает визуальное понимание моделью стоматологических состояний, а последующий этап обучения с подкреплением дополнительно усиливает её способность к мультимодальному сложному рассуждению. Всесторонние оценки на внутриротовых и панорамных бенчмарках, а также на стоматологических подмножествах медицинских бенчмарков VQA, показывают, что DentalGPT демонстрирует превосходные результаты в задачах классификации заболеваний и стоматологического визуального вопросно-ответного взаимодействия, превосходя многие передовые MLLM, несмотря на наличие всего 7 миллиардов параметров. Эти результаты свидетельствуют о том, что комбинация высококачественных стоматологических данных с поэтапной адаптацией предоставляет эффективный путь для создания мощных и узкоспециализированных стоматологических MLLM.
Визуальная генерация, основанная на представлениях моделей визуального фундамента (VFM), предлагает высокоперспективный унифицированный путь для интеграции визуального понимания, восприятия и генерации. Несмотря на этот потенциал, обучение крупномасштабных диффузионных моделей «текст-изображение» полностью в пространстве представлений VFM остается в значительной степени неисследованным. Чтобы заполнить этот пробел, мы масштабируем фреймворк SVG (Self-supervised representations for Visual Generation), предлагая SVG-T2I для поддержки высококачественного синтеза «текст-изображение» непосредственно в признаковом пространстве VFM. Используя стандартный диффузионный конвейер «текст-изображение», SVG-T2I демонстрирует конкурентоспособные результаты, достигая 0.75 на GenEval и 85.78 на DPG-Bench. Эти результаты подтверждают внутреннюю силу представлений VFM для генеративных задач. Мы полностью открываем исходный код проекта, включая автоэнкодер и генеративную модель, вместе с их конвейерами обучения, вывода, оценки и предобученными весами, чтобы способствовать дальнейшим исследованиям в области визуальной генерации, управляемой представлениями.
Крупномасштабные модели генерации видео продемонстрировали значительный потенциал в моделировании фотореалистичного внешнего вида и взаимодействия света в сценах реального мира. Однако замкнутая система, которая совместно анализирует внутренние свойства сцены (такие как альбедо, нормали, материалы и освещенность), использует их для синтеза видео и поддерживает редактируемые внутренние представления, до сих пор не исследована. Мы представляем V-RGBX — первую сквозную систему для редактирования видео с учетом внутренних характеристик. V-RGBX объединяет три ключевые возможности: (1) обратный рендеринг видео в интринсик-каналы, (2) фотореалистичный синтез видео из этих внутренних представлений и (3) редактирование видео на основе ключевых кадров с условием на интринсик-каналы. В основе V-RGBX лежит механизм чередующегося кондиционирования, который позволяет интуитивно редактировать видео на физически обоснованной основе через выбранные пользователем ключевые кадры, поддерживая гибкое манипулирование любой интринсик-модальностью. Обширные качественные и количественные результаты показывают, что V-RGBX создает временно согласованные, фотореалистичные видео, одновременно распространяя правки ключевых кадров по последовательности физически правдоподобным образом. Мы демонстрируем эффективность нашего подхода в различных приложениях, включая редактирование внешнего вида объектов и переосвещение на уровне сцены, превосходя производительность существующих методов.
Современные диффузионные модели анимации портретов в основном сосредоточены на повышении визуального качества и реалистичности выражений, игнорируя при этом задержку генерации и производительность в реальном времени, что ограничивает область их применения в сценариях прямых трансляций. Мы предлагаем PersonaLive — новую диффузионную архитектуру для потоковой анимации портретов в реальном времени с многоэтапной стратегией обучения. В частности, мы сначала используем гибридные неявные сигналы, а именно неявные лицевые репрезентации и 3D неявные ключевые точки, для достижения выразительного управления движением на уровне изображения. Затем предлагается стратегия дистилляции внешнего вида с уменьшенным количеством шагов для устранения избыточности внешнего вида в процессе шумоподавления, что значительно повышает эффективность вывода. Наконец, мы вводим парадигму потоковой генерации с авторегрессионными микро-сегментами, оснащенную стратегией скользящего обучения и механизмом исторических ключевых кадров, для обеспечения генерации видео с низкой задержкой и стабильностью в долгосрочной перспективе. Многочисленные эксперименты демонстрируют, что PersonaLive достигает наилучших результатов с ускорением до 7–22 раз по сравнению с предыдущими диффузионными моделями анимации портретов.
Механизм самовнимания в трансформерных больших языковых моделях (LLM) масштабируется квадратично относительно длины входа, что делает вывод в длинном контексте дорогостоящим. Скользящее оконное внимание (SWA) снижает эту стоимость до линейной сложности, но наивное включение полного SWA во время вывода для моделей, предварительно обученных с полным вниманием (FA), приводит к значительной деградации производительности в длинном контексте из-за несоответствия между обучением и выводом. Это заставляет нас задуматься: можно ли успешно адаптировать LLM, предварительно обученные с FA, к SWA без повторного предварительного обучения? Мы исследуем этот вопрос, предлагая адаптацию скользящего оконного внимания (SWAA) — набор практических методов, объединяющих пять подходов для лучшей адаптации: (1) применение SWA только на этапе предварительного заполнения (prefilling); (2) сохранение «символьных» (sink) токенов; (3) чередование слоев FA/SWA; (4) цепочка рассуждений (CoT); и (5) тонкая настройка (fine-tuning). Наши эксперименты показывают, что адаптация к SWA возможна, но нетривиальна: ни один метод не является достаточным сам по себе, однако определенные синергетические комбинации эффективно восстанавливают исходную производительность в длинном контексте. Мы дополнительно анализируем компромиссы между производительностью и эффективностью для различных конфигураций SWAA и предоставляем рекомендуемые методы для различных сценариев. Наш код доступен по адресу https://github.com/yuyijiong/sliding-window-attention-adaptation.
Мультимодальное обучение значительно продвинуло понимание визуальной информации, в основном благодаря мультимодальным большим языковым моделям (MLLM), которые используют мощные LLM в качестве когнитивных ядер. Однако в области визуальной генерации эти мощные модели-ядра обычно сводятся к роли глобальных текстовых энкодеров для диффузионных моделей, что оставляет большую часть их способностей к рассуждению и планированию неиспользованной. Это создает разрыв: современные мультимодальные LLM могут анализировать сложные компоновки, атрибуты и сцены, требующие обширных знаний, но при этом испытывают трудности с генерацией изображений или видео с таким же точным и структурированным контролем. Мы предлагаем MetaCanvas — легковесный фреймворк, который позволяет MLLM рассуждать и планировать непосредственно в пространственных и пространственно-временных латентных пространствах и тесно взаимодействовать с диффузионными генераторами. Мы эмпирически реализуем MetaCanvas на трех различных диффузионных бэкбонах и оцениваем его в шести задачах, включая генерацию изображений по тексту, генерацию видео по тексту/изображению, редактирование изображений/видео и контекстную генерацию видео, каждая из которых требует точной компоновки, надежного связывания атрибутов и интеллектуального контроля. MetaCanvas стабильно превосходит базовые методы с глобальным условием, что позволяет предположить, что использование MLLM в качестве планировщиков в латентном пространстве является перспективным направлением для сокращения разрыва между мультимодальным пониманием и генерацией.
Методы сплатинга на основе примитивов, такие как 3D Gaussian Splatting, произвели революцию в синтезе новых видов, обеспечивая рендеринг в реальном времени. Однако их точечные представления остаются несовместимыми с конвейерами на основе полигональных сеток, которые используются в движках AR/VR и игровых движках. Мы представляем MeshSplatting — подход к реконструкции на основе полигональных сеток, который совместно оптимизирует геометрию и внешний вид посредством дифференцируемого рендеринга. Обеспечивая связность с помощью ограниченной триангуляции Делоне и улучшая согласованность поверхности, MeshSplatting создает сквозные гладкие, визуально высококачественные сетки, которые эффективно рендерятся в движках 3D-графики реального времени. На наборе данных Mip-NeRF360 метод превосходит текущий state-of-the-art метод MiLo для синтеза новых видов на основе сеток на +0.69 дБ по PSNR, при этом обучаясь в 2 раза быстрее и используя в 2 раза меньше памяти, что позволяет объединить нейронный рендеринг и интерактивную 3D-графику для бесшовного взаимодействия со сценой в реальном времени. Страница проекта доступна по адресу https://meshsplatting.github.io/.
Реальность представляет собой взаимодействие между жёсткими ограничениями и деформируемыми структурами. Для видео-моделей это означает генерацию движения, которое сохраняет как достоверность, так и структуру. Несмотря на прогресс в диффузионных моделях, создание реалистичного, структуро-сохраняющего движения остаётся сложной задачей, особенно для сочленённых и деформируемых объектов, таких как люди и животные. Масштабирование одних лишь обучающих данных до сих пор не позволяло устранить физически неправдоподобные переходы. Существующие подходы полагаются на кондиционирование с использованием зашумлённых представлений движения, таких как оптический поток или скелеты, извлечённые с помощью внешней неидеальной модели. Для решения этих проблем мы представляем алгоритм для дистилляции априорных знаний о структуро-сохраняющем движении из авторегрессионной модели отслеживания видео (SAM2) в двунаправленную диффузионную видео-модель (CogVideoX). С помощью нашего метода мы обучаем SAM2VideoX, который содержит два нововведения: (1) модуль двунаправленного слияния признаков, который извлекает глобальные априорные знания о структуро-сохраняющем движении из рекуррентной модели, такой как SAM2; (2) функцию потерь Local Gram Flow, которая выравнивает совместное движение локальных признаков. Эксперименты на VBench и в исследованиях с участием людей показывают, что SAM2VideoX обеспечивает стабильное улучшение (+2.60% на VBench, на 21-22% ниже FVD и 71.4% предпочтений людей) по сравнению с предыдущими базовыми методами. В частности, на VBench мы достигаем показателя 95.51%, превосходя REPA (92.91%) на 2.60%, и снижаем FVD до 360.57, что на 21.20% и 22.46% лучше, чем у REPA- и LoRA-дообучения соответственно. Сайт проекта доступен по адресу https://sam2videox.github.io/.
Мы представляем LEO-RobotAgent — универсальную框架 интеллектуального агента для роботов, управляемого естественным языком. В рамках данной системы крупные языковые модели (LLM) способны управлять различными типами роботов для выполнения непредсказуемых сложных задач в разнообразных сценариях. Данная框架 отличается высокой обобщающей способностью, надежностью и эффективностью. Построенная на ее основе прикладная система позволяет значительно улучшить двустороннее понимание намерений между человеком и роботом и снизить порог взаимодействия. Что касается планирования задач для роботов, подавляющее большинство существующих исследований сосредоточено на применении больших моделей в сценариях с единичными задачами и для одного типа роботов. Такие алгоритмы часто обладают сложной структурой и недостаточной обобщающей способностью. Поэтому предложенная框架 LEO-RobotAgent спроектирована с максимально простой структурой, позволяя большим моделям самостоятельно мыслить, планировать и действовать в рамках четкой архитектуры. Мы предоставляем модульный и легко регистрируемый набор инструментов, позволяющий большим моделям гибко использовать различные средства для удовлетворения разнообразных требований. Одновременно框架 включает механизм взаимодействия человека и робота, позволяя алгоритму сотрудничать с человеком как с партнером. Эксперименты подтвердили, что данная框架 может быть легко адаптирована для основных роботизированных платформ, включая беспилотные летательные аппараты (БПЛА), манипуляторы и колесных роботов, и эффективно выполнять тщательно разработанные задачи различного уровня сложности. Наш код доступен по адресу https://github.com/LegendLeoChen/LEO-RobotAgent.
Современное предобучение больших языковых моделей (LLM) требует огромных вычислительных ресурсов и объемов обучающих данных, что делает масштабируемость, или законы масштабирования, различных моделей ключевым отличительным фактором. Дискретные диффузионные языковые модели (DLM) были предложены в качестве альтернативы авторегрессионным языковым моделям (ALM). Однако их масштабируемость еще не была полностью изучена, при этом предыдущие работы указывают на то, что для достижения производительности ALM им требуется больше данных и вычислений. Мы исследуем масштабируемость DLM с различными типами шума, плавно интерполируя между маскированной и равномерной диффузией, уделяя пристальное внимание ключевым гиперпараметрам, таким как размер пакета и скорость обучения. Наши эксперименты показывают, что масштабируемость DLM сильно зависит от типа шума и существенно отличается от ALM. Хотя все типы шума сходятся к схожим значениям потерь при масштабировании, ограниченном вычислениями, мы обнаружили, что равномерная диффузия требует больше параметров и меньше данных для эффективного с вычислительной точки зрения обучения по сравнению с маскированной диффузией, что делает ее перспективным кандидатом для сценариев с ограниченными данными. Мы масштабировали нашу модель равномерной диффузии до 10 миллиардов параметров, обучив ее на 10²² FLOP, что подтвердило прогнозируемое поведение масштабирования и сделало ее крупнейшей на сегодняшний день публично известной моделью равномерной диффузии.
Мы представляем SHARP — метод синтеза фотореалистичных видов из одного изображения. По заданной единственной фотографии SHARP регрессирует параметры 3D-гауссовского представления сцены. Это выполняется менее чем за секунду на стандартном GPU за один прямой проход через нейронную сеть. Полученное 3D-гауссовское представление затем может быть визуализировано в реальном времени, генерируя высококачественные фотореалистичные изображения для соседних ракурсов. Представление является метрическим, имеет абсолютный масштаб и поддерживает метрические перемещения камеры. Экспериментальные результаты демонстрируют, что SHARP обеспечивает надежную zero-shot-генерализацию на различных наборах данных. Метод устанавливает новый state-of-the-art на нескольких наборах данных, снижая LPIPS на 25–34% и DISTS на 21–43% по сравнению с лучшей предыдущей моделью, одновременно сокращая время синтеза на три порядка величины. Код и веса модели доступны по адресу https://github.com/apple/ml-sharp
Крупные языковые модели (LLM) произвели революцию в области искусственного интеллекта, однако их колоссальные требования к памяти и вычислительным ресурсам делают необходимым применение агрессивного квантования, всё чаще приближая представления данных к теоретическому пределу в один бит. Хотя комплекснозначные LLM, такие как iFairy, предоставляют больше возможностей для низкобитового представления по сравнению с вещественнозначными аналогами, они требуют обучения с нуля, что исключает использование обширной экосистемы предварительно обученных вещественнозначных базовых моделей. В данной статье мы представляем Fairy2i — универсальную структуру, которая преобразует предварительно обученные вещественнозначные слои в эквивалентную широко-линейную комплексную форму, позволяя осуществлять сверхнизкобитовое квантование с повторным использованием существующих контрольных точек. Доказав математическую эквивалентность без потерь между вещественными и широко-линейными отображениями, мы преобразуем стандартные трансформеры в комплексную область и применяем фазо-зависимую схему квантования с высокоэффективной кодбуком из корней четвертой степени из единицы. Кроме того, мы вводим механизм рекурсивного остаточного квантования, который итеративно минимизирует ошибку квантования, позволяя проводить вывод посредством эффективного накопления без операций умножения. Мы демонстрируем, что Fairy2i восстанавливает производительность модели LLaMA-2 7B при эффективной 2-битной точности до уровней, почти сопоставимых с полноточными базовыми уровнями, значительно превосходя современные методы бинарного и тернарного квантования для вещественнозначных моделей. Данная работа устраняет разрыв между эффективностью представления комплекснозначной арифметики и практической полезностью предварительно обученных моделей, прокладывая новый путь для эффективного вывода на стандартном оборудовании.
Оценка LLM-как-судьи стала де-факто стандартом для масштабирования оценки моделей, однако этот подход статистически некорректен: неколиброванные оценки могут инвертировать предпочтения, наивные доверительные интервалы для неколиброванных оценок обеспечивают почти нулевое покрытие, а оценки с важностью весов коллапсируют при ограниченном перекрытии, несмотря на высокий эффективный размер выборки (ЭРВ). Мы представляем Causal Judge Evaluation (CJE) — фреймворк, который устраняет все три недостатка. На n=4,961 промпте из Chatbot Arena (после фильтрации из 5k) CJE достигает 99% точности попарного ранжирования при полном размере выборки (94% в среднем по конфигурациям), соответствуя качеству оракула, при 14-кратном снижении стоимости (для ранжирования 5 политик) за счет колибровки 16-кратно более дешевого судьи всего на 5% меток оракула (~250 меток). CJE объединяет три компонента: (i) AutoCal-R, колибровку вознаграждений через сохраняющую среднее изотонную регрессию; (ii) SIMCal-W, стабилизацию весов через стекинг S-монотонных кандидатов; и (iii) Oracle-Uncertainty Aware (OUA) вывод, который распространяет неопределенность колибровки в доверительные интервалы. Мы формализуем диагностику Coverage-Limited Efficiency (CLE), которая объясняет, почему оценки в стиле IPS терпят неудачу даже при ЭРВ >90%: логгер редко посещает регионы, где концентрируются целевые политики. Ключевые выводы: SNIPS инвертирует ранжирование даже при колибровке вознаграждений (38% попарно, отрицательный тау Кендалла) из-за нестабильности весов; колиброванный IPS остается почти случайным (47%) несмотря на стабилизацию весов, что согласуется с CLE; OUA улучшает покрытие с почти 0% до ~86% (Direct) и ~96% (stacked-DR), тогда как наивные интервалы имеют сильное недопокрытие.
Мы представляем Particulate — прямой (feed-forward) подход, который по единственному статическому 3D-мешу повседневного объекта напрямую выводит все атрибуты лежащей в его основе артикулированной структуры, включая 3D-части, кинематическую структуру и ограничения движения. В его основе лежит трансформерная сеть Part Articulation Transformer, которая обрабатывает облако точек входного меша с помощью гибкой и масштабируемой архитектуры для прогнозирования всех упомянутых атрибутов с нативной поддержкой множественных сочленений. Мы обучаем сеть от начала до конца на разнообразной коллекции артикулированных 3D-ассетов из публичных наборов данных. На этапе вывода Particulate переносит прямое предсказание сети на входной меш, получая полностью артикулированную 3D-модель за секунды, что значительно быстрее предыдущих подходов, требующих оптимизации для каждого объекта. Particulate также может точно выводить артикулированную структуру 3D-ассетов, созданных ИИ, что позволяет выполнять полноценное извлечение артикулированных 3D-объектов из одного (реального или синтетического) изображения в сочетании с готовым генератором изображение-в-3D. Мы также представляем новый сложный бенчмарк для оценки артикуляции 3D-моделей, созданный на основе высококачественных публичных 3D-ассетов, и перерабатываем протокол оценки для большей согласованности с человеческими предпочтениями. Количественные и качественные результаты показывают, что Particulate значительно превосходит современные подходы.
Стереоскопические базовые модели демонстрируют высокую обобщающую способность в условиях zero-shot, но остаются вычислительно сложными для приложений реального времени. Эффективные стереоскопические архитектуры, напротив, жертвуют надежностью ради скорости и требуют дорогостоящей дообучки под каждую предметную область. Чтобы устранить этот разрыв, мы представляем Fast-FoundationStereo — семейство архитектур, которые впервые обеспечивают высокую zero-shot обобщающую способность при работе в режиме реального времени. Мы используем стратегию ускорения «разделяй и властвуй» с тремя компонентами: (1) дистилляция знаний для сжатия гибридной основы в единого эффективного студента; (2) блочный нейроархитектурный поиск для автоматического обнаружения оптимальных схем фильтрации стоимостной функции при ограничениях на задержку, что экспоненциально снижает сложность поиска; и (3) структурированное прореживание для устранения избыточности в модуле итеративного уточнения. Кроме того, мы представляем автоматизированный конвейер псевдоразметки, используемый для отбора 1.4 млн стереопар из реальных данных для дополнения синтетических обучающих данных и облегчения дистилляции знаний. Полученная модель может работать более чем в 10 раз быстрее, чем FoundationStereo, при этом близко соответствуя её zero-shot точности, что устанавливает новый state-of-the-art среди методов реального времени. Страница проекта: https://nvlabs.github.io/Fast-FoundationStereo/
Мы представляем политику "зрение-действие", занявшую первое место в конкурсе BEHAVIOR Challenge 2025 — крупномасштабном тесте, включающем 50 разнообразных длительных задач в условиях фотореалистичной симуляции домашней среды, требующих двурукого манипулирования, навигации и контекстно-зависимого принятия решений. Основываясь на архитектуре Pi0.5, мы вводим ряд новшеств. Нашим ключевым вкладом является использование коррелированного шума для сопоставления потоков, что повышает эффективность обучения и позволяет выполнять корреляционно-осознанное восстановление изображений для создания плавных последовательностей действий. Мы также применяем обучаемое внимание со смешанными слоями и отслеживание состояний Системы 2 для разрешения неоднозначностей. Для обучения используется сопоставление потоков с множественными выборками для снижения дисперсии, в то время как на этапе вывода применяются сжатие действий и специфичные для конкурса правила коррекции. Наш подход демонстрирует q-показатель в 26% по всем 50 задачам как на публичном, так и на приватном лидербордах.
Интеграция языковых моделей (ЯМ) в системы здравоохранения открывает большие перспективы для улучшения медицинских процессов и принятия решений. Однако серьезным препятствием для их практического внедрения является отсутствие надежной оценки их доверительности, особенно в условиях многоязычной медицинской практики. Существующие ЯМ в основном обучаются на языках с большими ресурсами, что делает их плохо приспособленными для обработки сложности и разнообразия медицинских запросов на языках со средними и ограниченными ресурсами, создавая значительные трудности для их развертывания в глобальных системах здравоохранения, где лингвистическое разнообразие играет ключевую роль. В данной работе мы представляем CLINIC — комплексный многоязычный бенчмарк для оценки доверительности языковых моделей в здравоохранении. CLINIC систематически тестирует ЯМ по пяти ключевым аспектам доверительности: достоверности, справедливости, безопасности, устойчивости и конфиденциальности, операционализированным через 18 разнообразных задач, охватывающих 15 языков (включая все основные континенты) и широкий спектр критически важных медицинских тем, таких как заболевания, профилактические меры, диагностические тесты, методы лечения, хирургические вмешательства и лекарственные препараты. Наше масштабное исследование показывает, что ЯМ испытывают трудности с фактической точностью, демонстрируют смещения в отношении демографических и языковых групп и уязвимы к нарушениям конфиденциальности и атакам со стороны злоумышленников. Выявляя эти недостатки, CLINIC закладывает основу для повышения глобальной доступности и безопасности ЯМ в здравоохранении для различных языков.
Люди интуитивно способны распараллеливать сложные виды деятельности, но может ли модель научиться этому, наблюдая за действиями одного человека? На основе одного эгоцентричного видео мы формулируем N-тел задачу: каким образом N индивидуумов могли бы гипотетически выполнить тот же набор задач, представленный на этом видео. Цель состоит в максимизации ускорения, однако наивное назначение сегментов видео разным людям часто нарушает реальные ограничения, приводя к физически невозможным сценариям, таким как использование одного объекта или занятие одного пространства двумя людьми. Чтобы решить эту проблему, мы формализуем задачу N тел и предлагаем набор метрик для оценки как производительности (ускорение, покрытие задач), так и осуществимости (пространственные коллизии, конфликты из-за объектов и причинно-следственные ограничения). Затем мы представляем стратегию структурированного промптинга, которая направляет Vision-Language Model (VLM) на анализ 3D-окружения, использования объектов и временных зависимостей для создания жизнеспособного параллельного плана выполнения. На 100 видео из EPIC-Kitchens и HD-EPIC наш метод для N = 2 увеличивает покрытие действий на 45% по сравнению с базовым промптом для Gemini 2.5 Pro, одновременно сокращая частоту коллизий, конфликтов из-за объектов и причинно-следственных конфликтов на 55%, 45% и 55% соответственно.
Оценка неопределенности является важнейшим элементом для безопасного клинического внедрения систем сегментации медицинских изображений, поскольку позволяет выявлять ненадежные прогнозы и обеспечивать контроль со стороны человека. В то время как предыдущие исследования в основном были сосредоточены на неопределенности на уровне пикселей, сегментация на основе ориентиров предлагает inherentные топологические гарантии, но остается малоизученной с точки зрения неопределенности. В данной работе мы исследуем оценку неопределенности для анатомической сегментации по ориентирам на рентгенограммах органов грудной клетки. Вдохновленные гибридными архитектурами нейронных сетей, которые сочетают стандартные сверточные энкодеры для изображений с генеративными декодерами на основе графов, и используя их вариационное латентное пространство, мы выводим две взаимодополняющие меры: (i) латентную неопределенность, извлекаемую непосредственно из параметров обученного распределения, и (ii) прогностическую неопределенность, получаемую путем генерации множества стохастических выходных прогнозов из латентных сэмплов. В ходе экспериментов с контролируемыми искажениями мы показываем, что обе меры неопределенности возрастают с увеличением степени возмущения, отражая как глобальную, так и локальную деградацию. Мы демонстрируем, что эти сигналы неопределенности могут выявлять ненадежные прогнозы при сравнении с ручной разметкой, а также поддерживают обнаружение данных вне распределения на наборе данных CheXmask. Что более важно, мы представляем CheXmask-U (huggingface.co/datasets/mcosarinsky/CheXmask-U) — крупномасштабный набор данных, содержащий 657 566 сегментаций ориентиров на рентгенограммах грудной клетки с оценками неопределенности для каждого узла, что позволяет исследователям учитывать пространственные вариации качества сегментации при использовании этих анатомических масок. Наши результаты устанавливают оценку неопределенности как перспективное направление для повышения надежности и безопасного внедрения методов анатомической сегментации по ориентирам в рентгенографии грудной клетки. Полностью рабочая интерактивная демонстрация метода доступна по адресу huggingface.co/spaces/matiasky/CheXmask-U, а исходный код — на github.com/mcosarinsky/CheXmask-U.
Анализ крупномасштабных текстовых корпусов представляет собой ключевую задачу в машинном обучении, важную для таких целей, как выявление нежелательного поведения моделей или смещений в обучающих данных. Современные методы часто опираются на дорогостоящие подходы на основе больших языковых моделей (БЯМ) (например, аннотирование различий в наборах данных) или модели плотных векторных представлений (например, для кластеризации), которые не позволяют контролировать целевые свойства. Мы предлагаем использовать разреженные автоэнкодеры (SAE) для создания SAE-эмбеддингов: представлений, размерности которых соответствуют интерпретируемым концептам. На примере четырех задач анализа данных мы демонстрируем, что SAE-эмбеддинги являются более экономичными и надежными по сравнению с БЯМ и обеспечивают лучший контроль, чем плотные эмбеддинги. Используя обширное пространство гипотез SAE, мы можем выявить такие закономерности, как (1) семантические различия между наборами данных и (2) неожиданные корреляции концептов в документах. Например, сравнивая ответы моделей, мы обнаружили, что Grok-4 уточняет неоднозначности чаще, чем девять других передовых моделей. По сравнению с БЯМ, SAE-эмбеддинги выявляют более значительные различия при затратах в 2–8 раз ниже и надежнее определяют смещения. Кроме того, SAE-эмбеддинги управляемы: фильтруя концепты, мы можем (3) кластеризовать документы по интересующим направлениям и (4) превзойти плотные эмбеддинги в поиске на основе свойств. Используя SAE-эмбеддинги, мы исследуем поведение моделей на двух кейсах: изучаем, как менялось поведение моделей OpenAI с течением времени, и находим «триггерные» фразы, усвоенные моделью Tulu-3 (Lambert et al., 2024) из ее обучающих данных. Эти результаты позиционируют SAE как универсальный инструмент для анализа неструктурированных данных и подчеркивают недооцененную важность интерпретации моделей через их данные.