Ежедневно отобранные исследовательские статьи по ИИ с переводами
Естественный язык часто испытывает трудности с точным сочетанием позиционной и атрибутивной информации с несколькими экземплярами, что ограничивает текущие модели генерации визуальных данных на основе текста до более простых композиций, содержащих лишь несколько доминирующих экземпляров. Для преодоления этого ограничения данная работа улучшает модели диффузии путем внедрения регионального управления экземплярами, где каждый экземпляр управляется ограничивающим прямоугольником, сопоставленным с подробным описанием. Предыдущие методы в этой области обычно опираются на неявное кодирование позиции или явные маски внимания для разделения областей интереса (ROI), что приводит либо к неточному внедрению координат, либо к значительным вычислительным затратам. Вдохновленные ROI-Align в обнаружении объектов, мы предлагаем дополнительную операцию под названием ROI-Unpool. Вместе ROI-Align и ROI-Unpool обеспечивают явное, эффективное и точное управление ROI на картах признаков высокого разрешения для генерации визуальных данных. На основе ROI-Unpool мы предлагаем ROICtrl, адаптер для предварительно обученных моделей диффузии, который обеспечивает точное региональное управление экземплярами. ROICtrl совместим с моделями диффузии, донастроенными сообществом, а также с существующими дополнениями на основе пространственной информации (\например, ControlNet, T2I-Adapter) и дополнениями на основе встраивания (\например, IP-Adapter, ED-LoRA), расширяя их применение на генерацию нескольких экземпляров. Эксперименты показывают, что ROICtrl достигает превосходных результатов в региональном управлении экземплярами, существенно снижая вычислительные затраты.
Многие запросы пользователей в реальном мире (например, "Как приготовить яичный жареный рис?") могли бы получить выгоду от систем, способных генерировать ответы с текстовыми шагами и сопровождающими изображениями, аналогично кулинарной книге. Модели, разработанные для генерации чередующегося текста и изображений, сталкиваются с вызовами обеспечения согласованности внутри и между этими модальностями. Для решения этих проблем мы представляем ISG, комплексную систему оценки для генерации чередующегося текста и изображений. ISG использует структуру графа сцены для захвата отношений между текстовыми и изображенческими блоками, оценивая ответы на четырех уровнях детализации: целостном, структурном, блочном и специфическом для изображения. Эта многоуровневая оценка позволяет проводить тонкую оценку согласованности, согласованности и точности, а также обеспечивает интерпретируемую обратную связь вопрос-ответ. Вместе с ISG мы представляем бенчмарк, ISG-Bench, охватывающий 1,150 примеров в 8 категориях и 21 подкатегории. Этот набор данных бенчмарков включает сложные зависимости между языком и зрением и золотые ответы для эффективной оценки моделей на задачах, сосредоточенных на зрении, таких как стилевой трансфер, сложная область для текущих моделей. Используя ISG-Bench, мы демонстрируем, что недавние объединенные модели зрения и языка плохо справляются с генерацией чередующегося контента. В то время как композиционные подходы, объединяющие отдельные языковые и изображенческие модели, показывают улучшение на 111% по сравнению с объединенными моделями на целостном уровне, их производительность остается недостаточной как на уровне блока, так и на уровне изображения. Для облегчения будущей работы мы разрабатываем ISG-Agent, базового агента, использующего конвейер "планирование-выполнение-усовершенствование" для вызова инструментов, достигая улучшения производительности на 122%.
Генерация текста в видео с сохранением идентичности (IPT2V) направлена на создание видеороликов высокого качества с согласованной человеческой идентичностью. Это важная задача в области генерации видео, но остаётся открытой проблемой для генеративных моделей. В данной статье расширяются технические возможности IPT2V в двух направлениях, которые не были решены в литературе: (1) конвейер без настройки без утомительной настройки в каждом случае, и (2) эвристическая схема управления на основе DiT с учётом частот. Мы предлагаем ConsisID, модель IPT2V на основе DiT с возможностью управления без настройки для поддержания согласованности человеческой идентичности в созданном видео. Вдохновленные предыдущими исследованиями в области анализа частот диффузионных трансформаторов, мы используем сигналы управления идентичностью в частотной области, где лицевые черты могут быть разложены на низкочастотные глобальные черты и высокочастотные внутренние черты. Во-первых, с низкочастотной точки зрения, мы представляем глобальный лицевой извлекатель, который кодирует ссылочные изображения и ключевые точки лица в латентное пространство, генерируя черты, обогащенные низкочастотной информацией. Эти черты затем интегрируются в поверхностные слои сети для смягчения проблем обучения, связанных с DiT. Во-вторых, с высокочастотной точки зрения, мы разрабатываем локальный лицевой извлекатель для захвата деталей высокой частоты и внедряем их в блоки трансформатора, улучшая способность модели сохранять мелкозернистые черты. Мы предлагаем иерархическую стратегию обучения для использования информации о частотах для сохранения идентичности, превращая обычную предварительно обученную модель генерации видео в модель IPT2V. Обширные эксперименты показывают, что наша эвристическая схема с учётом частот предоставляет оптимальное решение управления для моделей на основе DiT. Благодаря этой схеме наш ConsisID генерирует видеоролики высокого качества с сохранением идентичности, делая шаги в направлении более эффективного IPT2V.
Генерация трехмерного контента высокой точности по текстовым запросам остается значительной проблемой в компьютерном зрении из-за ограниченного размера, разнообразия и глубины аннотации существующих наборов данных. Для решения этой проблемы мы представляем MARVEL-40M+, обширный набор данных с 40 миллионами текстовых аннотаций для более чем 8,9 миллиона трехмерных ресурсов, собранных из семи крупных 3D наборов данных. Наш вклад - это новая многоэтапная аннотационная платформа, которая интегрирует предварительно обученные многообзорные VLM и LLM для автоматического создания многоуровневых описаний, начиная от подробных (150-200 слов) до кратких семантических тегов (10-20 слов). Эта структура поддерживает как детализированную трехмерную реконструкцию, так и быстрое прототипирование. Кроме того, мы включаем метаданные человека из исходных наборов данных в нашу аннотационную платформу, чтобы добавить доменно-специфическую информацию в нашу аннотацию и уменьшить галлюцинации VLM. Кроме того, мы разрабатываем MARVEL-FX3D, двухэтапную платформу текст-в-3D. Мы донастраиваем Stable Diffusion с нашими аннотациями и используем предварительно обученную сеть изображения-в-3D для создания текстурированных трехмерных сеток за 15 секунд. Обширные оценки показывают, что MARVEL-40M+ значительно превосходит существующие наборы данных по качеству аннотации и лингвистическому разнообразию, достигая победных показателей 72,41% по GPT-4 и 73,40% по оценщикам-людям.
Мы представляем CAT4D, метод создания 4D (динамических 3D) сцен из монокулярного видео. CAT4D использует модель многозрительного диффузионного видео, обученную на разнообразных наборах данных, для синтеза нового вида в любых заданных позах камеры и временных метках. В сочетании с новым подходом к выборке, эта модель может преобразовать одиночное монокулярное видео в многозрительное видео, обеспечивая надежное восстановление 4D путем оптимизации деформируемого трехмерного гауссова представления. Мы демонстрируем конкурентоспособную производительность на бенчмарках синтеза нового вида и восстановления динамичных сцен, а также выделяем творческие возможности для создания 4D сцен из реальных или сгенерированных видео. См. нашу страницу проекта для результатов и интерактивных демонстраций: cat-4d.github.io.
Графические пользовательские интерфейсы (GUI) давно являются центральным элементом взаимодействия человека с компьютером, предоставляя интуитивный и визуально ориентированный способ доступа и взаимодействия с цифровыми системами. Появление LLM, особенно мультимодельных моделей, открыло новую эру автоматизации GUI. Они продемонстрировали исключительные способности в понимании естественного языка, генерации кода и обработке изображений. Это положило начало новому поколению агентов GUI с LLM, способных интерпретировать сложные элементы GUI и автономно выполнять действия на основе инструкций на естественном языке. Эти агенты представляют собой парадигмальный сдвиг, позволяя пользователям выполнять сложные многоэтапные задачи через простые разговорные команды. Их применение охватывает веб-навигацию, взаимодействие с мобильными приложениями и автоматизацию рабочего стола, предлагая трансформационный пользовательский опыт, который революционизирует способы взаимодействия людей с программным обеспечением. Это развивающееся направление быстро продвигается вперед, с значительными успехами как в исследованиях, так и в промышленности. Для структурированного понимания этой тенденции в данной статье представлен обширный обзор агентов GUI с LLM, исследуя их историческое развитие, основные компоненты и передовые техники. Мы рассматриваем исследовательские вопросы, такие как существующие фреймворки агентов GUI, сбор и использование данных для обучения специализированных агентов GUI, разработку крупных моделей действий, адаптированных для GUI задач, и метрики оценки и стандарты, необходимые для оценки их эффективности. Кроме того, мы рассматриваем новые приложения, работающие на основе этих агентов. Через детальный анализ этот обзор выявляет ключевые исследовательские пробелы и намечает план развития для будущих достижений в этой области. Объединяя фундаментальные знания и передовые разработки, данная работа нацелена на то, чтобы направить как исследователей, так и практиков на преодоление вызовов и раскрытие полного потенциала агентов GUI с LLM.
Модели диффузии текста в изображение производят впечатляющие результаты, но являются раздражающими инструментами для художников, желающих тонкой настройки. Например, распространенным случаем использования является создание изображений конкретного экземпляра в новых контекстах, т.е. "генерация с сохранением идентичности". Этот сценарий, а также многие другие задачи (например, изменение освещения), естественным образом подходят для условных генеративных моделей изображения+текста. Однако для обучения такой модели недостаточно высококачественных сопоставленных данных. Мы предлагаем метод самодистилляции диффузии, позволяющий использовать предварительно обученную модель текста в изображение для создания собственного набора данных для задач изображение-изображение с условием текста. Сначала мы используем способность модели диффузии текста в изображение к генерации в контексте для создания сеток изображений и курируем большой сопоставленный набор данных с помощью модели визуального языка. Затем мы донастраиваем модель текста в изображение в модель текст+изображение-изображение, используя подготовленный сопоставленный набор данных. Мы демонстрируем, что метод самодистилляции диффузии превосходит существующие методы нулевой настройки и конкурентоспособен с методами настройки по экземпляру в широком спектре задач генерации с сохранением идентичности, не требуя оптимизации во время тестирования.
Недавние достижения в восстановлении поля яркости, такие как 3D Гауссово сплетение (3DGS), позволили достичь высококачественного синтеза нового вида и быстрой отрисовки, представляя сцены с помощью композиций гауссовых примитивов. Однако 3D Гауссианы имеют несколько ограничений для восстановления сцены. Точное воспроизведение резких краев затруднительно без значительного увеличения количества Гауссианов, что приводит к большому объему памяти. Более того, они имеют проблемы с представлением плоских поверхностей, так как они диффундируются в пространстве. Без ручных регуляризаторов они склонны неравномерно распределяться вокруг фактической поверхности. Для обхода этих проблем мы представляем новый метод, названный 3D Конвексное сплетение (3DCS), который использует 3D гладкие выпуклые формы в качестве примитивов для моделирования геометрически значимых полей яркости из многовидовых изображений. Гладкие выпуклые формы предлагают большую гибкость по сравнению с Гауссианами, что позволяет лучше представлять 3D сцены с резкими краями и плотными объемами, используя меньшее количество примитивов. Благодаря нашему эффективному растеризатору на основе CUDA, 3DCS достигает превосходной производительности по сравнению с 3DGS на бенчмарках, таких как Mip-NeRF360, Tanks and Temples и Deep Blending. В частности, наш метод достигает улучшения до 0.81 в PSNR и 0.026 в LPIPS по сравнению с 3DGS, сохраняя высокие скорости отрисовки и сокращая количество необходимых примитивов. Наши результаты подчеркивают потенциал 3D Конвексного сплетения стать новым стандартом для высококачественного восстановления сцены и синтеза нового вида. Страница проекта: convexsplatting.github.io.
Недавно модель диффузии стала мощным генеративным методом для обучения политике роботов, способным моделировать распределения действий с несколькими режимами. Использование ее возможностей для автономного вождения "от начала и до конца" является многообещающим направлением. Однако многочисленные этапы подавления шума в роботизированной политике диффузии и более динамичная, открытая природа сцен дорожного движения представляют существенные вызовы для генерации разнообразных действий вождения в реальном времени. Для решения этих проблем мы предлагаем новую усеченную политику диффузии, которая включает в себя предварительные многорежимные якоря и усекает график диффузии, позволяя модели изучать подавление шума от якорной гауссовой дистрибуции к многорежимному распределению действий вождения. Кроме того, мы разрабатываем эффективный каскадный декодер диффузии для улучшенного взаимодействия с условным контекстом сцены. Предложенная модель, DiffusionDrive, демонстрирует уменьшение количества этапов подавления шума в 10 раз по сравнению с обычной политикой диффузии, обеспечивая превосходное разнообразие и качество всего за 2 шага. На наборе данных NAVSIM, ориентированном на планирование, с использованием основы ResNet-34, DiffusionDrive достигает 88,1 PDMS без лишних украшательств, устанавливая новый рекорд, работая при скорости реального времени 45 FPS на NVIDIA 4090. Качественные результаты на сложных сценариях дополнительно подтверждают, что DiffusionDrive может надежно генерировать разнообразные правдоподобные действия вождения. Код и модель будут доступны по ссылке https://github.com/hustvl/DiffusionDrive.
3D-персонажи являются неотъемлемой частью современных творческих отраслей, однако их анимация часто требует обширной ручной работы, такой как создание рига и скинов. Существующие инструменты автоматического создания рига сталкиваются с несколькими ограничениями, включая необходимость ручной аннотации, жесткую топологию скелета и ограниченную обобщаемость для разнообразных форм и поз. Альтернативным подходом является создание анимируемых аватаров, заранее привязанных к шаблонной сетке рига. Однако этот метод часто лишен гибкости и обычно ограничивается реалистичными формами человека. Для решения этих проблем мы представляем Make-It-Animatable, новый метод на основе данных, который позволяет подготовить любую 3D-модель человекоподобного персонажа к анимации персонажей менее чем за одну секунду, независимо от ее формы и позы. Наш единый фреймворк генерирует высококачественные веса смешивания, кости и преобразования поз. Интегрируя автоэнкодер формы на основе частиц, наш подход поддерживает различные 3D-представления, включая сетки и трехмерные гауссовы пятна. Кроме того, мы используем представление от грубого к точному и стратегию моделирования, учитывающую структуру, чтобы обеспечить как точность, так и надежность, даже для персонажей с нестандартными структурами скелета. Мы провели обширные эксперименты для подтверждения эффективности нашего фреймворка. По сравнению с существующими методами, наш подход демонстрирует значительное улучшение как по качеству, так и по скорости.
Человеческая поза играет решающую роль в цифровую эпоху. В то время как недавние работы достигли впечатляющего прогресса в понимании и генерации человеческих поз, они часто поддерживают только одну модальность управляющих сигналов и работают в изоляции, что ограничивает их применение в реальных сценариях. В данной статье представлена UniPose, фреймворк, использующий Большие Языковые Модели (LLM) для понимания, генерации и редактирования человеческих поз в различных модальностях, включая изображения, текст и 3D позы SMPL. Конкретно, мы применяем токенизатор поз для преобразования 3D поз в дискретные токены поз, обеспечивая безупречную интеграцию в LLM в рамках единого словаря. Для дальнейшего улучшения возможностей восприятия поз с высокой детализацией мы обеспечиваем UniPose смесью визуальных кодировщиков, включая специализированный кодировщик поз. Благодаря унифицированной стратегии обучения UniPose эффективно передает знания между различными задачами, адаптируется к невидимым задачам и проявляет расширенные возможности. Эта работа служит первой попыткой создания универсального фреймворка для понимания, генерации и редактирования поз. Обширные эксперименты подчеркивают конкурентоспособность и даже превосходство UniPose в различных задачах, связанных с позами.
В быстро развивающейся области генерации изображений моделирование Visual Auto-Regressive (VAR) привлекло значительное внимание благодаря своему инновационному подходу к предсказанию следующего уровня. Этот парадигма предлагает существенные улучшения в эффективности, масштабируемости и обобщении без обучающих примеров. Тем не менее, встроенная в модель VAR грубая структура от мелкого к крупному вводит в действие продолжительную последовательность токенов, что приводит к запретительному расходу памяти и вычислительным избыткам. Для решения этих узких мест мы предлагаем Collaborative Decoding (CoDe), новую эффективную стратегию декодирования, разработанную специально для рамок VAR. CoDe опирается на два критических наблюдения: существенно сниженные требования к параметрам на более крупных масштабах и исключительные образцы генерации на разных масштабах. Основываясь на этих идеях, мы разбиваем процесс вывода на многомасштабный процесс на плавное взаимодействие между большой и малой моделями. Большая модель выступает в роли "чертежника", специализируясь на генерации контента низкой частоты на более мелких масштабах, в то время как малая модель выступает в роли "усовершенствователя", сосредотачиваясь исключительно на предсказании деталей высокой частоты на более крупных масштабах. Это взаимодействие обеспечивает замечательную эффективность с минимальным влиянием на качество: CoDe достигает ускорения в 1,7 раза, сокращает использование памяти примерно на 50% и сохраняет качество изображения с незначительным увеличением FID с 1,95 до 1,98. При дальнейшем сокращении шагов черчения CoDe может достичь впечатляющего коэффициента ускорения в 2,9 раза, достигая 41 изображения/с при разрешении 256x256 на одном графическом процессоре NVIDIA 4090, сохраняя при этом похвальное значение FID в 2,27. Код доступен по адресу https://github.com/czg1225/CoDe
Генерация персонализированных изображений требует моделей, преобразующих текст в изображения, которые захватывают основные характеристики исходной темы для контролируемой генерации в различных контекстах. Существующие методы сталкиваются с проблемами из-за сложных требований к обучению, высоких затрат на вывод, ограниченной гибкости или их комбинации. В данной статье мы представляем DreamCache, масштабируемый подход для эффективной и качественной генерации персонализированных изображений. Путем кэширования небольшого количества характеристик исходного изображения из подмножества слоев и одного временного шага предварительно обученного диффузионного денойзера, DreamCache позволяет динамически модулировать характеристики сгенерированного изображения с помощью легких, обученных адаптеров условий. DreamCache достигает передового согласования изображений и текста, используя порядок меньше дополнительных параметров, и является как более вычислительно эффективным, так и универсальным по сравнению с существующими моделями.
Восприятие и понимание являются двумя основами компьютерного зрения. В то время как мультимодельные модели обработки больших языковых данных (MLLM) продемонстрировали выдающиеся возможности визуального понимания, можно утверждать, что у них отсутствуют точные способности восприятия, например, модель новейшего поколения Qwen2-VL достигает только 43,9% вероятности обнаружения на наборе данных COCO, что ограничивает множество задач, требующих сочетания восприятия и понимания. В данной работе мы стремимся устранить этот разрыв в восприятии с точек зрения как проектирования модели, так и разработки данных. Сначала мы представляем ChatRex, MLLM с разделенным дизайном восприятия. Вместо того чтобы позволить LLM прямо предсказывать координаты рамок, мы подаем выходные рамки из универсальной сети предложений в LLM, позволяя ему выдавать соответствующие индексы рамок для представления результатов обнаружения, превращая задачу регрессии в задачу на основе поиска, с которой LLM справляется более опытно. С точки зрения данных мы создаем полностью автоматизированный движок данных и создаем набор данных Rexverse-2M, который обладает несколькими уровнями детализации для поддержки совместного обучения восприятия и понимания. После стандартного двухэтапного обучения ChatRex демонстрирует сильные способности в восприятии, сохраняя при этом производительность мультимодального понимания. Сочетание этих двух способностей одновременно открывает множество привлекательных приложений, демонстрируя дополняющие роли восприятия и понимания в MLLM. Код доступен по адресу https://github.com/IDEA-Research/ChatRex.
Генерация звуковых эффектов для видео часто требует создания художественных звуковых эффектов, которые значительно отличаются от источников реальной жизни, и гибкого контроля в звуковом дизайне. Для решения этой проблемы мы представляем MultiFoley, модель, разработанную для генерации звука под управлением видео, поддерживающую мультимодальное условие через текст, аудио и видео. Учитывая бесшумное видео и текстовую подсказку, MultiFoley позволяет пользователям создавать чистые звуки (например, вращение колес скейтборда без шума ветра) или более фантастические звуки (например, звук рыка льва, похожий на мяуканье кота). MultiFoley также позволяет пользователям выбирать ссылочное аудио из библиотек звуковых эффектов (SFX) или частичных видео для условий. Одной из ключевых новинок нашей модели является ее совместное обучение как на интернет-видео наборах данных с аудио низкого качества, так и на профессиональных записях звуковых эффектов, обеспечивая генерацию аудио высокого качества с полной пропускной способностью (48 кГц). Через автоматизированные оценки и исследования с участием людей мы демонстрируем, что MultiFoley успешно генерирует синхронизированные звуки высокого качества при разнообразных условиях ввода и превосходит существующие методы. Пожалуйста, посетите нашу страницу проекта для видео-результатов: https://ificl.github.io/MultiFoley/
В данной работе мы представляем один параметр омега для эффективного контроля гранулярности в синтезе на основе диффузии. Этот параметр внедряется во время этапов удаления шума обратного процесса модели диффузии. Наш подход не требует повторного обучения модели, изменений в архитектуре или дополнительных вычислительных затрат во время вывода, однако обеспечивает точный контроль над уровнем деталей в созданных изображениях. Более того, пространственные маски или графики удаления шума с различными значениями омега могут быть применены для достижения контроля над гранулярностью для конкретных областей или моментов времени. Предварительное знание композиции изображения из управляющих сигналов или ссылочных изображений также облегчает создание точных масок омега для контроля гранулярности на конкретных объектах. Для выделения роли параметра в контроле за тонкими вариациями деталей, технику назвали Omegance, объединяя "омега" и "нюанс". Наш метод демонстрирует впечатляющую производительность в различных задачах синтеза изображений и видео и адаптируется к передовым моделям диффузии. Код доступен по ссылке https://github.com/itsmag11/Omegance.
Спекулятивное декодирование (SD) стало важной техникой для ускорения скорости вывода больших языковых моделей. Традиционные методы SD используют фиксированную длину черновика, что не учитывает сложность генерации токенов в различных задачах. В данной статье мы рассматриваем эту проблему и представляем SVIP - политику динамической длины черновика, учитывающую сложность генерации. Основываясь на теоретической нижней границе скорости принятия токенов черновика и ее приближении во время вывода, SVIP адаптивно определяет длины черновых последовательностей на основе энтропии распределения каждого токена черновика. Экспериментальные результаты на основных бенчмарках и фреймворках SD демонстрируют превосходную производительность SVIP, достигая ускорения времени работы на стенде до 20\% по сравнению с базовыми методами SD и ускорения на 60\% на MT-Bench для генерации длинных форматов до 8K токенов. Более того, SVIP полностью лишен обучения и совместим с любыми существующими методами SD, генерирующими токены черновика авторегрессивно. Экспериментальные результаты также показывают, что SVIP обеспечивает последовательное улучшение времени работы на фоне GliDe & CaPE и EAGLE-2.
Недавние исследования по видео-моделям с широким языковым контекстом (VideoLLM) в основном сосредотачиваются на архитектурах моделей и наборах данных для обучения, оставляя взаимодействие между пользователем и моделью недостаточно исследованным. В существующих работах пользователи часто взаимодействуют с VideoLLM, используя весь видеоролик и запрос в качестве входных данных, после чего модель генерирует ответ. Такой формат взаимодействия ограничивает применение VideoLLM в сценариях, таких как понимание прямых трансляций, где видеоролики не заканчиваются, и требуются ответы в реальном времени, а также приводит к неудовлетворительной производительности при выполнении задач, требующих локализации видеоотрывков. В данной статье мы сосредотачиваемся на формате взаимодействия видео-текст. Этот формат взаимодействия характеризуется непрерывным воспроизведением видео, и как пользователь, так и модель могут вставлять свои текстовые сообщения в любой момент во время воспроизведения видео. Когда текстовое сообщение завершается, видео продолжает воспроизводиться, подобно альтернативе двух исполнителей в дуэте. Мы создаем MMDuetIT, набор данных для обучения видео-текстовых моделей, разработанный для адаптации VideoLLM к формату взаимодействия видео-текст. Мы также представляем задачу множественного ответа на вопросы по видео (MAGQA) для оценки способности VideoLLM к реагированию в реальном времени. Обученный на MMDuetIT, MMDuet демонстрирует, что принятие формата взаимодействия видео-текст позволяет модели значительно улучшить результаты в различных задачах, требующих выполнения в ограниченные сроки (76% CIDEr при плотном описании видеороликов YouCook2, 90% mAP при обнаружении высокоценных моментов в QVHighlights и 25% R@0.5 при временной локализации видеоотрывков в Charades-STA) с минимальными усилиями по обучению, а также позволяет VideoLLM отвечать в реальном времени во время воспроизведения видео. Код, данные и демонстрация доступны по ссылке: https://github.com/yellow-binary-tree/MMDuet.
Выявление ключевых патологических особенностей на магнитно-резонансных изображениях мозга имеет решающее значение для долгосрочного выживания пациентов с глиомой. Однако ручная сегментация требует много времени, вмешательства эксперта и подвержена человеческой ошибке. Поэтому значительные исследования были посвящены разработке методов машинного обучения, способных точно сегментировать опухоли на 3D мультимодальных магнитно-резонансных изображениях мозга. Несмотря на их прогресс, передовые модели часто ограничены данными, на которых они обучены, возникают опасения относительно их надежности при применении к разнообразным популяциям, что может вызвать сдвиги в распределении. Такие сдвиги могут быть обусловлены более низким качеством технологии МРТ (например, в странах южной части Африки) или различиями в демографии пациентов (например, дети). Соревнование BraTS-2024 предоставляет платформу для решения этих проблем. В данном исследовании представлена наша методология сегментации опухолей в задачах BraTS-2024 SSA и детских опухолях с использованием MedNeXt, комплексного ансамблирования моделей и тщательной постобработки. Наш подход продемонстрировал высокую производительность на невидимом валидационном наборе данных, достигнув среднего коэффициента сходства Дайса (DSC) 0.896 на наборе данных BraTS-2024 SSA и среднего DSC 0.830 на наборе данных BraTS детских опухолей. Кроме того, наш метод достиг среднего расстояния Хаусдорфа (HD95) 14.682 на наборе данных BraTS-2024 SSA и среднего HD95 37.508 на наборе данных BraTS детских опухолей. Наш репозиторий GitHub доступен по ссылке: Репозиторий проекта: https://github.com/python-arch/BioMbz-Optimizing-Brain-Tumor-Segmentation-with-MedNeXt-BraTS-2024-SSA-and-Pediatrics
Слепые модели восстановления изображений "все в одном" направлены на восстановление изображения высокого качества из входных данных, подвергшихся неизвестным искажениям. Однако такие модели требуют, чтобы все возможные типы искажений были определены на этапе обучения, что снижает их обобщающую способность к невидимым искажениям и ограничивает их практическое применение в сложных случаях. В данной статье мы предлагаем простую, но эффективную адаптивную слепую модель восстановления "все в одном" (ABAIR), способную справляться с несколькими видами искажений, хорошо обобщающуюся к невидимым искажениям и эффективно интегрирующую новые искажения путем обучения небольшой доли параметров. Сначала мы обучаем базовую модель на большом наборе данных естественных изображений с различными синтетическими искажениями, дополненными сегментационным блоком для оценки типов искажений на пиксельном уровне, что приводит к мощному основному блоку, способному обобщаться на широкий спектр искажений. Затем мы адаптируем базовую модель к различным задачам восстановления изображений с помощью независимых адаптеров низкого ранга. В третьих, мы учимся адаптивно комбинировать адаптеры для универсальных изображений через гибкий и легкий оценщик искажений. Наша модель одновременно мощна в обработке конкретных искажений и гибка в адаптации к сложным задачам, превосходя существующие методы с большим отрывом на настройках восстановления изображений с пятью и тремя задачами, а также показывает улучшенную обобщающую способность к невидимым искажениям и составным искажениям.
Быстрое развитие больших языковых моделей (LLM), таких как GPT-3, PaLM и Llama, значительно изменило обработку естественного языка, продемонстрировав замечательные способности в понимании и генерации языка. Однако эти модели часто испытывают трудности с задачами, требующими сложного рассуждения, особенно в математическом решении проблем, частично из-за недостатка масштабных, высококачественных, областно-специфичных наборов данных, необходимых для обучения сложных рассуждений. Для преодоления этого ограничения мы представляем Генерацию данных на основе шаблонов (TDG), новый подход, который использует LLM (GPT-4) для автоматической генерации параметризованных мета-шаблонов, которые затем используются для синтеза огромного количества высококачественных проблем и решений. Используя TDG, мы создаем TemplateMath Part I: TemplateGSM, набор данных, включающий более 7 миллионов синтетически созданных математических задач начальной школы - каждая сопровождается кодовыми и естественными языковыми решениями - с потенциалом генерировать эффективно неограниченное количество других. Этот набор данных уменьшает дефицит масштабных математических наборов данных и служит ценным ресурсом для предварительного обучения, настройки и оценки LLM в математическом рассуждении. Наш метод не только позволяет генерировать практически бесконечные данные, но также поднимает аугментацию данных на новый уровень, используя GPT-4 для генерации мета-шаблонов, обеспечивая разнообразные и высококачественные структуры проблем. Набор данных TemplateMath Part I: TemplateGSM доступен публично по адресу https://huggingface.co/datasets/math-ai/TemplateGSM. Код доступен по адресу https://github.com/iiis-ai/TemplateMath.
Недавние достижения в моделях диффузии сделали генеративное редактирование изображений более доступным, позволяя творческие правки, но вызывая этические вопросы, особенно в отношении злонамеренных правок портретов людей, угрожающих конфиденциальности и безопасности личности. Существующие методы защиты в основном опираются на адверсарные искажения для аннулирования правок, но часто терпят неудачу против разнообразных запросов на редактирование. Мы предлагаем FaceLock, новый подход к защите портретов, который оптимизирует адверсарные искажения для уничтожения или значительного изменения биометрической информации, делая отредактированные выходные данные биометрически неузнаваемыми. FaceLock интегрирует распознавание лиц и визуальное восприятие в оптимизацию искажений для обеспечения надежной защиты от различных попыток редактирования. Мы также выявляем недостатки общеиспользуемых метрик оценки и раскрываем, как их можно манипулировать, подчеркивая необходимость надежной оценки защиты. Эксперименты показывают, что FaceLock превосходит базовые показатели в защите от злонамеренных правок и устойчив против техник очистки. Исследования абляции подтверждают его стабильность и широкие возможности применения в алгоритмах редактирования на основе диффузии. Наша работа продвигает биометрическую защиту и заложивает основу для практик, сохраняющих конфиденциальность при редактировании изображений. Код доступен по ссылке: https://github.com/taco-group/FaceLock.