Ежедневно отобранные исследовательские статьи по ИИ с переводами
Управление камерой активно изучается в задачах генерации видео, обусловленных текстом или изображением. Однако изменение траекторий камеры для заданного видео остается недостаточно исследованным, несмотря на его важность в области создания видео. Это нетривиальная задача из-за дополнительных ограничений, связанных с поддержанием внешнего вида на нескольких кадрах и синхронизацией динамики. Для решения этой проблемы мы представляем ReCamMaster — фреймворк для генеративного перерендеринга видео с управлением камерой, который воспроизводит динамическую сцену входного видео на новых траекториях камеры. Основное нововведение заключается в использовании генеративных возможностей предварительно обученных моделей "текст-в-видео" через простой, но мощный механизм обусловливания видео — его потенциал часто упускается из виду в современных исследованиях. Чтобы преодолеть нехватку качественных данных для обучения, мы создаем всеобъемлющий набор данных синхронизированных видео с нескольких камер с использованием Unreal Engine 5, который тщательно подобран в соответствии с характеристиками реальной съемки, охватывая разнообразные сцены и движения камеры. Это помогает модели обобщать данные для видео в реальных условиях. Наконец, мы дополнительно повышаем устойчивость к разнообразным входным данным с помощью тщательно разработанной стратегии обучения. Многочисленные эксперименты показывают, что наш метод значительно превосходит существующие передовые подходы и сильные базовые методы. Наш метод также находит перспективные применения в стабилизации видео, увеличении разрешения и расширении кадра. Страница проекта: https://jianhongbai.github.io/ReCamMaster/
Мы представляем SmolDocling — ультракомпактную визуально-языковую модель, ориентированную на сквозное преобразование документов. Наша модель комплексно обрабатывает целые страницы, генерируя DocTags — новый универсальный формат разметки, который фиксирует все элементы страницы в их полном контексте с указанием местоположения. В отличие от существующих подходов, которые полагаются на крупные базовые модели, или ансамблевых решений, использующих ручные цепочки из множества специализированных моделей, SmolDocling предлагает сквозное преобразование для точного захвата содержания, структуры и пространственного расположения элементов документа в модели с 256 миллионами параметров. SmolDocling демонстрирует устойчивую производительность в корректном воспроизведении таких элементов документов, как листинги кода, таблицы, уравнения, диаграммы, списки и многое другое, на широком спектре типов документов, включая бизнес-документы, научные статьи, технические отчеты, патенты и формы, что значительно расширяет традиционный фокус на научных статьях. Кроме того, мы представляем новые публично доступные наборы данных для распознавания диаграмм, таблиц, уравнений и кода. Экспериментальные результаты показывают, что SmolDocling конкурирует с другими визуально-языковыми моделями, которые до 27 раз больше по размеру, при этом существенно снижая вычислительные требования. Модель уже доступна, наборы данных будут опубликованы в ближайшее время.
Диффузионные модели продемонстрировали впечатляющие результаты в генерации высококачественных условных выборок с использованием методов управления, таких как Classifier-Free Guidance (CFG). Однако существующие подходы часто требуют дополнительного обучения или вычислений нейронных функций (NFEs), что делает их несовместимыми с моделями, подвергнутыми дистилляции управления. Кроме того, они полагаются на эвристические методы, требующие идентификации целевых слоев. В данной работе мы предлагаем новый и эффективный метод, названный PLADIS, который улучшает предобученные модели (U-Net/Transformer) за счет использования разреженного внимания. В частности, мы экстраполируем корреляции запросов и ключей с использованием softmax и его разреженного аналога в слое кросс-внимания во время вывода, не требуя дополнительного обучения или NFEs. Благодаря использованию устойчивости разреженного внимания к шуму, наш PLADIS раскрывает скрытый потенциал текстово-изобразительных диффузионных моделей, позволяя им преуспевать в областях, где ранее они испытывали трудности, с новой эффективностью. Метод легко интегрируется с техниками управления, включая модели, подвергнутые дистилляции управления. Многочисленные эксперименты демонстрируют значительные улучшения в согласованности с текстом и предпочтениях пользователей, предлагая высокоэффективное и универсально применимое решение.
Крупные языковые модели (LLM) вышли за рамки простой генерации текста и теперь используются для создания программных агентов, которые напрямую преобразуют команды на естественном языке в конкретные действия. Хотя API-ориентированные LLM-агенты изначально получили известность благодаря своей мощной автоматизации и бесшовной интеграции с программными интерфейсами, недавние достижения в области мультимодальных LLM позволили создать GUI-ориентированных LLM-агентов, которые взаимодействуют с графическими пользовательскими интерфейсами подобно человеку. Хотя обе парадигмы преследуют цель автоматизации задач с использованием LLM, они существенно различаются по архитектурной сложности, процессам разработки и моделям взаимодействия с пользователем. В данной статье представлено первое всестороннее сравнительное исследование API- и GUI-ориентированных LLM-агентов, в котором систематически анализируются их различия и потенциальная конвергенция. Мы рассматриваем ключевые аспекты и выделяем сценарии, в которых гибридные подходы могут использовать их взаимодополняющие преимущества. Предлагая четкие критерии выбора и иллюстрируя практические примеры использования, мы стремимся помочь практикам и исследователям в выборе, комбинировании или переходе между этими парадигмами. В конечном итоге мы указываем, что продолжающиеся инновации в области автоматизации на основе LLM стирают границы между API- и GUI-ориентированными агентами, открывая путь к более гибким и адаптивным решениям в широком спектре реальных приложений.
Стремление к эффективности данных, где качество превосходит количество, стало краеугольным камнем в области роботизированной манипуляции, особенно учитывая высокие затраты, связанные с сбором данных в реальном мире. Мы предлагаем, что максимизация информационной плотности отдельных демонстраций может значительно снизить зависимость от крупномасштабных наборов данных, одновременно улучшая выполнение задач. Для этого мы представляем Adversarial Data Collection (ADC), фреймворк с участием человека в цикле (Human-in-the-Loop, HiL), который переосмысливает сбор данных для роботов через двунаправленное взаимодействие человека и среды в реальном времени. В отличие от традиционных подходов, пассивно записывающих статические демонстрации, ADC использует парадигму совместного возмущения: в течение одного эпизода оператор-адверсарий динамически изменяет состояния объектов, условия окружающей среды и языковые команды, в то время как телеоператор адаптивно корректирует действия для преодоления этих изменяющихся вызовов. Этот процесс сжимает разнообразные поведенческие паттерны восстановления после сбоев, вариации составных задач и возмущения окружающей среды в минимальные демонстрации. Наши эксперименты показывают, что модели, обученные с использованием ADC, достигают превосходной композиционной обобщаемости для невиданных ранее инструкций, повышенной устойчивости к перцептивным возмущениям и способности к спонтанному восстановлению после ошибок. Примечательно, что модели, обученные всего на 20% объема демонстраций, собранных через ADC, значительно превосходят традиционные подходы, использующие полные наборы данных. Эти достижения сокращают разрыв между ориентированными на данные парадигмами обучения и практическим внедрением роботов, демонстрируя, что стратегический сбор данных, а не только постобработка, критически важен для масштабируемого обучения роботов в реальном мире. Кроме того, мы создаем крупномасштабный набор данных ADC-Robotics, включающий задачи манипуляции в реальном мире с адверсариальными возмущениями. Этот эталонный набор данных будет открыт для содействия прогрессу в области имитационного обучения роботов.
Модели пространства состояний (SSM) зарекомендовали себя как перспективная альтернатива популярным моделям на основе трансформеров и привлекают всё больше внимания. По сравнению с трансформерами, SSM демонстрируют превосходство в задачах с последовательными данными или длинными контекстами, показывая сопоставимую производительность при значительном повышении эффективности. В данном обзоре мы представляем последовательный и систематический обзор SSM, включая их теоретические основы, математические формулировки, сравнение с существующими классами моделей и различные применения. Мы разделяем серию SSM на три основные части, подробно рассматривая оригинальную SSM, структурированную SSM, представленную моделью S4, и селективную SSM, примером которой является Mamba. Мы делаем акцент на технических аспектах и выделяем ключевые методы, разработанные для повышения эффективности и производительности SSM. Надеемся, что этот обзор послужит введением для исследователей, желающих изучить теоретические основы SSM.
Мы представляем VGGT, прямую нейронную сеть прямого распространения, которая напрямую выводит все ключевые 3D-атрибуты сцены, включая параметры камеры, карты точек, карты глубины и 3D-треки точек, из одного, нескольких или сотен её видов. Этот подход представляет собой шаг вперед в области 3D-компьютерного зрения, где модели традиционно ограничивались и специализировались на отдельных задачах. Он также прост и эффективен, восстанавливая изображения менее чем за одну секунду, при этом превосходя альтернативные методы, требующие постобработки с использованием техник оптимизации визуальной геометрии. Сеть достигает современных результатов в множестве 3D-задач, включая оценку параметров камеры, многовидовую оценку глубины, реконструкцию плотных облаков точек и 3D-трекинг точек. Мы также показываем, что использование предобученного VGGT в качестве основы для признаков значительно улучшает последующие задачи, такие как нежесткий трекинг точек и синтез новых видов с прямым распространением. Код и модели доступны публично по адресу https://github.com/facebookresearch/vggt.
Современные крупные мультимодальные модели (LMMs), основанные на трансформерах, испытывают трудности при обработке часовых видеовходов из-за квадратичной сложности операций причинного самовнимания, что приводит к высоким вычислительным затратам во время обучения и вывода. Существующие методы сжатия токенов уменьшают количество видеотокенов, но часто сопровождаются потерей информации и остаются неэффективными для чрезвычайно длинных последовательностей. В данной статье мы исследуем альтернативное направление, создавая гибридную модель Mamba-Transformer (VAMBA), которая использует блоки Mamba-2 для кодирования видеотокенов с линейной сложностью. Без какого-либо сокращения токенов VAMBA способна кодировать более 1024 кадров (640×360) на одном GPU, в то время как модели на основе трансформеров могут обрабатывать только 256 кадров. При обработке длинных видеовходов VAMBA обеспечивает снижение использования памяти GPU на 50% во время обучения и вывода, а также почти удваивает скорость выполнения каждого шага обучения по сравнению с трансформерными LMMs. Наши экспериментальные результаты показывают, что VAMBA улучшает точность на 4.3% на сложном бенчмарке для понимания часовых видео LVBench по сравнению с предыдущими эффективными видеомоделями LMMs и сохраняет высокую производительность на широком спектре задач понимания как длинных, так и коротких видео.
Объединение различных модальностей лежит в основе кросс-модальной генерации. В то время как традиционные подходы рассматривают текстовую модальность как управляющий сигнал, который постепенно направляет процесс удаления шума от гауссовского шума к целевой изображенческой модальности, мы исследуем более простую парадигму — прямое преобразование между текстовой и изображенческой модальностями с помощью flow matching. Это требует проекции обеих модальностей в общее латентное пространство, что представляет собой значительную сложность из-за их принципиально разных представлений: текст является высоко семантическим и кодируется как 1D-токены, тогда как изображения обладают пространственной избыточностью и представлены как 2D-латентные эмбеддинги. Для решения этой проблемы мы представляем FlowTok — минималистичную структуру, которая плавно преобразует текст и изображения, кодируя изображения в компактное 1D-токеновое представление. По сравнению с предыдущими методами, этот подход уменьшает размер латентного пространства в 3,3 раза при разрешении изображения 256, устраняя необходимость в сложных механизмах управления или планировании шума. Более того, FlowTok естественным образом расширяется до генерации текста из изображений в рамках той же формулировки. Благодаря своей оптимизированной архитектуре, основанной на компактных 1D-токенах, FlowTok обладает высокой эффективностью использования памяти, требует значительно меньше ресурсов для обучения и обеспечивает гораздо более высокую скорость генерации — всё это при сохранении производительности, сопоставимой с современными моделями. Код будет доступен по адресу https://github.com/bytedance/1d-tokenizer.
Прецизионная терапия требует многомодальных адаптивных моделей, которые генерируют персонализированные рекомендации по лечению. Мы представляем TxAgent — ИИ-агент, который использует многошаговое рассуждение и извлечение биомедицинских знаний в реальном времени с помощью набора из 211 инструментов для анализа взаимодействий лекарств, противопоказаний и стратегий лечения, учитывающих особенности пациента. TxAgent оценивает, как лекарства взаимодействуют на молекулярном, фармакокинетическом и клиническом уровнях, выявляет противопоказания на основе сопутствующих заболеваний пациента и принимаемых препаратов, а также адаптирует стратегии лечения к индивидуальным характеристикам пациента. Он извлекает и синтезирует данные из множества биомедицинских источников, оценивает взаимодействия между лекарствами и состоянием пациента и уточняет рекомендации по лечению с помощью итеративного рассуждения. TxAgent выбирает инструменты на основе задач и выполняет структурированные вызовы функций для решения терапевтических задач, требующих клинического рассуждения и проверки данных из различных источников. ToolUniverse объединяет 211 инструментов из проверенных источников, включая все лекарства, одобренные FDA США с 1939 года, и подтвержденные клинические данные из Open Targets. TxAgent превосходит ведущие языковые модели (LLM), модели использования инструментов и агенты рассуждения по пяти новым тестам: DrugPC, BrandPC, GenericPC, TreatmentPC и DescriptionPC, охватывающим 3168 задач по анализу лекарств и 456 персонализированных сценариев лечения. Он достигает точности 92,1% в задачах открытого анализа лекарств, превосходя GPT-4o и опережая DeepSeek-R1 (671B) в структурированном многошаговом рассуждении. TxAgent обобщает данные по различным вариантам названий лекарств и их описаний. Благодаря интеграции многошагового вывода, актуализации знаний в реальном времени и принятию решений с использованием инструментов, TxAgent обеспечивает соответствие рекомендаций по лечению установленным клиническим руководствам и реальным данным, снижая риск нежелательных явлений и улучшая терапевтическое принятие решений.
Федеративное обучение (FL) стало перспективной парадигмой совместного обучения моделей с сохранением конфиденциальности, не требующей обмена исходными данными. Однако недавние исследования показали, что приватная информация всё же может быть раскрыта через передаваемую информацию о градиентах и подвергнута атакам с использованием инверсии градиентов (Gradient Inversion Attacks, GIA). Хотя было предложено множество методов GIA, детальный анализ, оценка и обобщение этих методов до сих пор отсутствуют. Несмотря на то, что в различных обзорных статьях суммируются существующие атаки на приватность в FL, лишь немногие исследования провели масштабные эксперименты, чтобы раскрыть эффективность GIA и связанные с ними ограничивающие факторы в данном контексте. Чтобы заполнить этот пробел, мы сначала проводим систематический обзор GIA и классифицируем существующие методы на три типа: оптимизационные GIA (OP-GIA), генеративные GIA (GEN-GIA) и аналитические GIA (ANA-GIA). Затем мы всесторонне анализируем и оцениваем эти три типа GIA в FL, предоставляя понимание факторов, влияющих на их производительность, практичность и потенциальные угрозы. Наши результаты показывают, что OP-GIA является наиболее практичной настройкой атаки, несмотря на её неудовлетворительную производительность, в то время как GEN-GIA имеет множество зависимостей, а ANA-GIA легко обнаруживается, что делает их оба непрактичными. Наконец, мы предлагаем пользователям трёхэтапный конвейер защиты при проектировании FL-фреймворков и протоколов для лучшей защиты конфиденциальности, а также делимся некоторыми направлениями будущих исследований с точки зрения атакующих и защищающихся, которые, по нашему мнению, следует развивать. Мы надеемся, что наше исследование поможет разработчикам создавать более устойчивые FL-фреймворки для защиты от подобных атак.
Мы предлагаем новый подход для создания описаний и локализации объектов в видео, где объекты в описании привязываются к видео с помощью временно плотных ограничивающих рамок. Мы представляем следующие вклады. Во-первых, мы предлагаем метод автоматической аннотации в больших масштабах, который объединяет описания, привязанные к ограничивающим рамкам в отдельных кадрах, во временно плотные и согласованные аннотации ограничивающих рамок. Мы применяем этот подход к набору данных HowTo100M для создания крупномасштабного предварительно аннотированного набора данных, названного HowToGround1M. Мы также представляем модель генерации заземленных описаний видео, названную GROVE, и предварительно обучаем эту модель на HowToGround1M. Во-вторых, мы представляем новый набор данных, называемый iGround, состоящий из 3500 видео с ручными аннотациями описаний и плотно пространственно-временными ограничивающими рамками. Это позволяет нам измерять прогресс в решении этой сложной задачи, а также дообучать нашу модель на этих небольших, но высококачественных данных. В-третьих, мы демонстрируем, что наш подход достигает наилучших результатов на предложенном наборе данных iGround по сравнению с несколькими базовыми методами, а также на наборах данных VidSTG и ActivityNet-Entities. Мы проводим обширные эксперименты, которые показывают важность предварительного обучения с использованием нашего автоматически аннотированного набора данных HowToGround1M с последующим дообучением на ручном наборе данных iGround, а также подтверждаем ключевые технические вклады нашей модели.
Сети Колмогорова-Арнольда (KANs) представляют собой значительное нововведение, состоящее из обучаемых функций активации, способных выявлять более сложные зависимости в данных. Хотя KANs полезны для поиска символических представлений и непрерывного обучения одномерных функций, их эффективность в разнообразных задачах машинного обучения (ML), таких как обработка изображений, остается под вопросом. В настоящее время KANs внедряются путем замены многослойных перцептронов (MLPs) в архитектурах глубоких сетей, включая продвинутые архитектуры, такие как Vision Transformers (ViTs). В данной работе мы впервые разработали универсальный обучаемый механизм внимания Колмогорова-Арнольда (KArAt) для стандартных ViTs, который может работать с любым выбором базиса. Однако вычислительные и ресурсные затраты на их обучение побудили нас предложить более модульную версию, и мы разработали специализированный обучаемый механизм внимания, названный Fourier-KArAt. Fourier-KArAt и его варианты либо превосходят свои аналоги на основе ViT, либо демонстрируют сопоставимую производительность на наборах данных CIFAR-10, CIFAR-100 и ImageNet-1K. Мы анализируем производительность и способность к обобщению этих архитектур, изучая их ландшафты потерь, распределения весов, траектории оптимизатора, визуализацию внимания и спектральное поведение, и сравниваем их с классическими ViTs. Цель данной работы заключается не в создании параметрически и вычислительно эффективного механизма внимания, а в том, чтобы стимулировать сообщество к исследованию KANs в сочетании с более продвинутыми архитектурами, требующими тщательного понимания обучаемых функций активации. Наш исходный код и детали реализации доступны по адресу: https://subhajitmaity.me/KArAt.
Подгонка тела к трехмерному облаку точек одетого человека является распространенной, но сложной задачей. Традиционные подходы, основанные на оптимизации, используют многоэтапные конвейеры, которые чувствительны к инициализации позы, в то время как современные методы, основанные на обучении, часто сталкиваются с проблемами обобщения для различных поз и типов одежды. Мы предлагаем Equivariant Tightness Fitting for Clothed Humans (ETCH) — новый конвейер, который оценивает отображение поверхности одежды на тело через локально приближенную SE(3)-эквивариантность, кодируя плотность как векторы смещения от поверхности одежды к телу. На основе этого отображения, инвариантные к позе признаки тела регрессируют разреженные маркеры тела, упрощая задачу подгонки одетого человека до подгонки внутренних маркеров тела. Многочисленные эксперименты на данных CAPE и 4D-Dress показывают, что ETCH значительно превосходит современные методы — как не учитывающие плотность, так и учитывающие её — по точности подгонки тела для свободной одежды (16,7% ~ 69,5%) и точности формы (в среднем 49,9%). Наш дизайн эквивариантной плотности может даже уменьшить направленные ошибки на (67,2% ~ 89,8%) в условиях однократного (или вне распределения) применения. Качественные результаты демонстрируют сильное обобщение ETCH, независимо от сложных поз, неизвестных форм, свободной одежды и нежесткой динамики. Мы скоро опубликуем код и модели для исследовательских целей на https://boqian-li.github.io/ETCH/.
Визуальные авторегрессионные модели обычно следуют парадигме «предсказания следующего токена» в растровом порядке, что игнорирует пространственную и временную локальность, присущую визуальному контенту. В частности, визуальные токены демонстрируют значительно более сильные корреляции с их пространственно или временно соседними токенами по сравнению с удалёнными. В данной статье мы предлагаем Neighboring Autoregressive Modeling (NAR), новую парадигму, которая формулирует авторегрессионную генерацию визуального контента как процедуру постепенного расширения (outpainting), следуя механизму «предсказания следующего соседа» от ближнего к дальнему. Начиная с начального токена, оставшиеся токены декодируются в порядке возрастания их манхэттенского расстояния от начального токена в пространственно-временном пространстве, постепенно расширяя границу декодированной области. Чтобы обеспечить параллельное предсказание нескольких соседних токенов в пространственно-временном пространстве, мы вводим набор ориентированных на измерения декодирующих голов, каждая из которых предсказывает следующий токен вдоль взаимно ортогонального измерения. Во время вывода все токены, соседние с декодированными, обрабатываются параллельно, что значительно сокращает количество шагов модели для генерации. Эксперименты на ImageNet256×256 и UCF101 демонстрируют, что NAR достигает в 2,4 и 8,6 раз более высокой пропускной способности соответственно, при этом получая превосходные показатели FID/FVD для задач генерации изображений и видео по сравнению с подходом PAR-4X. При оценке на бенчмарке генерации изображений из текста GenEval, NAR с 0,8 миллиардами параметров превосходит Chameleon-7B, используя лишь 0,4 объёма обучающих данных. Код доступен по адресу https://github.com/ThisisBillhe/NAR.
Ускорение выборки в диффузионных моделях имеет решающее значение для эффективного развертывания AIGC. Хотя методы дистилляции диффузии, основанные на согласовании распределений и траекторий, позволяют сократить выборку до одного шага, они не справляются со сложными задачами, такими как генерация изображений по тексту. Генерация с малым количеством шагов предлагает лучший баланс между скоростью и качеством, но существующие подходы сталкиваются с постоянным компромиссом: согласование распределений недостаточно гибко для многошаговой выборки, а согласование траекторий часто приводит к неоптимальному качеству изображений. Чтобы устранить этот разрыв, мы предлагаем обучение диффузионных моделей с малым количеством шагов с помощью метода **Согласования Распределения Траекторий (TDM)**, унифицированной парадигмы дистилляции, которая сочетает преимущества согласования распределений и траекторий. Наш метод вводит объектив дистилляции оценок без данных, согласовывая траекторию ученика с траекторией учителя на уровне распределения. Кроме того, мы разрабатываем объектив, учитывающий шаги выборки, который разделяет цели обучения для разных шагов, обеспечивая более гибкую выборку. Этот подход поддерживает как детерминированную выборку для превосходного качества изображений, так и гибкую адаптацию для многошаговой выборки, достигая передовых показателей с высокой эффективностью. Наша модель, TDM, превосходит существующие методы на различных архитектурах, таких как SDXL и PixArt-alpha, обеспечивая лучшее качество и значительно снижая затраты на обучение. В частности, наш метод дистиллирует PixArt-alpha в 4-шаговый генератор, который превосходит своего учителя по предпочтениям реальных пользователей при разрешении 1024. Это достигается за 500 итераций и 2 часа на A800 — всего 0.01% от стоимости обучения учителя. Кроме того, предложенный TDM может быть расширен для ускорения диффузии текста в видео. Примечательно, что TDM может превзойти свою учительскую модель (CogVideoX-2B), используя всего 4 NFE на VBench, улучшая общий балл с 80.91 до 81.65. Страница проекта: https://tdm-t2x.github.io/
Поскольку многомодальные большие языковые модели (MLLMs) часто допускают ошибки при решении научных задач, оценка достоверности их процессов рассуждения имеет критическое значение для обеспечения надежности и выявления тонких слабостей моделей. Поскольку человеческая оценка трудоемка и затратна, использование MLLMs в качестве автоматизированных судей процессов стало распространенной практикой. Однако надежность таких моделей-судей остается неопределенной. Чтобы решить эту проблему, мы представляем ProJudgeBench — первый всеобъемлющий бенчмарк, специально разработанный для оценки способностей MLLM-судей процессов. ProJudgeBench включает 2400 тестовых случаев и 50 118 меток на уровне шагов, охватывая четыре научные дисциплины с различными уровнями сложности и многомодальным содержанием. В ProJudgeBench каждый шаг тщательно аннотируется экспертами на предмет корректности, типа ошибки и объяснения, что позволяет систематически оценивать способности судей обнаруживать, классифицировать и диагностировать ошибки. Оценка на ProJudgeBench выявляет значительный разрыв в производительности между открытыми и проприетарными моделями. Чтобы сократить этот разрыв, мы предлагаем ProJudge-173k — крупномасштабный набор данных для настройки инструкций, а также стратегию динамической двухфазной тонкой настройки, которая побуждает модели явно рассуждать в процессе решения задачи перед оценкой решений. Оба вклада значительно улучшают способности открытых моделей к оценке процессов. Все ресурсы будут опубликованы для стимулирования будущих исследований в области надежной многомодальной оценки процессов.
Унифицированные модели (UniMs) для мультимодального понимания и генерации в последнее время привлекают значительное внимание в области обработки зрения и языка. Существующие UniMs разработаны для одновременного обучения как способностям мультимодального понимания, так и генерации, что требует значительных вычислительных ресурсов и часто сталкивается с трудностями при генерации чередующегося текста и изображений. Мы представляем ARMOR, ресурсоэффективную и чисто авторегрессионную структуру, которая достигает как понимания, так и генерации путем тонкой настройки существующих мультимодальных больших языковых моделей (MLLMs). В частности, ARMOR расширяет существующие MLLMs с трех перспектив: (1) Для архитектуры модели вводится асимметричная архитектура кодировщика-декодера с механизмом переключения вперед, чтобы унифицировать пространство встраивания, интегрирующее текстовые и визуальные модальности, что позволяет естественную генерацию чередующегося текста и изображений с минимальными вычислительными затратами. (2) Для обучающих данных собирается тщательно отобранный, высококачественный набор данных с чередующимися текстами и изображениями для тонкой настройки MLLMs. (3) Для алгоритма обучения мы предлагаем алгоритм «что или как генерировать», который наделяет существующие MLLMs способностями мультимодальной генерации, сохраняя при этом их способности мультимодального понимания, через три прогрессивных этапа обучения на основе собранного набора данных. Экспериментальные результаты демонстрируют, что ARMOR улучшает существующие MLLMs до UniMs с перспективными возможностями генерации изображений, используя ограниченные ресурсы для обучения. Наш код будет вскоре опубликован на https://armor.github.io.
Крупные языковые модели (LLM) продемонстрировали выдающуюся производительность и способность к обобщению в различных языках и задачах, что делает их привлекательными целями для интеграции с мультимодальностью (например, с изображениями или речью). В данной работе мы расширяем существующую LLM на речевую модальность с помощью дискретизации речи и продолженного предобучения. В частности, нас интересуют многоязычные LLM, такие как TOWER, поскольку их настройка предобучения позволяет рассматривать дискретизированную речь как дополнительный язык перевода. Полученная открытая модель SPIRE способна транскрибировать и переводить английскую речь, сохраняя при этом исходную производительность TOWER на задачах, связанных с переводом, что демонстрирует возможность интеграции дискретизированной речи в качестве дополнительного языка при адаптации LLM. Мы предоставляем наш код и модели сообществу.
Точное извлечение материалов имеет решающее значение для создания реалистичных 3D-объектов. Существующие методы опираются на наборы данных, которые фиксируют представления материалов, инвариантные к форме и варьирующиеся в зависимости от освещения, однако такие данные ограничены в разнообразии и сталкиваются с трудностями в обобщении на реальные условия. Большинство современных подходов используют традиционные методы поиска изображений, которые не способны эффективно учитывать уникальные свойства пространств материалов, что приводит к неоптимальной производительности в задачах извлечения. Для решения этих проблем мы представляем MaRI — фреймворк, предназначенный для устранения разрыва в пространстве признаков между синтетическими и реальными материалами. MaRI создает общее пространство встраивания, которое гармонизирует визуальные и материальные атрибуты с помощью стратегии контрастного обучения, совместно обучая кодировщик изображений и кодировщик материалов, сближая похожие материалы и изображения и разделяя непохожие пары в пространстве признаков. Для поддержки этого мы создаем всеобъемлющий набор данных, включающий высококачественные синтетические материалы, отрендеренные с контролируемыми вариациями формы и разнообразными условиями освещения, а также реальные материалы, обработанные и стандартизированные с использованием техник переноса материалов. Многочисленные эксперименты демонстрируют превосходную производительность, точность и способность к обобщению MaRI в разнообразных и сложных задачах извлечения материалов, превосходя существующие методы.
Мы представляем TreeMeshGPT — авторегрессивный трансформатор, предназначенный для генерации высококачественных художественных мешей, согласованных с входными облаками точек. Вместо традиционного предсказания следующего токена в авторегрессивных трансформаторах мы предлагаем новый подход — Авторегрессивное Древовидное Последовательное Построение, где следующий входной токен извлекается из динамически растущей древовидной структуры, основанной на треугольной смежности граней внутри меша. Наш подход позволяет мешу локально расширяться от последней сгенерированной треугольной грани на каждом шаге, что снижает сложность обучения и повышает качество меша. Мы представляем каждую треугольную грань двумя токенами, достигая степени сжатия примерно 22% по сравнению с наивной токенизацией граней. Эта эффективная токенизация позволяет нашей модели генерировать высокодетализированные художественные меши с сильной обусловленностью облаками точек, превосходя предыдущие методы как по ёмкости, так и по точности. Кроме того, наш метод генерирует меши с сильными ограничениями на ориентацию нормалей, минимизируя перевернутые нормали, часто встречающиеся в предыдущих методах. Наши эксперименты показывают, что TreeMeshGPT улучшает качество генерации мешей за счет уточненных деталей и согласованности ориентации нормалей.
В данной работе представлена первая оценка двух современных моделей для выполнения сложных логических задач (Large Reasoning Models, LRM) — o3-mini от OpenAI и DeepSeek R1 — в контексте аналогического мышления, с акцентом на хорошо известные невербальные тесты IQ, основанные на прогрессивных матрицах Равена. Мы проводим тестирование на наборе данных I-RAVEN и его более сложном расширении I-RAVEN-X, которое проверяет способность к обобщению более длинных логических правил и диапазонов значений атрибутов. Чтобы оценить влияние визуальных неопределенностей на эти невербальные тесты аналогического мышления, мы расширяем набор данных I-RAVEN-X, который в исходном виде предполагает идеальное восприятие. Мы применяем двухэтапную стратегию для моделирования этого несовершенного визуального восприятия: 1) вводим мешающие атрибуты, которые, будучи случайно выбранными, не влияют на предсказание правильного ответа в головоломках, и 2) сглаживаем распределения значений входных атрибутов. Мы наблюдаем резкое снижение точности модели o3-mini от OpenAI: с 86,6% на исходном наборе I-RAVEN до всего лишь 17,0% — что близко к случайному угадыванию — на более сложном наборе I-RAVEN-X, который увеличивает длину входных данных и диапазон значений, а также имитирует перцептивную неопределенность. Это снижение произошло, несмотря на использование в 3,4 раза большего количества токенов для рассуждений. Аналогичная тенденция наблюдается и для DeepSeek R1: с 80,6% до 23,2%. С другой стороны, нейро-символическая вероятностная абдуктивная модель ARLC, которая демонстрирует наилучшие результаты на I-RAVEN, способна устойчиво рассуждать во всех этих тестах за пределами распределения, сохраняя высокую точность с умеренным снижением с 98,6% до 88,0%. Наш код доступен по адресу https://github.com/IBM/raven-large-language-models.
Детальное описание видео (Video Detailed Captioning, VDC) является важной задачей для объединения зрения и языка, позволяя создавать детализированные описания сложного видеоконтента. В данной работе мы сначала провели всесторонний анализ современных передовых подходов и систематически выявили два ключевых ограничения: предвзятость в отношении определенных аспектов описания и несоответствие человеческим предпочтениям. Для устранения этих недостатков мы предлагаем Cockatiel — новый трехэтапный процесс обучения, который объединяет синтетическое и ориентированное на человека обучение для повышения производительности VDC. На первом этапе мы создаем оценщик на основе тщательно аннотированного набора данных, чтобы отбирать синтетические описания, которые демонстрируют высокую эффективность в точном соответствии видео и описания, а также соответствуют человеческим предпочтениям, игнорируя остальные. Затем мы обучаем модель Cockatiel-13B, используя этот отобранный набор данных, чтобы наделить ее объединенными сильными сторонами модели и человеческими предпочтениями. Наконец, мы дополнительно дистиллируем Cockatiel-8B из Cockatiel-13B для упрощения использования. Многочисленные количественные и качественные эксперименты подтверждают эффективность нашего метода: мы не только устанавливаем новый рекорд производительности на метрике VDCSCORE в сбалансированном измерении, но и значительно превосходим ведущие альтернативы по человеческим предпочтениям, что подтверждается результатами оценки людьми.
Обучение навыкам в открытых мирах крайне важно для разработки агентов, способных справляться с разнообразными задачами, комбинируя базовые навыки. Онлайн-демонстрационные видео обычно длинные и несегментированные, что затрудняет их разделение и маркировку идентификаторами навыков. В отличие от существующих методов, которые полагаются на выборку последовательностей или ручную разметку, мы разработали подход на основе самообучения для разделения таких длинных видео на серию семантически осмысленных и согласованных по навыкам сегментов. Вдохновляясь теорией когнитивного сегментирования событий у человека, мы представляем алгоритм временного сегментирования видео без аннотаций — Skill Boundary Detection (SBD). SBD обнаруживает границы навыков в видео, используя ошибки предсказания предварительно обученной модели безусловного предсказания действий. Этот подход основан на предположении, что значительное увеличение ошибки предсказания указывает на смену выполняемого навыка. Мы оценили наш метод в Minecraft, богатом симуляторе открытого мира с обширной базой игровых видео, доступных онлайн. Сегменты, сгенерированные SBD, улучшили среднюю производительность условных политик на 63,7% и 52,1% в задачах на краткосрочные атомарные навыки, а соответствующих иерархических агентов — на 11,3% и 20,8% в задачах с длительным горизонтом планирования. Наш метод позволяет использовать разнообразные видео с YouTube для обучения агентов, выполняющих инструкции. Страница проекта доступна по адресу https://craftjarvis.github.io/SkillDiscovery.
Мы представляем CHOrD — новый фреймворк для масштабируемого синтеза 3D-интерьеров, предназначенный для создания цифровых двойников помещений в масштабе дома, свободных от коллизий и иерархически структурированных. В отличие от существующих методов, которые напрямую синтезируют планировку сцены в виде графа сцены или списка объектов, CHOrD использует промежуточное представление планировки на основе 2D-изображений, что позволяет эффективно предотвращать артефакты коллизий, успешно идентифицируя их как сценарии, выходящие за пределы распределения (out-of-distribution, OOD), в процессе генерации. Более того, в отличие от существующих подходов, CHOrD способен создавать планировки сцен, соответствующие сложным поэтажным планам с многомодальными управляющими параметрами, что позволяет формировать согласованные планировки для всего дома, устойчивые как к геометрическим, так и к семантическим вариациям в структуре комнат. Дополнительно мы предлагаем новый набор данных с расширенным охватом предметов домашнего обихода и конфигураций комнат, а также значительно улучшенным качеством данных. CHOrD демонстрирует передовые результаты как на наборе данных 3D-FRONT, так и на нашем предложенном наборе данных, обеспечивая фотореалистичный и пространственно согласованный синтез интерьеров, адаптируемый к произвольным вариациям поэтажных планов.
Мы представляем GoalFlow, сквозной метод автономного вождения для генерации высококачественных мультимодальных траекторий. В сценариях автономного вождения редко существует единственная подходящая траектория. Современные методы всё больше фокусируются на моделировании распределений мультимодальных траекторий. Однако они сталкиваются с проблемами сложности выбора траекторий и снижения их качества из-за высокой дивергенции траекторий и несоответствий между руководящей информацией и данными сцены. Для решения этих проблем мы предлагаем GoalFlow, новый метод, который эффективно ограничивает генеративный процесс для создания высококачественных мультимодальных траекторий. Чтобы устранить проблему дивергенции траекторий, присущую методам на основе диффузии, GoalFlow ограничивает генерируемые траектории введением целевой точки. GoalFlow устанавливает новый механизм оценки, который выбирает наиболее подходящую целевую точку из кандидатов на основе информации о сцене. Кроме того, GoalFlow использует эффективный генеративный метод Flow Matching для создания мультимодальных траекторий и включает усовершенствованный механизм оценки для выбора оптимальной траектории из кандидатов. Наши экспериментальные результаты, проверенные на NavsimDauner2024_navsim, демонстрируют, что GoalFlow достигает передовых показателей, предоставляя устойчивые мультимодальные траектории для автономного вождения. GoalFlow достиг PDMS 90.3, значительно превзойдя другие методы. По сравнению с другими методами на основе диффузионной политики, наш подход требует всего одного шага денойзинга для получения отличных результатов. Код доступен по адресу https://github.com/YvanYin/GoalFlow.
Машинное "разучивание" (machine unlearning) — это новая парадигма, позволяющая удалить влияние определённых обучающих данных (так называемого "забываемого набора") из модели, сохраняя при этом её знания о остальных данных (так называемого "сохраняемого набора"). Предыдущие подходы предполагали, что забываемые данные равномерно распределены среди всех обучающих точек. Однако, если данные, которые необходимо "разучить", доминируют в одной из групп, мы эмпирически показываем, что производительность для этой группы ухудшается, что приводит к проблемам справедливости. Данная работа решает упущенную проблему неравномерно распределённых забываемых наборов, которую мы называем группово-устойчивым машинным "разучиванием", предлагая простую и эффективную стратегию, которая смягчает потерю производительности в доминирующих группах за счёт перевзвешивания распределения выборок. Кроме того, мы представляем MIU (Mutual Information-aware Machine Unlearning) — первый подход для обеспечения групповой устойчивости в приближённом машинном "разучивании". MIU минимизирует взаимную информацию между признаками модели и групповой информацией, достигая "разучивания" при одновременном снижении деградации производительности в доминирующей группе забываемого набора. Дополнительно MIU использует перевзвешивание распределения выборок и калибровку взаимной информации с исходной моделью для сохранения групповой устойчивости. Мы проводим эксперименты на трёх наборах данных и показываем, что MIU превосходит стандартные методы, достигая "разучивания" без ущерба для устойчивости модели. Исходный код доступен по адресу https://github.com/tdemin16/group-robust_machine_unlearning.