Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем "Закон представления визуальной информации" в мультимодальных больших языковых моделях (MLLMs). Он демонстрирует сильную корреляцию между комбинацией кросс-модального выравнивания, соответствия в представлении визуальной информации и производительностью MLLM. Мы количественно оцениваем эти два фактора с использованием показателя кросс-модального выравнивания и соответствия (AC score). В ходе обширных экспериментов, включающих тринадцать различных настроек представления визуальной информации и оценку на восьми бенчмарках, мы обнаруживаем, что показатель AC линейно коррелирует с производительностью модели. Используя эту зависимость, мы можем определить и обучить только оптимальное представление визуальной информации, что не требует тонкой настройки языковой модели каждый раз, что приводит к сокращению вычислительных затрат на 99,7%.
Начиная с VisualGLM и CogVLM, мы продолжаем исследовать визуально-языковые модели (VLMs) с целью улучшения слияния зрения и языка, создания эффективных архитектур для работы с высоким разрешением и расширения модальностей и областей применения. Здесь мы представляем семейство CogVLM2 — новое поколение визуально-языковых моделей для понимания изображений и видео, включая CogVLM2, CogVLM2-Video и GLM-4V. Как модель для понимания изображений, CogVLM2 наследует архитектуру визуального эксперта с улучшенными методами обучения на этапах предварительной и последующей подготовки, поддерживая входное разрешение до 1344×1344 пикселей. Как модель для понимания видео, CogVLM2-Video интегрирует многокадровый ввод с временными метками и предлагает автоматизированное построение данных для временной привязки. Примечательно, что семейство CogVLM2 достигло наилучших результатов на бенчмарках, таких как MMBench, MM-Vet, TextVQA, MVBench и VCGBench. Все модели доступны в открытом доступе на https://github.com/THUDM/CogVLM2 и https://github.com/THUDM/GLM-4, способствуя развитию области.
Языковые модели успешно применяются для моделирования естественных сигналов, таких как изображения, видео, речь и аудио. Ключевым компонентом этих моделей является токенизатор кодеков, который сжимает высокоразмерные естественные сигналы в низкоразмерные дискретные токены. В данной статье мы представляем WavTokenizer, который предлагает несколько преимуществ по сравнению с предыдущими моделями акустических кодеков в области аудио: 1) экстремальное сжатие. Благодаря сжатию слоев квантователей и временного измерения дискретного кодека, одна секунда аудио с частотой дискретизации 24 кГц требует всего одного квантователя с 40 или 75 токенами. 2) улучшенное субъективное качество. Несмотря на уменьшение количества токенов, WavTokenizer достигает наилучшего качества реконструкции с выдающимися показателями UTMOS и содержит более богатую семантическую информацию. В частности, мы достигаем этих результатов за счет проектирования более широкого пространства VQ, расширенных контекстных окон и улучшенных сетей внимания, а также введения мощного многомасштабного дискриминатора и структуры обратного преобразования Фурье. Мы провели обширные эксперименты по реконструкции в областях речи, аудио и музыки. WavTokenizer продемонстрировал высокую производительность по различным объективным и субъективным метрикам по сравнению с современными моделями. Мы также протестировали семантическую информацию, использование VQ и адаптивность к генеративным моделям. Комплексные исследования подтверждают необходимость каждого модуля в WavTokenizer. Связанный код, демонстрации и предварительно обученные модели доступны по адресу https://github.com/jishengpeng/WavTokenizer.
Достижения в области реконструкции 3D-сцен позволили преобразовать 2D-изображения из реального мира в 3D-модели, создавая реалистичные 3D-результаты на основе сотен входных фотографий. Несмотря на значительные успехи в сценариях реконструкции с плотным охватом, рендеринг детализированной сцены при недостаточном количестве захваченных ракурсов остается некорректно поставленной оптимизационной задачей, что часто приводит к артефактам и искажениям в невидимых областях. В данной работе мы предлагаем ReconX — новую парадигму реконструкции 3D-сцен, которая переосмысливает неоднозначную задачу реконструкции как задачу временной генерации. Ключевая идея заключается в использовании мощного генеративного потенциала крупных предобученных моделей диффузии видео для реконструкции сцен с малым количеством ракурсов. Однако точное сохранение 3D-согласованности в непосредственно сгенерированных кадрах видео из предобученных моделей остается сложной задачей. Для решения этой проблемы, при ограниченном количестве входных ракурсов, предложенный ReconX сначала строит глобальное облако точек и кодирует его в контекстное пространство как условие 3D-структуры. Руководствуясь этим условием, модель диффузии видео синтезирует кадры, которые сохраняют детали и демонстрируют высокую степень 3D-согласованности, обеспечивая целостность сцены с различных точек зрения. Наконец, мы восстанавливаем 3D-сцену из сгенерированного видео с помощью оптимизационной схемы на основе 3D-гауссовского сплаттинга с учетом уверенности. Многочисленные эксперименты на различных наборах данных реального мира демонстрируют превосходство нашего ReconX по сравнению с современными методами с точки зрения качества и обобщаемости.
Мы представляем SAM2Point — предварительное исследование, адаптирующее модель Segment Anything Model 2 (SAM 2) для задач сегментации в 3D с нулевым обучением и поддержкой подсказок. SAM2Point интерпретирует любые 3D-данные как серию многонаправленных видео и использует SAM 2 для сегментации в 3D-пространстве без дополнительного обучения или проекции 2D-3D. Наша система поддерживает различные типы подсказок, включая 3D-точки, ограничивающие рамки и маски, и способна обобщать данные в разнообразных сценариях, таких как 3D-объекты, интерьеры, открытые пространства и сырые разреженные данные LiDAR. Демонстрации на множестве 3D-наборов данных, таких как Objaverse, S3DIS, ScanNet, Semantic3D и KITTI, подчеркивают мощные возможности обобщения SAM2Point. Насколько нам известно, мы представляем наиболее точную реализацию SAM в 3D, которая может стать отправной точкой для будущих исследований в области сегментации с поддержкой подсказок. Онлайн-демо: https://huggingface.co/spaces/ZiyuG/SAM2Point. Код: https://github.com/ZiyuGuo99/SAM2Point.
Языковые модели продемонстрировали впечатляющие результаты в решении задач, требующих рассуждений; однако даже самые мощные модели всё ещё иногда допускают ошибки в рассуждениях. В последнее время активно ведутся исследования, направленные на повышение точности рассуждений, в частности, с использованием предобученных языковых моделей для "самокоррекции" своих ошибок с помощью многоэтапных запросов. В данной работе мы следуем этому направлению, но сосредотачиваемся на изучении полезности включения данных для "исправления ошибок" непосредственно на этапе предобучения. Эти данные состоят из ошибочных шагов решения, за которыми сразу следуют их исправления. Используя синтетический математический набор данных, мы показываем обнадеживающие результаты: такой тип данных для предобучения может помочь языковым моделям достичь более высокой точности рассуждений напрямую (т.е. через простую авторегрессию, без многоэтапных запросов) по сравнению с предобучением на том же объеме данных без ошибок. Мы также углубляемся во множество деталей, таких как (1) чем этот подход отличается от поиска по лучу, (2) как можно подготовить такие данные, (3) требуется ли маскирование ошибочных токенов, (4) объем необходимых ошибок, (5) можно ли отложить использование таких данных до этапа тонкой настройки, и многие другие аспекты.
Модель диффузии продемонстрировала исключительные возможности в управляемой генерации изображений, что дополнительно стимулировало интерес к переносу стиля изображений. Существующие работы в основном сосредоточены на обучении методов, не требующих данных (например, инверсии изображений), из-за недостатка специфических данных. В данном исследовании мы представляем конвейер создания данных для триплетов изображений "контент-стиль-стилизованное изображение", который генерирует и автоматически очищает стилизованные триплеты данных. На основе этого конвейера мы создаем набор данных IMAGStyle, первый крупномасштабный набор данных для переноса стиля, содержащий 210 тысяч триплетов изображений, доступный для изучения и исследований сообществом. Оснащенные IMAGStyle, мы предлагаем CSGO, модель переноса стиля, основанную на сквозном обучении, которая явно разделяет признаки контента и стиля с использованием независимой инъекции признаков. Унифицированный CSGO реализует перенос стиля на основе изображений, синтез стилизованных изображений на основе текста и синтез стилизованных изображений на основе редактирования текста. Многочисленные эксперименты демонстрируют эффективность нашего подхода в улучшении возможностей управления стилем при генерации изображений. Дополнительная визуализация и доступ к исходному коду доступны на странице проекта: https://csgo-gen.github.io/.
Мы представляем Spann3R — новый подход для плотного 3D-реконструирования из упорядоченных или неупорядоченных коллекций изображений. Основанный на парадигме DUSt3R, Spann3R использует архитектуру на основе трансформеров для прямого регрессирования карт точек из изображений без какого-либо предварительного знания о сцене или параметрах камеры. В отличие от DUSt3R, который предсказывает карты точек для каждой пары изображений, выраженные в их локальной системе координат, Spann3R способен предсказывать карты точек для каждого изображения, выраженные в глобальной системе координат, что устраняет необходимость оптимизационного глобального выравнивания. Ключевая идея Spann3R заключается в управлении внешней пространственной памятью, которая обучается отслеживать всю предыдущую релевантную 3D-информацию. Затем Spann3R запрашивает эту пространственную память для предсказания 3D-структуры следующего кадра в глобальной системе координат. Используя предварительно обученные веса DUSt3R и дополнительную тонкую настройку на подмножестве наборов данных, Spann3R демонстрирует конкурентоспособную производительность и способность к обобщению на различных неизвестных наборах данных, а также может обрабатывать упорядоченные коллекции изображений в реальном времени. Страница проекта: https://hengyiwang.github.io/projects/spanner.
Сокрытие авторства, то есть переписывание текста с целью намеренного скрытия личности автора, является важной, но сложной задачей. Современные методы, использующие большие языковые модели (LLMs), страдают от недостатка интерпретируемости и управляемости, часто игнорируя авторские стилистические особенности, что приводит к менее устойчивой производительности в целом. Для решения этой проблемы мы разработали StyleRemix — адаптивный и интерпретируемый метод сокрытия, который изменяет конкретные, тонкие стилистические элементы исходного текста. StyleRemix использует предобученные модули Low Rank Adaptation (LoRA) для переписывания входного текста вдоль различных стилистических осей (например, формальность и длина), сохраняя при этом низкие вычислительные затраты. StyleRemix превосходит современные базовые методы и значительно более крупные LLMs в различных областях, что подтверждается как автоматической, так и человеческой оценкой. Кроме того, мы публикуем AuthorMix — обширный набор из 30 тысяч высококачественных длинных текстов от 14 авторов и 4 областей, а также DiSC — параллельный корпус из 1500 текстов, охватывающих семь стилистических осей в 16 уникальных направлениях.
Новые методы машинного обучения для генерации табличных данных часто разрабатываются на небольших наборах данных, которые не соответствуют масштабу, необходимому для научных приложений. Мы исследуем недавнее предложение использовать XGBoost в качестве аппроксиматора функции в моделях диффузии и согласования потоков для табличных данных, что оказалось чрезвычайно ресурсоемким даже на небольших наборах данных. В данной работе мы проводим критический анализ существующей реализации с инженерной точки зрения и показываем, что эти ограничения не являются фундаментальными для метода; с более эффективной реализацией его можно масштабировать на наборы данных, в 370 раз превышающие ранее использовавшиеся. Наша оптимизированная реализация также позволяет масштабировать модели до значительно больших размеров, что, как мы показываем, напрямую приводит к улучшению производительности на тестовых задачах. Мы также предлагаем алгоритмические улучшения, которые могут дополнительно оптимизировать использование ресурсов и производительность модели, включая деревья с множественными выходами, которые хорошо подходят для задач генеративного моделирования. Наконец, мы представляем результаты на крупномасштабных научных наборах данных, полученных из экспериментальной физики элементарных частиц в рамках задачи Fast Calorimeter Simulation Challenge. Код доступен по адресу https://github.com/layer6ai-labs/calo-forest.
Многочисленные биологические и физические процессы могут быть смоделированы как системы взаимодействующих сущностей, эволюционирующих непрерывно во времени, например, динамика взаимодействующих клеток или физических частиц. Изучение динамики таких систем крайне важно для прогнозирования временной эволюции популяций в новых образцах и неизученных условиях. Модели, основанные на потоках, позволяют изучать эту динамику на уровне популяции — они моделируют эволюцию всего распределения образцов. Однако современные модели, основанные на потоках, ограничены одной начальной популяцией и набором предопределенных условий, которые описывают различные динамики. Мы утверждаем, что множество процессов в естественных науках должны быть представлены как векторные поля на многообразии Вассерштейна вероятностных плотностей. То есть изменение популяции в любой момент времени зависит от самой популяции из-за взаимодействий между образцами. Это особенно важно для персонализированной медицины, где развитие заболеваний и их ответ на лечение зависят от микроокружения клеток, специфичного для каждого пациента. Мы предлагаем Meta Flow Matching (MFM) — практический подход к интегрированию вдоль этих векторных полей на многообразии Вассерштейна путем амортизации модели потока по начальным популяциям. А именно, мы используем графовые нейронные сети (GNN) для встраивания популяции образцов и применяем эти вложения для обучения модели Flow Matching. Это позволяет MFM обобщать начальные распределения, в отличие от ранее предложенных методов. Мы демонстрируем способность MFM улучшать прогнозирование индивидуальных ответов на лечение на крупномасштабном наборе данных одноклеточного скрининга лекарств для множества пациентов.