Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем первую Модель Крупномасштабной Реконструкции (Large Reconstruction Model, LRM), которая предсказывает 3D-модель объекта по одному входному изображению всего за 5 секунд. В отличие от многих предыдущих методов, которые обучаются на небольших наборах данных, таких как ShapeNet, в рамках конкретных категорий, LRM использует высокомасштабируемую архитектуру на основе трансформеров с 500 миллионами обучаемых параметров для прямого предсказания нейронного поля излучения (NeRF) из входного изображения. Мы обучаем нашу модель сквозным образом на огромных данных с множеством ракурсов, содержащих около 1 миллиона объектов, включая как синтетические рендеры из Objaverse, так и реальные съемки из MVImgNet. Сочетание модели высокой емкости и крупномасштабных данных обучения позволяет нашей модели быть высоко обобщаемой и создавать качественные 3D-реконструкции для различных тестовых входных данных, включая реальные съемки в естественных условиях и изображения, созданные генеративными моделями. Видеодемонстрации и интерактивные 3D-сетки можно найти на сайте: https://yiconghong.me/LRM/.
Несмотря на то, что мультимодальные большие языковые модели (MM-LLMs) в последнее время добились значительных успехов, они по-прежнему сталкиваются с трудностями в эффективном моделировании взаимодействий между мультимодальными входными данными и генерацией в нетекстовых модальностях. В данной работе мы предлагаем TEAL (Tokenize and Embed ALl) — подход, который рассматривает входные данные любой модальности как последовательность токенов и обучает совместное пространство вложений для всех модальностей. В частности, для входных данных любой модальности TEAL сначала дискретизирует их в последовательность токенов с использованием готового токенизатора, а затем встраивает эту последовательность в совместное пространство вложений с помощью обучаемой матрицы вложений. MM-LLMs просто предсказывают мультимодальные токены авторегрессивно, как это делают текстовые LLM. Наконец, соответствующий детокенизатор применяется для генерации выходных данных в каждой модальности на основе предсказанной последовательности токенов. Благодаря совместному пространству вложений TEAL позволяет замороженным LLM выполнять задачи понимания и генерации, связанные с нетекстовыми модальностями, такими как изображения и аудио. Таким образом, текстовая LLM может выступать в качестве интерфейса и сохранять свою высокую производительность в текстовом понимании и генерации. Эксперименты показывают, что TEAL достигает существенных улучшений в мультимодальном понимании и реализует простую схему для мультимодальной генерации.
Разработка крупных языковых моделей (LLM) значительно продвинула область мультимодального понимания, что привело к появлению крупных мультимодальных моделей (LMM). Для повышения уровня визуального восприятия в последних исследованиях LMM были оснащены возможностями понимания на уровне регионов путем представления координат ограничивающих рамок объектов в виде последовательностей текстовых данных (pixel2seq). В данной работе мы представляем новую парадигму моделирования локализации объектов под названием метод pixel2emb, в котором мы предлагаем LMM выводить эмбеддинги локаций, которые затем декодируются различными декодерами. Эта парадигма позволяет использовать различные форматы локаций (такие как ограничивающие рамки и маски) в мультимодальных диалогах. Более того, такой подход к моделированию локаций на основе эмбеддингов позволяет применять существующие практики в задачах локализации, таких как детекция и сегментация. В условиях ограниченных ресурсов наш метод pixel2emb демонстрирует превосходную производительность по сравнению с современными подходами (SOTA) как в задачах ввода, так и вывода локаций при честном сравнении. Используя предложенный метод pixel2emb, мы обучаем LMM под названием NExT-Chat и демонстрируем её способность справляться с множеством задач, таких как визуальное заземление, описание регионов и обоснованное рассуждение.
Потрясающее качественное улучшение современных моделей генерации изображений по тексту привело к их широкому вниманию и внедрению. Однако нам не хватает всестороннего количественного понимания их возможностей и рисков. Чтобы заполнить этот пробел, мы представляем новый эталонный тест — Holistic Evaluation of Text-to-Image Models (HEIM). В то время как предыдущие оценки в основном сосредоточены на соответствии текста и изображения и качестве изображения, мы выделяем 12 аспектов, включая соответствие текста и изображения, качество изображения, эстетику, оригинальность, логическое мышление, знания, предвзятость, токсичность, справедливость, устойчивость, многоязычность и эффективность. Мы разработали 62 сценария, охватывающих эти аспекты, и оценили 26 современных моделей генерации изображений по тексту на этом эталоне. Наши результаты показывают, что ни одна модель не превосходит во всех аспектах, при этом разные модели демонстрируют разные сильные стороны. Мы публикуем сгенерированные изображения и результаты человеческой оценки для полной прозрачности на сайте https://crfm.stanford.edu/heim/v1.1.0, а также код на https://github.com/stanford-crfm/helm, который интегрирован с кодом HELM.
Мы представляем 3DiffTection — современный метод для обнаружения 3D-объектов по одиночным изображениям, использующий признаки из 3D-осознанной диффузионной модели. Аннотирование крупномасштабных данных изображений для 3D-детекции требует значительных ресурсов и времени. В последнее время предобученные крупные диффузионные модели изображений стали популярными как эффективные экстракторы признаков для задач 2D-восприятия. Однако эти признаки изначально обучаются на парных данных текста и изображений, которые не оптимизированы для 3D-задач, и часто демонстрируют разрыв доменов при применении к целевым данным. Наш подход устраняет эти разрывы с помощью двух специализированных стратегий настройки: геометрической и семантической. Для геометрической настройки мы дообучаем диффузионную модель для синтеза новых видов на основе одного изображения, вводя новый эпиполярный оператор деформации. Эта задача отвечает двум ключевым критериям: необходимость 3D-осознанности и зависимость исключительно от данных изображений с известной позой, которые легко доступны (например, из видео) и не требуют ручной аннотации. Для семантической доработки мы дополнительно обучаем модель на целевых данных с контролем детекции. Обе фазы настройки используют ControlNet для сохранения целостности исходных возможностей признаков. На заключительном этапе мы используем эти улучшенные возможности для проведения ансамбля предсказаний во время тестирования на множестве виртуальных точек зрения. Благодаря нашей методологии мы получаем 3D-осознанные признаки, адаптированные для 3D-детекции и превосходно справляющиеся с идентификацией соответствий точек между видами. В результате наша модель становится мощным 3D-детектором, значительно превосходящим предыдущие эталоны, например, Cube-RCNN, предшественника в однокадровой 3D-детекции, на 9,43% по метрике AP3D на наборе данных Omni3D-ARkitscene. Кроме того, 3DiffTection демонстрирует высокую эффективность использования данных и обобщаемость на кросс-доменные данные.
Недавние исследования показали, что крупные языковые модели (LLM) могут расширять возможности традиционных нейро-символических моделей благодаря способности программировать, переводя язык в описания модулей, что позволяет достигать высоких результатов в визуальном рассуждении, сохраняя при этом прозрачность и эффективность модели. Однако такие модели обычно генерируют весь фрагмент кода заново для каждого нового экземпляра задачи, что крайне неэффективно. Мы предлагаем генеративный нейро-символический подход к визуальному рассуждению, основанный на развитии и повторном использовании модулей. Конкретно, наша модель состоит из трех этапов: инициализация модуля, генерация модуля и выполнение модуля. Сначала, получив задачу, связанную с визуальным и языковым контекстом, мы используем LLM, чтобы определить, можно ли повторно использовать и развить существующие модули для решения этой задачи. Если нет, мы инициализируем новый модуль, необходимый для задачи, и определяем его входные и выходные данные. Затем новый модуль создается путем запроса к LLM для генерации соответствующих фрагментов кода, удовлетворяющих требованиям. Чтобы лучше оценить возможности нового модуля, мы используем несколько обучающих примеров в качестве тестовых случаев, чтобы проверить, может ли новый модуль их пройти. Если да, модуль добавляется в библиотеку модулей для будущего использования. Наконец, мы оцениваем производительность модели на тестовом наборе, выполняя разобранные программы с использованием новых визуальных модулей для получения результатов. Мы обнаружили, что предложенная модель обладает несколькими преимуществами. Во-первых, она демонстрирует конкурентоспособные результаты на стандартных задачах, таких как визуальный вопросно-ответный анализ и понимание референциальных выражений. Во-вторых, модули, изученные для одной задачи, могут быть легко перенесены на новые задачи. И, наконец, модель способна адаптироваться к новым задачам визуального рассуждения, наблюдая за несколькими обучающими примерами и повторно используя модули.