HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

10 papers found

ViTAR: Vision Transformer с любым разрешением
ViTAR: Vision Transformer with Any Resolution

Mar 27

ByQihang Fan, Quanzeng You, Xiaotian Han, Yongfei Liu, Yunzhe Tao, Huaibo Huang, Ran He, Hongxia Yang

Этот документ рассматривает значительное препятствие, с которым сталкиваются Трансформеры Визуального Восприятия (ViTs): их ограниченную масштабируемость при различных разрешениях изображений. Обычно ViTs испытывают снижение производительности при обработке разрешений, отличных от тех, что были использованы во время обучения. Наша работа вводит два ключевых нововведения для решения этой проблемы. Во-первых, мы предлагаем новый модуль для динамической корректировки разрешения, разработанный с использованием одного блока Трансформера, специально для достижения высокоэффективной инкрементной интеграции токенов. Во-вторых, мы внедряем нечеткое позиционное кодирование в Трансформер Визуального Восприятия для обеспечения постоянного позиционного осознания при различных разрешениях, тем самым предотвращая переобучение на любом одном разрешении обучения. Наша полученная модель, ViTAR (Vision Transformer with Any Resolution), демонстрирует впечатляющую адаптивность, достигая точности 83,3\% на разрешении 1120x1120 и 80,4\% на разрешении 4032x4032, при снижении вычислительных затрат. ViTAR также показывает высокую производительность в задачах последующего обучения, таких как сегментация экземпляров и семантическая сегментация, и легко сочетается с техниками обучения без учителя, такими как Маскированный Автокодировщик. Наша работа предлагает экономически эффективное решение для улучшения масштабируемости разрешения ViTs, открывая путь к более универсальной и эффективной обработке изображений высокого разрешения.

Мини-Гемини: Исследование потенциала мульти-модальных моделей видео-языка
Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

Mar 27

ByYanwei Li, Yuechen Zhang, Chengyao Wang, Zhisheng Zhong, Yixin Chen, Ruihang Chu, Shaoteng Liu, Jiaya Jia

В данной работе мы представляем Mini-Gemini - простую и эффективную платформу, улучшающую мульти-модальные модели видео-языка (VLMs). Несмотря на прогресс в области VLMs, облегчающий базовый визуальный диалог и рассуждения, по-прежнему существует разрыв в производительности по сравнению с продвинутыми моделями, такими как GPT-4 и Gemini. Мы пытаемся сократить этот разрыв, максимально использовав потенциал VLMs для улучшения производительности и создания рабочего процесса "любой-к-любому" с трех аспектов: высокоразрешенные визуальные токены, высококачественные данные и генерация под руководством VLM. Для улучшения визуальных токенов мы предлагаем использовать дополнительный визуальный кодер для улучшения высокоразрешенности без увеличения количества визуальных токенов. Мы также создаем высококачественный набор данных, способствующий точному пониманию изображений и генерации на основе рассуждений, расширяя операционный диапазон текущих VLMs. В целом Mini-Gemini дополнительно раскрывает потенциал VLMs и усиливает текущие структуры с пониманием изображений, рассуждениями и генерацией одновременно. Mini-Gemini поддерживает ряд плотных и MoE Large Language Models (LLMs) от 2B до 34B. Он продемонстрирован достижение ведущей производительности в нескольких нулевых тестах и даже превосходит разработанные частные модели. Код и модели доступны по ссылке https://github.com/dvlab-research/MiniGemini.

ObjectDrop: Запуск контрфактических для фотореалистичного удаления и вставки объектов.
ObjectDrop: Bootstrapping Counterfactuals for Photorealistic Object Removal and Insertion

Mar 27

ByDaniel Winter, Matan Cohen, Shlomi Fruchter, Yael Pritch, Alex Rav-Acha, Yedid Hoshen

Диффузионные модели революционизировали редактирование изображений, однако часто создают изображения, нарушающие физические законы, особенно влияние объектов на сцену, например, заслонения, тени и отражения. Анализируя ограничения самонаблюдаемых подходов, мы предлагаем практическое решение, сосредоточенное на контрфактическом наборе данных. Наш метод включает захват сцены до и после удаления одного объекта, минимизируя другие изменения. Путем настройки диффузионной модели на этом наборе данных мы можем не только удалять объекты, но и их воздействие на сцену. Однако мы обнаружили, что применение этого подхода для фотореалистичной вставки объектов требует нереалистично большого набора данных. Для решения этой проблемы мы предлагаем бутстрап-наблюдение; используя нашу модель удаления объектов, обученную на небольшом контрфактическом наборе данных, мы синтетически значительно расширяем этот набор данных. Наш подход значительно превосходит предыдущие методы в фотореалистичном удалении и вставке объектов, особенно в моделировании воздействия объектов на сцену.

Долгосрочная фактичность в больших языковых моделях
Long-form factuality in large language models

Mar 27

ByJerry Wei, Chengrun Yang, Xinying Song, Yifeng Lu, Nathan Hu, Dustin Tran, Daiyi Peng, Ruibo Liu, Da Huang, Cosmo Du, Quoc V. Le

Большие языковые модели (LLM) часто генерируют контент, содержащий фактические ошибки при ответе на запросы о фактах по открытым темам. Для оценки фактичности модели в длинной форме в открытых областях мы сначала используем GPT-4 для создания LongFact - набора запросов, включающего тысячи вопросов по 38 темам. Затем мы предлагаем использовать агентов LLM в качестве автоматических оценщиков фактичности в длинной форме с помощью метода, который мы называем "Поисково-Дополненный Оценщик Фактичности" (SAFE). SAFE использует LLM для разбиения длинного ответа на набор отдельных фактов и оценки точности каждого факта с использованием многоэтапного процесса рассуждения, включающего отправку поисковых запросов в Google и определение, подтверждается ли факт результатами поиска. Более того, мы предлагаем расширить метрику F1 в качестве агрегированной метрики для фактичности в длинной форме. Для этого мы балансируем процент подтвержденных фактов в ответе (точность) с процентом предоставленных фактов относительно гиперпараметра, представляющего предпочтительную длину ответа пользователя (полнота). Эмпирически мы демонстрируем, что агенты LLM могут достичь сверхчеловеческой производительности оценки - на наборе ~16 тыс. отдельных фактов SAFE согласуется с аннотаторами, привлеченными из толпы, в 72% случаев, и на случайной подвыборке из 100 случаев разногласий SAFE побеждает в 76% случаев. В то же время SAFE более чем в 20 раз дешевле, чем аннотаторы. Мы также проводим оценку тринадцати языковых моделей на LongFact из четырех семейств моделей (Gemini, GPT, Claude и PaLM-2), обнаруживая, что более крупные языковые модели обычно достигают лучшей фактичности в длинной форме. LongFact, SAFE и весь экспериментальный код доступны по адресу https://github.com/google-deepmind/long-form-factuality.

Garment3DGen: Стилизация и генерация текстуры трехмерной одежды
Garment3DGen: 3D Garment Stylization and Texture Generation

Mar 27

ByNikolaos Sarafianos, Tuur Stuyck, Xiaoyu Xiang, Yilei Li, Jovan Popovic, Rakesh Ranjan

Мы представляем Garment3DGen - новый метод синтеза 3D-одежды из базовой сетки по единственному входному изображению в качестве руководства. Наш подход позволяет пользователям создавать 3D-текстурированную одежду на основе как реальных, так и синтетических изображений, таких как те, что генерируются по текстовым подсказкам. Сгенерированные ресурсы могут быть непосредственно надеты и смоделированы на человеческих телах. Во-первых, мы используем недавние достижения методов диффузии изображения в 3D для создания геометрии 3D-одежды. Однако поскольку эти геометрии не могут быть использованы непосредственно для последующих задач, мы предлагаем использовать их в качестве псевдоистинных данных и устанавливаем процедуру оптимизации деформации сетки, которая деформирует базовую шаблонную сетку для соответствия сгенерированной 3D-цели. Во-вторых, мы вводим тщательно разработанные потери, которые позволяют базовой сетке свободно деформироваться в направлении желаемой цели, сохраняя при этом качество и топологию сетки так, чтобы их можно было смоделировать. Наконец, модуль оценки текстуры генерирует текстурные карты высокой точности, которые глобально и локально согласованы и точно передают входное руководство, что позволяет нам визуализировать сгенерированные 3D-ресурсы. С помощью Garment3DGen пользователи могут создавать текстурированную 3D-одежду по своему выбору без необходимости вмешательства художника. Можно предоставить текстовую подсказку, описывающую желаемую одежду, чтобы создать готовый к симуляции 3D-ресурс. Мы представляем множество количественных и качественных сравнений на различных реальных и сгенерированных ресурсах и предоставляем примеры использования того, как можно создавать готовые к симуляции 3D-одежду.

BioMedLM: Языковая модель с 2,7 миллиарда параметров, обученная на биомедицинском тексте.
BioMedLM: A 2.7B Parameter Language Model Trained On Biomedical Text

Mar 27

ByElliot Bolton, Abhinav Venigalla, Michihiro Yasunaga, David Hall, Betty Xiong, Tony Lee, Roxana Daneshjou, Jonathan Frankle, Percy Liang, Michael Carbin, Christopher D. Manning

Модели, такие как GPT-4 и Med-PaLM 2, продемонстрировали впечатляющую производительность на широком спектре задач биомедицинской обработки естественного языка. Однако эти модели имеют сотни миллиардов параметров, требуют значительных вычислительных ресурсов для запуска, заставляют пользователей отправлять свои входные данные через интернет и обучаются на неизвестных источниках данных. Могут ли более компактные, специализированные модели конкурировать? Чтобы ответить на этот вопрос, мы создали и выпустили BioMedLM, авторегрессивную модель GPT-стиля с 2,7 миллиарда параметров, обученную исключительно на аннотациях и полных статьях PubMed. После настройки BioMedLM способна давать сильные результаты в многовариантных биомедицинских вопросах и ответах, конкурируя с гораздо более крупными моделями, например, достигая показателя 57,3% в MedMCQA (dev) и 69,0% на экзамене по медицинской генетике MMLU. BioMedLM также может быть настроена для предоставления полезных ответов на вопросы пациентов по медицинским темам. Это демонстрирует, что более компактные модели могут потенциально служить прозрачными, защищающими конфиденциальность, экономичными и экологически безопасными основами для конкретных приложений обработки естественного языка, таких как в биомедицине. Модель доступна на платформе Hugging Face Hub: https://huggingface.co/stanford-crfm/BioMedLM.

Gamba: сочетание метода гауссовского сглаживания с методом Mamba для реконструкции трехмерных объектов по одному изображению
Gamba: Marry Gaussian Splatting with Mamba for single view 3D reconstruction

Mar 27

ByQiuhong Shen, Xuanyu Yi, Zike Wu, Pan Zhou, Hanwang Zhang, Shuicheng Yan, Xinchao Wang

Мы решаем задачу эффективной реконструкции 3D-объекта из одного изображения в условиях растущего спроса на автоматизированные конвейеры создания 3D-контента. Предыдущие методы в основном опирались на методы дистилляции оценок (SDS) и нейронные радиантные поля (NeRF). Несмотря на их значительный успех, эти подходы сталкиваются с практическими ограничениями из-за длительной оптимизации и значительного использования памяти. В данном отчете мы представляем Gamba, модель амортизированной 3D-реконструкции изображений с одного ракурса, с акцентом на два основных принципа: (1) 3D-представление: использование большого количества 3D-гауссиан для эффективного процесса 3D-гауссианского сплетения; (2) Проектирование основы: внедрение последовательной сети на основе Mamba, которая облегчает контекстно-зависимое рассуждение и линейное масштабирование с длиной последовательности (токена), обеспечивая значительное количество гауссиан. Gamba включает значительные усовершенствования в предварительной обработке данных, проектировании регуляризации и методах обучения. Мы оценили Gamba по сравнению с существующими методами оптимизации и прямого распространения 3D-генерации с использованием реального набора данных OmniObject3D. Здесь Gamba демонстрирует конкурентоспособные возможности генерации как качественно, так и количественно, обеспечивая при этом замечательную скорость, примерно 0,6 секунды на одном графическом процессоре NVIDIA A100.

EgoLifter: Сегментация трехмерного пространства в открытом мире для эгоцентрического восприятия
EgoLifter: Open-world 3D Segmentation for Egocentric Perception

Mar 26

ByQiao Gu, Zhaoyang Lv, Duncan Frost, Simon Green, Julian Straub, Chris Sweeney

В данной статье мы представляем EgoLifter, новую систему, способную автоматически сегментировать сцены, записанные с эгоцентрических датчиков, на полное декомпозицию отдельных 3D объектов. Система специально разработана для эгоцентрических данных, где сцены содержат сотни объектов, записанных при естественном (не сканирующем) движении. EgoLifter использует 3D гауссианы в качестве базового представления 3D сцен и объектов, а также использует маски сегментации из модели Segment Anything Model (SAM) в качестве слабого наблюдения для изучения гибких и настраиваемых определений экземпляров объектов, свободных от какой-либо конкретной таксономии объектов. Для решения проблемы динамических объектов в эгоцентрических видео мы разработали модуль прогнозирования транзиторов, который учится фильтровать динамические объекты в 3D реконструкции. Результатом стало полностью автоматическое конвейерное производство, способное восстанавливать экземпляры 3D объектов в виде коллекций 3D гауссиан, которые в совокупности составляют всю сцену. Мы создали новый бенчмарк на наборе данных Aria Digital Twin, который количественно демонстрирует его передовые возможности в сегментации 3D в открытом мире из естественного эгоцентрического ввода. Мы запустили EgoLifter на различных наборах данных по эгоцентрической деятельности, что показывает перспективы метода для трехмерного эгоцентрического восприятия в масштабе.

FlexEdit: Гибкое и управляемое редактирование изображений на основе диффузии объектов
FlexEdit: Flexible and Controllable Diffusion-based Object-centric Image Editing

Mar 27

ByTrong-Tung Nguyen, Duc-Anh Nguyen, Anh Tran, Cuong Pham

Наша работа решает ограничения, выявленные в предыдущих подходах к задачам редактирования, связанным с объектами, таким как нереалистичные результаты из-за расхождений форм и ограниченного контроля при замене или вставке объектов. Для этой цели мы представляем FlexEdit, гибкий и управляемый каркас редактирования объектов, в котором мы итеративно корректируем латентные переменные на каждом шаге денойзинга с использованием нашего блока FlexEdit. Сначала мы оптимизируем латентные переменные во время тестирования для их выравнивания с указанными ограничениями объекта. Затем наш каркас использует адаптивную маску, автоматически извлекаемую во время денойзинга, для защиты фона и бесшовного слияния нового контента с целевым изображением. Мы демонстрируем универсальность FlexEdit в различных задачах редактирования объектов и создаем набор тестов для оценки с образцами как из реальных, так и синтетических изображений, а также новыми метриками оценки, разработанными для редактирования, сосредоточенного на объектах. Мы проводим обширные эксперименты в различных сценариях редактирования, демонстрируя превосходство нашего каркаса редактирования над недавними передовыми методами редактирования изображений по текстовому сопровождению. Наша страница проекта опубликована по адресу https://flex-edit.github.io/.

К созданию мировой модели языка на английском для виртуальных ассистентов на устройствах.
Towards a World-English Language Model for On-Device Virtual Assistants

Mar 27

ByRricha Jalota, Lyan Verwimp, Markus Nussbaum-Thom, Amr Mousa, Arturo Argueta, Youssef Oualil

Нейронные языковые модели (NNLM) для виртуальных ассистентов (VA) обычно зависят от языка, региона и, в некоторых случаях, устройства, что увеличивает усилия по масштабированию и поддержке. Комбинирование NNLM для одной или нескольких категорий - один из способов улучшить масштабируемость. В данной работе мы объединяем региональные варианты английского языка для создания "Мировой английской" NNLM для встроенных VA. В частности, мы исследуем применение адаптерных узлов для моделирования диалектоспецифических характеристик в наших существующих производственных NNLM и улучшения мультидиалектных базовых значений. Мы обнаружили, что адаптерные модули эффективнее моделируют диалекты, чем специализированные подсети целиком. Основываясь на этом понимании и используя дизайн наших производственных моделей, мы представляем новую архитектуру для NNLM Мирового английского, которая соответствует точности, задержке и ограничениям памяти наших моделей с одним диалектом.

Garment3DGen: Стилизация и генерация текстуры трехмерной одежды
Garment3DGen: 3D Garment Stylization and Texture Generation

Mar 27

ByNikolaos Sarafianos, Tuur Stuyck, Xiaoyu Xiang, Yilei Li, Jovan Popovic, Rakesh Ranjan