Ежедневно отобранные исследовательские статьи по ИИ с переводами
Этот документ рассматривает значительное препятствие, с которым сталкиваются Трансформеры Визуального Восприятия (ViTs): их ограниченную масштабируемость при различных разрешениях изображений. Обычно ViTs испытывают снижение производительности при обработке разрешений, отличных от тех, что были использованы во время обучения. Наша работа вводит два ключевых нововведения для решения этой проблемы. Во-первых, мы предлагаем новый модуль для динамической корректировки разрешения, разработанный с использованием одного блока Трансформера, специально для достижения высокоэффективной инкрементной интеграции токенов. Во-вторых, мы внедряем нечеткое позиционное кодирование в Трансформер Визуального Восприятия для обеспечения постоянного позиционного осознания при различных разрешениях, тем самым предотвращая переобучение на любом одном разрешении обучения. Наша полученная модель, ViTAR (Vision Transformer with Any Resolution), демонстрирует впечатляющую адаптивность, достигая точности 83,3\% на разрешении 1120x1120 и 80,4\% на разрешении 4032x4032, при снижении вычислительных затрат. ViTAR также показывает высокую производительность в задачах последующего обучения, таких как сегментация экземпляров и семантическая сегментация, и легко сочетается с техниками обучения без учителя, такими как Маскированный Автокодировщик. Наша работа предлагает экономически эффективное решение для улучшения масштабируемости разрешения ViTs, открывая путь к более универсальной и эффективной обработке изображений высокого разрешения.
В данной работе мы представляем Mini-Gemini - простую и эффективную платформу, улучшающую мульти-модальные модели видео-языка (VLMs). Несмотря на прогресс в области VLMs, облегчающий базовый визуальный диалог и рассуждения, по-прежнему существует разрыв в производительности по сравнению с продвинутыми моделями, такими как GPT-4 и Gemini. Мы пытаемся сократить этот разрыв, максимально использовав потенциал VLMs для улучшения производительности и создания рабочего процесса "любой-к-любому" с трех аспектов: высокоразрешенные визуальные токены, высококачественные данные и генерация под руководством VLM. Для улучшения визуальных токенов мы предлагаем использовать дополнительный визуальный кодер для улучшения высокоразрешенности без увеличения количества визуальных токенов. Мы также создаем высококачественный набор данных, способствующий точному пониманию изображений и генерации на основе рассуждений, расширяя операционный диапазон текущих VLMs. В целом Mini-Gemini дополнительно раскрывает потенциал VLMs и усиливает текущие структуры с пониманием изображений, рассуждениями и генерацией одновременно. Mini-Gemini поддерживает ряд плотных и MoE Large Language Models (LLMs) от 2B до 34B. Он продемонстрирован достижение ведущей производительности в нескольких нулевых тестах и даже превосходит разработанные частные модели. Код и модели доступны по ссылке https://github.com/dvlab-research/MiniGemini.
Диффузионные модели революционизировали редактирование изображений, однако часто создают изображения, нарушающие физические законы, особенно влияние объектов на сцену, например, заслонения, тени и отражения. Анализируя ограничения самонаблюдаемых подходов, мы предлагаем практическое решение, сосредоточенное на контрфактическом наборе данных. Наш метод включает захват сцены до и после удаления одного объекта, минимизируя другие изменения. Путем настройки диффузионной модели на этом наборе данных мы можем не только удалять объекты, но и их воздействие на сцену. Однако мы обнаружили, что применение этого подхода для фотореалистичной вставки объектов требует нереалистично большого набора данных. Для решения этой проблемы мы предлагаем бутстрап-наблюдение; используя нашу модель удаления объектов, обученную на небольшом контрфактическом наборе данных, мы синтетически значительно расширяем этот набор данных. Наш подход значительно превосходит предыдущие методы в фотореалистичном удалении и вставке объектов, особенно в моделировании воздействия объектов на сцену.
Большие языковые модели (LLM) часто генерируют контент, содержащий фактические ошибки при ответе на запросы о фактах по открытым темам. Для оценки фактичности модели в длинной форме в открытых областях мы сначала используем GPT-4 для создания LongFact - набора запросов, включающего тысячи вопросов по 38 темам. Затем мы предлагаем использовать агентов LLM в качестве автоматических оценщиков фактичности в длинной форме с помощью метода, который мы называем "Поисково-Дополненный Оценщик Фактичности" (SAFE). SAFE использует LLM для разбиения длинного ответа на набор отдельных фактов и оценки точности каждого факта с использованием многоэтапного процесса рассуждения, включающего отправку поисковых запросов в Google и определение, подтверждается ли факт результатами поиска. Более того, мы предлагаем расширить метрику F1 в качестве агрегированной метрики для фактичности в длинной форме. Для этого мы балансируем процент подтвержденных фактов в ответе (точность) с процентом предоставленных фактов относительно гиперпараметра, представляющего предпочтительную длину ответа пользователя (полнота). Эмпирически мы демонстрируем, что агенты LLM могут достичь сверхчеловеческой производительности оценки - на наборе ~16 тыс. отдельных фактов SAFE согласуется с аннотаторами, привлеченными из толпы, в 72% случаев, и на случайной подвыборке из 100 случаев разногласий SAFE побеждает в 76% случаев. В то же время SAFE более чем в 20 раз дешевле, чем аннотаторы. Мы также проводим оценку тринадцати языковых моделей на LongFact из четырех семейств моделей (Gemini, GPT, Claude и PaLM-2), обнаруживая, что более крупные языковые модели обычно достигают лучшей фактичности в длинной форме. LongFact, SAFE и весь экспериментальный код доступны по адресу https://github.com/google-deepmind/long-form-factuality.
Мы представляем Garment3DGen - новый метод синтеза 3D-одежды из базовой сетки по единственному входному изображению в качестве руководства. Наш подход позволяет пользователям создавать 3D-текстурированную одежду на основе как реальных, так и синтетических изображений, таких как те, что генерируются по текстовым подсказкам. Сгенерированные ресурсы могут быть непосредственно надеты и смоделированы на человеческих телах. Во-первых, мы используем недавние достижения методов диффузии изображения в 3D для создания геометрии 3D-одежды. Однако поскольку эти геометрии не могут быть использованы непосредственно для последующих задач, мы предлагаем использовать их в качестве псевдоистинных данных и устанавливаем процедуру оптимизации деформации сетки, которая деформирует базовую шаблонную сетку для соответствия сгенерированной 3D-цели. Во-вторых, мы вводим тщательно разработанные потери, которые позволяют базовой сетке свободно деформироваться в направлении желаемой цели, сохраняя при этом качество и топологию сетки так, чтобы их можно было смоделировать. Наконец, модуль оценки текстуры генерирует текстурные карты высокой точности, которые глобально и локально согласованы и точно передают входное руководство, что позволяет нам визуализировать сгенерированные 3D-ресурсы. С помощью Garment3DGen пользователи могут создавать текстурированную 3D-одежду по своему выбору без необходимости вмешательства художника. Можно предоставить текстовую подсказку, описывающую желаемую одежду, чтобы создать готовый к симуляции 3D-ресурс. Мы представляем множество количественных и качественных сравнений на различных реальных и сгенерированных ресурсах и предоставляем примеры использования того, как можно создавать готовые к симуляции 3D-одежду.
Модели, такие как GPT-4 и Med-PaLM 2, продемонстрировали впечатляющую производительность на широком спектре задач биомедицинской обработки естественного языка. Однако эти модели имеют сотни миллиардов параметров, требуют значительных вычислительных ресурсов для запуска, заставляют пользователей отправлять свои входные данные через интернет и обучаются на неизвестных источниках данных. Могут ли более компактные, специализированные модели конкурировать? Чтобы ответить на этот вопрос, мы создали и выпустили BioMedLM, авторегрессивную модель GPT-стиля с 2,7 миллиарда параметров, обученную исключительно на аннотациях и полных статьях PubMed. После настройки BioMedLM способна давать сильные результаты в многовариантных биомедицинских вопросах и ответах, конкурируя с гораздо более крупными моделями, например, достигая показателя 57,3% в MedMCQA (dev) и 69,0% на экзамене по медицинской генетике MMLU. BioMedLM также может быть настроена для предоставления полезных ответов на вопросы пациентов по медицинским темам. Это демонстрирует, что более компактные модели могут потенциально служить прозрачными, защищающими конфиденциальность, экономичными и экологически безопасными основами для конкретных приложений обработки естественного языка, таких как в биомедицине. Модель доступна на платформе Hugging Face Hub: https://huggingface.co/stanford-crfm/BioMedLM.
Мы решаем задачу эффективной реконструкции 3D-объекта из одного изображения в условиях растущего спроса на автоматизированные конвейеры создания 3D-контента. Предыдущие методы в основном опирались на методы дистилляции оценок (SDS) и нейронные радиантные поля (NeRF). Несмотря на их значительный успех, эти подходы сталкиваются с практическими ограничениями из-за длительной оптимизации и значительного использования памяти. В данном отчете мы представляем Gamba, модель амортизированной 3D-реконструкции изображений с одного ракурса, с акцентом на два основных принципа: (1) 3D-представление: использование большого количества 3D-гауссиан для эффективного процесса 3D-гауссианского сплетения; (2) Проектирование основы: внедрение последовательной сети на основе Mamba, которая облегчает контекстно-зависимое рассуждение и линейное масштабирование с длиной последовательности (токена), обеспечивая значительное количество гауссиан. Gamba включает значительные усовершенствования в предварительной обработке данных, проектировании регуляризации и методах обучения. Мы оценили Gamba по сравнению с существующими методами оптимизации и прямого распространения 3D-генерации с использованием реального набора данных OmniObject3D. Здесь Gamba демонстрирует конкурентоспособные возможности генерации как качественно, так и количественно, обеспечивая при этом замечательную скорость, примерно 0,6 секунды на одном графическом процессоре NVIDIA A100.
В данной статье мы представляем EgoLifter, новую систему, способную автоматически сегментировать сцены, записанные с эгоцентрических датчиков, на полное декомпозицию отдельных 3D объектов. Система специально разработана для эгоцентрических данных, где сцены содержат сотни объектов, записанных при естественном (не сканирующем) движении. EgoLifter использует 3D гауссианы в качестве базового представления 3D сцен и объектов, а также использует маски сегментации из модели Segment Anything Model (SAM) в качестве слабого наблюдения для изучения гибких и настраиваемых определений экземпляров объектов, свободных от какой-либо конкретной таксономии объектов. Для решения проблемы динамических объектов в эгоцентрических видео мы разработали модуль прогнозирования транзиторов, который учится фильтровать динамические объекты в 3D реконструкции. Результатом стало полностью автоматическое конвейерное производство, способное восстанавливать экземпляры 3D объектов в виде коллекций 3D гауссиан, которые в совокупности составляют всю сцену. Мы создали новый бенчмарк на наборе данных Aria Digital Twin, который количественно демонстрирует его передовые возможности в сегментации 3D в открытом мире из естественного эгоцентрического ввода. Мы запустили EgoLifter на различных наборах данных по эгоцентрической деятельности, что показывает перспективы метода для трехмерного эгоцентрического восприятия в масштабе.
Наша работа решает ограничения, выявленные в предыдущих подходах к задачам редактирования, связанным с объектами, таким как нереалистичные результаты из-за расхождений форм и ограниченного контроля при замене или вставке объектов. Для этой цели мы представляем FlexEdit, гибкий и управляемый каркас редактирования объектов, в котором мы итеративно корректируем латентные переменные на каждом шаге денойзинга с использованием нашего блока FlexEdit. Сначала мы оптимизируем латентные переменные во время тестирования для их выравнивания с указанными ограничениями объекта. Затем наш каркас использует адаптивную маску, автоматически извлекаемую во время денойзинга, для защиты фона и бесшовного слияния нового контента с целевым изображением. Мы демонстрируем универсальность FlexEdit в различных задачах редактирования объектов и создаем набор тестов для оценки с образцами как из реальных, так и синтетических изображений, а также новыми метриками оценки, разработанными для редактирования, сосредоточенного на объектах. Мы проводим обширные эксперименты в различных сценариях редактирования, демонстрируя превосходство нашего каркаса редактирования над недавними передовыми методами редактирования изображений по текстовому сопровождению. Наша страница проекта опубликована по адресу https://flex-edit.github.io/.
Нейронные языковые модели (NNLM) для виртуальных ассистентов (VA) обычно зависят от языка, региона и, в некоторых случаях, устройства, что увеличивает усилия по масштабированию и поддержке. Комбинирование NNLM для одной или нескольких категорий - один из способов улучшить масштабируемость. В данной работе мы объединяем региональные варианты английского языка для создания "Мировой английской" NNLM для встроенных VA. В частности, мы исследуем применение адаптерных узлов для моделирования диалектоспецифических характеристик в наших существующих производственных NNLM и улучшения мультидиалектных базовых значений. Мы обнаружили, что адаптерные модули эффективнее моделируют диалекты, чем специализированные подсети целиком. Основываясь на этом понимании и используя дизайн наших производственных моделей, мы представляем новую архитектуру для NNLM Мирового английского, которая соответствует точности, задержке и ограничениям памяти наших моделей с одним диалектом.