Ежедневно отобранные исследовательские статьи по ИИ с переводами
Для взаимодействия с людьми в мире агентам необходимо понимать разнообразные типы языка, которые используют люди, связывать их с визуальным миром и действовать на их основе. Хотя современные агенты учатся выполнять простые языковые инструкции на основе вознаграждений за задачи, мы стремимся создать агентов, которые используют разнообразный язык, передающий общие знания, описывающий состояние мира, предоставляющий интерактивную обратную связь и многое другое. Наша ключевая идея заключается в том, что язык помогает агентам предсказывать будущее: что будет наблюдаться, как будет вести себя мир и какие ситуации будут вознаграждаться. Этот подход объединяет понимание языка с предсказанием будущего как мощную цель самообучения. Мы представляем Dynalang — агента, который изучает мультимодальную модель мира, предсказывающую будущие текстовые и визуальные представления, и учится действовать на основе смоделированных сценариев. В отличие от традиционных агентов, которые используют язык только для предсказания действий, Dynalang приобретает глубокое понимание языка, используя прошлые языковые данные также для предсказания будущего языка, видео и вознаграждений. Помимо обучения в процессе онлайн-взаимодействия в среде, Dynalang может быть предварительно обучен на наборах данных текста, видео или их комбинации без действий или вознаграждений. От использования языковых подсказок в сеточных мирах до навигации по фотореалистичным сканам домов, Dynalang использует разнообразные типы языка для улучшения выполнения задач, включая описания среды, правила игр и инструкции.
Мы представляем OpenFlamingo — семейство авторегрессивных моделей для обработки визуально-языковых данных с количеством параметров от 3 до 9 миллиардов. OpenFlamingo — это продолжающийся проект, направленный на создание открытой репликации моделей Flamingo от DeepMind. На семи наборах данных для задач визуально-языкового взаимодействия модели OpenFlamingo демонстрируют в среднем от 80 до 89% производительности соответствующих моделей Flamingo. В данном техническом отчете описаны наши модели, данные для обучения, гиперпараметры и набор инструментов для оценки. Мы предоставляем доступ к нашим моделям и коду по адресу https://github.com/mlfoundations/open_flamingo.
Математические рассуждения представляют собой сложную задачу для больших языковых моделей (LLM), при этом масштабируемость их производительности в зависимости от мощности LLM изучена недостаточно. В данной статье мы исследуем, как потеря на этапе предварительного обучения, объем размеченных данных и объем дополнительных данных влияют на способность LLM к рассуждениям. Мы обнаруживаем, что потеря на этапе предварительного обучения является более точным индикатором производительности модели, чем количество параметров модели. Мы применяем контролируемое тонкое настройку (SFT) с различным объемом размеченных данных и эмпирически устанавливаем логарифмически-линейную зависимость между объемом данных и производительностью модели, а также обнаруживаем, что более качественные модели улучшаются меньше при увеличении размеченных наборов данных. Для увеличения количества данных с целью улучшения производительности модели без участия человека мы предлагаем использовать тонкую настройку с отбором по отклонению (RFT). RFT использует контролируемые модели для генерации и сбора корректных путей рассуждений в качестве дополнительных наборов данных для тонкой настройки. Мы обнаруживаем, что с увеличением количества уникальных путей рассуждений в дополнительных данных RFT сильнее улучшает способность LLM к математическим рассуждениям. Также мы выясняем, что RFT приносит больше улучшений для менее производительных LLM. Кроме того, мы комбинируем отобранные данные от нескольких моделей, что позволяет модели LLaMA-7B достичь точности 49,3%, значительно превосходя результат контролируемой тонкой настройки (SFT) с точностью 35,9%.
Диффузионные модели продемонстрировали впечатляющие результаты в задачах кросс-модальной генерации, включая генерацию изображений и аудио по тексту. Однако генерация музыки, как особого типа аудио, представляет уникальные сложности из-за ограниченной доступности музыкальных данных и чувствительных вопросов, связанных с авторскими правами и плагиатом. В данной работе для решения этих проблем мы сначала создаем современную модель для генерации музыки по тексту, MusicLDM, адаптируя архитектуры Stable Diffusion и AudioLDM к музыкальной области. Мы достигаем этого путем повторного обучения модели контрастивного предобучения языка и аудио (CLAP) и вокодера Hifi-GAN, которые являются компонентами MusicLDM, на наборе музыкальных данных. Затем, чтобы преодолеть ограничения обучающих данных и избежать плагиата, мы используем модель отслеживания ритма и предлагаем две различные стратегии миксапа для аугментации данных: миксап аудио, синхронизированный с ритмом, и миксап в латентном пространстве, синхронизированный с ритмом, которые перекомбинируют обучающие аудиоданные напрямую или через пространство латентных представлений соответственно. Такие стратегии миксапа побуждают модель интерполировать между музыкальными обучающими образцами и генерировать новую музыку в пределах выпуклой оболочки обучающих данных, делая сгенерированную музыку более разнообразной, но при этом сохраняя верность соответствующему стилю. В дополнение к популярным метрикам оценки мы разрабатываем несколько новых метрик на основе CLAP-оценки, чтобы продемонстрировать, что предложенные MusicLDM и стратегии миксапа, синхронизированного с ритмом, улучшают как качество и новизну сгенерированной музыки, так и соответствие между входным текстом и сгенерированной музыкой.
Языковые модели демонстрируют впечатляющую способность обобщать представления, изученные в одной модальности, для решения задач в других модальностях. Можно ли проследить эту способность до отдельных нейронов? Мы исследуем случай, когда замороженный текстовый трансформер дополняется визуальной информацией с помощью самообучаемого визуального энкодера и единственной линейной проекции, обученной на задаче преобразования изображений в текст. Выходные данные проекционного слоя не сразу декодируются в язык, описывающий содержание изображения; вместо этого мы обнаруживаем, что преобразование между модальностями происходит глубже внутри трансформера. Мы представляем процедуру для идентификации "мультимодальных нейронов", которые преобразуют визуальные представления в соответствующий текст, и декодирования концепций, которые они вносят в остаточный поток модели. В серии экспериментов мы показываем, что мультимодальные нейроны работают с конкретными визуальными концепциями на различных входных данных и оказывают систематическое причинное влияние на генерацию описаний изображений.
Мы представляем проект All-Seeing (AS): масштабные данные и модель для распознавания и понимания всего в открытом мире. Используя масштабируемый механизм обработки данных, который включает обратную связь от людей и эффективные модели в цикле, мы создаем новый набор данных (AS-1B) с более чем 1 миллиардом областей, аннотированных семантическими тегами, парами вопросов и ответов, а также подробными описаниями. Он охватывает широкий спектр из 3,5 миллионов распространенных и редких концепций в реальном мире и содержит 132,2 миллиарда токенов, описывающих эти концепции и их атрибуты. На основе этого нового набора данных мы разрабатываем модель All-Seeing (ASM) — унифицированную структуру для панорамного визуального распознавания и понимания. Модель обучается с использованием открытых языковых подсказок и локаций, что позволяет ей обобщать различные задачи в области зрения и языка с выдающейся производительностью в условиях zero-shot, включая поиск по тексту и областям, распознавание областей, создание описаний и ответы на вопросы. Мы надеемся, что этот проект станет основой для исследований в области искусственного общего интеллекта, связанного с обработкой зрения и языка. Модели и набор данных будут доступны по адресу https://github.com/OpenGVLab/All-Seeing, а демонстрацию можно увидеть на https://huggingface.co/spaces/OpenGVLab/all-seeing.
Мы представляем набор данных HANDAL для оценки позы объектов на уровне категорий и предсказания их функциональных возможностей. В отличие от предыдущих наборов данных, наш сосредоточен на объектах, готовых для манипуляции роботами, которые имеют подходящие размеры и форму для функционального захвата манипуляторами, такие как плоскогубцы, столовые приборы и отвертки. Наш процесс аннотирования оптимизирован и требует только одну стандартную камеру и полуавтоматическую обработку, что позволяет нам создавать высококачественные 3D-аннотации без привлечения краудсорсинга. Набор данных состоит из 308 тысяч аннотированных кадров изображений из 2,2 тысяч видеороликов 212 реальных объектов, относящихся к 17 категориям. Мы сосредоточились на инструментах и кухонных принадлежностях, чтобы способствовать исследованиям в практических сценариях, где манипулятор робота должен взаимодействовать с окружающей средой, выходя за рамки простого толкания или неразборчивого захвата. Мы описываем полезность нашего набора данных для оценки позы и масштаба с шестью степенями свободы на уровне категорий и связанных задач. Также мы предоставляем 3D-реконструированные модели всех объектов и обозначаем некоторые узкие места, которые необходимо устранить для упрощения сбора подобных наборов данных.
В данной статье представлен усовершенствованный детектор DETR, сохраняющий "простую" природу: он использует одномасштабную карту признаков и глобальные вычисления кросс-внимания без специфических ограничений локальности, в отличие от предыдущих ведущих детекторов на основе DETR, которые вновь вводят архитектурные индуктивные предпосылки многомасштабности и локальности в декодер. Мы показываем, что две простые технологии оказываются удивительно эффективными в рамках простого дизайна для компенсации отсутствия многомасштабных карт признаков и ограничений локальности. Первая — это термин относительного смещения позиции "бокс-к-пикселю" (BoxRPB), добавленный в формулировку кросс-внимания, который эффективно направляет каждый запрос на соответствующую область объекта, одновременно обеспечивая гибкость кодирования. Вторая — предварительное обучение базовой модели на основе маскированного моделирования изображений (MIM), которое помогает изучать представления с возможностью точной локализации и оказывается критически важным для устранения зависимостей от многомасштабных карт признаков. Благодаря внедрению этих технологий и последних достижений в обучении и формулировке задачи, улучшенный "простой" DETR продемонстрировал исключительные улучшения по сравнению с оригинальным детектором DETR. Используя набор данных Object365 для предварительного обучения, он достиг точности 63.9 mAP с базовой моделью Swin-L, что делает его высококонкурентоспособным по сравнению с современными детекторами, которые в значительной степени полагаются на многомасштабные карты признаков и региональное извлечение признаков. Код доступен по адресу https://github.com/impiga/Plain-DETR.
Творческая игра представляет собой область креативности, которая может позволить роботам взаимодействовать с окружающим миром в более персонализированной форме. Воображаемая игра может рассматриваться как использование реальных объектов и мест в качестве воображаемых элементов в виртуальных сценариях. Мы применили способность крупных языковых моделей (LLM) к генерации историй для создания сюжетов, используемых в воображаемой игре, с помощью написанных человеком подсказок. Эти сгенерированные истории будут упрощены и преобразованы в последовательности действий, которые могут направлять агента в процессе воображаемой игры. Чтобы оценить, способен ли агент успешно завершить воображаемую игру, мы также разработали текстовую приключенческую игру, моделирующую дом в качестве игровой площадки для взаимодействия агента.
Длинная выдержка в фотографии создает потрясающие изображения, представляя движущиеся элементы сцены с эффектом размытия в движении. Обычно она применяется в двух режимах, создавая либо эффект размытия переднего плана, либо фона. Изображения с размытием переднего плана традиционно снимаются на камеру, установленную на штатив, и изображают размытые движущиеся элементы переднего плана, такие как шелковистая вода или световые следы, на фоне идеально резкого пейзажа. Изображения с размытием фона, также известные как панорамная съемка, снимаются при движении камеры вслед за движущимся объектом, чтобы получить изображение резкого объекта на фоне, размытом из-за относительного движения. Обе техники известны своей сложностью и требуют дополнительного оборудования и продвинутых навыков. В данной статье мы описываем вычислительную систему для съемки серийных фотографий, которая работает в приложении для смартфона с ручной камерой и автоматически достигает этих эффектов при нажатии на кнопку спуска затвора. Наш подход сначала обнаруживает и сегментирует ключевой объект. Мы отслеживаем движение сцены по нескольким кадрам и выравниваем изображения, чтобы сохранить желаемую резкость и создать эстетически приятные следы движения. Мы снимаем недоэкспонированную серию и выбираем подмножество входных кадров, которые создадут размытые следы контролируемой длины, независимо от скорости движения сцены или камеры. Мы предсказываем межкадровое движение и синтезируем размытие в движении, чтобы заполнить временные промежутки между входными кадрами. Наконец, мы комбинируем размытое изображение с резким обычным экспонированием, чтобы сохранить резкость лиц или областей сцены, которые почти не двигаются, и создаем итоговое изображение с высоким разрешением и высоким динамическим диапазоном (HDR). Наша система демократизирует возможность, ранее доступную только профессионалам, и делает этот творческий стиль доступным для большинства любителей. Дополнительную информацию и материалы можно найти на странице нашего проекта: https://motion-mode.github.io/
Динамические цветные сетки (DCM) широко используются в различных приложениях; однако эти сетки могут подвергаться различным процессам, таким как сжатие или передача, что может искажать их и снижать качество. Для облегчения разработки объективных метрик для DCM и изучения влияния типичных искажений на их восприятие мы создали базу данных Tencent - динамических цветных сеток (TDMD), содержащую восемь эталонных объектов DCM с шестью типичными искажениями. Используя обработанные видеопоследовательности (PVS), полученные из DCM, мы провели масштабный субъективный эксперимент, в результате которого было получено 303 искаженных образца DCM с оценками среднего мнения, что делает TDMD крупнейшей доступной базой данных DCM на сегодняшний день. Эта база данных позволила нам изучить влияние различных типов искажений на восприятие человеком и предложить рекомендации по сжатию DCM и связанным задачам. Кроме того, мы оценили три типа современных объективных метрик на TDMD, включая метрики на основе изображений, точек и видео. Наши экспериментальные результаты подчеркивают сильные и слабые стороны каждой метрики, и мы предоставляем рекомендации по выбору метрик в практических приложениях DCM. База данных TDMD будет общедоступна по следующему адресу: https://multimedia.tencent.com/resources/tdmd.