Ежедневно отобранные исследовательские статьи по ИИ с переводами
Крупные модели обработки зрения и языка (VLMs) достигли значительного прогресса в мультимодальном восприятии и рассуждении. Более того, их интеграция в воплощённого агента представляет собой важный шаг на пути к созданию автономных и контекстно-ориентированных систем, способных формулировать планы и точно выполнять команды. В данной статье мы представляем Octopus — новую модель VLM, разработанную для эффективного анализа визуальной информации и текстовых задач агента, а также для создания сложных последовательностей действий и генерации исполняемого кода. Наша разработка позволяет агенту успешно справляться с широким спектром задач — от повседневных действий в симуляторах до сложных взаимодействий в видеоиграх. Octopus обучается с использованием GPT-4 для управления исследовательским агентом с целью генерации обучающих данных, таких как планы действий и соответствующий исполняемый код, в нашей экспериментальной среде под названием OctoVerse. Мы также собираем обратную связь, которая позволяет улучшить схему обучения с использованием подкрепляющего обучения с обратной связью от среды (RLEF). В ходе серии экспериментов мы демонстрируем функциональность Octopus и представляем убедительные результаты, а предложенный метод RLEF оказывается эффективным для улучшения принятия решений агентом. Открывая исходный код нашей архитектуры модели, симулятора и набора данных, мы стремимся стимулировать дальнейшие инновации и способствовать совместным разработкам в сообществе воплощённого ИИ.
Мы представляем Lemur и Lemur-Chat — открыто доступные языковые модели, оптимизированные как для работы с естественным языком, так и для программирования, которые служат основой для универсальных языковых агентов. Эволюция от моделей для языкового общения к функциональным языковым агентам требует, чтобы модели не только овладели навыками взаимодействия с человеком, рассуждения и планирования, но и обеспечивали закрепление в соответствующих средах. Это требует гармоничного сочетания языковых и программирующих возможностей в моделях. Lemur и Lemur-Chat предложены для решения этой задачи, демонстрируя сбалансированные способности в обеих областях, в отличие от существующих открытых моделей, которые, как правило, специализируются на чем-то одном. Благодаря тщательному предварительному обучению на корпусе с интенсивным использованием кода и тонкой настройке инструкций на данных текста и кода, наши модели достигают передовых средних показателей на различных тестах по тексту и программированию среди открытых моделей. Комплексные эксперименты демонстрируют превосходство Lemur над существующими открытыми моделями и его эффективность в различных задачах агентов, включая общение с человеком, использование инструментов и взаимодействие в полностью и частично наблюдаемых средах. Гармонизация между естественными и программными языками позволяет Lemur-Chat значительно сократить разрыв с проприетарными моделями в способностях агентов, предоставляя ключевые идеи для разработки продвинутых открытых агентов, способных рассуждать, планировать и работать в различных средах. https://github.com/OpenLemur/Lemur
Мы представляем систему «Idea to Image», которая позволяет осуществлять многомодальное итеративное самоусовершенствование с использованием GPT-4V(ision) для автоматического проектирования и генерации изображений. Люди могут быстро определять характеристики различных моделей преобразования текста в изображение (T2I) с помощью итеративного исследования. Это позволяет им эффективно преобразовывать свои высокоуровневые идеи генерации в эффективные T2I-запросы, способные создавать качественные изображения. Мы исследуем, могут ли системы, основанные на крупных многомодальных моделях (LMM), развить аналогичные способности к многомодальному самоусовершенствованию, которые позволяют исследовать неизвестные модели или среды через саморефлексирующие попытки. Idea2Img циклически генерирует пересмотренные T2I-запросы для синтеза черновых изображений и предоставляет направленную обратную связь для пересмотра запросов, основываясь на своей памяти о характеристиках исследуемой T2I-модели. Итеративное самоусовершенствование предоставляет Idea2Img различные преимущества по сравнению с базовыми T2I-моделями. В частности, Idea2Img может обрабатывать входные идеи с чередующимися последовательностями изображений и текста, следовать идеям с инструкциями по дизайну и генерировать изображения с лучшими семантическими и визуальными качествами. Исследование пользовательских предпочтений подтверждает эффективность многомодального итеративного самоусовершенствования в автоматическом проектировании и генерации изображений.
В последнее время генерация 3D-объектов на основе текстовых запросов демонстрирует впечатляющие результаты. Как 2D, так и 3D диффузионные модели способны создавать качественные 3D-объекты на основе запросов. 3D диффузионные модели обладают хорошей 3D-согласованностью, но их качество и обобщающая способность ограничены из-за дороговизны и сложности получения обучаемых 3D-данных. 2D диффузионные модели, напротив, обладают сильной обобщающей способностью и точностью генерации, однако обеспечение 3D-согласованности остается сложной задачей. В данной статье предпринимается попытка объединить преимущества двух типов диффузионных моделей с использованием недавно предложенного явного и эффективного представления 3D-гауссовых сплатов. Предлагается быстрый фреймворк для генерации 3D-объектов, названный \name, в котором 3D диффузионная модель предоставляет априорные данные в виде облака точек для инициализации, а 2D диффузионная модель обогащает геометрию и внешний вид. Вводятся операции наращивания зашумленных точек и цветовых возмущений для улучшения инициализированных гауссовых распределений. Наш \name способен генерировать высококачественный 3D-объект менее чем за 25 минут на одном GPU, что значительно быстрее предыдущих методов, при этом сгенерированные объекты могут быть непосредственно визуализированы в реальном времени. Демонстрации и код доступны по адресу https://taoranyi.com/gaussiandreamer/.
Несмотря на значительные достижения в области крупномасштабных моделей генерации изображений из текста, создание гиперреалистичных изображений людей остается желаемой, но нерешенной задачей. Существующие модели, такие как Stable Diffusion и DALL-E 2, часто генерируют изображения людей с несогласованными частями или неестественными позами. Чтобы решить эти проблемы, наше ключевое понимание заключается в том, что изображение человека по своей природе структурно на нескольких уровнях детализации — от грубого скелета тела до мелкозернистой пространственной геометрии. Поэтому захват таких корреляций между явным внешним видом и скрытой структурой в одной модели крайне важен для генерации согласованных и естественных изображений людей. С этой целью мы предлагаем унифицированную структуру, HyperHuman, которая генерирует реалистичные изображения людей в естественных условиях с разнообразными композициями. В частности: 1) мы сначала создаем крупномасштабный набор данных, ориентированный на человека, под названием HumanVerse, который состоит из 340 миллионов изображений с комплексными аннотациями, такими как поза человека, глубина и нормали поверхности. 2) Затем мы предлагаем модель латентного структурного диффузионного процесса, которая одновременно устраняет шум в глубине и нормалях поверхности вместе с синтезированным RGB-изображением. Наша модель обеспечивает совместное обучение внешнего вида изображения, пространственных отношений и геометрии в единой сети, где каждая ветвь модели дополняет друг друга как структурной осведомленностью, так и текстурным богатством. 3) Наконец, для дальнейшего повышения визуального качества мы предлагаем структурированный уточняющий модуль, который комбинирует предсказанные условия для более детальной генерации изображений с более высоким разрешением. Многочисленные эксперименты демонстрируют, что наша структура обеспечивает передовые результаты, генерируя гиперреалистичные изображения людей в различных сценариях. Страница проекта: https://snap-research.github.io/HyperHuman/
Крупномасштабные предобученные диффузионные модели продемонстрировали выдающиеся способности в генерации разнообразных видео. Задача Motion Customization заключается в адаптации существующих текстово-видео диффузионных моделей для создания видео с заданным движением, используя набор видеоклипов с одинаковой концепцией движения. Например, генерация видео с автомобилем, движущимся определенным образом под заданными движениями камеры для создания фильма, или видео, иллюстрирующего, как медведь поднимает штангу, чтобы вдохновить создателей. Методы адаптации были разработаны для настройки внешнего вида, такого как объект или стиль, но еще не исследованы для движения. Основные методы адаптации, включая полную настройку модели, параметрически эффективную настройку дополнительных слоев и Low-Rank Adaptions (LoRAs), можно легко расширить для настройки движения. Однако концепция движения, изученная этими методами, часто связана с ограниченными внешними видами в обучающих видео, что затрудняет обобщение настроенного движения на другие внешние виды. Чтобы преодолеть эту проблему, мы предлагаем MotionDirector с архитектурой dual-path LoRAs для разделения обучения внешнего вида и движения. Кроме того, мы разрабатываем новый временной loss, уменьшающий влияние внешнего вида на временную цель обучения. Экспериментальные результаты показывают, что предложенный метод может генерировать видео с разнообразными внешними видами для настроенных движений. Наш метод также поддерживает различные приложения, такие как смешивание разных видео с их внешним видом и движением соответственно, а также анимацию одного изображения с настроенными движениями. Наш код и веса модели будут опубликованы.