Ежедневно отобранные исследовательские статьи по ИИ с переводами
Недавние разработки в области крупных мультимодальных моделей (LMMs), в частности GPT-4V(ision) и Gemini, значительно расширили границы возможностей мультимодальных моделей за пределы традиционных задач, таких как создание подписей к изображениям и визуальный вопросно-ответный анализ. В данной работе мы исследуем потенциал LMMs, таких как GPT-4V, в качестве универсального веб-агента, способного следовать инструкциям на естественном языке для выполнения задач на любом заданном веб-сайте. Мы предлагаем SEEACT — универсальный веб-агент, который использует возможности LMMs для интегрированного визуального понимания и взаимодействия в веб-среде. Оценка проводится на основе недавнего бенчмарка MIND2WEB. В дополнение к стандартной оффлайн-оценке на кэшированных веб-сайтах мы внедряем новую онлайн-оценку, разработав инструмент, позволяющий запускать веб-агентов на живых веб-сайтах. Мы показываем, что GPT-4V демонстрирует значительный потенциал для веб-агентов — он успешно выполняет 50% задач на живых веб-сайтах, если вручную привязывать его текстовые планы к действиям на сайтах. Это существенно превосходит текстовые LLMs, такие как GPT-4, или меньшие модели (FLAN-T5 и BLIP-2), специально доработанные для веб-агентов. Однако привязка остается серьезной проблемой. Существующие стратегии привязки LMM, такие как set-of-mark prompting, оказываются неэффективными для веб-агентов, и лучшая стратегия привязки, разработанная в этой работе, использует как HTML-текст, так и визуальные элементы. Тем не менее, сохраняется значительный разрыв с эталонной привязкой, что оставляет широкие возможности для дальнейшего улучшения.
Большинство существующих моделей диффузии видео (VDMs) ограничены лишь текстовыми условиями. Вследствие этого они обычно недостаточно контролируют визуальный облик и геометрическую структуру генерируемых видео. В данной работе представлена модель Moonshot, новая модель генерации видео, которая одновременно учитывает мультимодальные входные данные изображения и текста. Модель основана на ключевом модуле, называемом мультимодальный видео-блок (MVB), который состоит из традиционных пространственно-временных слоев для представления видео-признаков и разделенного слоя кросс-внимания для обработки входных данных изображения и текста с целью управления визуальным обликом. Кроме того, мы тщательно разработали архитектуру модели таким образом, чтобы она могла опционально интегрироваться с предварительно обученными модулями ControlNet для геометрических визуальных условий, не требуя дополнительных затрат на обучение, в отличие от предыдущих методов. Эксперименты показывают, что благодаря универсальным механизмам мультимодального управления Moonshot демонстрирует значительное улучшение визуального качества и временной согласованности по сравнению с существующими моделями. Кроме того, модель может быть легко адаптирована для различных генеративных приложений, таких как персонализированная генерация видео, анимация изображений и редактирование видео, раскрывая её потенциал в качестве фундаментальной архитектуры для управляемой генерации видео. Модели будут опубликованы на https://github.com/salesforce/LAVIS.
Мы представляем дифференцируемую модель, которая явно моделирует границы, включая контуры, углы и соединения, с использованием нового механизма, который мы называем вниманием к границам. Мы показываем, что наша модель обеспечивает точные результаты даже в случаях, когда сигнал границы очень слаб или заглушен шумом. По сравнению с предыдущими классическими методами поиска слабых границ наша модель обладает преимуществами дифференцируемости, масштабируемости для изображений большего размера и автоматической адаптации к подходящему уровню геометрической детализации в каждой части изображения. В сравнении с предыдущими глубокими методами поиска границ, основанными на сквозном обучении, наша модель обеспечивает субпиксельную точность, более устойчива к шуму и способна обрабатывать изображения с их исходным разрешением и соотношением сторон.
Мы представляем En3D, усовершенствованную генеративную схему для создания высококачественных 3D-аватаров человека. В отличие от предыдущих работ, которые опираются на ограниченные 3D-наборы данных или скудные 2D-коллекции с несбалансированными углами обзора и неточными априорными данными о позах, наш подход направлен на разработку генеративной схемы для создания 3D-моделей в режиме "zero-shot", способной производить визуально реалистичные, геометрически точные и содержательно разнообразные 3D-модели человека без использования предварительно существующих 3D- или 2D-активов. Для решения этой задачи мы предлагаем тщательно проработанный рабочий процесс, который включает точное физическое моделирование для обучения улучшенной 3D-генеративной модели на основе синтетических 2D-данных. На этапе вывода мы интегрируем оптимизационные модули, чтобы устранить разрыв между реалистичным внешним видом и грубыми 3D-формами. В частности, En3D состоит из трех модулей: 3D-генератора, который точно моделирует обобщаемые 3D-модели человека с реалистичным внешним видом на основе синтезированных сбалансированных, разнообразных и структурированных изображений человека; модуля скульптурирования геометрии, который повышает качество формы с использованием многовидовых нормальных ограничений для детализации анатомии человека; и модуля текстурирования, который разделяет явные текстуры с высокой точностью и возможностью редактирования, используя семантическое UV-разделение и дифференцируемый растеризатор. Экспериментальные результаты показывают, что наш подход значительно превосходит предыдущие работы по качеству изображений, точности геометрии и разнообразию контента. Мы также демонстрируем применимость созданных нами аватаров для анимации и редактирования, а также масштабируемость нашего подхода для адаптации без ограничений по стилю и содержанию.
Чему обучение моделированию отношений между строками учит большие языковые модели (LLMs) о визуальном мире? Мы систематически оцениваем способности LLMs генерировать и распознавать разнообразные визуальные концепции возрастающей сложности, а затем демонстрируем, как можно обучить предварительную систему обучения визуальным представлениям с использованием моделей текста. Поскольку языковые модели не способны воспринимать или выводить визуальную информацию в виде пикселей, в нашем исследовании мы используем код для представления изображений. Хотя изображения, сгенерированные LLMs, не выглядят как естественные, результаты по генерации изображений и способность моделей корректировать эти сгенерированные изображения указывают на то, что точное моделирование строк может научить языковые модели многим аспектам визуального мира. Более того, эксперименты по самообучению визуальных представлений, использующие изображения, сгенерированные с помощью текстовых моделей, подчеркивают потенциал обучения моделей зрения, способных делать семантические оценки естественных изображений, используя только LLMs.
По мере глобального распространения крупных языковых моделей (LLM), настроенных на выполнение инструкций, их способность следовать инструкциям на нескольких языках становится все более важной. Одним из перспективных подходов является кросс-лингвистический перенос, при котором модель приобретает определенные функциональные возможности на одном языке за счет тонкой настройки на другом языке. В данной работе мы исследуем, как многоязычие в процессе настройки на выполнение инструкций в многоязычной LLM влияет на способность следовать инструкциям на разных языках. Сначала мы показываем, что многие языки передают некоторые способности следовать инструкциям на другие языки даже при моноязычной настройке. Кроме того, мы обнаруживаем, что всего 40 многоязычных примеров в наборе для настройки на английском языке существенно улучшают способность следовать инструкциям на нескольких языках, как на тех, которые были представлены в процессе настройки, так и на тех, которые не были представлены. В целом мы наблюдаем, что модели, настроенные на многоязычных смесях, демонстрируют сопоставимую или превосходящую производительность на нескольких языках по сравнению с моделями, настроенными моноязычно, несмотря на обучение на 10 раз меньшем количестве примеров на этих языках. Наконец, мы обнаруживаем, что увеличение количества языков в наборе для настройки на выполнение инструкций с 1 до всего лишь 2, 3 или 4 усиливает кросс-лингвистическую обобщаемость. Наши результаты позволяют предположить, что создание массово многоязычных моделей, настроенных на выполнение инструкций, может быть осуществлено с использованием очень небольшого набора многоязычных инструкций и ответов.
Несмотря на впечатляющие результаты использования дистилляции оценок в генерации 3D-моделей из текста, такие методы известны проблемами несогласованности видов, также известными как артефакт "Янус", когда сгенерированные объекты создают иллюзию нескольких фронтальных сторон для каждого ракурса. Хотя эмпирически эффективные методы пытались решить эту проблему через устранение смещения оценок или инженерное проектирование подсказок, более строгий подход для объяснения и решения этой проблемы остается неуловимым. В данной статье мы показываем, что существующие фреймворки генерации 3D-моделей из текста на основе дистилляции оценок сводятся к независимому поиску максимального правдоподобия для каждого ракурса, что приводит к проблеме коллапса мод, проявляющейся на практике как артефакт "Янус". Для устранения коллапса мод мы улучшаем дистилляцию оценок, восстанавливая энтропийный член в соответствующем вариационном целевом функционале, который применяется к распределению рендеренных изображений. Максимизация энтропии способствует разнообразию между различными ракурсами в генерируемых 3D-активах, тем самым смягчая проблему "Януса". На основе этого нового целевого функционала мы выводим новое правило обновления для дистилляции 3D-оценок, названное Энтропийной Дистилляцией Оценок (ЭДО). Теоретически мы показываем, что ЭДО может быть упрощена и реализована путем применения метода классификатор-фри гида к вариационной дистилляции оценок. Хотя этот подход кажется невероятно простым, наши обширные эксперименты успешно демонстрируют, что ЭДО может быть эффективным средством для устранения артефактов "Янус" в дистилляции оценок.
В данной статье представлен API WordArt Designer — новый фреймворк для синтеза художественной типографики, управляемой пользователем, с использованием больших языковых моделей (LLMs) на платформе ModelScope. Мы решаем задачу упрощения создания художественной типографики для непрофессионалов, предлагая динамичную, адаптивную и вычислительно эффективную альтернативу традиционным жестким шаблонам. Наш подход использует возможности LLMs для понимания и интерпретации пользовательского ввода, что делает процесс проектирования более интуитивным. На примере различных кейсов мы демонстрируем, как пользователи могут формулировать свои эстетические предпочтения и функциональные требования, которые система затем преобразует в уникальные и креативные типографические решения. Наши оценки показывают значительное улучшение удовлетворенности пользователей, гибкости дизайна и творческого самовыражения по сравнению с существующими системами. API WordArt Designer не только демократизирует искусство типографики, но и открывает новые возможности для персонализированной цифровой коммуникации и дизайна.