Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем SUPIR (Scaling-UP Image Restoration) — революционный метод восстановления изображений, который использует генеративные априорные знания и мощь масштабирования моделей. Благодаря применению мультимодальных техник и передовых генеративных априорных знаний, SUPIR знаменует собой значительный прорыв в области интеллектуального и реалистичного восстановления изображений. Масштабирование моделей, выступающее ключевым катализатором в SUPIR, существенно расширяет его возможности и открывает новые перспективы для восстановления изображений. Мы собрали набор данных, включающий 20 миллионов высококачественных изображений высокого разрешения для обучения модели, каждое из которых дополнено текстовыми аннотациями. SUPIR предоставляет возможность восстанавливать изображения с учетом текстовых подсказок, что расширяет область его применения и потенциал. Кроме того, мы вводим подсказки с отрицательным качеством для дальнейшего улучшения воспринимаемого качества. Также мы разработали метод сэмплирования, управляемого восстановлением, чтобы подавить проблемы с точностью, возникающие при генеративном восстановлении. Эксперименты демонстрируют исключительные результаты восстановления SUPIR и его новую способность управлять процессом восстановления через текстовые подсказки.
Языковые модели без токенизации обучаются непосредственно на сырых байтах, устраняя смещение, присущее субсловной токенизации. Однако работа с байтами приводит к значительно более длинным последовательностям, а стандартные авторегрессивные трансформеры плохо масштабируются в таких условиях. Мы экспериментируем с MambaByte — адаптацией модели пространства состояний Mamba без токенизации, обученной авторегрессивно на последовательностях байтов. Наши эксперименты показывают вычислительную эффективность MambaByte по сравнению с другими моделями, работающими на уровне байтов. Мы также обнаруживаем, что MambaByte конкурирует с современными субсловными трансформерами и даже превосходит их. Благодаря линейному масштабированию по длине, MambaByte обеспечивает быстрое выполнение по сравнению с трансформерами. Наши результаты подтверждают жизнеспособность MambaByte в реализации языкового моделирования без токенизации.
За последний год мультимодальные большие языковые модели (MM-LLMs) претерпели значительные улучшения, расширяя возможности готовых LLM для поддержки мультимодальных входных или выходных данных с помощью экономически эффективных стратегий обучения. Полученные модели не только сохраняют присущие LLM способности к рассуждению и принятию решений, но и расширяют возможности для выполнения широкого спектра мультимодальных задач. В данной статье мы представляем всесторонний обзор, направленный на содействие дальнейшим исследованиям в области MM-LLM. В частности, мы сначала описываем общие принципы проектирования архитектуры модели и процесса обучения. Затем мы кратко представляем 26 существующих MM-LLM, каждая из которых характеризуется своими специфическими подходами. Кроме того, мы анализируем производительность MM-LLM на основных бенчмарках и обобщаем ключевые методы обучения для повышения эффективности MM-LLM. Наконец, мы исследуем перспективные направления развития MM-LLM, одновременно поддерживая веб-сайт для отслеживания последних достижений в этой области в режиме реального времени. Мы надеемся, что этот обзор внесет вклад в дальнейшее развитие области MM-LLM.
Развитие крупных языковых моделей (LLM) знаменует наступление новой эры, характеризующейся созданием автономных приложений для реального мира, что стимулирует инновации в разработке продвинутых веб-агентов. Существующие веб-агенты обычно обрабатывают только один тип входных данных и оцениваются исключительно в упрощенных веб-симуляторах или статических снимках веб-страниц, что значительно ограничивает их применимость в реальных сценариях. Чтобы преодолеть этот разрыв, мы представляем WebVoyager — инновационного веб-агента на основе крупной мультимодальной модели (LMM), способного выполнять пользовательские инструкции от начала до конца, взаимодействуя с реальными веб-сайтами. Кроме того, мы предлагаем новый протокол оценки веб-агентов, направленный на решение проблем автоматической оценки задач с открытым исходом, используя мощные мультимодальные возможности GPT-4V. Мы создаем новый бенчмарк, собрав реальные задачи с 15 широко используемых веб-сайтов для оценки наших агентов. Мы показываем, что WebVoyager достигает успешного выполнения задач в 55,7% случаев, значительно превосходя как GPT-4 (All Tools), так и текстовую версию WebVoyager, что подчеркивает исключительные возможности WebVoyager в практических приложениях. Мы обнаружили, что предложенная нами автоматическая оценка достигает 85,3% согласия с человеческими суждениями, открывая путь для дальнейшего развития веб-агентов в реальных условиях.
Современные модели генерации изображений по текстовым описаниям демонстрируют впечатляющие успехи в создании изображений, точно соответствующих входным запросам. Однако необходимость использования слов для описания желаемого концепта ограничивает контроль над внешним видом генерируемых объектов. В данной работе мы устраняем этот недостаток, предлагая подход для внедрения возможностей персонализации в существующие диффузионные модели генерации изображений по тексту. Мы представляем новую архитектуру (BootPIG), которая позволяет пользователю предоставлять эталонные изображения объекта для управления его внешним видом в генерируемых изображениях. Предложенная архитектура BootPIG вносит минимальные изменения в предобученную диффузионную модель генерации изображений по тексту и использует отдельную модель UNet для направления генераций в сторону желаемого внешнего вида. Мы разработали процедуру обучения, которая позволяет внедрить возможности персонализации в архитектуру BootPIG с использованием данных, сгенерированных предобученными моделями генерации изображений по тексту, чат-агентами на основе больших языковых моделей (LLM) и моделями сегментации изображений. В отличие от существующих методов, требующих нескольких дней предварительного обучения, архитектура BootPIG может быть обучена примерно за 1 час. Эксперименты на наборе данных DreamBooth показывают, что BootPIG превосходит существующие методы с нулевым обучением (zero-shot) и сопоставима с подходами, требующими тонкой настройки во время тестирования. В ходе пользовательского исследования мы подтвердили предпочтение генераций BootPIG по сравнению с существующими методами как в сохранении точности внешнего вида эталонного объекта, так и в соответствии текстовым запросам.
Крупные языковые модели значительно продвинули передовые рубежи в области обработки естественного языка. Однако их преимущественная ориентация на английский или ограниченный набор языков создает существенный разрыв в их эффективности для малоресурсных языков. Чтобы преодолеть этот разрыв, мы представляем MaLA-500 — новую крупную языковую модель, разработанную для охвата обширного спектра из 534 языков. Для обучения MaLA-500 мы используем расширение словаря и продолжение предварительного обучения на основе LLaMA 2 с использованием Glot500-c. Наши эксперименты на SIB-200 показывают, что MaLA-500 достигает передовых результатов в обучении в контексте. Мы публикуем MaLA-500 по адресу https://huggingface.co/MaLA-LM.
Предварительное обучение крупных языковых моделей известно своей чрезвычайной ресурсоемкостью и зачастую неэффективностью, недостаточно полно используя информацию, заключенную в обучающих текстовых последовательностях. В данной работе мы представляем SpacTor — новый подход к обучению, состоящий из (1) гибридной функции потерь, объединяющей порчу отрезков (span corruption, SC) и обнаружение замены токенов (replacement token detection, RTD), и (2) двухэтапной учебной программы, которая оптимизирует гибридную функцию потерь на начальных tau итерациях, а затем переходит к стандартной функции потерь SC. Мы эмпирически показываем, что эффективность гибридной функции потерь связана с двухэтапным графиком предварительного обучения, и проводим детальный анализ причин этого. В наших экспериментах с архитектурами типа "кодировщик-декодировщик" (T5) на различных задачах обработки естественного языка SpacTor-T5 демонстрирует такую же производительность на конечных задачах, как и стандартное предварительное обучение SC, при этом позволяя сократить количество итераций предварительного обучения на 50% и общее количество операций с плавающей запятой (FLOPs) на 40%. Кроме того, при одинаковом вычислительном бюджете мы обнаруживаем, что SpacTor приводит к значительному улучшению производительности на эталонных задачах.
В последнее время подходы, преобразующие текст в 3D, достигли генерации высококачественного 3D-контента с использованием текстовых описаний. Однако создаваемые объекты носят стохастический характер и не обладают детализированным контролем. Эскизы представляют собой простой способ внедрения такого детализированного контроля. Тем не менее, достижение гибкого управления на основе этих эскизов является сложной задачей из-за их абстрактности и неоднозначности. В данной статье мы представляем фреймворк для генерации 3D-контента с управлением через эскизы на основе нескольких видов (а именно, Sketch2NeRF), который добавляет контроль через эскизы к процессу 3D-генерации. В частности, наш метод использует предобученные 2D диффузионные модели (например, Stable Diffusion и ControlNet) для контроля оптимизации 3D-сцены, представленной нейронным полем излучения (NeRF). Мы предлагаем новый метод синхронизированной генерации и реконструкции для эффективной оптимизации NeRF. В экспериментах мы собрали два набора данных с эскизами на основе нескольких видов для оценки предложенного метода. Мы демонстрируем, что наш метод способен синтезировать 3D-контент с сохранением согласованности и детализированным контролем через эскизы, оставаясь при этом высокоточным по отношению к текстовым запросам. Многочисленные результаты показывают, что наш метод достигает наилучших показателей по сходству с эскизами и соответствию тексту.
Существующие диффузионные модели для генерации изображений из текста в основном создают изображения на основе текстовых запросов. Однако присущая текстовым описаниям краткость создает трудности в точном синтезе изображений с мелкими деталями, такими как конкретные объекты или сцены. В данной статье представлена UNIMO-G — простая мультимодальная условная диффузионная модель, работающая с мультимодальными запросами, включающими чередующиеся текстовые и визуальные входные данные, которая демонстрирует универсальные возможности как для текстовой, так и для объектно-ориентированной генерации изображений. UNIMO-G состоит из двух ключевых компонентов: мультимодальной крупной языковой модели (MLLM) для кодирования мультимодальных запросов и условной сети диффузионного шумоподавления для генерации изображений на основе закодированного мультимодального ввода. Мы используем двухэтапную стратегию обучения для эффективной тренировки модели: сначала предварительное обучение на больших наборах текстово-изобразительных пар для развития способностей условной генерации изображений, а затем тонкая настройка с использованием мультимодальных запросов для достижения универсального мастерства в генерации изображений. Для создания мультимодальных запросов применяется тщательно разработанный процесс обработки данных, включающий языковое заземление и сегментацию изображений. UNIMO-G превосходно справляется как с генерацией изображений из текста, так и с синтезом на основе объектов в условиях нулевого обучения, демонстрируя особенно высокую эффективность в создании высококачественных изображений из сложных мультимодальных запросов, включающих несколько визуальных объектов.
Последние достижения в области искусственного интеллекта привели к разработке крупных мультимодальных моделей (LMM), способных решать сложные задачи, требующие совместного анализа текста и визуального контента на изображениях (например, навигация по картам в общественных местах). В данной статье представлен ConTextual — новый эталонный набор инструкций, специально разработанный для оценки способности LMM выполнять контекстно-зависимое визуальное рассуждение с учетом текстовой информации. ConTextual охватывает разнообразные реальные сценарии (например, определение времени, навигация, покупки и другие), требующие глубокого понимания взаимодействия между текстовыми и визуальными элементами. Наши результаты выявили значительный разрыв в производительности в 30,8% между лучшей LMM, GPT-4V(ision), и человеческими возможностями, что указывает на существенный потенциал для улучшения в области контекстно-зависимого визуального рассуждения. Примечательно, что хотя GPT-4V показала высокие результаты в абстрактных категориях, таких как интерпретация мемов и цитат, её общая производительность всё же уступает человеческой. Помимо экспертной оценки, мы также использовали автоматические метрики оценки с помощью GPT-4, которые подтвердили схожие тенденции в различиях производительности. Мы провели детальную оценку в различных визуальных контекстах и представили качественный анализ, что создает надежную основу для будущих улучшений в проектировании LMM. https://con-textual.github.io/
Крупномасштабные генеративные модели для преобразования текста в изображения достигли впечатляющих успехов, демонстрируя способность синтезировать широкий спектр высококачественных изображений. Однако адаптация этих моделей для художественного редактирования изображений сталкивается с двумя значительными проблемами. Во-первых, пользователям сложно создавать текстовые запросы, которые детально описывают визуальные элементы исходного изображения. Во-вторых, распространённые модели, при внесении изменений в определённые области, часто нарушают общий художественный стиль, что затрудняет достижение целостных и эстетически гармоничных произведений. Для преодоления этих трудностей мы разработали инновационную унифицированную структуру CreativeSynth, основанную на диффузионной модели, способной координировать мультимодальные входные данные и выполнять многозадачность в области художественной генерации изображений. Интегрируя мультимодальные функции с настраиваемыми механизмами внимания, CreativeSynth позволяет переносить семантическое содержание реального мира в художественную область через инверсию и передачу стиля в реальном времени. Это обеспечивает точное управление стилем и содержанием изображения, сохраняя целостность исходных параметров модели. Тщательные качественные и количественные оценки подчеркивают, что CreativeSynth превосходно улучшает точность художественных изображений и сохраняет их врождённую эстетическую сущность. Соединяя разрыв между генеративными моделями и художественным мастерством, CreativeSynth становится индивидуальной цифровой палитрой.