Ежедневно отобранные исследовательские статьи по ИИ с переводами
Диффузионные модели являются фактическим стандартом для генерации высококачественных изображений и видео, однако обучение моделей в высокоразмерных пространствах остается сложной задачей из-за вычислительных и оптимизационных трудностей. Существующие методы часто прибегают к обучению каскадных моделей в пространстве пикселей или используют понижающее латентное пространство отдельно обученного автоэнкодера. В данной работе мы представляем Matryoshka Diffusion Models (MDM) — сквозную архитектуру для синтеза изображений и видео высокого разрешения. Мы предлагаем диффузионный процесс, который совместно удаляет шум на нескольких разрешениях, и используем архитектуру NestedUNet, где признаки и параметры для входных данных малого масштаба вложены в параметры для больших масштабов. Кроме того, MDM позволяет реализовать прогрессивный график обучения от низких к высоким разрешениям, что приводит к значительному улучшению оптимизации для генерации высокого разрешения. Мы демонстрируем эффективность нашего подхода на различных бенчмарках, включая условную генерацию изображений по классам, генерацию изображений высокого разрешения по тексту и генерацию видео по тексту. Примечательно, что мы можем обучить единую модель в пространстве пикселей с разрешением до 1024x1024 пикселей, демонстрируя сильную обобщающую способность в условиях zero-shot на наборе данных CC12M, содержащем всего 12 миллионов изображений.
Крупные языковые модели (LLM), будучи согласованными с моделями компьютерного зрения и интегрированными в модели обработки визуально-языковых данных (VLM), могут значительно улучшить выполнение задач, связанных с анализом изображений. Это продемонстрировали недавно выпущенные GPT-4V(ison), LLaVA-1.5 и другие. Однако сильная языковая предубеждённость в этих современных LVLM может быть обоюдоострым мечом: они могут игнорировать контекст изображения и полагаться исключительно на (даже противоречивые) языковые предпосылки для рассуждений. В то же время модули компьютерного зрения в VLM слабее, чем LLM, что может приводить к ошибочным визуальным представлениям, которые затем преобразуются LLM в уверенные ошибки. Для изучения этих двух типов ошибок VLM, а именно языковых галлюцинаций и визуальных иллюзий, мы создали HallusionBench — эталонный тест для анализа контекста изображений, который остаётся сложным даже для GPT-4V и LLaVA-1.5. Мы предоставляем детальный анализ примеров из HallusionBench, который проливает новый свет на иллюзии и галлюцинации VLM и предлагает пути их улучшения в будущем. Эталонный тест и кодовая база будут опубликованы на https://github.com/tianyi-lab/HallusionBench.
Мы представляем DEsignBench — эталонный набор данных для генерации изображений по тексту (T2I), адаптированный для сценариев визуального дизайна. Современные модели T2I, такие как DALL-E 3 и другие, продемонстрировали впечатляющие возможности в создании фотореалистичных изображений, которые точно соответствуют текстовым описаниям. Хотя привлекательность создания визуально захватывающих изображений несомненна, наше внимание выходит за рамки простого эстетического удовольствия. Мы стремимся исследовать потенциал использования этих мощных моделей в реальных дизайнерских контекстах. Для достижения этой цели мы разработали DEsignBench, который включает тестовые образцы, предназначенные для оценки моделей T2I по двум критериям: «техническая способность в дизайне» и «сценарий применения в дизайне». Каждый из этих двух аспектов поддерживается разнообразным набором конкретных дизайнерских категорий. Мы исследуем DALL-E 3 вместе с другими ведущими моделями T2I на DEsignBench, создавая обширную визуальную галерею для сравнения результатов. Для оценки DEsignBench мы проводим экспертные оценки сгенерированных изображений в галерее DEsignBench по критериям соответствия тексту, визуальной эстетики и креативности дизайна. Наша оценка также учитывает другие специализированные дизайнерские способности, включая рендеринг текста, композицию макета, гармонию цветов, 3D-дизайн и стиль медиа. Помимо экспертных оценок, мы представляем первый автоматический инструмент для оценки генерации изображений, основанный на GPT-4V. Этот инструмент предоставляет оценки, которые хорошо согласуются с суждениями экспертов, при этом легко воспроизводимы и экономически эффективны. Высококачественная версия доступна по ссылке: https://github.com/design-bench/design-bench.github.io/raw/main/designbench.pdf?download=
С появлением крупномасштабных видеоданных и развитием диффузионных моделей, генерация видео на основе текста достигла значительного прогресса. Однако существующие модели генерации видео обычно обучаются на ограниченном количестве кадров, что приводит к невозможности создания высококачественных длинных видео в процессе вывода. Кроме того, эти модели поддерживают только одно текстовое условие, тогда как в реальных сценариях часто требуется несколько текстовых условий, поскольку содержание видео меняется со временем. Для решения этих задач данное исследование изучает возможность расширения текстового управления для генерации более длинных видео с учетом нескольких текстов. 1) Сначала мы анализируем влияние начального шума в моделях диффузии видео. Затем, основываясь на наблюдениях за шумом, мы предлагаем FreeNoise — метод, не требующий дополнительной настройки и эффективный по времени, для улучшения генеративных способностей предварительно обученных моделей диффузии видео при сохранении согласованности содержания. В частности, вместо инициализации шума для всех кадров, мы перераспределяем последовательность шумов для обеспечения долгосрочной корреляции и применяем временное внимание к ним с помощью оконной функции. 2) Кроме того, мы разрабатываем новый метод инъекции движения для поддержки генерации видео с учетом нескольких текстовых запросов. Многочисленные эксперименты подтверждают превосходство нашего подхода в расширении генеративных возможностей моделей диффузии видео. Примечательно, что по сравнению с предыдущим наиболее эффективным методом, который требовал 255% дополнительных временных затрат, наш метод влечет лишь незначительные временные затраты, составляющие примерно 17%. Примеры сгенерированных видео доступны на нашем сайте: http://haonanqiu.com/projects/FreeNoise.html.
Недавний успех крупных языковых моделей общего назначения (LLM) значительно изменил парадигму обработки естественного языка, сместив акцент в сторону универсальной базовой модели, применимой в различных областях и задачах. В данной статье мы сосредоточились на оценке производительности GPT-4, самой мощной на сегодняшний день LLM, в текстовых приложениях для анализа радиологических отчетов, сравнивая её с современными специализированными моделями для радиологии. Исследуя различные стратегии промптинга, мы оценили GPT-4 на широком спектре типичных задач радиологии и обнаружили, что GPT-4 либо превосходит, либо находится на одном уровне с текущими передовыми моделями для радиологии. При использовании zero-shot промптинга GPT-4 уже демонстрирует значительное улучшение (примерно 10% абсолютного прироста) по сравнению с радиологическими моделями в задачах классификации временной схожести предложений (точность) и логического вывода на естественном языке (F_1). Для задач, требующих изучения специфического стиля или структуры данных (например, суммирования результатов), GPT-4 улучшает свои показатели с помощью примеров и достигает уровня контролируемых передовых моделей. Наш подробный анализ ошибок, проведенный с участием сертифицированного радиолога, показывает, что GPT-4 обладает достаточным уровнем знаний в области радиологии, допуская лишь редкие ошибки в сложных контекстах, требующих тонкого понимания предметной области. В задачах суммирования результатов выводы GPT-4 в целом сопоставимы с существующими рукописными заключениями.
Мы представляем Habitat 3.0: платформу для моделирования, предназначенную для изучения задач совместной работы человека и робота в домашних условиях. Habitat 3.0 предлагает вклад в трех ключевых направлениях: (1) Точное моделирование гуманоидов: решение проблем, связанных с моделированием сложных деформируемых тел, разнообразием внешнего вида и движений, при сохранении высокой скорости симуляции. (2) Инфраструктура с участием человека: обеспечение взаимодействия реального человека с симулированными роботами через мышь/клавиатуру или VR-интерфейс, что позволяет оценивать стратегии роботов с учетом человеческого ввода. (3) Совместные задачи: изучение двух задач, Социальная Навигация и Социальная Перестановка. Социальная Навигация исследует способность робота находить и следовать за аватарами-гуманоидами в неизвестных средах, тогда как Социальная Перестановка фокусируется на сотрудничестве между гуманоидом и роботом при перестановке объектов в сцене. Эти вклады позволяют нам детально изучать стратегии, основанные на обучении с конца в конец, и эвристические базовые подходы для взаимодействия человека и робота, а также оценивать их с участием человека. Наши эксперименты показывают, что обученные стратегии роботов способствуют эффективному выполнению задач при сотрудничестве с неизвестными агентами-гуманоидами и человеческими партнерами, которые могут демонстрировать поведение, ранее не встречавшееся роботу. Кроме того, мы наблюдаем возникающие поведенческие паттерны во время выполнения совместных задач, такие как уступка роботом пространства, когда он блокирует агента-гуманоида, что позволяет последнему успешно завершить задачу. Более того, эксперименты с использованием инструмента с участием человека демонстрируют, что автоматизированная оценка с гуманоидами может указывать на относительный порядок различных стратегий при их оценке с реальными человеческими партнерами. Habitat 3.0 открывает новые интересные возможности в симуляторах для воплощенного ИИ, и мы надеемся, что он проложит путь к новым горизонтам в области взаимодействия человека и воплощенного ИИ.
Крупные языковые модели (LLM) часто используются для многогранных задач генерации и оценки текста, которые включают удовлетворение сложных пользовательских ограничений или учет множества аспектов и критериев. Однако их производительность может быть недостаточной из-за отсутствия согласованности в модели и неспособности планировать и декомпозировать задачу. Мы предлагаем метод Branch-Solve-Merge (BSM) — программу для крупных языковых моделей (Schlag et al., 2023), предназначенную для решения таких сложных задач обработки естественного языка. Он состоит из модулей ветвления, решения и объединения, параметризованных с помощью специфических промптов для базовой LLM. Эти три модуля планируют декомпозицию задачи на несколько параллельных подзадач, независимо решают их и объединяют решения подзадач. Мы применяем наш метод к задачам оценки ответов LLM и генерации текста с ограничениями, оценивая его эффективность с использованием нескольких LLM, включая Vicuna, LLaMA-2-chat и GPT-4. BSM улучшает корректность и согласованность оценки для каждой LLM, повышая согласие между человеком и LLM до 26%, снижая предвзятость по длине и парным позициям до 50% и позволяя LLaMA-2-chat соответствовать или превосходить GPT-4 в большинстве областей. В задаче генерации историй с ограничениями BSM улучшает связность историй, одновременно повышая удовлетворение ограничений на 12%.
Мы представляем TexFusion (Texture Diffusion) — новый метод синтеза текстур для заданных 3D-геометрий с использованием крупномасштабных моделей диффузии изображений, управляемых текстом. В отличие от недавних работ, которые используют 2D-модели диффузии "текст-в-изображение" для дистилляции 3D-объектов через медленный и ненадежный процесс оптимизации, TexFusion предлагает новый подход к генерации с сохранением 3D-согласованности, специально разработанный для синтеза текстур. Этот метод применяет стандартный процесс сэмплирования модели диффузии на различных 2D-рендерах объекта. В частности, мы используем латентные модели диффузии, применяем денойзер модели диффузии к набору 2D-рендеров 3D-объекта и объединяем различные предсказания денойзинга на общей латентной карте текстур. Финальные RGB-текстуры создаются путем оптимизации промежуточного нейронного цветового поля на декодированиях 2D-рендеров латентной текстуры. Мы тщательно проверяем TexFusion и демонстрируем, что он позволяет эффективно генерировать разнообразные, высококачественные и глобально согласованные текстуры. Мы достигаем передовых результатов в синтезе текстур, управляемом текстом, используя только модели диффузии изображений, избегая при этом недостатков предыдущих методов, основанных на дистилляции. Условность на текст обеспечивает детальный контроль, и мы также не полагаемся на какие-либо эталонные 3D-текстуры для обучения. Это делает наш метод универсальным и применимым к широкому спектру геометрий и типов текстур. Мы надеемся, что TexFusion продвинет AI-основанное текстурирование 3D-активов для приложений в виртуальной реальности, дизайне игр, симуляциях и других областях.
Модели генерации изображений из текста, такие как Stable-Diffusion и Imagen, достигли беспрецедентного уровня фотореализма с лучшими показателями FID на наборе данных MS-COCO и других бенчмарках генерации. Для создания изображения по текстовому описанию требуется детальное знание атрибутов, таких как структура объектов, стиль, точка зрения и другие. Где эта информация хранится в моделях генерации изображений из текста? В нашей работе мы исследуем этот вопрос и изучаем, как знания, соответствующие различным визуальным атрибутам, распределены в крупномасштабных диффузионных моделях генерации изображений из текста. Мы адаптируем метод анализа причинных связей (Causal Mediation Analysis) для таких моделей и отслеживаем знания о различных визуальных атрибутах в различных (причинных) компонентах (i) UNet и (ii) текстового энкодера диффузионной модели. В частности, мы показываем, что в отличие от генеративных языковых моделей, знания о различных атрибутах не локализованы в изолированных компонентах, а распределены среди множества компонентов в условном UNet. Эти наборы компонентов часто различаются для разных визуальных атрибутов. Примечательно, что мы обнаружили, что текстовый энкодер CLIP в публичных моделях генерации изображений из текста, таких как Stable-Diffusion, содержит только одно причинное состояние для различных визуальных атрибутов, и это первый слой self-attention, соответствующий последнему токену субъекта атрибута в описании. Это резко контрастирует с причинными состояниями в других языковых моделях, которые часто находятся в средних слоях MLP. На основе этого наблюдения о единственном причинном состоянии в текстовом энкодере мы представляем быстрый метод редактирования моделей без данных Diff-QuickFix, который может эффективно редактировать концепции в моделях генерации изображений из текста. DiffQuickFix может редактировать (удалять) концепции менее чем за секунду с помощью закрытого обновления, обеспечивая значительное ускорение в 1000 раз и сопоставимую производительность редактирования с существующими методами, основанными на тонкой настройке.
Используя обучение в контексте (In-Context Learning, ICL) для генерации данных, такие методы, как Self-Instruct (Wang et al., 2023) или их продолжение Alpaca (Taori et al., 2023), позволяют обучать мощные диалоговые агенты с минимальным участием человека. Одним из ограничений этих подходов является их зависимость от очень больших языковых моделей (около 175 миллиардов параметров), которые также являются проприетарными и недоступными для публичного использования. В данной работе мы исследуем применение таких методов к языковым моделям значительно меньшего размера (около 10–40 миллиардов параметров) с открытыми лицензиями. Мы обнаруживаем, что подход Self-Instruct менее эффективен для моделей такого размера, и предлагаем новые методы ICL, основанные на двух основных идеях: (а) категоризация и упрощение шаблонов ICL для облегчения обучения модели на основе подсказок и (б) ансамблирование множества выходов модели для выбора высококачественных синтетических примеров. Наш алгоритм использует 175 начальных задач Self-Instruct и применяет отдельные конвейеры для инструкций, требующих входных данных, и тех, которые их не требуют. Эмпирические исследования с различными языковыми моделями показывают, что: (1) наш предложенный метод генерирует данные для настройки инструкций более высокого качества, чем Self-Instruct, (2) он значительно улучшает производительность как базовых, так и настроенных на инструкции моделей и (3) меньшие по размеру модели, настроенные на инструкции, генерируют более полезные выходные данные, чем их более крупные аналоги без настройки. Наш код доступен по адресу https://github.com/IBM/ensemble-instruct.
Обратная связь от людей может предотвратить явно вредные высказывания в диалоговых моделях, но не всегда автоматически устраняет более тонкие проблемные проявления, такие как заявленное стремление к самосохранению или власти. Конституционный ИИ предлагает альтернативу, заменяя человеческую обратную связь на отзывы от ИИ-моделей, обученных только на основе списка письменных принципов. Мы обнаруживаем, что такой подход эффективно предотвращает проявление подобных поведений. Успех простых принципов побуждает нас задаться вопросом: могут ли модели усвоить общие этические нормы, опираясь лишь на один письменный принцип? Чтобы проверить это, мы проводим эксперименты, используя принцип, грубо сформулированный как "делай то, что лучше для человечества". Мы выясняем, что крупнейшие диалоговые модели способны обобщать на основе этой краткой конституции, создавая безвредных помощников, не проявляющих заявленного интереса к конкретным мотивам, таким как власть. Таким образом, общий принцип может частично устранить необходимость в длинном списке конституций, направленных на предотвращение потенциально вредных поведений. Однако более детализированные конституции всё же улучшают точный контроль над конкретными типами вреда. Это говорит о том, что как общие, так и специфические принципы имеют ценность для безопасного управления ИИ.
С развитием крупных языковых моделей (LLM) мы можем решать всё более сложные задачи обработки естественного языка (NLP) в различных областях, включая работу с электронными таблицами. В данной работе исследуется, способны ли LLM генерировать код (Excel OfficeScripts, API на TypeScript для выполнения множества задач в Excel), который решает специфические задачи Excel, поставленные через естественноязыковые инструкции пользователя. Для этого мы представляем новый масштабный бенчмарк, InstructExcel, созданный с использованием функции "Автоматизация" в Excel для автоматической генерации OfficeScripts на основе действий пользователей. Наш бенчмарк включает более 10 тысяч примеров, охватывающих 170+ операций Excel на основе 2000 публично доступных электронных таблиц. Эксперименты в различных условиях zero-shot и few-shot показывают, что InstructExcel является сложным бенчмарком для современных моделей, таких как GPT-4. Мы наблюдаем, что (1) использование GPT-4 вместо GPT-3.5, (2) предоставление большего количества контекстных примеров и (3) динамическое формирование запросов могут помочь улучшить производительность на этом бенчмарке.