Ежедневно отобранные исследовательские статьи по ИИ с переводами
Генерация изображений по тексту в последнее время достигла значительных успехов. Мы представляем тексто-условную диффузионную модель изображений под названием RAPHAEL, которая создает высокохудожественные изображения, точно передающие текстовые запросы, включающие множественные существительные, прилагательные и глаголы. Это достигается за счет использования десятков слоев смеси экспертов (MoE), а именно пространственных и временных слоев MoE, что позволяет создавать миллиарды диффузионных путей (маршрутов) от входа сети к выходу. Каждый путь интуитивно функционирует как "художник", изображающий определенный текстовый концепт в заданной области изображения на определенном шаге диффузии. Комплексные эксперименты показывают, что RAPHAEL превосходит современные модели, такие как Stable Diffusion, ERNIE-ViLG 2.0, DeepFloyd и DALL-E 2, как по качеству изображений, так и по эстетической привлекательности. Во-первых, RAPHAEL демонстрирует превосходную способность переключать изображения между различными стилями, такими как японские комиксы, реализм, киберпанк и иллюстрации тушью. Во-вторых, одна модель с тремя миллиардами параметров, обученная на 1000 GPU A100 в течение двух месяцев, достигает рекордного показателя FID в 6.61 на наборе данных COCO в режиме zero-shot. Кроме того, RAPHAEL значительно превосходит аналоги в оценке людьми на бенчмарке ViLG-300. Мы считаем, что RAPHAEL обладает потенциалом для продвижения границ исследований в области генерации изображений как в академической среде, так и в промышленности, прокладывая путь для будущих прорывов в этой быстро развивающейся области. Дополнительные детали можно найти на странице проекта: https://raphael-painter.github.io/.
Мы предлагаем метод объединения замороженных языковых моделей (LLM), работающих только с текстом, с предобученными моделями кодирования и декодирования изображений путем отображения между их пространствами эмбеддингов. Наша модель демонстрирует широкий спектр мультимодальных возможностей: поиск изображений, генерацию новых изображений и мультимодальный диалог. Наш подход является первым, способным учитывать произвольно чередующиеся изображения и текстовые входные данные для генерации согласованных изображений (и текстовых) выходных данных. Для достижения высокой производительности в генерации изображений мы предлагаем эффективную сеть отображения, которая связывает LLM с готовой моделью генерации изображений по тексту. Эта сеть отображения преобразует скрытые представления текста в пространство эмбеддингов визуальных моделей, что позволяет нам использовать мощные текстовые представления LLM для визуальных выходных данных. Наш подход превосходит базовые модели генерации на задачах с более длинным и сложным языком. Помимо генерации новых изображений, наша модель также способна извлекать изображения из предопределенного набора данных и решать, извлекать или генерировать изображения на этапе вывода. Это достигается с помощью обученного модуля принятия решений, который учитывает скрытые представления LLM. Наша модель демонстрирует более широкий спектр возможностей по сравнению с предыдущими мультимодальными языковыми моделями. Она может обрабатывать входные данные, содержащие изображения и текст, и выдавать извлеченные изображения, сгенерированные изображения и сгенерированный текст, превосходя модели генерации, не основанные на LLM, в нескольких задачах текста в изображение, измеряющих зависимость от контекста.
Крупномасштабные публичные модели генерации изображений из текста на основе диффузии, такие как Stable Diffusion, привлекли значительное внимание сообщества. Эти модели могут быть легко адаптированы для новых концепций с использованием низкоранговых адаптаций (LoRA). Однако использование нескольких LoRA для совместной поддержки множества пользовательских концепций представляет собой сложную задачу. Мы называем этот сценарий децентрализованной многоконцептной адаптацией, которая включает в себя настройку концепций на стороне отдельного клиента и слияние концепций на центральном узле. В данной статье мы предлагаем новый фреймворк под названием Mix-of-Show, который решает проблемы децентрализованной многоконцептной адаптации, включая конфликты концепций, возникающие из-за существующей настройки LoRA на стороне отдельного клиента, и потерю идентичности при слиянии моделей. Mix-of-Show использует LoRA с декомпозицией вложений (ED-LoRA) для настройки на стороне клиента и градиентное слияние на центральном узле, чтобы сохранить сущность отдельных концепций в рамках их домена и поддерживать теоретически неограниченное слияние концепций. Кроме того, мы представляем регионально управляемую выборку, которая расширяет пространственно управляемую выборку (например, ControlNet и T2I-Adaptor) для решения проблем связывания атрибутов и отсутствия объектов при многоконцептной выборке. Многочисленные эксперименты демонстрируют, что Mix-of-Show способен составлять множество пользовательских концепций с высокой точностью, включая персонажей, объекты и сцены.
Stable Diffusion произвел революцию в создании изображений на основе описательного текста. GPT-2, GPT-3(.5) и GPT-4 продемонстрировали впечатляющие результаты в решении разнообразных языковых задач. ChatGPT познакомил широкую аудиторию с такими языковыми моделями. Теперь очевидно, что крупные языковые модели (LLMs) останутся с нами и приведут к радикальным изменениям во всей экосистеме онлайн-текстов и изображений. В данной статье мы рассматриваем, что может ожидать нас в будущем. Что произойдет с GPT-{n}, когда LLMs будут генерировать значительную часть языкового контента в интернете? Мы обнаруживаем, что использование сгенерированного моделями контента для обучения вызывает необратимые дефекты в результирующих моделях, причем хвосты исходного распределения контента исчезают. Мы называем этот эффект «модельной деменцией» и показываем, что он может возникать в вариационных автоэнкодерах (VAEs), гауссовских смесях моделей (GMMs) и LLMs. Мы формируем теоретическую интуицию, объясняющую это явление, и демонстрируем его повсеместное распространение среди всех обученных генеративных моделей. Мы показываем, что к этому необходимо относиться серьезно, если мы хотим сохранить преимущества обучения на крупномасштабных данных, собранных из интернета. Действительно, ценность данных, собранных о подлинных взаимодействиях людей с системами, будет становиться все более значимой в условиях присутствия контента, сгенерированного LLMs, в данных, собранных из интернета.
Данная работа направлена на эффективное обеспечение использования мультимодальных инструментов крупными языковыми моделями (LLM). Передовые проприетарные LLM, такие как ChatGPT и GPT-4, продемонстрировали значительный потенциал в использовании инструментов благодаря сложному инжинирингу промптов. Однако эти модели обычно требуют высоких вычислительных затрат и опираются на данные, недоступные для публичного использования. Для решения этих проблем мы предлагаем GPT4Tools, основанный на self-instruct, чтобы позволить открытым LLM, таким как LLaMA и OPT, использовать инструменты. Этот метод генерирует набор данных для следования инструкциям, запрашивая продвинутую модель-учителя в различных мультимодальных контекстах. Используя оптимизацию Low-Rank Adaptation (LoRA), наш подход позволяет открытым LLM решать широкий спектр визуальных задач, включая понимание изображений и генерацию изображений. Кроме того, мы предоставляем бенчмарк для оценки способности LLM использовать инструменты, который проводится как в режиме zero-shot, так и с тонкой настройкой. Многочисленные эксперименты демонстрируют эффективность нашего метода на различных языковых моделях, что не только значительно повышает точность вызова известных инструментов, но и обеспечивает zero-shot способность для неизвестных инструментов. Код и демонстрация доступны по адресу https://github.com/StevenGrove/GPT4Tools.
Мы представляем MindEye, новый подход fMRI-to-image для извлечения и реконструкции просмотренных изображений на основе активности мозга. Наша модель состоит из двух параллельных подмодулей, специализированных для извлечения (с использованием контрастивного обучения) и реконструкции (с использованием диффузионного априори). MindEye способна отображать активность мозга, полученную с помощью fMRI, в любое многомерное мультимодальное латентное пространство, такое как пространство изображений CLIP, что позволяет реконструировать изображения с использованием генеративных моделей, принимающих эмбеддинги из этого латентного пространства. Мы проводим всестороннее сравнение нашего подхода с другими существующими методами, используя как качественные параллельные сравнения, так и количественные оценки, и показываем, что MindEye достигает наилучших результатов как в задачах реконструкции, так и в задачах извлечения. В частности, MindEye способна извлечь точное исходное изображение даже среди высоко похожих кандидатов, что указывает на сохранение мелкозернистой информации, специфичной для изображения, в её эмбеддингах мозга. Это позволяет нам точно извлекать изображения даже из крупномасштабных баз данных, таких как LAION-5B. Мы демонстрируем с помощью абляций, что улучшения производительности MindEye по сравнению с предыдущими методами обусловлены специализированными подмодулями для извлечения и реконструкции, улучшенными техниками обучения и обучением моделей с на порядки большим количеством параметров. Кроме того, мы показываем, что MindEye может лучше сохранять низкоуровневые особенности изображений в реконструкциях, используя img2img с выходами отдельного автоэнкодера. Весь код доступен на GitHub.
Для точной визуализации историй требуется несколько ключевых элементов, таких как согласованность идентичности между кадрами, соответствие между текстом и визуальным содержанием, а также разумное расположение объектов на изображениях. Большинство предыдущих работ пытаются удовлетворить эти требования, адаптируя модель преобразования текста в изображение (T2I) на наборе видео в одном стиле и с одними и теми же персонажами, например, на наборе данных FlintstonesSV. Однако обученные модели T2I обычно с трудом адаптируются к новым персонажам, сценам и стилям и часто не обладают гибкостью для изменения компоновки синтезированных изображений. В данной статье предлагается система для универсальной интерактивной визуализации историй, способная работать с несколькими новыми персонажами и поддерживающая редактирование компоновки и локальной структуры. Она разработана с использованием априорных знаний крупных языковых моделей и моделей T2I, обученных на обширных корпусах данных. Система состоит из четырех взаимосвязанных компонентов: генерация подсказок из истории (S2P), генерация компоновки из текста (T2L), управляемое преобразование текста в изображение (C-T2I) и анимация изображений в видео (I2V). Сначала модуль S2P преобразует краткую информацию о истории в детализированные подсказки, необходимые для последующих этапов. Затем T2L генерирует разнообразные и разумные компоновки на основе подсказок, предоставляя пользователям возможность настраивать и уточнять компоновку по своему усмотрению. Основной компонент, C-T2I, позволяет создавать изображения, руководствуясь компоновками, набросками и идентификаторами персонажей для поддержания согласованности и детализации в визуализациях. Наконец, I2V обогащает процесс визуализации, анимируя сгенерированные изображения. Проведены обширные эксперименты и исследование с участием пользователей, чтобы подтвердить эффективность и гибкость интерактивного редактирования предложенной системы.
Крупные языковые модели (LLM) демонстрируют многообещающие результаты в переводе между различными естественными языками. Однако многие LLM, особенно открытые, такие как BLOOM и LLaMA, ориентированы на английский язык и поддерживают лишь несколько десятков естественных языков, что ограничивает исследование их потенциала в области перевода. В данной работе мы представляем BigTrans, который адаптирует LLaMA, изначально поддерживающую только 20 языков, и расширяет её возможности для перевода на более чем 100 языков. BigTrans построен на основе LLaMA-13B и оптимизирован в три этапа. Сначала мы продолжаем обучение LLaMA на большом объёме монолингвальных данных на китайском языке. Затем мы обучаем модель на крупномасштабном параллельном наборе данных, охватывающем 102 естественных языка. Наконец, мы проводим инструктивное обучение базовой модели с использованием инструкций для многоязычного перевода, что приводит к созданию модели BigTrans. Предварительные эксперименты по многоязычному переводу показывают, что BigTrans сопоставим по качеству с ChatGPT и Google Translate для многих языков и даже превосходит ChatGPT в 8 языковых парах. Мы публикуем модель BigTrans в надежде, что она сможет способствовать прогрессу в исследованиях.
Крупные языковые модели (LLM) с мощными способностями в задачах обработки естественного языка появились и быстро нашли применение в различных областях, таких как наука, финансы и программная инженерия. Однако способность LLM продвигать область химии остается неясной. В данной статье мы создаем всеобъемлющий бенчмарк, содержащий 8 практических задач по химии, включая: 1) предсказание названий, 2) предсказание свойств, 3) предсказание выхода продукта, 4) предсказание реакций, 5) ретросинтез (предсказание реагентов по продуктам), 6) текстовое проектирование молекул, 7) описание молекул и 8) выбор реагентов. Наш анализ основывается на широко известных наборах данных, таких как BBBP, Tox21, PubChem, USPTO и ChEBI, что позволяет провести широкое исследование возможностей LLM в контексте практической химии. Три модели GPT (GPT-4, GPT-3.5 и Davinci-003) оцениваются для каждой химической задачи в условиях обучения с нуля (zero-shot) и с небольшим количеством примеров (few-shot) с тщательно подобранными демонстрационными примерами и специально разработанными промптами. Ключевые результаты нашего исследования следующие: 1) GPT-4 превосходит две другие модели среди трех оцененных; 2) модели GPT показывают менее конкурентоспособные результаты в задачах, требующих точного понимания представления молекул в формате SMILES, таких как предсказание реакций и ретросинтез; 3) модели GPT демонстрируют сильные способности в текстовых задачах, связанных с объяснением, таких как описание молекул; и 4) модели GPT показывают сопоставимую или лучшую производительность по сравнению с классическими моделями машинного обучения при применении к химическим задачам, которые могут быть преобразованы в задачи классификации или ранжирования, такие как предсказание свойств и предсказание выхода продукта.
Современные модели генерации изображений на основе текста часто испытывают трудности с выполнением текстовых инструкций, особенно тех, которые требуют пространственного мышления. С другой стороны, крупные языковые модели (LLM), такие как GPT-4, продемонстрировали выдающуюся точность в генерации фрагментов кода для графического представления текстовых входных данных, например, с использованием TikZ. В данной работе мы представляем Control-GPT, который направляет диффузионные текстово-изобразительные конвейеры с помощью программных эскизов, созданных GPT-4, улучшая их способность следовать инструкциям. Control-GPT работает, запрашивая GPT-4 для написания кода TikZ, а сгенерированные эскизы используются в качестве ориентиров вместе с текстовыми инструкциями для диффузионных моделей (например, ControlNet) для создания фотореалистичных изображений. Одной из основных проблем при обучении нашего конвейера является отсутствие набора данных, содержащего согласованные текст, изображения и эскизы. Мы решаем эту проблему, преобразуя маски экземпляров в существующих наборах данных в полигоны, чтобы имитировать эскизы, используемые во время тестирования. В результате Control-GPT значительно повышает управляемость генерации изображений. Он устанавливает новый стандарт в области генерации пространственного расположения и позиционирования объектов и улучшает контроль пользователей над позициями, размерами объектов и т.д., почти удваивая точность предыдущих моделей. Наша работа, как первая попытка, демонстрирует потенциал использования LLM для повышения производительности в задачах компьютерного зрения.
В эпоху, когда изображения и визуальный контент доминируют в цифровом пространстве, способность манипулировать и персонализировать эти изображения стала необходимостью. Представьте, что вы можете легко заменить полосатого кота, лежащего на подоконнике в солнечном свете, на вашего игривого щенка, сохраняя при этом оригинальное очарование и композицию фотографии. Мы представляем Photoswap — новый подход, который позволяет реализовать этот захватывающий опыт редактирования изображений через персонализированную замену объектов в существующих изображениях. Photoswap сначала изучает визуальную концепцию объекта из референсных изображений, а затем заменяет его в целевом изображении с использованием предварительно обученных диффузионных моделей без необходимости дополнительного обучения. Мы показываем, что хорошо концептуализированный визуальный объект может быть бесшовно перенесен в любое изображение с помощью соответствующей манипуляции самовниманием и кросс-вниманием, сохраняя позу заменяемого объекта и общую согласованность изображения. Комплексные эксперименты подчеркивают эффективность и управляемость Photoswap в персонализированной замене объектов. Более того, Photoswap значительно превосходит базовые методы по оценкам людей в таких аспектах, как замена объектов, сохранение фона и общее качество, демонстрируя его огромный потенциал для применения — от развлечений до профессионального редактирования.
Используя крупномасштабные наборы данных изображений и текстов, а также достижения в области диффузионных моделей, текстово-управляемые генеративные модели добились значительных успехов в области генерации и редактирования изображений. В данном исследовании изучается возможность расширения текстово-управляемых способностей для генерации и редактирования длинных видео с множественными текстовыми условиями. Современные методы генерации и редактирования видео, хотя и инновационные, часто ограничиваются крайне короткими видео (обычно менее 24 кадров) и одним текстовым условием. Эти ограничения существенно сужают их применимость, учитывая, что реальные видео обычно состоят из нескольких сегментов, каждый из которых несет различную семантическую информацию. Для решения этой задачи мы представляем новую парадигму под названием Gen-L-Video, способную расширить возможности готовых моделей диффузии для генерации и редактирования видео, состоящих из сотен кадров с разнообразными семантическими сегментами, без необходимости дополнительного обучения, при этом сохраняя согласованность контента. Мы реализовали три основных метода текстово-управляемой генерации и редактирования видео и расширили их для работы с более длинными видео, насыщенными различными семантическими сегментами, с использованием нашей предложенной парадигмы. Результаты экспериментов показывают, что наш подход значительно расширяет генеративные и редакционные возможности моделей диффузии видео, открывая новые перспективы для будущих исследований и приложений. Код доступен по адресу https://github.com/G-U-N/Gen-L-Video.
Мы представляем SwiftSage — новый фреймворк для агентов, вдохновленный теорией двойственных процессов человеческого познания и разработанный для превосходства в планировании действий в сложных задачах интерактивного рассуждения. SwiftSage объединяет преимущества клонирования поведения и использования подсказок для больших языковых моделей (LLM) с целью повышения эффективности выполнения задач. Фреймворк состоит из двух основных модулей: модуля Swift, представляющего быстрое и интуитивное мышление, и модуля Sage, имитирующего осознанные мыслительные процессы. Модуль Swift представляет собой небольшую кодирующе-декодирующую языковую модель, дообученную на траекториях действий агента-оракула, в то время как модуль Sage использует LLM, такие как GPT-4, для планирования подцелей и их привязки к реальности. Мы разработали эвристический метод для гармоничной интеграции двух модулей, что приводит к более эффективному и устойчивому процессу решения задач. На 30 задачах из бенчмарка ScienceWorld SwiftSage значительно превосходит другие методы, такие как SayCan, ReAct и Reflexion, демонстрируя свою эффективность в решении сложных реальных задач.
Тонкая настройка языковых моделей (LM) показала успех в решении разнообразных задач, однако с увеличением размера моделей обратное распространение требует непомерно большого объема памяти. Методы нулевого порядка (ZO) теоретически могут оценивать градиенты, используя всего два прямых прохода, но считается, что они катастрофически медленны для оптимизации крупных моделей. В данной работе мы предлагаем оптимизатор нулевого порядка с эффективным использованием памяти (MeZO), адаптируя классический метод ZO-SGD для работы на месте, что позволяет выполнять тонкую настройку LM с тем же объемом памяти, что и при выводе. Например, с использованием одной видеокарты A100 80GB MeZO может обучать модель с 30 миллиардами параметров, тогда как тонкая настройка с обратным распространением позволяет обучать только LM с 2,7 миллиардами параметров при том же бюджете. Мы провели всесторонние эксперименты с различными типами моделей (маскированные и авторегрессивные LM), масштабами моделей (до 66 миллиардов параметров) и задачами (классификация, множественный выбор и генерация). Наши результаты показывают, что (1) MeZO значительно превосходит обучение в контексте и линейное зондирование; (2) MeZO достигает сопоставимой производительности с тонкой настройкой с обратным распространением в различных задачах, при этом сокращая использование памяти до 12 раз; (3) MeZO совместим как с полной настройкой параметров, так и с методами эффективной настройки, такими как LoRA и префиксная настройка; (4) MeZO может эффективно оптимизировать недифференцируемые цели (например, максимизацию точности или F1). Мы подкрепляем наши эмпирические результаты теоретическими выводами, подчеркивая, как адекватная предварительная подготовка и подсказки задач позволяют MeZO выполнять тонкую настройку огромных моделей, несмотря на то, что классический анализ ZO предполагает обратное.
В последнее время наблюдается растущий интерес к разработке генеративных моделей, основанных на диффузии, способных создавать связный и хорошо сформированный визуальный текст. В данной статье мы предлагаем новый и эффективный подход под названием GlyphControl для решения этой задачи. В отличие от существующих методов, которые полагаются на текстовые кодировщики, учитывающие символы, такие как ByT5, и требуют переобучения моделей для генерации изображений из текста, наш подход использует дополнительную информацию о глифах для повышения производительности готовой модели Stable-Diffusion в создании точного визуального текста. Благодаря включению инструкций по глифам пользователи могут настраивать содержание, расположение и размер генерируемого текста в соответствии с их конкретными требованиями. Для содействия дальнейшим исследованиям в области генерации визуального текста мы создали обучающий эталонный набор данных под названием LAION-Glyph. Мы оцениваем эффективность нашего подхода, измеряя метрики на основе OCR и показатели CLIP для сгенерированного визуального текста. Наши эмпирические оценки демонстрируют, что GlyphControl превосходит недавний подход DeepFloyd IF по точности OCR и показателям CLIP, что подчеркивает эффективность нашего метода.
По мере непрерывного развития крупных языковых моделей (LLM) их оценка становится всё более важной, но и сложной задачей. В данной работе предлагается Chain-of-Thought Hub — открытый набор инструментов для оценки способности крупных языковых моделей к многошаговому рассуждению. Мы заинтересованы в этом подходе по двум причинам: (1) на основе наблюдений за поведением моделей семейств GPT и PaLM мы отмечаем, что сложное рассуждение, вероятно, является ключевым фактором, отличающим более слабые модели от более сильных; (2) мы предполагаем, что крупные языковые модели станут вычислительной платформой следующего поколения и будут способствовать созданию экосистемы новых приложений на основе LLM, что естественным образом требует от базовых моделей выполнения сложных задач, часто включающих комбинацию лингвистических и логических операций. Наш подход заключается в создании набора сложных тестов для отслеживания прогресса LLM. Текущие результаты показывают, что: (1) масштаб модели явно коррелирует с её способностями к рассуждению; (2) по состоянию на май 2023 года Claude-v1.3 и PaLM-2 являются единственными моделями, сопоставимыми с GPT-4, в то время как открытые модели всё ещё отстают; (3) LLaMA-65B демонстрирует результаты, близкие к code-davinci-002, что указывает на её большой потенциал приблизиться к GPT-3.5-Turbo при успешном дальнейшем развитии, например, с использованием обучения с подкреплением на основе обратной связи от людей (RLHF). Наши результаты также свидетельствуют о том, что для того, чтобы открытые разработки смогли догнать лидеров, сообществу следует сосредоточиться на создании более качественных базовых моделей и исследовании RLHF.
Захватывающий мир Minecraft привлек значительный исследовательский интерес в последние годы, став богатой платформой для разработки интеллектуальных агентов, способных функционировать в открытых мирах. Однако текущие исследования в основном сосредоточены на конкретных задачах, таких как популярная задача "Получить алмаз", и пока не демонстрируют эффективной обобщаемости на более широкий спектр задач. Более того, текущий лидирующий показатель успешности выполнения задачи "Получить алмаз" составляет около 20%, что подчеркивает ограничения контроллеров на основе обучения с подкреплением (RL), используемых в существующих методах. Для решения этих проблем мы представляем Ghost in the Minecraft (GITM) — новую структуру, которая интегрирует большие языковые модели (LLM) с текстовыми знаниями и памятью, стремясь создать универсально способных агентов (GCA) в Minecraft. Эти агенты, оснащенные логическими и здравомыслящими возможностями LLM, могут умело ориентироваться в сложных средах с редкими вознаграждениями, используя текстовые взаимодействия. Мы разрабатываем набор структурированных действий и используем LLM для генерации планов действий, которые агенты могут выполнять. Полученный агент на основе LLM значительно превосходит предыдущие методы, демонстрируя впечатляющее улучшение успешности на +47,5% в задаче "Получить алмаз", что свидетельствует о его превосходной устойчивости по сравнению с традиционными RL-контроллерами. Примечательно, что наш агент первым смог получить все предметы в технологическом дереве Minecraft Overworld, демонстрируя свои обширные возможности. GITM не требует использования GPU для обучения, достаточно одного CPU-узла с 32 ядрами. Это исследование показывает потенциал LLM в разработке способных агентов для выполнения долгосрочных, сложных задач и адаптации к неопределенностям в открытых мирах. Подробнее о проекте можно узнать на сайте: https://github.com/OpenGVLab/GITM.
Крупные языковые модели (LLMs) значительно улучшили беглость и разнообразие машинно-генерируемого текста. Однако этот прогресс также создает серьезную проблему в определении происхождения текста, и текущие исследования методов обнаружения отстают от быстрой эволюции LLMs. Традиционные методы, основанные на обучении, имеют ограничения в гибкости, особенно при адаптации к новым доменам, и часто не обладают объяснительной силой. Для устранения этого пробела мы предлагаем новую стратегию обнаружения без обучения, называемую Анализом Расходящихся N-грамм (DNA-GPT). Для заданного текста мы сначала обрезаем его в середине, а затем используем только предшествующую часть в качестве входных данных для LLMs, чтобы заново сгенерировать оставшиеся части. Анализируя различия между оригинальными и новыми оставшимися частями через анализ N-грамм в черном ящике или расхождение вероятностей в белом ящике, мы можем четко продемонстрировать значительные различия между машинно-генерируемым и человеческим текстом. Мы провели обширные эксперименты на самых передовых LLMs от OpenAI, включая text-davinci-003, GPT-3.5-turbo и GPT-4, а также на открытых моделях, таких как GPT-NeoX-20B и LLaMa-13B. Результаты показывают, что наш подход без обучения демонстрирует передовые результаты в различении текста, созданного человеком и GPT, на четырех английских и одном немецком наборе данных, превосходя собственный классификатор OpenAI, который обучен на миллионах текстов. Кроме того, наши методы предоставляют разумные объяснения и доказательства в поддержку нашего утверждения, что является уникальной особенностью объяснимого обнаружения. Наш метод также устойчив к атакам с измененным текстом и может дополнительно решать задачу определения источника модели. Код доступен по адресу https://github.com/Xianjun-Yang/DNA-GPT.
Несмотря на огромный успех диффузионных генеративных моделей в задаче генерации изображений по тексту, воспроизведение этого успеха в области сжатия изображений оказалось сложной задачей. В данной работе мы демонстрируем, что диффузия может значительно улучшить воспринимаемое качество при заданной битовой скорости, превосходя современные подходы PO-ELIC и HiFiC по показателю FID. Это достигается с помощью простого, но теоретически обоснованного двухэтапного подхода, сочетающего автоэнкодер, оптимизированный по MSE, с последующим декодером на основе оценки. Однако, как мы покажем, детали реализации имеют значение, и оптимальные проектные решения могут существенно отличаться от типичных моделей для генерации изображений по тексту.