Ежедневно отобранные исследовательские статьи по ИИ с переводами
В области персонализированного синтеза изображений был достигнут значительный прогресс благодаря таким методам, как Textual Inversion, DreamBooth и LoRA. Однако их практическое применение ограничивается высокими требованиями к хранению данных, длительными процессами тонкой настройки и необходимостью использования множества эталонных изображений. С другой стороны, существующие методы, основанные на ID-эмбеддингах, хотя и требуют только одного прямого вывода, сталкиваются с проблемами: они либо нуждаются в обширной тонкой настройке множества параметров модели, либо не совместимы с предварительно обученными моделями сообщества, либо не способны поддерживать высокую точность воспроизведения лица. Для решения этих ограничений мы представляем InstantID — мощное решение на основе диффузионной модели. Наш модуль plug-and-play эффективно справляется с персонализацией изображений в различных стилях, используя всего одно изображение лица, при этом обеспечивая высокую точность. Для достижения этого мы разработали новую IdentityNet, накладывая строгие семантические и слабые пространственные условия, интегрируя изображения лица и ключевых точек с текстовыми подсказками для управления генерацией изображений. InstantID демонстрирует выдающуюся производительность и эффективность, что делает его крайне полезным в реальных приложениях, где сохранение идентичности имеет первостепенное значение. Более того, наша работа легко интегрируется с популярными предварительно обученными моделями текстового синтеза изображений, такими как SD1.5 и SDXL, выступая в качестве адаптируемого плагина. Наши коды и предварительно обученные контрольные точки будут доступны по адресу https://github.com/InstantID/InstantID.
В данной статье представлена AIM — набор моделей компьютерного зрения, предварительно обученных с использованием авторегрессивной задачи. Эти модели вдохновлены своими текстовыми аналогами, такими как крупные языковые модели (LLM), и демонстрируют схожие свойства масштабируемости. В частности, мы выделяем два ключевых результата: (1) качество визуальных признаков масштабируется как с увеличением ёмкости модели, так и с ростом объёма данных; (2) значение целевой функции коррелирует с производительностью модели на последующих задачах. Мы демонстрируем практическую значимость этих результатов, предварительно обучив модель AIM с 7 миллиардами параметров на 2 миллиардах изображений, которая достигает 84,0% точности на ImageNet-1k с замороженным основным блоком. Интересно, что даже на таком масштабе мы не наблюдаем признаков насыщения производительности, что позволяет предположить, что AIM может представлять собой новый рубеж в обучении крупномасштабных моделей компьютерного зрения. Предварительное обучение AIM аналогично обучению LLM и не требует специфических для изображений стратегий для стабилизации обучения на больших масштабах.
Модели языковых моделей среднего размера (LLM) — с 7 или 13 миллиардами параметров — демонстрируют многообещающие результаты в задаче машинного перевода (MT). Однако даже лучшие модели перевода на основе 13B LLM, такие как ALMA, не достигают уровня современных традиционных моделей перевода с архитектурой "кодировщик-декодировщик" или более крупных LLM, таких как GPT-4. В данном исследовании мы устраняем этот разрыв в производительности. Сначала мы оцениваем недостатки контролируемого тонкого настройки (SFT) для LLM в задаче MT, подчеркивая проблемы качества, присутствующие в эталонных данных, несмотря на их человеческое происхождение. Затем, в отличие от SFT, который имитирует эталонные переводы, мы представляем новый подход — Оптимизацию контрастных предпочтений (Contrastive Preference Optimization, CPO), который обучает модели избегать генерации адекватных, но не идеальных переводов. Применение CPO к моделям ALMA с использованием всего 22 тысяч параллельных предложений и 12 миллионов параметров приводит к значительным улучшениям. Полученная модель, названная ALMA-R, может соответствовать или превосходить результаты победителей конкурса WMT и GPT-4 на тестовых наборах данных WMT'21, WMT'22 и WMT'23.
Обычно обучение больших языковых моделей (LLM) с длинными контекстами является вычислительно затратным, требующим значительного времени обучения и ресурсов GPU. Существующие методы расширения длинных контекстов обычно требуют дополнительных процедур обучения для поддержки соответствующих длинных контекстных окон, где необходимы данные для обучения с длинным контекстом (например, 32k), и предполагаются высокие затраты на обучение с использованием GPU. Для решения вышеупомянутых проблем мы предлагаем эффективный метод расширения длины для больших языковых моделей, называемый E²-LLM, который требует всего одной процедуры обучения и значительно снижает вычислительные затраты, а также устраняет необходимость сбора данных с длинным контекстом. Конкретно, во-первых, данные для обучения нашего E²-LLM требуют только короткой длины (например, 4k), что значительно снижает затраты на настройку. Во-вторых, процедура обучения на коротком контекстном окне выполняется только один раз, и мы можем поддерживать различные контекстные окна на этапе вывода. В-третьих, в E²-LLM, на основе позиционных эмбеддингов RoPE, мы вводим два различных метода аугментации для параметров масштаба и индекса позиции для различных образцов в обучении. Это направлено на повышение устойчивости модели к различным относительным различиям при прямой интерполяции произвольной длины контекста на этапе вывода. Комплексные экспериментальные результаты на нескольких эталонных наборах данных демонстрируют эффективность нашего E²-LLM в сложных задачах с длинным контекстом.
Несмотря на общие возможности крупных предобученных языковых моделей, они неизменно выигрывают от дальнейшей адаптации для более эффективного достижения желаемого поведения. Однако настройка таких моделей становится всё более ресурсоёмкой или невозможной, если веса модели являются закрытыми. Мы представляем метод proxy-tuning — лёгкий алгоритм, работающий на этапе декодирования поверх чёрного ящика языковых моделей, который позволяет достичь результата, аналогичного прямой настройке модели, но при этом используя только её предсказания над выходным словарём. Вместо этого наш метод настраивает меньшую модель, а затем применяет разницу между предсказаниями настроенной и ненастроенной малых моделей, чтобы сместить исходные предсказания базовой модели в сторону настройки, сохраняя при этом преимущества крупномасштабного предобучения. В экспериментах, когда мы применяем proxy-tuning к модели Llama2-70B, используя прокси-модели размером всего 7B, мы можем сократить 88% разрыва между Llama2-70B и её полностью настроенной чат-версией при оценке на тестах знаний, рассуждений и безопасности. Интересно, что при тестировании на TruthfulQA модели, настроенные с помощью proxy-tuning, оказываются более правдивыми, чем модели, настроенные напрямую, возможно, потому что управление на этапе декодирования лучше сохраняет фактические знания модели. Затем мы демонстрируем универсальность proxy-tuning, применяя его для адаптации к домену в коде и специфической настройки для задач ответов на вопросы и решения математических задач. Наша работа демонстрирует перспективность использования небольших настроенных моделей для эффективной кастомизации крупных, потенциально проприетарных моделей через управление на этапе декодирования.
Генеративные модели продемонстрировали впечатляющие способности в синтезе высококачественного текста, изображений и видео. В области генерации видео современные модели, преобразующие текст в видео, показывают впечатляющие результаты, создавая визуально эффектные ролики. Однако оценка таких видео представляет значительные сложности. Современные исследования в основном используют автоматизированные метрики, такие как FVD, IS и CLIP Score. Тем не менее, эти метрики предоставляют неполный анализ, особенно в отношении временной оценки видеоконтента, что делает их ненадежными индикаторами истинного качества видео. Кроме того, хотя пользовательские исследования потенциально могут точно отражать человеческое восприятие, они ограничены своей трудоемкостью и временными затратами, а их результаты часто искажены субъективными предубеждениями. В данной статье мы исследуем ограничения существующих метрик и представляем новый подход к оценке — Text-to-Video Score (T2VScore). Эта метрика объединяет два ключевых критерия: (1) Соответствие текста и видео, которое анализирует точность представления видео в соответствии с заданным текстовым описанием, и (2) Качество видео, которое оценивает общий уровень производства видео с привлечением экспертов. Кроме того, для оценки предложенных метрик и содействия их дальнейшему улучшению мы представляем набор данных TVGE, содержащий человеческие оценки 2 543 видео, сгенерированных из текста, по двум указанным критериям. Эксперименты на наборе данных TVGE демонстрируют превосходство предложенной метрики T2VScore в качестве более точного инструмента для оценки генерации видео из текста.
Известно, что крупные языковые модели (LLM) обладают ограниченной способностью к экстраполяции за пределы их предварительно обученного контекстного окна, что ограничивает их применение в задачах с длинными входными данными. Недавние исследования были направлены на расширение контекстного окна LLM путем модификации ротационного позиционного кодирования (RoPE), популярного метода кодирования позиций, используемого известными LLM, такими как LLaMA, PaLM и GPT-NeoX. Однако предыдущие работы, такие как Position Interpolation (PI) и YaRN, требуют значительных ресурсов и не содержат сравнительных экспериментов для оценки их применимости. В данной работе мы выявляем необходимость поддержания стабильности энтропии внимания LLM (т.е. информационной энтропии оценок внимания) и предлагаем новое расширение RoPE, которое сочетает в себе настройку базовой частоты RoPE и масштабирование логарифмов внимания, чтобы помочь LLM эффективно адаптироваться к более широкому контекстному окну. Мы подтверждаем превосходство нашего метода как в производительности тонкой настройки, так и в устойчивости при различных размерах контекстного окна на различных задачах, требующих длинного контекста. Примечательно, что наш метод расширяет контекстное окно модели LLaMA-2-7B-Chat до 16 384 токенов, используя всего 100 образцов и 6 шагов обучения, демонстрируя исключительную эффективность. Наконец, мы также исследуем, как состав данных и учебные программы влияют на расширение контекстного окна для конкретных задач, предлагая тонкую настройку LLM на длинных диалогах в качестве хорошей отправной точки. Мы публикуем наш код и данные для тонкой настройки (SFT) по адресу https://github.com/GAIR-NLP/Entropy-ABF.
В последние годы модели машинного обучения, такие как DALL-E, Craiyon и Stable Diffusion, привлекли значительное внимание благодаря своей способности генерировать изображения высокого разрешения на основе кратких описаний. Одновременно с этим квантовые вычисления демонстрируют многообещающие успехи, особенно в области квантового машинного обучения, которое использует принципы квантовой механики для удовлетворения растущих вычислительных требований традиционных алгоритмов машинного обучения. В данной статье исследуется интеграция квантового машинного обучения и вариационных квантовых схем для повышения эффективности моделей генерации изображений на основе диффузии. В частности, мы рассматриваем две проблемы классических диффузионных моделей: их низкую скорость выборки и значительные требования к количеству параметров. Мы представляем две квантовые диффузионные модели и сравниваем их возможности с классическими аналогами на наборах данных MNIST, Fashion MNIST и CIFAR-10. Наши модели превосходят классические модели с аналогичным количеством параметров по метрикам производительности FID, SSIM и PSNR. Кроме того, мы предлагаем архитектуру унитарной однократной выборки для модели согласованности, которая объединяет процесс диффузии в один шаг, что позволяет быстро генерировать изображение за один этап.
Несмотря на последние значительные достижения в области генеративного моделирования, эффективное создание высококачественных 3D-ассетов по текстовым запросам остается сложной задачей. Основная проблема заключается в недостатке данных: самые крупные наборы 3D-данных содержат лишь миллионы ассетов, в то время как их 2D-аналоги включают миллиарды пар текст-изображение. Чтобы решить эту проблему, мы предлагаем новый подход, который использует возможности крупных предобученных 2D-диффузионных моделей. Более конкретно, наш метод, HexaGen3D, дообучает предобученную модель для генерации изображений по тексту, чтобы одновременно предсказывать 6 ортогональных проекций и соответствующую латентную триплоскость. Затем мы декодируем эти латентные представления для создания текстурированного меша. HexaGen3D не требует оптимизации для каждого отдельного образца и может генерировать высококачественные и разнообразные объекты по текстовым запросам за 7 секунд, предлагая значительно лучшее соотношение качества и задержки по сравнению с существующими подходами. Кроме того, HexaGen3D демонстрирует сильную способность к обобщению на новые объекты или композиции.