Ежедневно отобранные исследовательские статьи по ИИ с переводами
Несмотря на впечатляющие возможности моделей больших языковых объемов (LLM) в различных задачах, они все еще испытывают трудности в сценариях, требующих сложного рассуждения и планирования. В недавних работах были предложены передовые методики подсказок и необходимость тонкой настройки на высококачественных данных для улучшения способностей LLM к рассуждению. Однако эти подходы по своей сути ограничены доступностью и качеством данных. В свете этого самокоррекция и самообучение становятся жизнеспособными решениями, используя стратегии, позволяющие LLM улучшать свои выводы и учиться на самооценке вознаграждений. Тем не менее, эффективность LLM в самосовершенствовании своего ответа, особенно в задачах сложного рассуждения и планирования, остается сомнительной. В данной статье мы представляем AlphaLLM для самосовершенствования LLM, который интегрирует метод поиска по дереву Монте-Карло (MCTS) с LLM для установления цикла самосовершенствования, тем самым улучшая способности LLM без дополнительных аннотаций. Вдохновляясь успехом AlphaGo, AlphaLLM решает уникальные проблемы сочетания MCTS с LLM для самосовершенствования, включая недостаток данных, огромные пространства поиска языковых задач и субъективный характер обратной связи в языковых задачах. AlphaLLM состоит из компонента синтеза подсказок, эффективного подхода MCTS, адаптированного для языковых задач, и тройки моделей-критиков для точной обратной связи. Наши экспериментальные результаты в задачах математического рассуждения показывают, что AlphaLLM значительно улучшает производительность LLM без дополнительных аннотаций, демонстрируя потенциал для самосовершенствования в LLM.
Анимация текста служит выразительным средством, преобразуя статическую коммуникацию в динамичные впечатления, вдыхая словам движение для вызова эмоций, подчеркивания значений и создания убедительных повествований. Создание анимаций, осознающих семантику, представляет существенные вызовы, требуя опыта в графическом дизайне и анимации. Мы представляем автоматизированную схему анимации текста, названную "Динамическая Типографика", которая объединяет две сложные задачи. Она деформирует буквы для передачи семантического значения и наполняет их живыми движениями на основе запросов пользователя. Наш метод использует векторные графические представления и оптимизационную структуру на основе конечных результатов. Эта структура использует нейронные поля смещения для преобразования букв в базовые формы и применяет движение кадра к кадру, поощряя согласованность с задуманной текстовой концепцией. Техники сохранения формы и регуляризация потерь восприятия используются для поддержания читаемости и структурной целостности на протяжении процесса анимации. Мы демонстрируем обобщаемость нашего подхода на различных моделях текста-видео и выделяем превосходство нашей методологии конечных результатов над базовыми методами, которые могут включать в себя отдельные задачи. Через количественные и качественные оценки мы демонстрируем эффективность нашей структуры в создании согласованных анимаций текста, верно интерпретирующих запросы пользователя, сохраняя читаемость. Наш код доступен по ссылке: https://animate-your-word.github.io/demo/.
Мы предлагаем MeshLRM, новый подход на основе LRM, который может восстанавливать высококачественную сетку всего лишь из четырех входных изображений менее чем за одну секунду. В отличие от предыдущих крупных моделей восстановления (LRM), сосредотачивающихся на восстановлении на основе NeRF, MeshLRM включает дифференцируемое извлечение и рендеринг сетки в рамках LRM. Это позволяет для конечного восстановления сетки донастройкой предварительно обученного LRM NeRF с рендерингом сетки. Более того, мы улучшаем архитектуру LRM, упрощая несколько сложных конструкций в предыдущих LRM. Инициализация NeRF в MeshLRM обучается последовательно с изображениями низкого и высокого разрешения; эта новая стратегия обучения LRM обеспечивает значительно более быструю сходимость и, следовательно, приводит к лучшему качеству с меньшим вычислительным объемом. Наш подход достигает передового восстановления сетки из разреженных входных данных и также позволяет использовать множество последующих приложений, включая текст-в-3D и генерацию изображения-в-3D. Страница проекта: https://sarahweiii.github.io/meshlrm/
Интенсивная вычислительная нагрузка стабильного диффузионного метода (Stable Diffusion, SD) для генерации текста в изображение представляет собой значительное препятствие для его практического применения. Для преодоления этого вызова недавние исследования сосредотачиваются на методах сокращения шагов выборки, таких как модель латентной согласованности (Latent Consistency Model, LCM), и на использовании архитектурных оптимизаций, включая обрезку и дистилляцию знаний. Отклоняясь от существующих подходов, мы уникально начинаем с компактной варианта SD, BK-SDM. Мы замечаем, что прямое применение LCM к BK-SDM с обычно используемыми наборами данных, полученными путем обхода, дает неудовлетворительные результаты. Это приводит нас к разработке двух стратегий: (1) использование высококачественных пар изображение-текст от ведущих генеративных моделей и (2) разработка продвинутого процесса дистилляции, нацеленного на LCM. Через наше тщательное исследование квантования, профилирования и развертывания на устройствах с ограниченными ресурсами, мы достигаем быстрой генерации фотореалистичных изображений, выровненных по тексту, всего за два шага, с задержкой менее одной секунды на устройствах краевых вычислений.
С широким развертыванием крупных языковых моделей (LLM) для генерации длинного контента в последнее время возникла растущая потребность в эффективной поддержке вывода длинных последовательностей. Однако ключевое-значение (KV) кэш, который хранится для избежания повторного вычисления, стал критическим узким местом, поскольку его размер линейно увеличивается с длиной последовательности. Из-за авторегрессивной природы LLM весь кэш KV будет загружен для каждого сгенерированного токена, что приводит к низкому использованию вычислительных ядер и высокой задержке. Хотя были предложены различные методы сжатия для кэша KV с целью смягчения этой проблемы, они страдают от ухудшения качества генерации. Мы представляем TriForce, иерархическую систему спекулятивного декодирования, которая масштабируется для генерации длинных последовательностей. Этот подход использует исходные веса модели и динамический разреженный кэш KV через извлечение в качестве модели-черновика, которая служит промежуточным уровнем в иерархии и дополнительно спекулируется более маленькой моделью для сокращения времени ее составления. TriForce не только обеспечивает впечатляющее ускорение для Llama2-7B-128K, достигая до 2.31 раза на GPU A100, но также демонстрирует масштабируемость в обработке даже более длинных контекстов. Для сценария выгрузки на двух GPU RTX 4090 TriForce достигает 0.108 с/токен — всего вдвое медленнее, чем авторегрессивная базовая модель на A100, которая достигает 7.78 раз на нашей оптимизированной системе выгрузки. Кроме того, TriForce работает в 4.86 раза быстрее, чем DeepSpeed-Zero-Inference на одном GPU RTX 4090. Устойчивость TriForce подчеркивается его постоянно выдающимися показателями производительности при различных температурах. Код доступен на https://github.com/Infini-AI-Lab/TriForce.
Выравнивание языковых моделей (LMs) на основе данных о предпочтениях, аннотированных людьми, является важным этапом в получении практичных и эффективных систем на основе LM. Однако многоязычные данные о предпочтениях людей сложно получить в масштабе, что затрудняет расширение этой структуры на разнообразные языки. В данной работе мы оцениваем простой подход к кросс-языковому выравниванию "нулевого сэмпла", где модель вознаграждения обучается на данных о предпочтениях на одном исходном языке и применяется непосредственно к другим целевым языкам. На задачах суммаризации и генерации открытого диалога мы показываем, что этот метод последовательно успешен в рамках всесторонних настроек оценки, включая оценку человеком: кросс-языковые выровненные модели предпочтительны людьми по сравнению с невыровненными моделями вплоть до >70% случаев оценки. Мы также обнаруживаем, что модель вознаграждения на другом языке иногда обеспечивает лучшее выравнивание моделей, чем модель вознаграждения на том же языке. Мы также выявляем лучшие практики, когда нет языковых данных даже для надзорного донастройки, еще одного компонента в выравнивании.
Мы представляем новую архитектуру для персонализации моделей диффузии текста в изображение, названную Смесь-Внимания (MoA). Вдохновленная механизмом Смесь-Экспертов, используемым в больших языковых моделях (LLM), MoA распределяет рабочую нагрузку по генерации между двумя путями внимания: персонализированным и неперсонализированным. MoA разработана для сохранения исходной модели, фиксируя слои внимания в неперсонализированном пути, и минимального вмешательства в процесс генерации с помощью персонализированного пути, который обучается встраивать объекты в композицию и контекст, созданные неперсонализированным путем. Новый механизм маршрутизации управляет распределением пикселей в каждом слое между этими путями для оптимизации смешивания персонализированного и общего контента. После обучения MoA облегчает создание высококачественных персонализированных изображений с несколькими объектами, композициями и взаимодействиями так разнообразными, как те, что создает исходная модель. Критически важно, что MoA улучшает различие между существующей способностью модели и новым дополнительным персонализированным вмешательством, предлагая более разделенный контроль над объектом и контекстом, который ранее был недостижим. Страница проекта: https://snap-research.github.io/mixture-of-attention
Эта статья представляет версию 0.5 Бенчмарка по безопасности искусственного интеллекта, который был создан Рабочей группой по безопасности искусственного интеллекта MLCommons. Бенчмарк по безопасности искусственного интеллекта разработан для оценки рисков безопасности систем искусственного интеллекта, использующих языковые модели, настроенные на чаты. Мы представляем принципиальный подход к спецификации и созданию бенчмарка, который в версии 0.5 охватывает только один сценарий использования (взрослый общается с универсальным помощником на английском языке) и ограниченный набор персонажей (т.е. типичные пользователи, злонамеренные пользователи и уязвимые пользователи). Мы создали новую таксономию из 13 категорий опасностей, из которых 7 имеют тесты в бенчмарке версии 0.5. Мы планируем выпустить версию 1.0 Бенчмарка по безопасности искусственного интеллекта к концу 2024 года. Бенчмарк версии 1.0 предоставит значимые исследования безопасности систем искусственного интеллекта. Однако бенчмарк версии 0.5 не следует использовать для оценки безопасности систем искусственного интеллекта. Мы стремились полностью задокументировать ограничения, недостатки и вызовы версии 0.5. Этот выпуск версии 0.5 Бенчмарка по безопасности искусственного интеллекта включает (1) принципиальный подход к спецификации и созданию бенчмарка, включающий сценарии использования, типы тестируемых систем (SUTs), язык и контекст, персонажи, тесты и тестовые элементы; (2) таксономию из 13 категорий опасностей с определениями и подкатегориями; (3) тесты для семи из категорий опасностей, каждый из которых включает уникальный набор тестовых элементов, т.е. подсказок. Всего 43 090 тестовых элементов, которые мы создали с использованием шаблонов; (4) систему оценки систем искусственного интеллекта по бенчмарку; (5) платформу с открытым исходным кодом и загружаемый инструмент под названием ModelBench, который можно использовать для оценки безопасности систем искусственного интеллекта по бенчмарку; (6) пример отчета об оценке, который оценивает производительность более десятка открыто доступных языковых моделей, настроенных на чаты; (7) спецификацию теста для бенчмарка.