Ежедневно отобранные исследовательские статьи по ИИ с переводами
В данной статье мы стремимся улучшить производительность SwiftBrush, ведущей модели диффузии текста в изображение за один шаг, чтобы она была конкурентоспособной по сравнению с многошаговым аналогом Stable Diffusion. Сначала мы исследуем компромисс между качеством и разнообразием между SwiftBrush и SD Turbo: первая выделяется разнообразием изображений, в то время как вторая - качеством изображений. Это наблюдение мотивирует предложенные нами модификации в методологии обучения, включая более эффективную инициализацию весов и эффективное обучение с использованием LoRA. Более того, наше внедрение новой зажатой CLIP-потери улучшает выравнивание изображений и текста и приводит к улучшению качества изображений. Заметно, что путем объединения весов моделей, обученных с использованием эффективного LoRA и полного обучения, мы достигаем новой передовой модели диффузии за один шаг, достигая значения FID 8,14 и превосходя все модели на основе GAN и многошаговые модели Stable Diffusion. Код для оценки доступен по ссылке: https://github.com/vinairesearch/swiftbrushv2.
В последние годы фундаментальные модели (FMs), такие как большие языковые модели (LLMs) и модели латентной диффузии (LDMs), глубоко повлияли на различные секторы, включая музыку. В данном всестороннем обзоре рассматриваются передовые модели предварительного обучения (SOTA) и фундаментальные модели в музыке, охватывая области обучения представлений, генеративного обучения и мультимодального обучения. Сначала мы контекстуализируем значимость музыки в различных отраслях и прослеживаем эволюцию искусственного интеллекта в музыке. Определив модальности, на которые направлены фундаментальные модели, мы обнаруживаем, что многие представления музыки недостаточно исследованы в развитии FM. Затем делается акцент на недостаточной универсальности предыдущих методов в различных музыкальных приложениях, а также на потенциале FMs в понимании музыки, генерации и медицинском применении. Путем всестороннего изучения деталей парадигмы предварительного обучения модели, архитектурных выборов, токенизации, методологий донастройки и управляемости, мы подчеркиваем важные темы, которые должны были быть хорошо изучены, такие как настройка инструкций и обучение в контексте, закон масштабирования и возможности, а также моделирование длинных последовательностей и т. д. Отдельный раздел представляет анализ агентов музыки, сопровождаемый тщательным анализом наборов данных и оценок, необходимых для предварительного обучения и последующих задач. Наконец, подчеркивая важность этических соображений, мы выступаем за то, чтобы последующие исследования по FM для музыки уделяли больше внимания таким вопросам, как интерпретируемость, прозрачность, человеческая ответственность и авторские права. Статья предлагает взгляд на будущие вызовы и тенденции в области FM для музыки с целью формирования траектории сотрудничества человека и искусственного интеллекта в области музыки.
Разрешение проблем GitHub - это критическая задача в программной инженерии, недавно привлекающая значительное внимание как в индустрии, так и в академии. В рамках этой задачи был выпущен SWE-bench для оценки способностей к разрешению проблем крупных языковых моделей (LLM), но до сих пор он сосредоточен только на версии Python. Однако поддержка большего количества языков программирования также важна, поскольку существует большой спрос в индустрии. В качестве первого шага к поддержке многих языков мы разработали Java-версию SWE-bench, названную SWE-bench-java. Мы публично выпустили набор данных, вместе с соответствующей средой оценки на основе Docker и таблицей лидеров, которая будет непрерывно поддерживаться и обновляться в ближайшие месяцы. Чтобы проверить надежность SWE-bench-java, мы реализуем классический метод SWE-agent и тестируем несколько мощных LLM на нем. Как известно, разработка высококачественного многоязычного бенчмарка требует много времени и трудозатрат, поэтому мы приветствуем вклад через запросы на слияние или сотрудничество для ускорения его итерации и усовершенствования, открывая путь к полностью автоматизированному программированию.
Быстрое развитие визуальных генеративных моделей требует эффективных и надежных методов оценки. Платформа Arena, собирающая голоса пользователей при сравнении моделей, способна ранжировать модели с учётом человеческих предпочтений. Однако традиционные методы Arena, хоть и установленные, требуют излишнего количества сравнений для сходимости ранжирования и уязвимы к шуму предпочтений при голосовании, что указывает на необходимость лучших подходов, адаптированных к современным вызовам оценки. В данной статье мы представляем K-Sort Arena, эффективную и надежную платформу, основанную на ключевом принципе: изображения и видео обладают более высокой воспринимаемой интуитивностью, чем тексты, позволяя быструю оценку нескольких образцов одновременно. В результате K-Sort Arena использует сравнения по K моделям, позволяя K моделям участвовать в свободных соревнованиях, которые предоставляют гораздо более богатую информацию, чем попарные сравнения. Для улучшения устойчивости системы мы используем вероятностное моделирование и техники байесовского обновления. Мы предлагаем стратегию подбора пар на основе исследования-эксплуатации для облегчения более информативных сравнений. В наших экспериментах K-Sort Arena демонстрирует сходимость в 16,3 раза быстрее по сравнению с широко используемым алгоритмом ELO. Для дальнейшей проверки превосходства и получения всестороннего рейтинга мы собираем обратную связь от людей через краудсорсинговые оценки многочисленных передовых моделей текст-в-изображение и текст-в-видео. Благодаря своей высокой эффективности K-Sort Arena может непрерывно включать новые модели и обновлять рейтинг с минимальным количеством голосов. Наш проект прошёл несколько месяцев внутреннего тестирования и теперь доступен по адресу https://huggingface.co/spaces/ksort/K-Sort-Arena.
Широкое принятие облачных собственных крупных языковых моделей (LLM) внесло значительные вызовы, включая операционные зависимости, проблемы конфиденциальности и необходимость непрерывного интернет-соединения. В данной работе мы представляем конвейер LLMOps под названием "LlamaDuo" для плавного переноса знаний и способностей от ориентированных на обслуживание LLM к более маленьким, локально управляемым моделям. Этот конвейер критичен для обеспечения непрерывности обслуживания в случае операционных сбоев, строгих политик конфиденциальности или офлайн требований. Наш LlamaDuo включает донастройку небольшой языковой модели на основе сервисного LLM с использованием синтетического набора данных, сгенерированного последним. Если производительность донастроенной модели не соответствует ожиданиям, ее улучшают дополнительной донастройкой с использованием дополнительных похожих данных, созданных сервисным LLM. Этот итерационный процесс гарантирует, что более маленькая модель в конечном итоге может соответствовать или даже превзойти способности сервисного LLM в конкретных задачах последующего этапа, предлагая практичное и масштабируемое решение для управления развертыванием ИИ в ограниченных средах. Проведены обширные эксперименты с передовыми LLM для демонстрации эффективности, адаптивности и доступности LlamaDuo в различных задачах последующего этапа. Наша реализация конвейера доступна по адресу https://github.com/deep-diver/llamaduo.
Поиск оптимальной скорости обучения для предварительного обучения языковой модели представляет собой сложную задачу. Это связано не только с тем, что существует сложная корреляция между скоростью обучения, размером пакета, количеством обучающих токенов, размером модели и другими гиперпараметрами, но также с тем, что проведение поиска гиперпараметров для крупных языковых моделей с миллиардами или триллионами параметров является чрезмерно дорогостоящим. Недавние исследования предлагают использовать небольшие прокси-модели и небольшие корпуса для поиска гиперпараметров и транспонирования оптимальных параметров на крупные модели и большие корпуса. Хотя нулевая передача теоретически и эмпирически доказана для гиперпараметров, связанных с размером модели, таких как глубина и ширина, нулевая передача от небольшого корпуса к большому корпусу недостаточно исследована. В данной статье мы изучаем корреляцию между оптимальной скоростью обучения, размером пакета и количеством обучающих токенов для недавно предложенного планировщика WSD. После тысяч небольших экспериментов мы обнаружили степенную зависимость между переменными и продемонстрировали ее передаточную способность на модели различных размеров. На основе наблюдений мы предлагаем новый планировщик скорости обучения, планировщик Power, который не зависит от количества обучающих токенов и размера пакета. Эксперименты показывают, что комбинация планировщика Power с максимальной параметризацией обновления (muP) последовательно достигает впечатляющих результатов с одним набором гиперпараметров независимо от количества обучающих токенов, размера пакета, размера модели и даже архитектуры модели. Наши модели 3B dense и MoE, обученные с использованием планировщика Power, достигают сравнимой производительности с передовыми небольшими языковыми моделями. Мы предоставляем исходный код этих предварительно обученных моделей по ссылке https://ibm.biz/BdKhLa.
В многопользовательских шутерах от первого лица, таких как Counter-Strike: Global Offensive (CS:GO), согласованное движение является ключевым компонентом стратегической игры на высоком уровне. Однако сложность координации команды и разнообразие условий на популярных игровых картах делают невозможным создание ручных политик движения для каждого сценария. Мы показываем, что возможен подход, основанный на данных, к созданию контроллеров движения, похожих на человеческие, для CS:GO. Мы составляем набор данных движения команды, включающий 123 часа следов профессиональных игр, и используем этот набор данных для обучения модели движения на основе трансформера, которая генерирует человекоподобное движение команды для всех игроков в раунде "Retakes" игры. Важно, что модель предсказания движения эффективна. Выполнение вывода для всех игроков занимает менее 0,5 мс на шаг игры (амортизированная стоимость) на одном ядре ЦП, что делает ее пригодной для использования в коммерческих играх уже сегодня. Человеческие оценщики утверждают, что наша модель ведет себя более похоже на людей, чем какие-либо доступные в продаже боты и процедурные контроллеры движения, написанные экспертами (на 16% - 59% выше по рейтингу TrueSkill "похожий на человека"). С помощью экспериментов, включающих самостоятельную игру ботов в игре, мы демонстрируем, что наша модель выполняет простые формы командной работы, делает меньше общих ошибок движения и дает распределение движения, время жизни игроков и места убийств, аналогичные наблюдаемым в профессиональных матчах CS:GO.
Модели генерации видео обладают значительным потенциалом в областях, таких как кинопроизводство. Однако текущие модели диффузии видео требуют высоких вычислительных затрат и дают неоптимальные результаты из-за высокой сложности задачи генерации видео. В данной статье мы предлагаем ConFiner, эффективную высококачественную систему генерации видео, которая разделяет процесс генерации видео на более простые подзадачи: управление структурой и пространственно-временную доработку. Она способна создавать видео высокого качества с помощью цепочки экспертов моделей диффузии, каждый из которых отвечает за свою разделенную подзадачу. Во время доработки мы вводим согласованное шумоподавление, которое может объединить возможности нескольких экспертов по диффузии в одну выборку. Более того, мы разрабатываем структуру ConFiner-Long, которая способна генерировать длинное последовательное видео с тремя стратегиями ограничений на ConFiner. Экспериментальные результаты показывают, что при затратах на вывод всего лишь 10\% наш ConFiner превосходит представительные модели, такие как Lavie и Modelscope, по всем объективным и субъективным метрикам. А ConFiner-Long способен создавать видео высокого качества и последовательные видеоролики с до 600 кадрами.
Многомодельные крупные языковые модели (MM-LLM) продемонстрировали значительные успехи за последний год, проявив впечатляющую производительность в различных задачах. Однако для истинной демократизации искусственного интеллекта модели должны обладать высокими возможностями и способностью эффективно работать на небольших вычислительных устройствах, доступных для большинства. В рамках этой задачи мы представляем LLaVaOLMoBitnet1B - первую тернарную многомодельную языковую модель, способную принимать входные данные изображение(я)+текст для генерации согласованных текстовых ответов. Модель полностью открыта для общего доступа, вместе с скриптами обучения, чтобы поощрить дальнейшие исследования в этой области. Настоящий технический отчет подробно описывает процесс обучения, детали оценки, вызовы, связанные с тернарными моделями, а также перспективы для будущих исследований. Ссылка на модель: https://huggingface.co/IntelLabs/LlavaOLMoBitnet1B
Растущее использование Больших Языковых Моделей (LLM) привело к всплеску спроса на системы обслуживания планетарного масштаба, где десятки тысяч GPU непрерывно обслуживают сотни миллионов пользователей. В результате пропускная способность (при разумных ограничениях задержки) стала ключевым показателем, определяющим производительность систем обслуживания. Для увеличения пропускной способности были исследованы различные методы межустройственного параллелизма (например, данных, тензоров, конвейерный), однако существующие методы не учитывают одновременное использование различных ресурсов в пределах одного устройства, что приводит к недоиспользованию и неоптимальной производительности. Мы предлагаем NanoFlow, новую обслуживающую структуру, которая использует внутриустройственный параллелизм, перекрывая использование ресурсов, включая вычисления, память и сеть в пределах одного устройства через координацию операций. Для использования внутриустройственного параллелизма NanoFlow вводит два ключевых новшества: Во-первых, NanoFlow разбивает запросы на нано-партии на уровне операций, что разрывает зависимость последовательных операций в выводе LLM и позволяет перекрытие; затем, для извлечения выгоды из перекрытия, NanoFlow использует конвейер на уровне операций с планированием исполнения блоков, который разделяет функциональные блоки устройства и одновременно выполняет различные операции в каждом блоке. NanoFlow автоматизирует настройку конвейера с помощью алгоритма поиска параметров, что позволяет легко портировать NanoFlow на различные модели. Мы реализуем NanoFlow на GPU NVIDIA и оцениваем пропускную способность обслуживания от начала до конца на нескольких популярных моделях, таких как LLaMA-2-70B, Mixtral 8x7B, LLaMA-3-8B и т. д. С практическими нагрузками NanoFlow обеспечивает увеличение пропускной способности в 1,91 раза по сравнению с передовыми системами обслуживания, достигая от 59% до 72% оптимальной пропускной способности для портированных моделей.
Большие языковые модели (LLM) революционизировали обработку языка, достигая выдающихся результатов в различных приложениях. Однако развертывание LLM на периферийных устройствах ставит несколько вызовов в плане памяти, энергии и вычислительных затрат, что ограничивает их широкое использование в устройствах, таких как мобильные телефоны. Перспективным решением является сокращение количества бит, используемых для представления весов и активаций. Хотя существующие работы добились частичного успеха в квантовании LLM до меньших разрядностей, например, весов 4 бита, квантование активаций более 16 бит часто приводит к значительным вычислительным накладным расходам из-за недостаточной поддержки квантования на устройстве или значительного снижения точности. Тем не менее, активации 8 бит очень привлекательны для развертывания на устройствах, поскольку они позволили бы LLM полностью использовать аппаратное обеспечение, дружественное к мобильным устройствам, например, блоки обработки нейронов (NPU). В данной работе мы предпринимаем первую попытку облегчить развертывание LLM на устройствах с использованием только целочисленного квантования. Сначала мы исследуем ограничения существующих методов квантования для развертывания на устройствах, с особым вниманием на квантование активаций. Затем мы устраняем эти ограничения, представляя простой метод квантования после обучения, названный MobileQuant, который расширяет предыдущие работы по преобразованию эквивалентных весов, оптимизируя одновременно преобразование весов и параметры диапазона активаций в единой системе. MobileQuant демонстрирует превосходные возможности по сравнению с существующими методами, обеспечивая: 1) практически без потерь квантование на широком спектре бенчмарков LLM, 2) снижение задержки и энергопотребления на 20\%-50\% по сравнению с текущими стратегиями квантования на устройстве, 3) требование ограниченного вычислительного бюджета, 4) совместимость с вычислительными блоками, дружественными к мобильным устройствам, например, NPU.
Переходные видео играют ключевую роль в медиапроизводстве, улучшая плавность и связность визуальных повествований. Традиционные методы, такие как морфинг, часто лишены художественного привлекательного вида и требуют специализированных навыков, что ограничивает их эффективность. Недавние достижения в генерации видео на основе модели диффузии предлагают новые возможности для создания переходов, но сталкиваются с проблемами, такими как плохое моделирование взаимосвязи между кадрами и резкие изменения контента. Мы предлагаем новый подход к генерации видео переходов без обучения, используя модели диффузии на уровне видео, который решает эти ограничения без дополнительного обучения. Наш метод использует регрессию Гаусса для моделирования латентных представлений, обеспечивая плавные и динамичные переходы между кадрами. Кроме того, мы вводим условные контроли на основе интерполяции и архитектуру Frequency-aware Bidirectional Fusion (FBiF) для улучшения временного контроля и надежности переходов. Оценки на стандартных наборах данных и на специально подобранных парах изображений демонстрируют эффективность нашего подхода в создании высококачественных плавных видео переходов. Код предоставлен на https://sobeymil.github.io/tvg.com.
Большие языковые модели (LLM), такие как ChatGPT и Gemini, значительно продвинулись в области обработки естественного языка, позволяя различные приложения, такие как чат-боты и автоматическая генерация контента. Однако эти модели могут быть использованы злоумышленниками, которые создают токсичные подсказки для вызова вредных или неэтичных ответов. Эти лица часто применяют техники обхода безопасности, подчеркивая необходимость надежных методов обнаружения токсичных подсказок. Существующие методы обнаружения, как черный ящик, так и белый ящик, сталкиваются с проблемами, связанными с разнообразием токсичных подсказок, масштабируемостью и вычислительной эффективностью. В ответ на это мы предлагаем ToxicDetector, легкий серый ящик, разработанный для эффективного обнаружения токсичных подсказок в LLM. ToxicDetector использует LLM для создания токсичных концептуальных подсказок, использует векторы вложения для формирования признаковых векторов и применяет классификатор Multi-Layer Perceptron (MLP) для классификации подсказок. Наша оценка на различных версиях моделей LLama, Gemma-2 и нескольких наборах данных показывает, что ToxicDetector достигает высокой точности 96,39\% и низкого уровня ложных срабатываний 2,00\%, превосходя современные методы. Кроме того, время обработки ToxicDetector в размере 0,0780 секунды на подсказку делает его очень подходящим для приложений в реальном времени. ToxicDetector демонстрирует высокую точность, эффективность и масштабируемость, что делает его практичным методом для обнаружения токсичных подсказок в LLM.
Существующие работы по реконструкции человека по одному изображению страдают от слабой обобщаемости из-за недостаточных данных для обучения или 3D-несоответствий из-за отсутствия всесторонних знаний о мультиплановости. В данной статье мы представляем MagicMan, модель диффузии мультиплановости, специфическую для человека, разработанную для генерации высококачественных изображений нового вида на основе одного эталонного изображения. В ее основе мы используем предварительно обученную 2D модель диффузии в качестве генеративного априорного знания для обобщаемости, с параметрической моделью SMPL-X в качестве 3D априорного знания о теле для повышения осведомленности о 3D. Для решения критической задачи поддержания согласованности при достижении плотной генерации мультиплановости для улучшенной 3D реконструкции человека мы вначале представляем гибридное мультиплановое внимание для облегчения как эффективного, так и тщательного обмена информацией между различными видами. Кроме того, мы представляем геометрически осведомленную двойную ветвь для одновременной генерации как в области RGB, так и в нормальных областях, дополнительно улучшая согласованность с помощью геометрических подсказок. Наконец, для решения проблем с недостаточной точностью оценки SMPL-X, противоречащей эталонному изображению, мы предлагаем новую стратегию итеративного уточнения, которая постепенно оптимизирует точность SMPL-X, улучшая качество и согласованность сгенерированных мультиплановых изображений. Обширные экспериментальные результаты демонстрируют, что наш метод значительно превосходит существующие подходы как в синтезе нового вида, так и в последующих задачах 3D реконструкции человека.