Ежедневно отобранные исследовательские статьи по ИИ с переводами
Интеграция и развертывание интеллектуальных агентов на основе крупных языковых моделей (LLM) сталкиваются с рядом проблем, которые подрывают их эффективность и эффективность. Среди этих проблем - субоптимальное планирование и распределение ресурсов запросов агентов по LLM, трудности в поддержании контекста во время взаимодействия между агентом и LLM, а также сложности, связанные с интеграцией гетерогенных агентов с различными способностями и специализациями. Быстрый рост количества агентов и их сложности дополнительно усугубляет эти проблемы, часто приводя к узким местам и субоптимальному использованию ресурсов. Вдохновленные этими вызовами, в данной статье представляется AIOS - операционная система агента LLM, которая встраивает крупную языковую модель в операционные системы (OS). Конкретно AIOS разработана для оптимизации распределения ресурсов, облегчения переключения контекста между агентами, обеспечения параллельного выполнения агентов, предоставления сервисов инструментов для агентов и обеспечения контроля доступа для агентов. Мы представляем архитектуру такой операционной системы, обозначаем основные вызовы, которые она ставит перед собой, и предоставляем основной дизайн и реализацию AIOS. Наши эксперименты по параллельному выполнению нескольких агентов демонстрируют надежность и эффективность модулей AIOS. Через это мы стремимся не только улучшить производительность и эффективность агентов LLM, но также выступить за лучшее развитие и развертывание экосистемы AIOS в будущем. Проект является открытым и доступен по адресу https://github.com/agiresearch/AIOS.
Модели диффузии текста в изображение обладают невиданной способностью генерировать разнообразные и высококачественные изображения. Однако они часто испытывают затруднения в точном воспроизведении заданной семантики сложных входных запросов, включающих несколько объектов. Недавно было представлено множество расширений от макета к изображению для улучшения контроля пользователя с целью локализации объектов, представленных определенными токенами. Тем не менее, эти методы часто порождают семантически неточные изображения, особенно при работе с несколькими семантически или визуально схожими объектами. В данной работе мы изучаем и анализируем причины этих ограничений. Наше исследование показывает, что основная проблема происходит из непреднамеренного семантического протекания между объектами в процессе удаления шума. Это протекание связано с слоями внимания модели диффузии, которые склонны смешивать визуальные характеристики различных объектов. Для решения этих проблем мы представляем Ограниченное Внимание, метод без обучения для ограничения потока информации в процессе выборки. Ограниченное Внимание предотвращает вредное протекание между объектами и позволяет направлять генерацию для поддержки индивидуальности каждого объекта, даже при сложном мультиобъектном условии. Через обширные эксперименты мы демонстрируем, что наш метод усиливает генерацию нескольких объектов, лучше соответствующих заданным запросам и макетам.
Эта работа представляет FlashFace, практичный инструмент, с помощью которого пользователи могут легко на лету персонализировать свои собственные фотографии, предоставляя одно или несколько опорных изображений лица и текстовую подсказку. Наш подход отличается от существующих методов настройки фотографий людей более высоким сохранением идентичности и лучшим следованием инструкциям благодаря двум тонким конструкциям. Во-первых, мы кодируем идентичность лица в серию карт признаков, а не в один изображение-токен, как в предыдущих работах, что позволяет модели сохранить больше деталей опорных лиц (например, шрамы, татуировки и форму лица). Во-вторых, мы вводим стратегию дезинтеграции для балансировки текстового и изображенческого руководства в процессе генерации изображения по тексту, смягчая конфликт между опорными лицами и текстовыми подсказками (например, персонализация взрослого в "ребенка" или "пожилого человека"). Обширные экспериментальные результаты демонстрируют эффективность нашего метода в различных приложениях, включая персонализацию изображений людей, обмен лицами по языковым подсказкам, превращение виртуальных персонажей в реальных людей и т. д. Страница проекта: https://jshilong.github.io/flashface-page.
Недавние достижения в моделях диффузии вывели их на передовую позицию в области генерации изображений. Несмотря на их высокую производительность, модели диффузии не лишены недостатков; их сложные архитектуры и значительные вычислительные требования приводят к значительной задержке из-за итеративного процесса выборки. Для устранения этих ограничений мы предлагаем двойной подход, включающий миниатюризацию модели и сокращение шагов выборки с целью существенного снижения задержки модели. Наш метод использует дистилляцию знаний для оптимизации архитектур U-Net и декодера изображений, а также представляет инновационный метод обучения DM за один шаг, использующий сопоставление признаков и дистилляцию оценок. Мы представляем две модели, SDXS-512 и SDXS-1024, достигающие скорости вывода около 100 кадров в секунду (в 30 раз быстрее, чем SD v1.5) и 30 к/с (в 60 раз быстрее, чем SDXL) на одном графическом процессоре соответственно. Более того, наш метод обучения предлагает перспективные применения в управлении на основе изображений, облегчая эффективное преобразование изображения в изображение.
Сжатие мощных моделей языка (Large Language Models, LLM) стало предпочтительной стратегией для ресурсоэффективных выводов. В то время как современные методы сжатия (SoTA) гордятся впечатляющими достижениями в сохранении производительности задач, потенциальные риски сжатия с точки зрения безопасности и надежности в значительной степени остаются незамеченными. В данном исследовании проводится первичная, тщательная оценка трех (3) ведущих LLM с использованием пяти (5) современных методов сжатия по восьми (8) измерениям надежности. Наши эксперименты подчеркивают сложное взаимодействие между сжатием и надежностью, раскрывая некоторые интересные закономерности. Мы обнаружили, что квантование в настоящее время является более эффективным подходом, чем обрезка, для одновременного достижения эффективности и надежности. Например, 4-битная квантованная модель сохраняет надежность своего оригинального аналога, в то время как обрезка модели значительно снижает надежность, даже при 50% разреженности. Более того, использование квантования в умеренном диапазоне битов может неожиданно улучшить определенные измерения надежности, такие как этика и справедливость. Напротив, экстремальное квантование до очень низкого уровня битов (3 бита) обычно значительно снижает надежность. Этот увеличенный риск нельзя выявить, просто оценивая производительность задач, что, в свою очередь, требует всесторонней оценки надежности на практике. Эти результаты приводят к практическим рекомендациям для одновременного достижения высокой полезности, эффективности и надежности в LLM. Модели и код доступны на https://decoding-comp-trust.github.io/.
Мы представляем RakutenAI-7B, набор японско-ориентированных крупных языковых моделей, которые достигли лучшей производительности на японских бенчмарках LM Harness среди открытых моделей объемом 7B. Вместе с базовой моделью мы выпускаем модели, настроенные на инструкции и чат, соответственно RakutenAI-7B-instruct и RakutenAI-7B-chat, под лицензией Apache 2.0.
Недавние достижения в генерации текста в видео продемонстрировали полезность мощных моделей диффузии. Тем не менее, проблема не является тривиальной при формировании моделей диффузии для анимации статического изображения (т.е. генерации видео изображения). Сложность возникает из-за того, что диффузионный процесс последовательных анимированных кадров должен не только сохранять верное выравнивание с заданным изображением, но и обеспечивать временную согласованность между смежными кадрами. Для устранения этого мы представляем TRIP, новый подход к диффузионной парадигме изображения в видео, который опирается на шум изображения, полученный из статического изображения, чтобы совместно запускать межкадровое реляционное рассуждение и облегчить согласованное временное моделирование с помощью обучения временных остатков. Технически, шум изображения получается сначала через одношаговый обратный процесс диффузии на основе как статического изображения, так и кодов латентных переменных зашумленного видео. Затем TRIP выполняет схему двойного пути, похожую на остаток, для прогнозирования шума: 1) прямой путь, который непосредственно принимает шум изображения как опорный шум каждого кадра для усиления выравнивания между первым кадром и последующими кадрами; 2) остаточный путь, который использует 3D-UNet над кодами латентных переменных зашумленного видео и статического изображения для обеспечения межкадрового реляционного рассуждения, тем самым облегчая обучение остаточного шума для каждого кадра. Более того, опорный и остаточный шум каждого кадра динамически объединяются с помощью механизма внимания для окончательной генерации видео. Обширные эксперименты на наборах данных WebVid-10M, DTDB и MSR-VTT демонстрируют эффективность нашего подхода TRIP для генерации видео изображений. Пожалуйста, посетите нашу страницу проекта по ссылке https://trip-i2v.github.io/TRIP/.
Недавние инновации в области генерации текста в 3D пространство включают в себя метод Score Distillation Sampling (SDS), который позволяет обучение без образцов неявных 3D моделей (NeRF) путем прямой дистилляции предварительных знаний из 2D моделей диффузии. Однако текущие модели, основанные на SDS, все еще испытывают трудности с сложными текстовыми подсказками и часто приводят к искаженным 3D моделям с нереалистичными текстурами или проблемами с несоответствием перспективы. В данной работе мы представляем новую модель диффузии текста в 3D пространство с управляемой визуальной подсказкой (VP3D), которая явно использует знания о визуальном внешнем виде из 2D визуальной подсказки для улучшения генерации текста в 3D. Вместо того, чтобы только контролировать SDS с помощью текстовой подсказки, VP3D сначала использует 2D модель диффузии для создания качественного изображения из входного текста, которое затем действует как визуальная подсказка для усиления оптимизации SDS с явным визуальным внешним видом. В то же время мы связываем оптимизацию SDS с дополнительной дифференцируемой функцией вознаграждения, которая поощряет рендеринг изображений 3D моделей для лучшего визуального соответствия 2D визуальной подсказке и семантическому соответствию текстовой подсказке. Через обширные эксперименты мы показываем, что 2D визуальная подсказка в нашей модели VP3D значительно облегчает обучение визуальному внешнему виду 3D моделей и, таким образом, приводит к более высокой визуальной достоверности с более детализированными текстурами. Это также привлекательно с точки зрения того, что при замене самогенерируемой визуальной подсказки данной эталонной картинкой, VP3D способна запускать новую задачу стилизованной генерации текста в 3D. Наша страница проекта доступна по адресу https://vp3d-cvpr24.github.io.