Ежедневно отобранные исследовательские статьи по ИИ с переводами
Крупные языковые модели (LLMs) изменили ландшафт искусственного интеллекта, однако их огромный размер создает значительные вызовы с точки зрения вычислительных затрат. Мы представляем LoRAShear — новый эффективный подход для структурного сокращения LLMs и восстановления знаний. Для общих LLMs LoRAShear сначала создает графы зависимостей, чтобы определить минимально удаляемые структуры и проанализировать распределение знаний. Затем он выполняет прогрессивное структурированное сокращение адаптеров LoRA, что позволяет осуществить внутренний перенос знаний для лучшего сохранения информации в избыточных структурах. Для восстановления утраченных знаний в процессе сокращения LoRAShear тщательно изучает и предлагает схемы динамической тонкой настройки с динамическими адаптерами данных, чтобы эффективно сократить разрыв в производительности по сравнению с полными моделями. Численные результаты показывают, что, используя всего один GPU в течение нескольких дней, LoRAShear эффективно уменьшает объем LLMs на 20% при ухудшении производительности всего на 1,0% и значительно превосходит современные методы. Исходный код будет доступен по адресу https://github.com/microsoft/lorashear.
Мы представляем MM-VID, интегрированную систему, которая использует возможности GPT-4V в сочетании со специализированными инструментами для работы с визуальными, аудио- и речевыми данными, чтобы обеспечить продвинутое понимание видео. MM-VID разработана для решения задач, связанных с длинными видео и сложными сценариями, такими как анализ часового контента и понимание сюжетных линий, охватывающих несколько эпизодов. MM-VID применяет генерацию сценария из видео с использованием GPT-4V для преобразования мультимодальных элементов в длинный текстовый сценарий. Сгенерированный сценарий детализирует движения персонажей, их действия, выражения и диалоги, что открывает путь для крупных языковых моделей (LLM) к пониманию видео. Это позволяет реализовать продвинутые функции, включая аудиоописание, идентификацию персонажей и мультимодальное высокоуровневое понимание. Экспериментальные результаты демонстрируют эффективность MM-VID в обработке различных жанров видео с разной продолжительностью. Кроме того, мы показываем её потенциал при применении в интерактивных средах, таких как видеоигры и графические пользовательские интерфейсы.
Генерация видео вызывает растущий интерес как в академических кругах, так и в индустрии. Хотя коммерческие инструменты способны создавать правдоподобные видео, количество открытых моделей, доступных для исследователей и инженеров, остается ограниченным. В данной работе мы представляем две диффузионные модели для генерации высококачественного видео: модели text-to-video (T2V) и image-to-video (I2V). Модели T2V синтезируют видео на основе заданного текстового описания, тогда как модели I2V используют дополнительное изображение в качестве входных данных. Наша предложенная модель T2V способна генерировать реалистичные видео кинематографического качества с разрешением 1024×576, превосходя другие открытые модели T2V по качеству. Модель I2V разработана для создания видео, которые строго соответствуют содержанию предоставленного эталонного изображения, сохраняя его содержание, структуру и стиль. Эта модель является первой открытой базовой моделью I2V, способной преобразовывать заданное изображение в видеоклип с соблюдением ограничений на сохранение содержания. Мы уверены, что эти открытые модели генерации видео внесут значительный вклад в технологическое развитие сообщества.
Растущий спрос на крупные языковые модели (LLM) в таких приложениях, как генерация контента, интеллектуальные чат-боты и анализ тональности, создает значительные вызовы для поставщиков услуг LLM. Для эффективного использования ресурсов GPU и повышения пропускной способности популярной парадигмой стало пакетное выполнение множества запросов; чтобы ускорить пакетную обработку, методы квантования LLM сокращают потребление памяти и увеличивают вычислительную мощность. Однако распространенные схемы квантования (например, 8-битное квантование весов и активаций) не могут полностью использовать возможности современных GPU, такие как 4-битные целочисленные операторы, что приводит к неоптимальной производительности. Чтобы максимизировать пропускную способность обслуживания LLM, мы представляем Atom — метод низкобитного квантования, который обеспечивает значительное улучшение пропускной способности с минимальной потерей точности. Atom значительно повышает пропускную способность за счет использования низкобитных операторов и существенно снижает потребление памяти благодаря низкобитному квантованию. Высокая точность достигается за счет применения нового процесса смешанной точности и детализированного квантования. Мы оцениваем Atom в контексте обслуживания с использованием 4-битного квантования весов и активаций. Atom улучшает сквозную пропускную способность до 7,73 раз по сравнению с FP16 и до 2,53 раз по сравнению с INT8 квантованием, сохраняя при этом тот же целевой показатель задержки.
Включение пользовательского объекта в процесс генерации изображений представляет собой привлекательную функцию в генерации изображений по текстовому описанию. Однако существующие методы, основанные на оптимизации и кодировании, сталкиваются с такими недостатками, как длительная оптимизация, недостаточное сохранение идентичности и распространённый эффект "копирования-вставки". Чтобы преодолеть эти ограничения, мы представляем CustomNet — новый подход к настройке объектов, который явно интегрирует возможности синтеза новых 3D-видов в процесс кастомизации объектов. Эта интеграция позволяет регулировать пространственные отношения и точки обзора, создавая разнообразные результаты при эффективном сохранении идентичности объекта. Кроме того, мы предлагаем тщательно продуманные решения для управления расположением и гибкого управления фоном с помощью текстовых описаний или определённых пользовательских изображений, преодолевая ограничения существующих методов синтеза новых 3D-видов. Мы также используем конвейер построения набора данных, который лучше справляется с объектами из реального мира и сложными фонами. Благодаря этим решениям наш метод позволяет осуществлять настройку объектов в режиме zero-shot без оптимизации на этапе тестирования, обеспечивая одновременный контроль над точками обзора, расположением и фоном. В результате CustomNet гарантирует улучшенное сохранение идентичности и создаёт разнообразные, гармоничные результаты.
Крупные языковые модели (LLM) демонстрируют впечатляющие способности к рассуждению и расширению данных в различных задачах обработки естественного языка (NLP). Однако как обстоят дела с небольшими моделями? В данной работе мы представляем TeacherLM-7.1B, способную аннотировать ключевые основы, цепочку рассуждений и типичные ошибки для большинства NLP-примеров, что делает аннотацию не просто ответом, а позволяет другим моделям изучать "почему", а не только "что". Модель TeacherLM-7.1B достигла нулевого результата (zero-shot) в 52.3 балла на тесте MMLU, превзойдя большинство моделей с более чем 100 миллиардами параметров. Ещё более примечательна её способность к расширению данных. На основе TeacherLM-7.1B мы расширили 58 NLP-датасетов и обучили различные модели-ученики с разным количеством параметров из серий OPT и BLOOM в условиях многозадачного обучения. Результаты экспериментов показывают, что расширение данных, предоставленное TeacherLM, принесло значительные преимущества. Мы выпустим серию моделей TeacherLM и расширенные датасеты в открытый доступ.
В данной статье мы проводим критическую оценку возможностей современной мультимодальной модели большого языка, а именно GPT-4 с функцией Vision (GPT-4V), в задаче визуального ответа на вопросы (Visual Question Answering, VQA). Наши эксперименты всесторонне исследуют способность GPT-4V отвечать на вопросы, связанные с изображениями, используя данные из патологии и радиологии, охватывающие 11 модальностей (например, микроскопия, дерматоскопия, рентген, КТ и др.) и пятнадцать объектов интереса (мозг, печень, легкие и др.). Наши наборы данных включают широкий спектр медицинских запросов, включая шестнадцать различных типов вопросов. В ходе оценки мы разработали текстовые запросы для GPT-4V, направляя её на синтез визуальной и текстовой информации. Эксперименты с оценкой точности показывают, что текущая версия GPT-4V не рекомендуется для использования в реальной диагностике из-за её ненадёжной и недостаточной точности в ответах на диагностические медицинские вопросы. Кроме того, мы выделяем семь уникальных аспектов поведения GPT-4V в медицинской VQA, подчеркивая её ограничения в этой сложной области. Полные детали наших оценочных случаев доступны по адресу https://github.com/ZhilingYan/GPT4V-Medical-Report.
С ростом популярности мощных закрытых языковых моделей (LLM), таких как ChatGPT и GPT-4, возрастает интерес к передаче их возможностей меньшим открытым LLM. Традиционные методы дистилляции обычно предполагают генерацию ChatGPT набора инструкций и ответов, которые затем используются для обучения студенческой модели. Однако такой стандартный подход к дистилляции игнорирует особенности и условия работы студенческой модели. Вдохновленные современными принципами обучения, мы разработали персонализированный процесс дистилляции, в котором студенческая модель сначала пытается решить задачу, а затем учитель предоставляет адаптивное уточнение для улучшения решения. Вместо того чтобы предоставлять студенческой модели заранее подготовленные данные учителя, персонализированная дистилляция позволяет модели учиться на примерах, в которых она допускает ошибки, и улучшать свои собственные решения. В задаче генерации кода персонализированная дистилляция стабильно превосходит стандартный подход, используя лишь треть данных. Всего 2,5–3 тыс. персонализированных примеров, сбор которых обходится в 4–6 долларов, позволяют улучшить показатели модели CodeGen-mono-16B на 7%, достигнув 36,4% pass@1, и модели StarCoder на 12,2%, достигнув 45,8% pass@1 на тесте HumanEval.
В данном техническом отчете мы представляем Skywork-13B — семейство крупных языковых моделей (LLM), обученных на корпусе из более чем 3,2 триллионов токенов, включающих тексты на английском и китайском языках. Эта двуязычная базовая модель является наиболее масштабно обученной и открыто опубликованной LLM сопоставимого размера на сегодняшний день. Мы описываем двухэтапную методику обучения с использованием сегментированного корпуса, нацеленную сначала на общее обучение, а затем на специализированное обучение для конкретных областей. Мы показываем, что наша модель не только демонстрирует выдающиеся результаты на популярных бенчмарках, но и достигает передовых показателей в моделировании китайского языка в различных областях. Кроме того, мы предлагаем новый метод обнаружения утечек данных, демонстрируя, что загрязнение тестовых данных является актуальной проблемой, требующей дальнейшего изучения сообществом LLM. Для стимулирования будущих исследований мы выпускаем Skywork-13B вместе с контрольными точками, полученными на промежуточных этапах процесса обучения. Мы также публикуем часть нашего корпуса SkyPile, содержащего более 150 миллиардов токенов веб-текстов, который является крупнейшим открытым корпусом высокого качества для предварительного обучения на китайском языке на сегодняшний день. Мы надеемся, что Skywork-13B и наш открытый корпус станут ценным открытым ресурсом, способствующим демократизации доступа к высококачественным LLM.
Генерация 3D-моделей из текста в последнее время достигла значительного прогресса, особенно благодаря методам, основанным на Score Distillation Sampling (SDS), которые используют предобученные 2D диффузионные модели. Хотя использование классификатор-фри гида (classifier-free guidance) широко признано важным для успешной оптимизации, оно считается скорее вспомогательным приемом, чем ключевым компонентом. В данной работе мы переоцениваем роль классификатор-фри гида в процессе дистилляции оценок и обнаруживаем удивительный факт: сам по себе гид достаточен для эффективного выполнения задач генерации 3D-моделей из текста. Мы называем этот метод Classifier Score Distillation (CSD), который можно интерпретировать как использование неявной классификационной модели для генерации. Этот новый взгляд открывает новые возможности для понимания существующих техник. Мы подтверждаем эффективность CSD на различных задачах генерации 3D-моделей, включая создание форм, синтез текстур и редактирование форм, достигая результатов, превосходящих современные методы. Наша страница проекта доступна по адресу: https://xinyu-andy.github.io/Classifier-Score-Distillation.