Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы предлагаем концепцию для классификации возможностей и поведения моделей Искусственного Общего Интеллекта (ИОИ) и их предшественников. Эта концепция вводит уровни производительности, универсальности и автономности ИОИ. Мы надеемся, что данная концепция будет полезна аналогично уровням автономного вождения, предоставляя общий язык для сравнения моделей, оценки рисков и измерения прогресса на пути к ИОИ. Для разработки нашей концепции мы анализируем существующие определения ИОИ и выделяем шесть принципов, которым должна соответствовать полезная онтология для ИОИ. Эти принципы включают фокусировку на возможностях, а не на механизмах; отдельную оценку универсальности и производительности; и определение этапов на пути к ИОИ, а не концентрацию на конечной цели. С учетом этих принципов мы предлагаем «Уровни ИОИ», основанные на глубине (производительности) и широте (универсальности) возможностей, и рассматриваем, как текущие системы вписываются в эту онтологию. Мы обсуждаем сложные требования к будущим тестам, которые количественно оценивают поведение и возможности моделей ИОИ в соответствии с этими уровнями. Наконец, мы рассматриваем, как эти уровни ИОИ взаимодействуют с аспектами внедрения, такими как автономность и риск, и подчеркиваем важность тщательного выбора парадигм взаимодействия человека и ИИ для ответственного и безопасного внедрения высокоэффективных систем ИИ.
Крупные мультимодальные модели (LMMs) расширяют возможности крупных языковых моделей на область зрения. Первые попытки создания LMMs использовали целостные изображения и текстовые запросы для генерации необоснованных текстовых ответов. Совсем недавно региональные LMMs стали применяться для генерации визуально обоснованных ответов. Однако они ограничены возможностью ссылаться только на одну категорию объектов за раз, требуют от пользователей указания регионов на входе или не могут предложить плотное пиксельное обоснование объектов. В данной работе мы представляем модель Grounding LMM (GLaMM), первую модель, способную генерировать естественные языковые ответы, плавно переплетенные с соответствующими масками сегментации объектов. GLaMM не только обосновывает объекты, появляющиеся в беседах, но и достаточно гибка, чтобы принимать как текстовые, так и опциональные визуальные запросы (область интереса) на входе. Это позволяет пользователям взаимодействовать с моделью на различных уровнях детализации как в текстовой, так и в визуальной областях. Из-за отсутствия стандартных тестов для новой задачи генерации визуально обоснованных детальных бесед, мы вводим комплексный протокол оценки с нашими курированными обоснованными беседами. Наша предложенная задача генерации обоснованных бесед (GCG) требует плотного обоснования концепций в естественных сценах в большом масштабе. Для этого мы предлагаем плотно аннотированный набор данных Grounding-anything Dataset (GranD), используя наш предложенный автоматизированный конвейер аннотации, который охватывает 7.5M уникальных концепций, обоснованных в общей сложности в 810M регионах, доступных с масками сегментации. Помимо GCG, GLaMM также эффективно выполняет несколько последующих задач, например, сегментацию выражений ссылок, генерацию подписей к изображениям и регионам, а также визуально-языковые беседы. Страница проекта: https://mbzuai-oryx.github.io/groundingLMM.
Синтез видео в последнее время достиг значительных успехов благодаря быстрому развитию диффузионных моделей. Однако он по-прежнему сталкивается с проблемами в области семантической точности, четкости и пространственно-временной непрерывности. Эти трудности возникают в основном из-за недостатка хорошо согласованных текстово-видео данных и сложной внутренней структуры видео, что затрудняет одновременное обеспечение семантического и качественного превосходства модели. В данном отчете мы предлагаем каскадный подход I2VGen-XL, который повышает производительность модели за счет разделения этих двух факторов и обеспечивает согласованность входных данных, используя статические изображения в качестве ключевого ориентира. I2VGen-XL состоит из двух этапов: i) базовый этап гарантирует согласованную семантику и сохраняет содержание входных изображений с использованием двух иерархических кодировщиков, и ii) этап улучшения детализирует видео за счет добавления краткого текста и повышает разрешение до 1280×720. Для повышения разнообразия мы собрали около 35 миллионов одиночных текстово-видео пар и 6 миллиардов текстово-изображений для оптимизации модели. Таким образом, I2VGen-XL может одновременно улучшать семантическую точность, непрерывность деталей и четкость генерируемых видео. В ходе обширных экспериментов мы изучили основные принципы работы I2VGen-XL и сравнили его с современными передовыми методами, что демонстрирует его эффективность на разнообразных данных. Исходный код и модели будут общедоступны по адресу https://i2vgen-xl.github.io.
Парадигма "предварительное обучение с последующей тонкой настройкой" широко используется при развертывании крупных языковых моделей. Low-Rank Adaptation (LoRA), метод эффективной тонкой настройки параметров, часто применяется для адаптации базовой модели к множеству задач, что приводит к созданию значительного набора адаптеров LoRA, производных от одной базовой модели. Мы отмечаем, что эта парадигма открывает значительные возможности для пакетного вывода при обслуживании. Чтобы воспользоваться этими возможностями, мы представляем S-LoRA — систему, предназначенную для масштабируемого обслуживания множества адаптеров LoRA. S-LoRA хранит все адаптеры в основной памяти и загружает адаптеры, используемые текущими запросами, в память GPU. Для эффективного использования памяти GPU и уменьшения фрагментации S-LoRA предлагает Unified Paging. Unified Paging использует единый пул памяти для управления динамическими весами адаптеров с различными рангами и тензорами кэша ключей и значений (KV cache) с разной длиной последовательностей. Кроме того, S-LoRA применяет новую стратегию тензорного параллелизма и высокооптимизированные пользовательские CUDA-ядра для гетерогенного пакетного вычисления LoRA. В совокупности эти функции позволяют S-LoRA обслуживать тысячи адаптеров LoRA на одном GPU или на нескольких GPU с минимальными накладными расходами. По сравнению с передовыми библиотеками, такими как HuggingFace PEFT и vLLM (с базовой поддержкой обслуживания LoRA), S-LoRA может увеличить пропускную способность до 4 раз и на несколько порядков увеличить количество обслуживаемых адаптеров. В результате S-LoRA обеспечивает масштабируемое обслуживание множества моделей, настроенных для конкретных задач, и открывает потенциал для крупномасштабных услуг по персонализированной тонкой настройке.
Мы представляем CogVLM — мощную открытую модель-основу для обработки визуальной и языковой информации. В отличие от популярного метода поверхностного согласования, который отображает визуальные признаки во входное пространство языковой модели, CogVLM устраняет разрыв между замороженной предобученной языковой моделью и кодировщиком изображений с помощью обучаемого модуля визуального эксперта в слоях внимания и FFN. В результате CogVLM обеспечивает глубокое слияние визуальных и языковых признаков без ущерба для производительности в задачах обработки естественного языка. CogVLM-17B демонстрирует наилучшие результаты на 10 классических кросс-модальных тестах, включая NoCaps, Flicker30k captioning, RefCOCO, RefCOCO+, RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz VQA и TDIUC, а также занимает второе место на VQAv2, OKVQA, TextVQA, COCO captioning и других, превосходя или сравниваясь с PaLI-X 55B. Код и контрольные точки доступны по адресу https://github.com/THUDM/CogVLM.
Динамические вычисления форм стали критически важными в современных задачах машинного обучения, особенно в новых крупных языковых моделях. Успех этих моделей стимулировал спрос на их развертывание в разнообразных средах выполнения. В данной статье мы представляем Relax — абстракцию компилятора для оптимизации сквозных динамических задач машинного обучения. Relax вводит аннотации символических форм первого класса для глобального отслеживания динамических вычислений форм в программе. Также он предлагает кросс-уровневую абстракцию, которая инкапсулирует вычислительные графы, тензорные программы на уровне циклов и вызовы библиотек в единое представление, что позволяет выполнять кросс-уровневую оптимизацию. Мы разработали сквозной фреймворк компиляции с использованием предложенного подхода для оптимизации моделей с динамическими формами. Экспериментальные результаты на крупных языковых моделях показывают, что Relax демонстрирует производительность, сопоставимую с современными системами, оптимизированными вручную, на различных платформах, и позволяет развертывать новые динамические модели в более широком спектре сред, включая мобильные устройства, встроенные системы и веб-браузеры.
В последние годы было предложено множество крупных языковых моделей (LLM), включая как закрытые, так и открытые, которые постоянно устанавливают новые рекорды на различных тестовых наборах. Однако развитие LLM по-прежнему сталкивается с рядом проблем, таких как высокая стоимость обучения моделей с нуля и катастрофическое забывание при непрерывном предобучении. Хотя многие из этих проблем решаются в ходе исследований LLM, важным и практическим ограничением остается то, что многие работы чрезмерно сосредоточены на увеличении размеров моделей, не уделяя достаточного внимания всестороннему анализу и оптимизации использования данных предобучения в процессе обучения, а также правильной организации и эффективному использованию таких данных при обучении LLM в условиях ограниченных ресурсов. В данной работе мы представляем Ziya2 — модель с 13 миллиардами параметров, основанную на LLaMA2, которая прошла дополнительное предобучение на 700 миллиардах токенов. Мы сосредоточились на методах предобучения и использовали оптимизацию, ориентированную на данные, чтобы улучшить процесс обучения Ziya2 на различных этапах. Эксперименты показывают, что Ziya2 значительно превосходит другие модели на множестве тестовых наборов, демонстрируя особенно впечатляющие результаты по сравнению с представительными открытыми моделями. Ziya2 (Base) доступна по ссылкам: https://huggingface.co/IDEA-CCNL/Ziya2-13B-Base и https://modelscope.cn/models/Fengshenbang/Ziya2-13B-Base/summary.
Мы представляем сквозную систему для высококачественного захвата, реконструкции модели и рендеринга в реальном времени проходимых пространств в виртуальной реальности с использованием нейронных полей излучения. Для этого мы разработали и собрали специализированную многокамерную установку, позволяющую плотно захватывать проходимые пространства с высокой точностью и многовидовыми изображениями с расширенным динамическим диапазоном, обеспечивая беспрецедентное качество и плотность данных. Мы расширяем метод мгновенных нейронных графических примитивов, вводя новое перцептивное цветовое пространство для обучения точному представлению HDR, а также эффективный механизм мипмаппинга для рендеринга с учетом уровня детализации и сглаживания, тщательно оптимизируя баланс между качеством и скоростью. Наш многопроцессорный рендерер позволяет выполнять высококачественный объемный рендеринг нашей модели нейронного поля излучения с полным разрешением VR 2K×2K на каждом глазу с частотой 36 Гц на нашей демонстрационной машине. Мы демонстрируем качество наших результатов на сложных наборах данных с высокой точностью и сравниваем наш метод и данные с существующими базовыми подходами. Мы публикуем наш набор данных на сайте проекта.
В статьях, написанных людьми, мы часто используем тонкости стиля текста, такие как жирный шрифт и курсив, чтобы направлять внимание читателей. Эти текстовые акценты крайне важны для понимания передаваемой информации. При взаимодействии с большими языковыми моделями (LLM) возникает аналогичная потребность — направлять внимание модели на информацию, указанную пользователем, например, на инструкцию. Однако существующие методы ограничены обработкой обычного текста и не поддерживают такой механизм. Это побудило нас представить PASTA — Post-hoc Attention STeering Approach, метод, который позволяет LLM читать текст с акцентами, заданными пользователем. Для этого PASTA выделяет небольшое подмножество голов внимания и применяет точное перераспределение внимания на них, направляя внимание модели на указанные пользователем части текста. Как и в случае с промптами, PASTA применяется на этапе вывода и не требует изменения параметров модели. Эксперименты показывают, что PASTA может значительно улучшить способность LLM следовать инструкциям пользователя или интегрировать новые знания из пользовательских данных, что приводит к существенному улучшению производительности в различных задачах, например, к увеличению средней точности на 22% для модели LLAMA-7B. Наш код доступен по адресу https://github.com/QingruZhang/PASTA.
Латентные диффузионные модели доказали свою эффективность как передовой метод в создании и манипуляции визуальными данными. Однако, насколько нам известно, совместная генерация карт глубины и RGB-изображений до сих пор остается ограниченной. Мы представляем LDM3D-VR — набор диффузионных моделей, ориентированных на разработку виртуальной реальности, который включает LDM3D-pano и LDM3D-SR. Эти модели позволяют генерировать панорамные RGBD-изображения на основе текстовых запросов и повышать разрешение низкокачественных входных данных до высококачественных RGBD-изображений соответственно. Наши модели дообучены на основе существующих предобученных моделей с использованием наборов данных, содержащих панорамные/высококачественные RGB-изображения, карты глубины и текстовые описания. Обе модели оцениваются в сравнении с существующими родственными методами.
Код-ориентированные языковые модели (Code LLMs) стали отдельной областью исследований, где значительные усилия направлены на улучшение способностей моделей к написанию кода с помощью тонкой настройки предварительно обученных моделей. Предыдущие подходы к тонкой настройке обычно адаптировались под конкретные задачи или сценарии, что требовало отдельной настройки для каждой задачи, значительных ресурсов для обучения и создавало сложности в развертывании и поддержке. Кроме того, эти подходы не учитывали внутреннюю взаимосвязь между различными задачами, связанными с кодом. Чтобы преодолеть эти ограничения, мы представляем многоцелевую структуру тонкой настройки MFTcoder, которая позволяет одновременно и параллельно выполнять тонкую настройку для нескольких задач. Включая различные функции потерь, мы эффективно решаем общие проблемы многоцелевого обучения, такие как дисбаланс данных, разный уровень сложности и неодинаковая скорость сходимости. Многочисленные эксперименты убедительно показали, что наш подход к многоцелевой тонкой настройке превосходит как индивидуальную настройку для отдельных задач, так и настройку на смешанном наборе задач. Более того, MFTcoder предлагает эффективные возможности обучения, включая режимы эффективной токенизации данных и тонкую настройку PEFT, что значительно повышает скорость по сравнению с традиционными методами тонкой настройки. MFTcoder легко интегрируется с несколькими популярными открытыми языковыми моделями, такими как CodeLLama и Qwen. Используя основу CodeLLama, наша модель, настроенная с помощью MFTcoder, CodeFuse-CodeLLama-34B, достигает впечатляющего результата pass@1 в 74,4\% на бенчмарке HumaneEval, превосходя производительность GPT-4 (67\%, zero-shot). MFTCoder доступен в открытом исходном коде по адресу https://github.com/codefuse-ai/MFTCOder.
Замечательная способность человека заключается в композиционном мышлении, то есть в умении делать "бесконечное использование конечных средств". Однако современные крупные модели, объединяющие зрение и язык (VLMs), не обладают такими композиционными способностями из-за их "мешкообразного" поведения и неспособности конструировать слова, которые корректно представляют визуальные объекты и отношения между ними. В связи с этим мы предлагаем CoVLM, которая может направлять языковую модель (LLM) на явное составление визуальных объектов и отношений в тексте, а также динамически взаимодействовать с визуальным кодировщиком и сетью детекции для достижения коммуникативного декодирования между зрением и языком. В частности, мы сначала разрабатываем набор новых коммуникационных токенов для LLM, предназначенных для динамического взаимодействия между системой визуальной детекции и языковой системой. Коммуникационный токен генерируется LLM после визуального объекта или отношения, чтобы сообщить сети детекции предложить области, релевантные сгенерированному на данный момент предложению. Предложенные области интереса (ROIs) затем возвращаются в LLM для улучшения генерации языка с учетом соответствующих областей. Таким образом, LLM может составлять визуальные объекты и отношения через коммуникационные токены. Взаимодействие между зрением и языком и языком и зрением выполняется итеративно до тех пор, пока не будет сгенерировано все предложение. Наша структура эффективно устраняет разрыв между визуальным восприятием и LLM и значительно превосходит предыдущие VLMs по показателям композиционного мышления (например, ~20% в HICO-DET mAP, ~14% в Cola top-1 accuracy и ~3% в ARO top-1 accuracy). Мы также достигаем современных результатов в традиционных задачах, связанных с зрением и языком, таких как понимание референциальных выражений и визуальный вопросно-ответный анализ.
Дистилляция знаний (Knowledge Distillation, KD) сжимает вычислительно затратные предобученные языковые модели (PLM), передавая их знания более компактным моделям, что позволяет использовать их в условиях ограниченных ресурсов или в режиме реального времени. Однако большинство компактных моделей не превосходят по производительности исходные крупные модели, что приводит к компромиссу между производительностью и скоростью вывода. Для решения этой проблемы мы предлагаем Co-Training and Co-Distillation (CTCD) — новый фреймворк, который одновременно улучшает производительность и скорость вывода за счет совместного обучения двух моделей с взаимной дистилляцией знаний. Фреймворк CTCD успешно достигает этого благодаря двум важным выводам: 1) Дистилляция знаний от компактной модели к крупной модели в процессе совместного обучения улучшает производительность крупной модели. 2) Улучшенная производительность крупной модели дополнительно повышает производительность компактной модели. Фреймворк CTCD демонстрирует потенциал, так как может быть объединен с существующими методами, такими как проектирование архитектуры или аугментация данных, заменяя односторонние методы KD, для достижения дальнейшего улучшения производительности. Обширные абляционные исследования подтверждают эффективность CTCD, а компактная модель, полученная с помощью CTCD, превосходит исходную крупную модель на значительную величину в 1.66 балла на бенчмарке GLUE.
В данной статье мы представляем Consistent4D — новый подход для генерации 4D-динамических объектов из некалиброванных монохромных видео. Уникальность нашего метода заключается в том, что мы формулируем задачу реконструкции 360-градусных динамических объектов как проблему 4D-генерации, устраняя необходимость трудоемкого сбора многовидовых данных и калибровки камер. Это достигается за счет использования объектно-ориентированной 3D-осознанной модели диффузии изображений в качестве основного сигнала обучения для Dynamic Neural Radiance Fields (DyNeRF). В частности, мы предлагаем каскадную архитектуру DyNeRF, которая способствует стабильной сходимости и временной непрерывности при обучении с дискретным по временной оси сигналом. Для достижения пространственной и временной согласованности мы дополнительно вводим функцию потерь на основе интерполяции (Interpolation-driven Consistency Loss). Она оптимизируется путем минимизации расхождения между кадрами, сгенерированными DyNeRF, и интерполированными кадрами из предварительно обученной модели интерполяции видео. Многочисленные эксперименты показывают, что наш метод Consistent4D демонстрирует конкурентоспособные результаты по сравнению с существующими аналогами, открывая новые возможности для генерации 4D-динамических объектов из монохромных видео, а также показывая преимущества в традиционных задачах текстовой генерации 3D-моделей. Страница проекта доступна по адресу: https://consistent4d.github.io/.
Крупные языковые модели (LM) способны генерировать свободные текстовые обоснования для помощи в ответах на вопросы. Однако предыдущие исследования 1) указывают на то, что полезная самообоснованность проявляется только на значительных масштабах (например, GPT-3 с 175 миллиардами параметров); и 2) в основном сосредоточены на итоговой производительности, игнорируя семантику самих обоснований, например, являются ли они достоверными, истинными и полезными для людей? В данной работе мы позволяем небольшим языковым моделям (примерно в 200 раз меньше GPT-3) генерировать обоснования, которые не только улучшают производительность на конечных задачах, но также становятся более правдоподобными, согласованными и разнообразными, что оценивается как автоматически, так и людьми. Наш метод, MaRio (Multi-rewArd RatIOnalization), представляет собой алгоритм самообоснования с множественными наградами, который оптимизирует различные свойства, такие как правдоподобие, разнообразие и согласованность. Результаты на пяти сложных наборах данных для вопросов и ответов — StrategyQA, QuaRel, OpenBookQA, NumerSense и QASC — показывают, что MaRio не только повышает точность выполнения задач, но и улучшает качество самообоснования небольших языковых моделей по указанным критериям лучше, чем базовый подход с контролируемым тонким обучением (SFT). Обширные оценки людьми подтверждают, что обоснования MaRio предпочтительнее по сравнению с обоснованиями SFT, а также демонстрируют качественные улучшения в правдоподобии и согласованности.
В данной работе мы показываем, что простая самоконтролируемая предобученная аудиомодель может достичь сопоставимой эффективности вывода с более сложными предобученными моделями, использующими трансформерные кодировщики для речи. Эти речевые трансформеры полагаются на комбинирование сверточных модулей с модулями самовнимания и достигают наилучшей производительности в задачах автоматического распознавания речи (ASR) с высокой эффективностью. Сначала мы демонстрируем, что использование таких речевых трансформеров в качестве кодировщика также значительно повышает эффективность предобученных аудиомоделей. Однако наше исследование показывает, что сопоставимую эффективность можно достичь исключительно с помощью продвинутого самовнимания. Мы показываем, что такой более простой подход особенно выгоден при использовании техники низкобитового квантования весов нейронной сети для повышения эффективности. Мы предполагаем, что это предотвращает распространение ошибок между различными квантованными модулями по сравнению с современными речевыми трансформерами, которые комбинируют квантованные сверточные модули и модули квантованного самовнимания.
Трансформерные модели, обученные на длинных последовательностях, часто достигают более высокой точности, чем модели, обученные на коротких последовательностях. К сожалению, традиционные трансформеры сталкиваются с трудностями при обучении на длинных последовательностях из-за чрезмерных требований к вычислениям и памяти. Существующие методы для обучения на длинных последовательностях предлагают ограниченное ускорение и снижение потребления памяти, а также могут снижать точность. В данной статье представлен новый и эффективный метод распределенного обучения — Long Short-Sequence Transformer (LSS Transformer), предназначенный для обучения трансформеров на длинных последовательностях. Он распределяет длинную последовательность на сегменты между GPU, где каждый GPU вычисляет частичное самовнимание для своего сегмента. Затем используется объединенная коммуникация и новая техника двойного усреднения градиентов, чтобы избежать необходимости агрегирования частичного самовнимания и минимизировать накладные расходы на коммуникацию. Мы оценили производительность LSS Transformer в сравнении с современным методом параллелизма последовательностей от Nvidia на наборе данных Wikipedia enwik8. Результаты показывают, что предложенный метод обеспечивает ускорение в 5,6 раз и снижение потребления памяти в 10,2 раза по сравнению с современным методом параллелизма последовательностей на 144 GPU Nvidia V100. Более того, наш алгоритм масштабируется до экстремальной длины последовательности в 50 112 на 3 456 GPU, достигая 161% сверхлинейной параллельной эффективности и пропускной способности в 32 петафлопса.