Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем AudioPaLM, крупную языковую модель для понимания и генерации речи. AudioPaLM объединяет текстовую и речевую языковые модели, PaLM-2 [Anil et al., 2023] и AudioLM [Borsos et al., 2022], в единую мультимодальную архитектуру, способную обрабатывать и генерировать текст и речь с такими приложениями, как распознавание речи и перевод речи в речь. AudioPaLM наследует способность сохранять паралингвистическую информацию, такую как идентификация говорящего и интонация, от AudioLM, а также лингвистические знания, присутствующие только в текстовых крупных языковых моделях, таких как PaLM-2. Мы демонстрируем, что инициализация AudioPaLM весами текстовой крупной языковой модели улучшает обработку речи, успешно используя большее количество текстовых данных, использованных при предварительном обучении, для помощи в речевых задачах. Полученная модель значительно превосходит существующие системы в задачах перевода речи и обладает способностью выполнять перевод речи в текст с нулевым обучением для многих языков, комбинации входного/целевого языков для которых не встречались в обучении. AudioPaLM также демонстрирует особенности аудио языковых моделей, такие как перенос голоса между языками на основе короткого устного запроса. Мы публикуем примеры нашего метода на сайте https://google-research.github.io/seanet/audiopalm/examples.
Недавно предложенная модель Segment Anything (SAM) оказала значительное влияние на многие задачи компьютерного зрения. Она становится основополагающим шагом для многих высокоуровневых задач, таких как сегментация изображений, генерация подписей к изображениям и редактирование изображений. Однако её высокие вычислительные затраты ограничивают её широкое применение в промышленных сценариях. Основные вычисления связаны с архитектурой Transformer при работе с высоким разрешением входных данных. В данной статье мы предлагаем альтернативный метод ускорения для этой фундаментальной задачи с сопоставимой производительностью. Переформулировав задачу как генерацию сегментов и использование подсказок, мы обнаружили, что обычный детектор на основе CNN с ветвью для сегментации экземпляров также может успешно справляться с этой задачей. В частности, мы преобразуем эту задачу в хорошо изученную задачу сегментации экземпляров и обучаем существующий метод сегментации экземпляров, используя только 1/50 набора данных SA-1B, опубликованного авторами SAM. С помощью нашего метода мы достигаем сопоставимой с SAM производительности при 50-кратном увеличении скорости выполнения. Мы предоставляем достаточные экспериментальные результаты, демонстрирующие эффективность нашего подхода. Коды и демонстрации будут доступны по адресу https://github.com/CASIA-IVA-Lab/FastSAM.
Как язык влияет на наше последующее мышление? В частности, как люди извлекают смысл из языка — и как мы можем использовать теорию лингвистического значения для создания машин, которые мыслят более человекообразным способом? В данной статье мы предлагаем рациональное конструирование смысла — вычислительную основу для мышления, основанного на языке, которая объединяет нейронные модели языка с вероятностными моделями для рационального вывода. Мы рассматриваем лингвистическое значение как контекстно-зависимое отображение естественного языка в вероятностный язык мысли (PLoT) — универсальный символический субстрат для вероятностного, генеративного моделирования мира. Наша архитектура интегрирует два мощных вычислительных инструмента, которые ранее не использовались вместе: мы моделируем мышление с помощью вероятностных программ, выразительного представления для гибкого здравого смысла; и мы моделируем конструирование смысла с использованием больших языковых моделей (LLM), которые поддерживают широкий охват перевода высказываний естественного языка в выражения кода на вероятностном языке программирования. Мы демонстрируем нашу концепцию в действии на примерах, охватывающих четыре ключевые области когнитивной науки: вероятностное рассуждение, логическое и реляционное рассуждение, визуальное и физическое рассуждение, а также социальное рассуждение о агентах и их планах. В каждом случае мы показываем, что LLM могут генерировать контекстно-зависимые переводы, которые захватывают прагматически уместные лингвистические значения, в то время как байесовский вывод с использованием сгенерированных программ поддерживает последовательное и устойчивое рассуждение на основе здравого смысла. Мы расширяем нашу концепцию, интегрируя когнитивно мотивированные символические модули, чтобы предоставить унифицированный интерфейс для здравого смысла, основанного на языке. Наконец, мы исследуем, как язык может направлять конструирование самих моделей мира.
Квантование активаций, весов и градиентов до 4 бит является перспективным подходом для ускорения обучения нейронных сетей. Однако существующие методы обучения с 4-битной точностью требуют использования специализированных числовых форматов, которые не поддерживаются современным оборудованием. В данной работе мы предлагаем метод обучения трансформеров, в котором все матричные умножения реализованы с использованием арифметики INT4. Обучение с ультранизкой точностью INT4 представляет собой сложную задачу. Для её решения мы тщательно анализируем специфические структуры активаций и градиентов в трансформерах и предлагаем специализированные квантователи для них. Для прямого распространения мы выявляем проблему выбросов и предлагаем квантователь Хаара для их подавления. Для обратного распространения мы используем структурную разреженность градиентов, предлагая методы битового разделения и сэмплирования на основе весов для точного квантования градиентов. Наш алгоритм демонстрирует конкурентоспособную точность на широком спектре задач, включая понимание естественного языка, машинный перевод и классификацию изображений. В отличие от предыдущих методов обучения с 4-битной точностью, наш алгоритм может быть реализован на текущем поколении графических процессоров. Наша прототипная реализация линейного оператора работает до 2,2 раз быстрее, чем аналоги с точностью FP16, и ускоряет обучение до 35,1%.
Мы рассматриваем большие языковые модели (LLMs) как стохастические языковые слои в сети, где обучаемыми параметрами являются естественно-языковые промты на каждом слое. Мы объединяем два таких слоя, передавая выход одного слоя на вход следующего. Мы называем эту архитектуру Глубокой Языковой Сетью (Deep Language Network, DLN). Сначала мы показываем, как эффективно выполнять оптимизацию промтов для однослойной языковой сети (DLN-1). Затем мы демонстрируем, как обучать двухслойные DLN (DLN-2), где необходимо обучать два промта. Мы рассматриваем выход первого слоя как латентную переменную, которую нужно маргинализировать, и разрабатываем алгоритм вариационного вывода для совместного обучения промтов. DLN-2 достигает более высокой производительности, чем однослойная сеть, иногда сопоставимой с few-shot GPT-4, даже если каждая LLM в сети меньше и менее мощная. Код DLN является открытым: https://github.com/microsoft/deep-language-networks.
Трансформерные модели получили широкое распространение в различных областях за последние годы, и особенно крупные языковые модели значительно продвинули область искусственного интеллекта. Благодаря своему размеру, возможности этих сетей значительно возросли, но это произошло за счет существенного увеличения необходимых вычислительных ресурсов. Квантование является одним из наиболее эффективных способов сокращения времени вычислений и потребления памяти в нейронных сетях. Однако многие исследования показали, что современные трансформерные модели склонны обучать сильные выбросы в своих активациях, что затрудняет их квантование. Для сохранения приемлемой производительности наличие этих выбросов требует использования активаций с большей разрядностью, применения различных числовых форматов, дополнительной тонкой настройки или других обходных решений. Мы показываем, что сильные выбросы связаны с очень специфическим поведением механизма внимания, где головы внимания пытаются обучиться "нулевой операции" или лишь частичному обновлению остатка. Для достижения точных нулей, необходимых в матрице внимания для отсутствия обновления, входные данные для функции softmax в процессе обучения становятся все больше, что вызывает выбросы в других частях сети. На основе этих наблюдений мы предлагаем два простых (независимых) изменения в механизме внимания — ограниченный softmax и управляемое внимание. Мы эмпирически показываем, что модели, предварительно обученные с использованием наших методов, обучают значительно меньшие выбросы, сохраняя, а иногда даже улучшая производительность на задачах с плавающей точкой. Это позволяет нам квантовать трансформеры до полного INT8 квантования активаций без каких-либо дополнительных усилий. Мы демонстрируем эффективность наших методов как на языковых моделях (BERT, OPT), так и на трансформерах для обработки изображений.
Диффузионные модели для генерации изображений по тексту, предварительно обученные на миллиардах пар изображение-текст, недавно позволили создавать 3D-контент по тексту путем оптимизации случайно инициализированных нейронных полей излучения (NeRF) с использованием дистилляции оценок. Однако полученные 3D-модели демонстрируют два основных ограничения: (а) проблемы с качеством, такие как перенасыщенные цвета и проблема Януса; (б) крайне низкое разнообразие по сравнению с синтезом изображений, управляемым текстом. В данной работе мы показываем, что конфликт между процессом оптимизации NeRF и равномерной выборкой временных шагов в дистилляции оценок является основной причиной этих ограничений. Для разрешения этого конфликта мы предлагаем приоритезировать выборку временных шагов с использованием монотонно невозрастающих функций, что согласует оптимизацию NeRF с процессом выборки в диффузионной модели. Многочисленные эксперименты показывают, что наше простое перепроектирование значительно улучшает создание 3D-контента по тексту, обеспечивая более высокое качество и разнообразие.
Последние достижения в области крупномасштабных диффузионных моделей для генерации изображений из текста открыли множество возможностей для редактирования изображений. Однако ни один из существующих методов не позволяет изменять компоновку отдельных существующих изображений. Чтобы восполнить этот пробел, мы предлагаем первую структуру для редактирования компоновки одного изображения с сохранением его визуальных свойств, что позволяет осуществлять непрерывное редактирование на одном изображении. Наш подход реализуется с помощью двух ключевых модулей. Во-первых, чтобы сохранить характеристики нескольких объектов в изображении, мы разделяем концепции различных объектов и внедряем их в отдельные текстовые токены с использованием нового метода, называемого маскированной текстовой инверсией. Затем мы предлагаем метод оптимизации, не требующий обучения, для управления компоновкой в предварительно обученной диффузионной модели, что позволяет воссоздавать изображения с изученными концепциями и выравнивать их в соответствии с заданной пользователем компоновкой. Будучи первой структурой для редактирования компоновки существующих изображений, мы демонстрируем, что наш метод эффективен и превосходит другие базовые подходы, адаптированные для выполнения этой задачи. Наш код будет свободно доступен для общественного использования после принятия работы.
Polis — это платформа, которая использует машинный интеллект для масштабирования делиберативных процессов. В данной статье мы исследуем возможности и риски, связанные с применением больших языковых моделей (LLM) для решения задач, связанных с организацией, модерацией и обобщением результатов взаимодействий на платформе Polis. В частности, мы демонстрируем на пилотных экспериментах с использованием модели Claude от Anthropic, что LLM действительно могут дополнять человеческий интеллект, помогая более эффективно проводить беседы в Polis. Особенно мы отмечаем, что возможности обобщения открывают принципиально новые методы, которые обладают огромным потенциалом для вовлечения общественности в коллективные процессы осмысления. При этом важно отметить, что ограничения контекста LLM существенно влияют на глубину и качество получаемых результатов. Однако эти возможности сопряжены с рисками. Мы обсуждаем некоторые из этих рисков, а также принципы и методы для их характеристики и смягчения, а также последствия для других делиберативных или политических систем, которые могут использовать LLM. В заключение мы предлагаем несколько направлений для будущих исследований, связанных с улучшением инструментов, подобных Polis, с помощью LLM.
Эквивариантные трансформаторы, такие как Equiformer, продемонстрировали эффективность применения архитектур Transformer в области 3D атомных систем. Однако они по-прежнему ограничены использованием представлений низкой степени эквивариантности из-за их вычислительной сложности. В данной работе мы исследуем, могут ли такие архитектуры масштабироваться до более высоких степеней. Начиная с Equiformer, мы сначала заменяем свертки SO(3) на свертки eSCN, чтобы эффективно включать тензоры более высокой степени. Затем, чтобы лучше использовать потенциал более высоких степеней, мы предлагаем три архитектурных улучшения — повторную нормализацию внимания, разделяемую активацию S^2 и разделяемую послойную нормализацию. Объединив все это, мы предлагаем EquiformerV2, который превосходит предыдущие передовые методы на крупном наборе данных OC20, улучшая точность предсказания сил на 12%, энергий на 4%, предлагая лучший компромисс между скоростью и точностью, а также сокращая количество необходимых расчетов DFT для вычисления энергий адсорбции в 2 раза.