Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

AudioPaLM: Крупная языковая модель, способная говорить и слушать
AudioPaLM: A Large Language Model That Can Speak and Listen

Jun 22, 2023

Paul K. Rubenstein, Chulayuth Asawaroengchai, Duc Dung Nguyen, Ankur Bapna, Zalán Borsos, Félix de Chaumont Quitry, Peter Chen, Dalia El Badawy, Wei Han, Eugene Kharitonov, Hannah Muckenhirn, Dirk Padfield, James Qin, Danny Rozenberg, Tara Sainath, Johan Schalkwyk, Matt Sharifi, Michelle Tadmor Ramanovich, Marco Tagliasacchi, Alexandru Tudor, Mihajlo Velimirović, Damien Vincent, Jiahui Yu, Yongqiang Wang, Vicky Zayats, Neil Zeghidour, Yu Zhang, Zhishuai Zhang, Lukas Zilka, Christian Frank

546

Мы представляем AudioPaLM, крупную языковую модель для понимания и генерации речи. AudioPaLM объединяет текстовую и речевую языковые модели, PaLM-2 [Anil et al., 2023] и AudioLM [Borsos et al., 2022], в единую мультимодальную архитектуру, способную обрабатывать и генерировать текст и речь с такими приложениями, как распознавание речи и перевод речи в речь. AudioPaLM наследует способность сохранять паралингвистическую информацию, такую как идентификация говорящего и интонация, от AudioLM, а также лингвистические знания, присутствующие только в текстовых крупных языковых моделях, таких как PaLM-2. Мы демонстрируем, что инициализация AudioPaLM весами текстовой крупной языковой модели улучшает обработку речи, успешно используя большее количество текстовых данных, использованных при предварительном обучении, для помощи в речевых задачах. Полученная модель значительно превосходит существующие системы в задачах перевода речи и обладает способностью выполнять перевод речи в текст с нулевым обучением для многих языков, комбинации входного/целевого языков для которых не встречались в обучении. AudioPaLM также демонстрирует особенности аудио языковых моделей, такие как перенос голоса между языками на основе короткого устного запроса. Мы публикуем примеры нашего метода на сайте https://google-research.github.io/seanet/audiopalm/examples.

Быстрое Сегментирование Любого Объекта
Fast Segment Anything

Jun 21, 2023

Xu Zhao, Wenchao Ding, Yongqi An, Yinglong Du, Tao Yu, Min Li, Ming Tang, Jinqiao Wang

343

Недавно предложенная модель Segment Anything (SAM) оказала значительное влияние на многие задачи компьютерного зрения. Она становится основополагающим шагом для многих высокоуровневых задач, таких как сегментация изображений, генерация подписей к изображениям и редактирование изображений. Однако её высокие вычислительные затраты ограничивают её широкое применение в промышленных сценариях. Основные вычисления связаны с архитектурой Transformer при работе с высоким разрешением входных данных. В данной статье мы предлагаем альтернативный метод ускорения для этой фундаментальной задачи с сопоставимой производительностью. Переформулировав задачу как генерацию сегментов и использование подсказок, мы обнаружили, что обычный детектор на основе CNN с ветвью для сегментации экземпляров также может успешно справляться с этой задачей. В частности, мы преобразуем эту задачу в хорошо изученную задачу сегментации экземпляров и обучаем существующий метод сегментации экземпляров, используя только 1/50 набора данных SA-1B, опубликованного авторами SAM. С помощью нашего метода мы достигаем сопоставимой с SAM производительности при 50-кратном увеличении скорости выполнения. Мы предоставляем достаточные экспериментальные результаты, демонстрирующие эффективность нашего подхода. Коды и демонстрации будут доступны по адресу https://github.com/CASIA-IVA-Lab/FastSAM.

От моделей слов к моделям мира: переход от естественного языка к вероятностному языку мышления
From Word Models to World Models: Translating from Natural Language to the Probabilistic Language of Thought

Jun 22, 2023

Lionel Wong, Gabriel Grand, Alexander K. Lew, Noah D. Goodman, Vikash K. Mansinghka, Jacob Andreas, Joshua B. Tenenbaum

261

Как язык влияет на наше последующее мышление? В частности, как люди извлекают смысл из языка — и как мы можем использовать теорию лингвистического значения для создания машин, которые мыслят более человекообразным способом? В данной статье мы предлагаем рациональное конструирование смысла — вычислительную основу для мышления, основанного на языке, которая объединяет нейронные модели языка с вероятностными моделями для рационального вывода. Мы рассматриваем лингвистическое значение как контекстно-зависимое отображение естественного языка в вероятностный язык мысли (PLoT) — универсальный символический субстрат для вероятностного, генеративного моделирования мира. Наша архитектура интегрирует два мощных вычислительных инструмента, которые ранее не использовались вместе: мы моделируем мышление с помощью вероятностных программ, выразительного представления для гибкого здравого смысла; и мы моделируем конструирование смысла с использованием больших языковых моделей (LLM), которые поддерживают широкий охват перевода высказываний естественного языка в выражения кода на вероятностном языке программирования. Мы демонстрируем нашу концепцию в действии на примерах, охватывающих четыре ключевые области когнитивной науки: вероятностное рассуждение, логическое и реляционное рассуждение, визуальное и физическое рассуждение, а также социальное рассуждение о агентах и их планах. В каждом случае мы показываем, что LLM могут генерировать контекстно-зависимые переводы, которые захватывают прагматически уместные лингвистические значения, в то время как байесовский вывод с использованием сгенерированных программ поддерживает последовательное и устойчивое рассуждение на основе здравого смысла. Мы расширяем нашу концепцию, интегрируя когнитивно мотивированные символические модули, чтобы предоставить унифицированный интерфейс для здравого смысла, основанного на языке. Наконец, мы исследуем, как язык может направлять конструирование самих моделей мира.

Обучение трансформаторов с использованием 4-битных целых чисел
Training Transformers with 4-bit Integers

Jun 21, 2023

Haocheng Xi, Changhao Li, Jianfei Chen, Jun Zhu

225

Квантование активаций, весов и градиентов до 4 бит является перспективным подходом для ускорения обучения нейронных сетей. Однако существующие методы обучения с 4-битной точностью требуют использования специализированных числовых форматов, которые не поддерживаются современным оборудованием. В данной работе мы предлагаем метод обучения трансформеров, в котором все матричные умножения реализованы с использованием арифметики INT4. Обучение с ультранизкой точностью INT4 представляет собой сложную задачу. Для её решения мы тщательно анализируем специфические структуры активаций и градиентов в трансформерах и предлагаем специализированные квантователи для них. Для прямого распространения мы выявляем проблему выбросов и предлагаем квантователь Хаара для их подавления. Для обратного распространения мы используем структурную разреженность градиентов, предлагая методы битового разделения и сэмплирования на основе весов для точного квантования градиентов. Наш алгоритм демонстрирует конкурентоспособную точность на широком спектре задач, включая понимание естественного языка, машинный перевод и классификацию изображений. В отличие от предыдущих методов обучения с 4-битной точностью, наш алгоритм может быть реализован на текущем поколении графических процессоров. Наша прототипная реализация линейного оператора работает до 2,2 раз быстрее, чем аналоги с точностью FP16, и ускоряет обучение до 35,1%.

Глубокие языковые сети: Совместное обучение стекированных языковых моделей с использованием вариационного вывода через промпты
Deep Language Networks: Joint Prompt Training of Stacked LLMs using Variational Inference

Jun 21, 2023

Alessandro Sordoni, Xingdi Yuan, Marc-Alexandre Côté, Matheus Pereira, Adam Trischler, Ziang Xiao, Arian Hosseini, Friederike Niedtner, Nicolas Le Roux

140

Мы рассматриваем большие языковые модели (LLMs) как стохастические языковые слои в сети, где обучаемыми параметрами являются естественно-языковые промты на каждом слое. Мы объединяем два таких слоя, передавая выход одного слоя на вход следующего. Мы называем эту архитектуру Глубокой Языковой Сетью (Deep Language Network, DLN). Сначала мы показываем, как эффективно выполнять оптимизацию промтов для однослойной языковой сети (DLN-1). Затем мы демонстрируем, как обучать двухслойные DLN (DLN-2), где необходимо обучать два промта. Мы рассматриваем выход первого слоя как латентную переменную, которую нужно маргинализировать, и разрабатываем алгоритм вариационного вывода для совместного обучения промтов. DLN-2 достигает более высокой производительности, чем однослойная сеть, иногда сопоставимой с few-shot GPT-4, даже если каждая LLM в сети меньше и менее мощная. Код DLN является открытым: https://github.com/microsoft/deep-language-networks.

Квантуемые трансформеры: устранение выбросов за счет помощи головкам внимания Не делать ничего
Quantizable Transformers: Removing Outliers by Helping Attention Heads Do Nothing

Jun 22, 2023

Yelysei Bondarenko, Markus Nagel, Tijmen Blankevoort

120

Трансформерные модели получили широкое распространение в различных областях за последние годы, и особенно крупные языковые модели значительно продвинули область искусственного интеллекта. Благодаря своему размеру, возможности этих сетей значительно возросли, но это произошло за счет существенного увеличения необходимых вычислительных ресурсов. Квантование является одним из наиболее эффективных способов сокращения времени вычислений и потребления памяти в нейронных сетях. Однако многие исследования показали, что современные трансформерные модели склонны обучать сильные выбросы в своих активациях, что затрудняет их квантование. Для сохранения приемлемой производительности наличие этих выбросов требует использования активаций с большей разрядностью, применения различных числовых форматов, дополнительной тонкой настройки или других обходных решений. Мы показываем, что сильные выбросы связаны с очень специфическим поведением механизма внимания, где головы внимания пытаются обучиться "нулевой операции" или лишь частичному обновлению остатка. Для достижения точных нулей, необходимых в матрице внимания для отсутствия обновления, входные данные для функции softmax в процессе обучения становятся все больше, что вызывает выбросы в других частях сети. На основе этих наблюдений мы предлагаем два простых (независимых) изменения в механизме внимания — ограниченный softmax и управляемое внимание. Мы эмпирически показываем, что модели, предварительно обученные с использованием наших методов, обучают значительно меньшие выбросы, сохраняя, а иногда даже улучшая производительность на задачах с плавающей точкой. Это позволяет нам квантовать трансформеры до полного INT8 квантования активаций без каких-либо дополнительных усилий. Мы демонстрируем эффективность наших методов как на языковых моделях (BERT, OPT), так и на трансформерах для обработки изображений.

DreamTime: Усовершенствованная стратегия оптимизации для создания 3D-контента из текста
DreamTime: An Improved Optimization Strategy for Text-to-3D Content Creation

Jun 21, 2023

Yukun Huang, Jianan Wang, Yukai Shi, Xianbiao Qi, Zheng-Jun Zha, Lei Zhang

121

Диффузионные модели для генерации изображений по тексту, предварительно обученные на миллиардах пар изображение-текст, недавно позволили создавать 3D-контент по тексту путем оптимизации случайно инициализированных нейронных полей излучения (NeRF) с использованием дистилляции оценок. Однако полученные 3D-модели демонстрируют два основных ограничения: (а) проблемы с качеством, такие как перенасыщенные цвета и проблема Януса; (б) крайне низкое разнообразие по сравнению с синтезом изображений, управляемым текстом. В данной работе мы показываем, что конфликт между процессом оптимизации NeRF и равномерной выборкой временных шагов в дистилляции оценок является основной причиной этих ограничений. Для разрешения этого конфликта мы предлагаем приоритезировать выборку временных шагов с использованием монотонно невозрастающих функций, что согласует оптимизацию NeRF с процессом выборки в диффузионной модели. Многочисленные эксперименты показывают, что наше простое перепроектирование значительно улучшает создание 3D-контента по тексту, обеспечивая более высокое качество и разнообразие.

Непрерывное редактирование компоновки отдельных изображений с использованием моделей диффузии
Continuous Layout Editing of Single Images with Diffusion Models

Jun 22, 2023

Zhiyuan Zhang, Zhitong Huang, Jing Liao

Последние достижения в области крупномасштабных диффузионных моделей для генерации изображений из текста открыли множество возможностей для редактирования изображений. Однако ни один из существующих методов не позволяет изменять компоновку отдельных существующих изображений. Чтобы восполнить этот пробел, мы предлагаем первую структуру для редактирования компоновки одного изображения с сохранением его визуальных свойств, что позволяет осуществлять непрерывное редактирование на одном изображении. Наш подход реализуется с помощью двух ключевых модулей. Во-первых, чтобы сохранить характеристики нескольких объектов в изображении, мы разделяем концепции различных объектов и внедряем их в отдельные текстовые токены с использованием нового метода, называемого маскированной текстовой инверсией. Затем мы предлагаем метод оптимизации, не требующий обучения, для управления компоновкой в предварительно обученной диффузионной модели, что позволяет воссоздавать изображения с изученными концепциями и выравнивать их в соответствии с заданной пользователем компоновкой. Будучи первой структурой для редактирования компоновки существующих изображений, мы демонстрируем, что наш метод эффективен и превосходит другие базовые подходы, адаптированные для выполнения этой задачи. Наш код будет свободно доступен для общественного использования после принятия работы.

Возможности и риски использования крупных языковых моделей для масштабируемого обсуждения с помощью Polis
Opportunities and Risks of LLMs for Scalable Deliberation with Polis

Jun 20, 2023

Christopher T. Small, Ivan Vendrov, Esin Durmus, Hadjar Homaei, Elizabeth Barry, Julien Cornebise, Ted Suzman, Deep Ganguli, Colin Megill

Polis — это платформа, которая использует машинный интеллект для масштабирования делиберативных процессов. В данной статье мы исследуем возможности и риски, связанные с применением больших языковых моделей (LLM) для решения задач, связанных с организацией, модерацией и обобщением результатов взаимодействий на платформе Polis. В частности, мы демонстрируем на пилотных экспериментах с использованием модели Claude от Anthropic, что LLM действительно могут дополнять человеческий интеллект, помогая более эффективно проводить беседы в Polis. Особенно мы отмечаем, что возможности обобщения открывают принципиально новые методы, которые обладают огромным потенциалом для вовлечения общественности в коллективные процессы осмысления. При этом важно отметить, что ограничения контекста LLM существенно влияют на глубину и качество получаемых результатов. Однако эти возможности сопряжены с рисками. Мы обсуждаем некоторые из этих рисков, а также принципы и методы для их характеристики и смягчения, а также последствия для других делиберативных или политических систем, которые могут использовать LLM. В заключение мы предлагаем несколько направлений для будущих исследований, связанных с улучшением инструментов, подобных Polis, с помощью LLM.

EquiformerV2: Усовершенствованный эквивариантный трансформер для масштабирования до представлений более высокой степени
EquiformerV2: Improved Equivariant Transformer for Scaling to Higher-Degree Representations

Jun 21, 2023

Yi-Lun Liao, Brandon Wood, Abhishek Das, Tess Smidt

Эквивариантные трансформаторы, такие как Equiformer, продемонстрировали эффективность применения архитектур Transformer в области 3D атомных систем. Однако они по-прежнему ограничены использованием представлений низкой степени эквивариантности из-за их вычислительной сложности. В данной работе мы исследуем, могут ли такие архитектуры масштабироваться до более высоких степеней. Начиная с Equiformer, мы сначала заменяем свертки SO(3) на свертки eSCN, чтобы эффективно включать тензоры более высокой степени. Затем, чтобы лучше использовать потенциал более высоких степеней, мы предлагаем три архитектурных улучшения — повторную нормализацию внимания, разделяемую активацию S^2 и разделяемую послойную нормализацию. Объединив все это, мы предлагаем EquiformerV2, который превосходит предыдущие передовые методы на крупном наборе данных OC20, улучшая точность предсказания сил на 12%, энергий на 4%, предлагая лучший компромисс между скоростью и точностью, а также сокращая количество необходимых расчетов DFT для вычисления энергий адсорбции в 2 раза.

От моделей слов к моделям мира: переход от естественного языка к вероятностному языку мышления
From Word Models to World Models: Translating from Natural Language to the Probabilistic Language of Thought

Jun 22, 2023

Lionel Wong, Gabriel Grand, Alexander K. Lew, Noah D. Goodman, Vikash K. Mansinghka, Jacob Andreas, Joshua B. Tenenbaum

261

Ежедневные статьи

AudioPaLM: Крупная языковая модель, способная говорить и слушать
AudioPaLM: A Large Language Model That Can Speak and Listen

Быстрое Сегментирование Любого Объекта
Fast Segment Anything

От моделей слов к моделям мира: переход от естественного языка к вероятностному языку мышления
From Word Models to World Models: Translating from Natural Language to the Probabilistic Language of Thought

Обучение трансформаторов с использованием 4-битных целых чисел
Training Transformers with 4-bit Integers

Квантуемые трансформеры: устранение выбросов за счет помощи головкам внимания Не делать ничего
Quantizable Transformers: Removing Outliers by Helping Attention Heads Do Nothing

DreamTime: Усовершенствованная стратегия оптимизации для создания 3D-контента из текста
DreamTime: An Improved Optimization Strategy for Text-to-3D Content Creation

Непрерывное редактирование компоновки отдельных изображений с использованием моделей диффузии
Continuous Layout Editing of Single Images with Diffusion Models

Возможности и риски использования крупных языковых моделей для масштабируемого обсуждения с помощью Polis
Opportunities and Risks of LLMs for Scalable Deliberation with Polis

Support

Support

Ежедневные статьи

AudioPaLM: Крупная языковая модель, способная говорить и слушать
AudioPaLM: A Large Language Model That Can Speak and Listen

Быстрое Сегментирование Любого Объекта
Fast Segment Anything

От моделей слов к моделям мира: переход от естественного языка к вероятностному языку мышления
From Word Models to World Models: Translating from Natural Language to the Probabilistic Language of Thought

Обучение трансформаторов с использованием 4-битных целых чисел
Training Transformers with 4-bit Integers

Квантуемые трансформеры: устранение выбросов за счет помощи головкам внимания Не делать ничего
Quantizable Transformers: Removing Outliers by Helping Attention Heads Do Nothing

DreamTime: Усовершенствованная стратегия оптимизации для создания 3D-контента из текста
DreamTime: An Improved Optimization Strategy for Text-to-3D Content Creation

Непрерывное редактирование компоновки отдельных изображений с использованием моделей диффузии
Continuous Layout Editing of Single Images with Diffusion Models

Возможности и риски использования крупных языковых моделей для масштабируемого обсуждения с помощью Polis
Opportunities and Risks of LLMs for Scalable Deliberation with Polis