Ежедневно отобранные исследовательские статьи по ИИ с переводами
Основными факторами, способствующими развитию крупных языковых моделей (LLM) с впечатляющими способностями к обучению, являются их огромные размеры и обширные наборы обучающих данных. Вместе с прогрессом в области обработки естественного языка LLM часто становятся доступными для широкой публики, чтобы стимулировать более глубокие исследования и применение. Однако, когда речь заходит о наборах обучающих данных для этих LLM, особенно для современных моделей высшего уровня, они часто не раскрываются полностью. Создание обучающих данных для высокопроизводительных LLM требует тщательной очистки и удаления дубликатов, чтобы обеспечить необходимый уровень качества. Отсутствие прозрачности в отношении обучающих данных затрудняет исследования, направленные на выявление и устранение проблем с галлюцинациями и предвзятостью в LLM, что препятствует воспроизведению результатов и дальнейшему прогрессу в сообществе. Эти проблемы становятся еще более заметными в сценариях многоязычного обучения, где доступные наборы многоязычных текстов часто недостаточно собраны и очищены. В результате отсутствуют открытые и готовые к использованию наборы данных для эффективного обучения LLM на нескольких языках. Чтобы преодолеть эту проблему, мы представляем CulturaX — обширный многоязычный набор данных, содержащий 6,3 триллиона токенов на 167 языках, специально разработанный для развития LLM. Наш набор данных проходит тщательную очистку и удаление дубликатов через многоэтапный строгий процесс, включающий идентификацию языка, фильтрацию на основе URL, очистку на основе метрик, уточнение документов и удаление дубликатов данных. CulturaX полностью опубликован на платформе HuggingFace для содействия исследованиям и прогрессу в области многоязычных LLM: https://huggingface.co/datasets/uonlp/CulturaX.
Мы исследуем, как дополнительное предварительное обучение на корпусах, специфичных для предметной области, влияет на большие языковые модели. Результаты показывают, что обучение на сырых корпусах наделяет модель знаниями в данной области, но значительно ухудшает её способность отвечать на вопросы при использовании промптов. Вдохновившись процессом человеческого обучения через чтение и понимание текста — практика после чтения улучшает способность отвечать на вопросы на основе усвоенных знаний — мы предлагаем простой метод преобразования сырых корпусов в тексты для чтения с заданиями на понимание. Каждый исходный текст дополняется серией задач, связанных с его содержанием. Наш метод, обладающий высокой масштабируемостью и применимый к любым корпусам для предварительного обучения, последовательно улучшает производительность в различных задачах в трёх разных областях: биомедицине, финансах и праве. Примечательно, что наша языковая модель с 7 миллиардами параметров демонстрирует конкурентоспособные результаты по сравнению с моделями, специфичными для предметной области, но значительно большего масштаба, такими как BloombergGPT-50B. Кроме того, мы показываем, что тексты для чтения с заданиями на понимание, специфичные для предметной области, могут улучшить производительность модели даже на общих тестах, что указывает на потенциал разработки универсальной модели, применимой к ещё большему числу областей. Наша модель, код и данные будут доступны по адресу https://github.com/microsoft/LMOps.
Крупные языковые модели (LLM) сталкиваются с проблемами при ответах на вопросы по документам (QA) в ситуациях, когда документ не помещается в ограниченный контекст модели. Чтобы преодолеть эту проблему, большинство существующих работ сосредоточено на извлечении релевантного контекста из документа и его представлении в виде простого текста. Однако документы, такие как PDF-файлы, веб-страницы и презентации, имеют естественную структуру, включающую различные страницы, таблицы, разделы и т.д. Представление таких структурированных документов в виде простого текста не соответствует ментальной модели пользователя, которая учитывает богатую структуру документа. Когда системе необходимо запросить контекст из документа, это несоответствие становится очевидным, и даже простые вопросы могут поставить QA-систему в тупик. Чтобы устранить этот фундаментальный разрыв в обработке структурированных документов, мы предлагаем подход под названием PDFTriage, который позволяет моделям извлекать контекст на основе структуры или содержания. Наши эксперименты демонстрируют эффективность предложенных моделей, усиленных PDFTriage, в решении различных классов вопросов, с которыми не справляются существующие LLM, дополненные методами извлечения. Для содействия дальнейшим исследованиям этой фундаментальной проблемы мы публикуем наш эталонный набор данных, содержащий более 900 вопросов, созданных людьми, по 80 структурированным документам, охватывающим 10 различных категорий типов вопросов для QA по документам.
В данной статье представлен всесторонний обзор таксономии и эволюции мультимодальных базовых моделей, демонстрирующих возможности в области зрения и обработки визуально-текстовой информации, с акцентом на переход от специализированных моделей к универсальным ассистентам. Исследовательский ландшафт охватывает пять ключевых тем, разделенных на два класса. (i) Мы начинаем с обзора устоявшихся областей исследований: мультимодальных базовых моделей, предварительно обученных для конкретных задач, включая две темы — методы обучения визуальных архитектур для понимания изображений и генерации изображений по текстовым описаниям. (ii) Затем мы рассматриваем последние достижения в новых, открытых исследовательских направлениях: мультимодальных базовых моделях, которые стремятся выполнять роль универсальных ассистентов, включая три темы — унифицированные модели зрения, вдохновленные большими языковыми моделями (LLM), сквозное обучение мультимодальных LLM и объединение мультимодальных инструментов с LLM. Целевая аудитория статьи — исследователи, аспиранты и специалисты в сообществах компьютерного зрения и мультимодальной обработки визуально-текстовой информации, которые стремятся изучить основы и последние достижения в области мультимодальных базовых моделей.
Мы демонстрируем, что Contrastive Decoding — простой, вычислительно легкий и не требующий обучения метод генерации текста, предложенный Li et al. (2022), — обеспечивает значительные улучшения "из коробки" по сравнению с жадным декодированием на различных задачах, связанных с рассуждениями. Изначально показанный как метод, улучшающий воспринимаемое качество генерации длинных текстов, Contrastive Decoding ищет строки, которые максимизируют взвешенную разницу в правдоподобии между сильной и слабой моделями. Мы показываем, что Contrastive Decoding позволяет модели LLaMA-65B превзойти LLaMA 2, GPT-3.5 и PaLM 2-L на бенчмарке HellaSwag для проверки здравого смысла, а также превзойти LLaMA 2, GPT-3.5 и PaLM-540B на бенчмарке GSM8K для решения математических задач, помимо улучшений на ряде других задач. Анализ показывает, что Contrastive Decoding превосходит существующие методы, предотвращая некоторые ошибки абстрактного рассуждения, а также избегая более простых режимов, таких как копирование частей входных данных в процессе цепочки рассуждений. В целом, Contrastive Decoding превосходит ядерную выборку для генерации длинных текстов и жадное декодирование для задач рассуждения, что делает его мощным универсальным методом для генерации текста с использованием языковых моделей.
Быстрое развитие крупных языковых моделей (LLM) произвело революцию в области обработки естественного языка (NLP). Хотя эти модели превосходно справляются с пониманием и генерацией текста, близкого к человеческому, их широкое развертывание может быть чрезмерно дорогостоящим. SortedNet — это недавно разработанная методика обучения, которая позволяет осуществлять динамический вывод для глубоких нейронных сетей. Она использует модульность сети для создания подмоделей с различной вычислительной нагрузкой, сортируя их на основе характеристик вычислений/точности вложенным образом. Мы расширяем SortedNet для генеративных задач NLP, делая крупные языковые модели динамическими без необходимости предварительного обучения, заменяя стандартное контролируемое тонкое настройку (SFT) на Sorted Fine-Tuning (SoFT) при тех же затратах. Наш подход повышает эффективность модели, устраняя необходимость в использовании нескольких моделей для различных сценариев во время вывода. Мы показываем, что с помощью этого подхода можно раскрыть потенциал промежуточных слоев трансформеров в генерации целевого вывода. Наши подмодели остаются неотъемлемыми компонентами исходной модели, минимизируя требования к хранению и затраты на переход между различными вычислительными/латентными бюджетами. Применяя этот подход к модели LLaMa 2 13B для настройки на наборе данных Stanford Alpaca и сравнивая его с обычной настройкой и ранним выходом через бенчмарк PandaLM, мы демонстрируем, что Sorted Fine-Tuning может создавать модели, работающие в два раза быстрее исходной модели, при сохранении или превышении производительности.
Крупные языковые модели (LLM) продемонстрировали впечатляющие результаты в решении разнообразных задач обработки естественного языка, используя лишь несколько примеров инструкций на естественном языке, что снижает необходимость в трудоёмкой разработке признаков. Однако большинство наиболее мощных LLM являются закрытыми или имеют ограниченные возможности для языков, отличных от английского. В данном техническом отчёте мы представляем Baichuan 2 — серию крупномасштабных многоязычных языковых моделей, содержащих 7 и 13 миллиардов параметров, обученных с нуля на 2,6 триллионах токенов. Baichuan 2 соответствует или превосходит другие модели с открытым исходным кодом аналогичного размера на публичных бенчмарках, таких как MMLU, CMMLU, GSM8K и HumanEval. Кроме того, Baichuan 2 демонстрирует выдающиеся результаты в узкоспециализированных областях, таких как медицина и право. Мы опубликуем все контрольные точки предварительного обучения, чтобы помочь научному сообществу лучше понять динамику обучения модели Baichuan 2.
Настройка визуальных инструкций недавно продемонстрировала обнадеживающий прогресс с использованием открытых крупных мультимодальных моделей (LMM), таких как LLaVA и MiniGPT-4. Однако большинство существующих исследований открытых LMM проводятся с использованием моделей, содержащих 13 миллиардов параметров или меньше. В данной статье мы представляем эмпирическое исследование масштабирования LLaVA до 33 миллиардов и 65/70 миллиардов параметров, а также делимся результатами наших экспериментов с разрешением изображений, смешиванием данных и параметрически эффективными методами обучения, такими как LoRA/QLoRA. Эти подходы оцениваются по их влиянию на мультимодальные и языковые способности при выполнении реальных задач в естественных условиях. Мы обнаружили, что масштабирование LMM последовательно улучшает производительность модели и языковые способности, а результаты настройки с использованием LoRA/QLoRA сопоставимы с полной тонкой настройкой модели. Кроме того, исследование подчеркивает важность использования более высоких разрешений изображений и смешивания мультимодально-языковых данных для повышения производительности LMM, а также то, что настройка визуальных инструкций иногда может улучшить чистую языковую способность LMM. Мы надеемся, что это исследование сделает передовые исследования LMM в более крупных масштабах более доступными, тем самым помогая установить более сильные базовые линии для будущих исследований. Код и контрольные точки будут опубликованы.
Генерация графических макетов, активно развивающаяся область исследований, играет важную роль в вовлечении пользователей и восприятии информации. Существующие методы в основном рассматривают генерацию макетов как задачу численной оптимизации, сосредотачиваясь на количественных аспектах и упуская семантическую информацию макета, такую как взаимосвязь между его элементами. В данной статье мы представляем LayoutNUWA — первую модель, которая рассматривает генерацию макетов как задачу генерации кода, чтобы усилить семантическую информацию и использовать скрытые знания о макетах, заложенные в больших языковых моделях (LLM). Более конкретно, мы разработали подход Code Instruct Tuning (CIT), состоящий из трех взаимосвязанных модулей: 1) модуль Code Initialization (CI) квантует численные условия и инициализирует их в виде HTML-кода с стратегически размещенными масками; 2) модуль Code Completion (CC) использует знания о форматировании LLM для заполнения замаскированных частей в HTML-коде; 3) модуль Code Rendering (CR) преобразует завершенный код в финальный макет, обеспечивая высокую интерпретируемость и прозрачность процесса генерации макета, который напрямую отображает код в визуализированный макет. Мы достигаем значительных результатов, превосходящих современные методы (вплоть до улучшений более чем на 50%) на нескольких наборах данных, демонстрируя мощные возможности LayoutNUWA. Наш код доступен по адресу https://github.com/ProjectNUWA/LayoutNUWA.
Крупные языковые модели (LLM) обладают способностью выполнять сложное планирование в мультиагентных системах и могут координировать этих агентов для выполнения изощренных задач, требующих обширного взаимодействия. Однако, несмотря на появление множества игровых фреймворков, сообщество испытывает недостаток в эталонных тестах для создания универсальной инфраструктуры мультиагентного взаимодействия, охватывающей как сотрудничество LLM, так и взаимодействие людей с NPC. В данной работе мы предлагаем новую инфраструктуру — MindAgent — для оценки возникающих способностей к планированию и координации в игровом взаимодействии. В частности, наша инфраструктура использует существующие игровые фреймворки, чтобы: i) требовать понимания координатора мультиагентной системы, ii) взаимодействовать с игроками-людьми через ненастроенные инструкции и iii) устанавливать обучение в контексте с использованием нескольких примеров и обратной связи. Кроме того, мы представляем CUISINEWORLD — новый игровой сценарий и связанный с ним эталонный тест, который оценивает эффективность мультиагентного взаимодействия и контролирует одновременную игру нескольких агентов. Мы проводим всесторонние оценки с новой автоматической метрикой CoS для расчета эффективности взаимодействия. Наконец, наша инфраструктура может быть развернута в реальных игровых сценариях в кастомизированной VR-версии CUISINEWORLD и адаптирована в более широкой игровой среде Minecraft. Мы надеемся, что наши выводы о LLM и новая инфраструктура для универсального планирования и координации помогут пролить свет на то, как такие навыки могут быть получены путем обучения на больших языковых корпусах.
По мере стремительного развития практических приложений, основанных на больших языковых моделях, важность экстраполяции производительности в исследовательской области возросла экспоненциально. В нашем исследовании мы выявили аномальное поведение моделей Transformer, которое ранее оставалось незамеченным, что привело к хаосу вокруг ближайших токенов, несущих наиболее важную информацию. Мы назвали это открытие "головной болью Transformer". Для решения этой проблемы на фундаментальном уровне мы предложили новую структуру самовнимания под названием Collinear Constrained Attention (CoCA). Эта структура может быть легко интегрирована с существующими методами экстраполяции, интерполяции и другими стратегиями оптимизации, разработанными для традиционных моделей Transformer. Мы достигли превосходной производительности при экстраполяции даже для последовательностей длиной в 16–24 раза без необходимости тонкой настройки нашей модели. Мы также повысили вычислительную и пространственную эффективность CoCA, чтобы обеспечить её практическую применимость. В ближайшее время мы планируем открыть исходный код CoCA. Тем временем мы предоставили наш код в приложении для воспроизведения экспериментов.
Крупные языковые модели (LLM) произвели революцию в обработке естественного языка, однако согласование этих моделей с человеческими ценностями и предпочтениями с использованием обучения с подкреплением на основе человеческой обратной связи (RLHF) остается серьезной проблемой. Эта проблема характеризуется различными нестабильностями, такими как взлом наград и катастрофическое забывание. В данном техническом отчете мы предлагаем два нововведения для стабилизации обучения RLHF: 1) Модель преимуществ, которая напрямую моделирует показатель преимущества, то есть дополнительное вознаграждение по сравнению с ожидаемыми наградами, и регулирует распределение оценок между задачами для предотвращения взлома наград. 2) Избирательное повторение, которое смягчает катастрофическое забывание за счет стратегического выбора данных для обучения PPO и повторения знаний. Наш экспериментальный анализ на публичных и проприетарных наборах данных показывает, что предложенные методы не только повышают стабильность обучения RLHF, но и достигают более высоких показателей наград и коэффициентов выигрыша.
Несмотря на мощь крупных языковых моделей (LLM), таких как GPT-4, они всё ещё испытывают трудности с задачами, требующими генерации сложных структурированных выходных данных. В данном исследовании мы оцениваем способность современных LLM генерировать сложные структурированные данные и предлагаем подход тонкой настройки с учётом структуры в качестве решения для улучшения этой способности. Для проведения всесторонней оценки мы представляем Struc-Bench, включающий пять репрезентативных LLM (таких как GPT-NeoX 20B, GPT-3.5, GPT-4 и Vicuna), и оцениваем их на тщательно созданных наборах данных, охватывающих необработанный текст, HTML и таблицы LaTeX. На основе анализа текущей производительности моделей мы выявляем типичные ошибки форматирования и области для потенциального улучшения. Для решения сложных требований к форматированию мы используем FormatCoT (цепочку рассуждений) для генерации инструкций по форматированию из целевых выходных данных. Наши эксперименты показывают, что наш метод тонкой настройки с учётом структуры, применённый к LLaMA-7B, значительно улучшает соблюдение ограничений естественного языка, превосходя другие оцениваемые LLM. На основе этих результатов мы представляем карту способностей моделей по шести измерениям (таким как охват, форматирование, рассуждение, понимание, прагматика и галлюцинации). Эта карта подчёркивает слабости LLM в обработке сложных структурированных выходных данных и предлагает перспективные направления для будущих исследований. Наш код и модели доступны по адресу https://github.com/gersteinlab/Struc-Bench.
Крупные языковые модели с возможностью следования инструкциям произвели революцию в области искусственного интеллекта. Эти модели демонстрируют исключительную обобщаемость для решения различных задач реального мира через свои интерфейсы на естественном языке. Однако их производительность сильно зависит от высококачественных примеров данных, которые часто сложно получить. Эта проблема усугубляется, когда речь идет о мультимодальном следовании инструкциям. Мы представляем TextBind — практически не требующий аннотаций фреймворк для наделения крупных языковых моделей способностью к многошаговому чередующемуся мультимодальному следованию инструкциям. Наш подход требует только пар изображение-описание и генерирует многошаговые мультимодальные диалоги "инструкция-ответ" с помощью языковой модели. Мы публикуем наш набор данных, модель и демонстрацию для стимулирования будущих исследований в области мультимодального следования инструкциям.
Shampoo — это алгоритм онлайн- и стохастической оптимизации, относящийся к семейству методов AdaGrad для обучения нейронных сетей. Он строит блочно-диагональный предобуславливатель, где каждый блок представляет собой грубое приближение Кронекера к полноматричному AdaGrad для каждого параметра нейронной сети. В данной работе мы предоставляем полное описание алгоритма, а также оптимизации производительности, которые использует наша реализация для масштабного обучения глубоких сетей в PyTorch. Наша реализация обеспечивает быстрое распределенное обучение с использованием нескольких GPU и параллелизацией данных за счет распределения памяти и вычислений, связанных с блоками каждого параметра, с использованием структуры данных DTensor в PyTorch и выполнения примитива AllGather для вычисленных направлений поиска на каждой итерации. Это значительное улучшение производительности позволяет нам достичь снижения времени выполнения на шаг не более чем на 10% по сравнению со стандартными адаптивными градиентными методами, основанными на диагональном масштабировании. Мы проверяем нашу реализацию, проводя исследование на обучении модели ResNet50 на наборе данных ImageNet, демонстрируя превосходство Shampoo над стандартными подходами к обучению при минимальной настройке гиперпараметров.
Традиционная задача отслеживания состояния диалога (Dialogue State Tracking, DST) направлена на отслеживание предпочтений и намерений пользователя в диалогах между пользователем и агентом. Хотя этого достаточно для целевых диалоговых систем, поддерживающих узкоспециализированные приложения, появление чат-систем на основе больших языковых моделей (Large Language Models, LLM) привнесло множество реальных сложностей в открытых диалогах. Эти сложности проявляются в виде увеличения сложности контекстных взаимодействий, продолжительных диалоговых сессий, охватывающих разнообразные темы, и более частых смен контекста. Для обработки этих сложностей, возникающих в развивающихся чат-системах на основе LLM, мы предлагаем совместное сегментирование диалога и отслеживание состояния для каждого сегмента в открытых диалоговых системах. Предполагая нулевой сценарий (zero-shot), подходящий для истинно открытой диалоговой системы, мы предлагаем S3-DST — структурированную технику подсказок, которая использует Pre-Analytical Recollection, новый механизм заземления, разработанный нами для улучшения отслеживания длинного контекста. Чтобы продемонстрировать эффективность нашего подхода в совместном сегментировании и отслеживании состояния, мы оцениваем S3-DST на проприетарном анонимизированном наборе данных открытых диалогов, а также на общедоступных наборах данных для DST и сегментирования. На всех наборах данных и в различных условиях S3-DST стабильно превосходит современные методы, демонстрируя свою эффективность и устойчивость для следующего поколения чат-систем на основе LLM.
В генерации музыки на основе языкового моделирования сгенерированный аудиосигнал представляется в виде последовательности иерархических стеков токенов, которые могут быть декодированы либо авторегрессивно, либо параллельно, в зависимости от структуры кодбуков. В частности, "уплощение" (flattening) кодбуков представляет собой стратегию декодирования наивысшего качества, однако она известна своей медлительностью. В связи с этим мы предлагаем новую стратегию декодирования в стиле "стек-и-задержка" (stack-and-delay), которая улучшает подход с использованием "уплощённого" паттерна, обеспечивая скорость генерации в четыре раза выше по сравнению с классическим "уплощённым" декодированием. Это приближает время вывода к показателям стратегии декодирования с задержкой и позволяет ускорить вывод на GPU для небольших размеров батчей. При одинаковом бюджете эффективности вывода, как у стратегии с задержкой, мы показываем, что предложенный подход демонстрирует лучшие результаты в объективных оценках, почти сокращая разрыв с "уплощённым" паттерном по качеству. Результаты подтверждаются субъективными оценками, которые показывают, что сэмплы, сгенерированные новой моделью, немного чаще предпочитаются сэмплам, созданным конкурирующей моделью, при одинаковых текстовых запросах.
Адаптация моделей имеет решающее значение для устранения расхождений между прокси-данными, используемыми для обучения, и реальными данными пользователей. Для эффективной адаптации текстовые данные пользователей обычно хранятся на серверах или их локальных устройствах, где модели обработки естественного языка (NLP) могут быть напрямую обучены на таких данных из целевой области. Однако это может вызывать проблемы конфиденциальности и безопасности из-за дополнительных рисков раскрытия информации пользователей злоумышленникам. В последнее время исследуется замена идентифицирующей информации в текстовых данных на универсальные маркеры. В данной работе мы используем большие языковые модели (LLM) для предложения замен замаскированных токенов и оцениваем их эффективность на задачах языкового моделирования. В частности, мы предлагаем несколько подходов, основанных на предварительно обученных и дообученных LLM, и проводим эмпирические исследования на различных наборах данных для сравнения этих методов. Результаты экспериментов показывают, что модели, обученные на корпусах с обфускацией, способны достичь сопоставимой производительности с моделями, обученными на исходных данных без маскирования токенов для защиты конфиденциальности.
В данной статье представлен инновационный подход к улучшению контроля над генерацией аудио за счет акцентирования на согласованности между аудио- и текстовыми представлениями в процессе обучения модели. В контексте генерации аудио на основе языковых моделей, модель использует входные данные как из текстовых, так и из аудио-токенов для предсказания последующих аудио-токенов. Однако текущая конфигурация не включает явной регуляризации, которая бы обеспечивала согласованность между выбранным текстовым представлением и предсказаниями языковой модели. Наше предложение заключается во внедрении регуляризации аудио- и текстовых представлений, особенно на этапе классификатор-свободного управления (CFG), где текстовое условие исключается из кросс-внимания в процессе обучения языковой модели. Цель данной регуляризации представлений — минимизировать расхождения в сходстве аудио и текста по сравнению с другими образцами в рамках одного обучающего батча. Результаты экспериментов на задачах генерации музыки и аудио показывают, что предложенные методы приводят к улучшению объективных метрик как для генерации аудио, так и для генерации музыки, а также к повышению качества восприятия аудио человеком.
Семантический анализ устной речи (Spoken Semantic Parsing, SSP) предполагает генерацию машинно-понятных структур из входного речевого сигнала. Обучение устойчивых моделей для существующих предметных областей, представленных в обучающих данных, или их расширение на новые области требует соответствующих триплетов данных: речь-транскрипт-семантический анализ, которые дорого получить. В данной работе мы решаем эту проблему, исследуя методы, которые могут использовать данные транскрипт-семантический анализ (несвязанный текст) без соответствующего речевого сигнала. Во-первых, когда несвязанный текст извлекается из существующих текстовых корпусов, сравниваются подходы Joint Audio Text (JAT) и Text-to-Speech (TTS) для генерации речевых представлений для несвязанного текста. Эксперименты на наборе данных STOP показывают, что несвязанный текст из существующих и новых областей улучшает производительность на 2% и 30% в абсолютных значениях Exact Match (EM) соответственно. Во-вторых, мы рассматриваем ситуацию, когда несвязанный текст недоступен в существующих текстовых корпусах. Мы предлагаем использовать крупные языковые модели (Large Language Models, LLMs) для генерации несвязанного текста для существующих и новых областей. Эксперименты показывают, что примеры и слова, которые часто встречаются вместе с намерениями, могут быть использованы для генерации несвязанного текста с помощью модели Llama 2.0. Использование сгенерированного текста с JAT и TTS для семантического анализа устной речи улучшает EM на STOP на 1,4% и 2,6% в абсолютных значениях для существующих и новых областей соответственно.