Ежедневно отобранные исследовательские статьи по ИИ с переводами
Веб-агенты, такие как Deep Research, продемонстрировали сверхчеловеческие когнитивные способности, способные решать крайне сложные задачи поиска информации. Однако большинство исследований остаются преимущественно текстоцентричными, игнорируя визуальную информацию в реальном мире. Это делает мультимодальный Deep Research чрезвычайно сложным, поскольку такие агенты требуют значительно более развитых способностей в восприятии, логике, знаниях и использовании более сложных инструментов по сравнению с текстовыми агентами. Чтобы устранить это ограничение, мы представляем WebWatcher — мультимодального агента для глубокого исследования, оснащённого расширенными возможностями визуально-языкового рассуждения. Он использует высококачественные синтетические мультимодальные траектории для эффективного обучения с нуля, применяет различные инструменты для глубокого анализа и дополнительно улучшает обобщение с помощью обучения с подкреплением. Для более точной оценки возможностей мультимодальных агентов мы предлагаем BrowseComp-VL — бенчмарк в стиле BrowseComp, который требует сложного поиска информации с использованием как визуальных, так и текстовых данных. Экспериментальные результаты показывают, что WebWatcher значительно превосходит проприетарный базовый уровень, рабочий процесс RAG и открытые агенты в четырёх сложных бенчмарках VQA, что открывает путь к решению сложных мультимодальных задач поиска информации.
Генерация исследованных 3D-миров из одного изображения или текстового запроса является краеугольным камнем пространственного интеллекта. Современные работы используют видеомодели для достижения широкомасштабной и обобщаемой генерации 3D-миров. Однако существующие подходы часто страдают от ограниченного охвата в создаваемых сценах. В данной работе мы предлагаем Matrix-3D — фреймворк, который использует панорамное представление для генерации широкоохватных и всесторонне исследованных 3D-миров, сочетая условную генерацию видео и панорамную 3D-реконструкцию. Сначала мы обучаем модель диффузии панорамного видео, управляемую траекторией, которая использует рендеры сцен в виде мешей в качестве условия, чтобы обеспечить генерацию высококачественных и геометрически согласованных видеосцен. Для преобразования панорамного видеоряда в 3D-мир мы предлагаем два отдельных метода: (1) прямую модель реконструкции больших панорам для быстрого восстановления 3D-сцен и (2) оптимизационный конвейер для точного и детального восстановления 3D-сцен. Для эффективного обучения мы также представляем набор данных Matrix-Pano — первую крупномасштабную синтетическую коллекцию, содержащую 116 тысяч высококачественных статических панорамных видеопоследовательностей с аннотациями глубины и траекторий. Многочисленные эксперименты демонстрируют, что наш фреймворк достигает передовых результатов в генерации панорамного видео и 3D-миров. Подробнее см. на https://matrix-3d.github.io.
Последние достижения в области агентов на основе языковых моделей (LLM) продемонстрировали впечатляющие способности в решении сложных, насыщенных знаниями задач благодаря интеграции внешних инструментов. Среди разнообразия доступных инструментов поисковые системы играют ключевую роль в доступе к обширным внешним знаниям. Однако открытые агенты всё ещё не достигают уровня экспертного поискового интеллекта — способности разрешать неоднозначные запросы, генерировать точные поисковые запросы, анализировать результаты и проводить глубокое исследование. Существующие подходы уступают в масштабируемости, эффективности и качестве данных. Например, ограниченное количество шагов в существующих методах онлайн-обучения с подкреплением (RL), например, <=10, препятствует изучению сложных стратегий. В данной статье представлен ASearcher — открытый проект для масштабного обучения поисковых агентов с использованием RL. Наши ключевые вклады включают: (1) Масштабируемое полностью асинхронное обучение RL, которое позволяет проводить долгосрочный поиск при сохранении высокой эффективности обучения. (2) Агент на основе LLM с использованием подсказок, который автономно синтезирует высококачественные и сложные вопросы и ответы (QA), создавая масштабный набор данных QA. Благодаря обучению RL наш агент QwQ-32B на основе подсказок демонстрирует значительные улучшения, с приростом Avg@4 на 46,7% и 20,8% на xBench и GAIA соответственно. Примечательно, что наш агент демонстрирует экстремально долгосрочный поиск, с количеством вызовов инструментов, превышающим 40 шагов, и количеством выходных токенов, превышающим 150 тысяч во время обучения. С простым дизайном агента и без использования внешних LLM, ASearcher-Web-QwQ достигает Avg@4 показателей 42,1 на xBench и 52,8 на GAIA, превосходя существующие открытые агенты с 32B параметрами. Мы открываем доступ к нашим моделям, данным обучения и кодам на https://github.com/inclusionAI/ASearcher.
Следование инструкциям стало катализатором новой эры больших языковых моделей (LLM) и является базовым навыком, лежащим в основе более продвинутых способностей, таких как рассуждение и агентное поведение. По мере усложнения задач логические структуры, встроенные в инструкции на естественном языке, становятся всё более сложными. Однако то, насколько хорошо LLM справляются с такими инструкциями, насыщенными логикой, остаётся недостаточно изученным. Мы предлагаем LogicIFGen и LogicIFEval. LogicIFGen — это масштабируемая автоматизированная структура для генерации проверяемых инструкций из функций кода, которые могут естественным образом выражать сложную логику, такую как условные операторы, вложенные структуры, рекурсия и вызовы функций. Мы также создали коллекцию сложных функций кода и использовали LogicIFGen для построения LogicIFEval — эталона, включающего 426 проверяемых инструкций, насыщенных логикой. Наши эксперименты показывают, что современные LLM всё ещё испытывают трудности с правильным выполнением инструкций из LogicIFEval. Большинство моделей способны следовать менее чем 60% инструкций, что выявляет значительные недостатки в способности следовать инструкциям. Код и эталон: https://github.com/mianzhang/LogicIF
В данной статье мы представляем CharacterShot — управляемый и согласованный фреймворк для 4D-анимации персонажей, который позволяет любому дизайнеру создавать динамичные 3D-персонажи (т.е. 4D-анимацию персонажей) на основе одного эталонного изображения персонажа и последовательности 2D-поз. Мы начинаем с предварительного обучения мощной модели 2D-анимации персонажей, основанной на передовой модели преобразования изображений в видео на базе DiT, которая позволяет использовать любую последовательность 2D-поз в качестве управляющего сигнала. Затем мы переносим модель анимации из 2D в 3D, вводя двойной модуль внимания вместе с априорной информацией о камере для генерации многовидовых видео с пространственно-временной и пространственно-видовой согласованностью. Наконец, мы применяем новую оптимизацию 4D-гауссовского сплайтинга с ограничением по соседству на этих многовидовых видео, что приводит к созданию непрерывных и стабильных 4D-представлений персонажей. Кроме того, для повышения производительности в задачах, связанных с персонажами, мы создаем крупномасштабный набор данных Character4D, содержащий 13 115 уникальных персонажей с разнообразными внешними видами и движениями, отрендеренных с нескольких точек зрения. Многочисленные эксперименты на нашем новом бенчмарке CharacterBench демонстрируют, что наш подход превосходит современные методы. Код, модели и наборы данных будут общедоступны по адресу https://github.com/Jeoyal/CharacterShot.
Диффузионные языковые модели большого масштаба (dLLMs) генерируют текст через итеративное удаление шума, однако текущие стратегии декодирования отбрасывают богатые промежуточные прогнозы в пользу финального результата. Наша работа выявляет критическое явление — временные колебания, когда правильные ответы часто появляются в середине процесса, но перезаписываются на последующих этапах удаления шума. Для решения этой проблемы мы предлагаем два взаимодополняющих метода, использующих временную согласованность: 1) Голосование по временной самосогласованности — стратегия декодирования на этапе тестирования, не требующая обучения, которая агрегирует прогнозы на разных этапах удаления шума для выбора наиболее согласованного результата; и 2) метод пост-обучения, названный Усилением временной согласованности, который использует Временную семантическую энтропию (TSE) — меру семантической стабильности промежуточных прогнозов — в качестве сигнала вознаграждения для поощрения стабильных генераций. Эмпирические результаты на множестве бенчмарков демонстрируют эффективность нашего подхода. Используя только отрицательное вознаграждение TSE, мы наблюдаем впечатляющее среднее улучшение на 24,7% на наборе данных Countdown по сравнению с существующей dLLM. В сочетании с вознаграждением за точность мы достигаем абсолютного прироста на 2,0% на GSM8K, 4,3% на MATH500, 6,6% на SVAMP и 25,3% на Countdown. Наши результаты подчеркивают неиспользованный потенциал временной динамики в dLLMs и предлагают два простых, но эффективных инструмента для её использования.
В последнее время крупные модели рассуждений продемонстрировали высокие способности в математике и программировании, а глубокий поиск использует их возможности рассуждения в сложных задачах информационного поиска. Существующие работы по глубокому поиску, как правило, ограничиваются одним источником знаний — локальным или веб-ресурсами. Однако предприятиям часто требуются частные системы глубокого поиска, способные использовать инструменты поиска как в локальных, так и в веб-корпусах. Простое обучение агента, оснащённого несколькими инструментами поиска, с использованием плоского обучения с подкреплением (RL) — это простая идея, но она имеет проблемы, такие как низкая эффективность использования данных для обучения и слабое освоение сложных инструментов. Для решения этой проблемы мы предлагаем иерархическую агентную структуру глубокого поиска, HierSearch, обученную с использованием иерархического RL. На нижнем уровне обучаются локальный агент глубокого поиска и веб-агент глубокого поиска для извлечения доказательств из соответствующих областей. На верхнем уровне агент-планировщик координирует низкоуровневых агентов и предоставляет окончательный ответ. Кроме того, чтобы предотвратить прямое копирование ответов и распространение ошибок, мы разработали уточнитель знаний, который фильтрует галлюцинации и нерелевантные доказательства, возвращаемые низкоуровневыми агентами. Эксперименты показывают, что HierSearch демонстрирует лучшую производительность по сравнению с плоским RL и превосходит различные базовые методы глубокого поиска и генерации, усиленной поиском из нескольких источников, в шести тестах, охватывающих общие, финансовые и медицинские области.
Мы представляем VertexRegen, новый фреймворк для генерации сеток, который позволяет создавать модели с непрерывным уровнем детализации. Существующие авторегрессивные методы генерируют сетки в режиме от частичного к полному, и, следовательно, промежуточные этапы генерации представляют собой незавершенные структуры. VertexRegen вдохновлен прогрессивными сетками и переформулирует процесс как обратный процесс схлопывания ребер, то есть разделение вершин, которое изучается с помощью генеративной модели. Экспериментальные результаты показывают, что VertexRegen создает сетки, сопоставимые по качеству с современными методами, при этом уникально предлагая возможность генерации в любой момент с гибкостью остановки на любом этапе для получения корректных сеток с различными уровнями детализации.
Модели, объединяющие зрение и язык, продемонстрировали впечатляющие возможности в качестве агентов компьютерного использования (CUA), способных автоматизировать разнообразные задачи на компьютере. По мере роста их коммерческого потенциала ключевые детали наиболее мощных систем CUA остаются закрытыми. Поскольку эти агенты будут всё чаще опосредовать цифровые взаимодействия и принимать важные решения от нашего имени, исследовательскому сообществу необходим доступ к открытым фреймворкам CUA для изучения их возможностей, ограничений и рисков. Чтобы устранить этот пробел, мы предлагаем OpenCUA — всеобъемлющий фреймворк с открытым исходным кодом для масштабирования данных и базовых моделей CUA. Наш фреймворк включает: (1) инфраструктуру аннотирования, которая легко фиксирует демонстрации использования компьютера человеком; (2) AgentNet, первый крупномасштабный набор данных задач компьютерного использования, охватывающий 3 операционные системы и более 200 приложений и веб-сайтов; (3) масштабируемый конвейер, преобразующий демонстрации в пары "состояние-действие" с рефлексивным длинным цепочечным рассуждением (Chain-of-Thought), что обеспечивает устойчивый рост производительности по мере увеличения объёма данных. Наши сквозные модели агентов демонстрируют высокую производительность на бенчмарках CUA. В частности, OpenCUA-32B достигает среднего уровня успешности 34,8% на OSWorld-Verified, устанавливая новый рекорд (SOTA) среди моделей с открытым исходным кодом и превосходя OpenAI CUA (GPT-4o). Дополнительный анализ подтверждает, что наш подход хорошо обобщается на различные области и значительно выигрывает от увеличения вычислительных ресурсов на этапе тестирования. Мы публикуем наш инструмент аннотирования, наборы данных, код и модели, чтобы заложить открытые основы для дальнейших исследований CUA.
Графический интерфейс пользователя (GUI) grounding — задача сопоставления инструкций на естественном языке с точными координатами на экране — является фундаментальной для автономных агентов, работающих с GUI. Хотя существующие методы достигают высокой производительности за счет обширного обучения с учителем или обучения с подкреплением с помеченными наградами, они остаются ограниченными стоимостью и доступностью аннотаций на уровне пикселей. Мы наблюдаем, что когда модели генерируют несколько предсказаний для одного и того же элемента GUI, паттерны пространственного перекрытия выявляют неявные сигналы уверенности, которые могут направлять более точную локализацию. Используя это наблюдение, мы предлагаем GUI-RC (Region Consistency), метод масштабирования на этапе тестирования, который строит пространственные голосующие сетки из множества сэмплированных предсказаний для выявления областей консенсуса, где модели демонстрируют наибольшее согласие. Без какого-либо обучения GUI-RC повышает точность на 2-3% для различных архитектур на бенчмарках ScreenSpot. Мы также представляем GUI-RCPO (Region Consistency Policy Optimization), который преобразует эти паттерны согласованности в награды для обучения с подкреплением на этапе тестирования. Вычисляя, насколько хорошо каждое предсказание соответствует коллективному консенсусу, GUI-RCPO позволяет моделям итеративно улучшать свои выходные данные на немаркированных данных во время вывода. Обширные эксперименты демонстрируют универсальность нашего подхода: GUI-RC повышает точность Qwen2.5-VL-3B-Instruct с 80,11% до 83,57% на ScreenSpot-v2, а GUI-RCPO дополнительно улучшает её до 85,14% за счет самообучающейся оптимизации. Наш подход раскрывает неиспользованный потенциал масштабирования на этапе тестирования и обучения с подкреплением на этапе тестирования для GUI grounding, предлагая перспективный путь к созданию более надежных и эффективных с точки зрения данных GUI агентов.
Недавние исследования, направленные на улучшение способности крупных языковых моделей (LLM) к рассуждению, предложили использование явного контроля длины как способ ограничения вычислительных затрат при сохранении точности. Однако существующие подходы опираются на фиксированные бюджеты длины при обучении, что не учитывает естественный переход от исследования к сжатию в процессе обучения. В данной работе мы предлагаем стратегию обучения по учебному плану для контроля длины рассуждений с использованием оптимизации групповой относительной политики (Group Relative Policy Optimization, GRPO). Наш метод начинается с щедрых бюджетов токенов и постепенно ужесточает их в процессе обучения, побуждая модели сначала находить эффективные стратегии решения, а затем сжимать их в более лаконичные цепочки рассуждений. Мы дополняем GRPO функцией вознаграждения, которая балансирует три сигнала: правильность выполнения задачи (через обратную связь от верификатора), эффективность длины и соблюдение формата (через структурные теги). Эксперименты на наборах данных GSM8K, MATH500, SVAMP, College Math и GSM+ показывают, что обучение по учебному плану стабильно превосходит базовые методы с фиксированным бюджетом при одинаковом итоговом бюджете, достигая более высокой точности и значительно улучшенной эффективности использования токенов. Мы также анализируем влияние весов вознаграждения и дизайна графика снижения, демонстрируя, что прогрессивное ограничение служит мощной индуктивной предпосылкой для обучения эффективных моделей рассуждений. Наш код и контрольные точки доступны по адресу: https://github.com/hammoudhasan/curriculum_grpo.
Генерация изображений по тексту (Text-to-Image, T2I) активно изучается с использованием диффузионных моделей и авторегрессивных моделей. Недавно маскированные генеративные трансформеры привлекли внимание как альтернатива авторегрессивным моделям, преодолевая присущие ограничения причинного внимания и авторегрессивного декодирования за счет двунаправленного внимания и параллельного декодирования, что позволяет эффективно и качественно генерировать изображения. Однако композиционная генерация T2I остается сложной задачей, поскольку даже современные диффузионные модели часто не могут точно связывать атрибуты и достигать правильного соответствия текста и изображения. Хотя диффузионные модели были тщательно изучены в этом контексте, маскированные генеративные трансформеры демонстрируют схожие ограничения, но не были исследованы в этой области. Для решения этой проблемы мы предлагаем метод Unmasking with Contrastive Attention Guidance (UNCAGE) — новый подход, не требующий обучения, который улучшает композиционную точность, используя карты внимания для приоритетного раскрытия токенов, четко представляющих отдельные объекты. UNCAGE стабильно улучшает результаты как в количественных, так и в качественных оценках на множестве бенчмарков и метрик, с минимальными накладными расходами на вывод. Наш код доступен по адресу https://github.com/furiosa-ai/uncage.
Представляем Aryabhata 1.0 — компактную модель математического мышления с 7 миллиардами параметров, оптимизированную для индийского вступительного экзамена Joint Entrance Examination (JEE). Несмотря на быстрый прогресс в области больших языковых моделей (LLM), современные модели часто остаются непригодными для образовательных целей. Aryabhata 1.0 создана путем объединения мощных открытых моделей для рассуждений с последующим контролируемым тонким обучением (SFT) с использованием учебного плана на проверенных траекториях цепочки рассуждений (CoT), отобранных методом best-of-n rejection sampling. Для дальнейшего повышения производительности применяется обучение с подкреплением с проверяемыми наградами (RLVR) с использованием цели A2C и оценки группового относительного преимущества, а также новых стратегий исследования, таких как адаптивное изменение размера группы и масштабирование температуры. Оцененная как на входящих в распределение (JEE Main 2025), так и на выходящих за его пределы (MATH, GSM8K) тестах, Aryabhata превосходит существующие модели по точности и эффективности, предлагая педагогически полезные пошаговые рассуждения. Мы выпускаем Aryabhata в качестве базовой модели для продвижения экзамено-ориентированных, открытых малых языковых моделей. Это наш первый открытый релиз для получения обратной связи от сообщества (https://huggingface.co/PhysicsWallahAI/Aryabhata-1.0{Aryabhata 1.0 на Hugging Face}); PW активно обучает будущие модели для дальнейшего улучшения результатов обучения студентов.
Эффективное использование инструментов является ключевым для крупных языковых моделей (LLMs), чтобы взаимодействовать с окружающей средой осмысленно. Однако прогресс ограничен отсутствием эффективных фреймворков обучения с подкреплением (RL), специально разработанных для использования инструментов, из-за сложностей в создании стабильных обучающих сред и проектировании проверяемых механизмов вознаграждения. Для решения этой проблемы мы предлагаем автоматизированный конвейер построения среды, включающий декомпозицию сценариев, генерацию документов, интеграцию функций, масштабирование сложности и локальное развертывание. Это позволяет создавать высококачественные обучающие среды, которые предоставляют детальную и измеримую обратную связь без использования внешних инструментов. Кроме того, мы вводим проверяемый механизм вознаграждения, который оценивает как точность использования инструментов, так и полноту выполнения задачи. В сочетании с данными траекторий, собранными из построенных сред, этот механизм легко интегрируется со стандартными алгоритмами RL для облегчения обучения моделей на основе обратной связи. Эксперименты на LLMs различного масштаба демонстрируют, что наш подход значительно улучшает производительность моделей в использовании инструментов без ухудшения их общих способностей, независимо от режимов вывода или алгоритмов обучения. Наш анализ показывает, что эти улучшения обусловлены лучшим пониманием контекста и рассуждениями, вызванными обновлениями параметров нижних слоев MLP в моделях.
Современные диффузионные модели для генерации видео аватаров на основе аудио сталкиваются с трудностями при синтезе длинных видео с естественной синхронизацией звука и сохранением идентичности. В данной статье представлен StableAvatar — первый сквозной видео-диффузионный трансформер, который синтезирует высококачественные видео бесконечной длины без постобработки. Опираясь на эталонное изображение и аудио, StableAvatar интегрирует специализированные модули обучения и вывода, что позволяет генерировать видео неограниченной длины. Мы отмечаем, что основная причина, препятствующая существующим моделям в создании длинных видео, заключается в их подходе к моделированию аудио. Обычно они полагаются на сторонние готовые экстракторы для получения аудио-эмбеддингов, которые затем напрямую внедряются в диффузионную модель через кросс-внимание. Поскольку текущие архитектуры диффузионных моделей не имеют априорных знаний, связанных с аудио, такой подход вызывает накопление ошибок в латентном распределении между видеофрагментами, что приводит к постепенному отклонению латентного распределения последующих сегментов от оптимального. Для решения этой проблемы StableAvatar представляет новый Time-step-aware Audio Adapter, который предотвращает накопление ошибок за счет модуляции, учитывающей временные шаги. Во время вывода мы предлагаем новый механизм Audio Native Guidance Mechanism, который дополнительно улучшает синхронизацию аудио, используя собственное развивающееся совместное предсказание аудио-латентного пространства диффузионной модели в качестве динамического сигнала управления. Для повышения плавности видео бесконечной длины мы вводим стратегию Dynamic Weighted Sliding-window Strategy, которая объединяет латентные представления во времени. Эксперименты на эталонных наборах данных демонстрируют эффективность StableAvatar как качественно, так и количественно.
Эффективная генерация многокадровых сцен требует целенаправленных, кинематографических переходов и строгой визуальной преемственности. Однако современные методы часто уделяют основное внимание базовой визуальной согласованности, пренебрегая ключевыми приемами монтажа (например, чередование планов, вставные кадры), которые обеспечивают развитие сюжета и увлекательное повествование. Это приводит к результатам, которые могут быть визуально согласованными, но лишены сюжетной изысканности и подлинной кинематографической целостности. Для решения этой проблемы мы представляем Next Shot Generation (NSG): синтез последующего высококачественного кадра, который строго соответствует профессиональным приемам монтажа, сохраняя при этом строгую кинематографическую преемственность. Наша структура, Cut2Next, использует Diffusion Transformer (DiT). Она применяет контекстную настройку, управляемую новой стратегией Hierarchical Multi-Prompting. Эта стратегия использует Relational Prompts для определения общего контекста и стилей межкадрового монтажа. Individual Prompts затем задают содержание каждого кадра и его кинематографические атрибуты. Вместе они направляют Cut2Next на генерацию кинематографически подходящих последующих кадров. Архитектурные инновации, Context-Aware Condition Injection (CACI) и Hierarchical Attention Mask (HAM), дополнительно интегрируют эти разнообразные сигналы без введения новых параметров. Мы создаем наборы данных RawCuts (масштабный) и CuratedCuts (уточненный), оба с иерархическими подсказками, и представляем CutBench для оценки. Эксперименты показывают, что Cut2Next превосходит по визуальной согласованности и точности текста. Ключевым является то, что пользовательские исследования выявляют сильное предпочтение Cut2Next, особенно за его соответствие задуманным приемам монтажа и общей кинематографической преемственности, подтверждая его способность генерировать высококачественные, сюжетно выразительные и кинематографически согласованные последующие кадры.
Ловкая рука, способная к универсальному захвату объектов, является фундаментальной для развития универсального воплощённого ИИ. Однако предыдущие методы сосредоточены исключительно на низкоуровневых метриках устойчивости захвата, игнорируя позиционирование с учётом аффордансов и человекообразные позы, которые имеют решающее значение для последующих манипуляций. Чтобы устранить эти ограничения, мы предлагаем AffordDex — новую структуру с двухэтапным обучением, которая изучает универсальную политику захвата с внутренним пониманием как априорных данных о движении, так и аффордансов объектов. На первом этапе имитатор траекторий предварительно обучается на большом корпусе движений человеческой руки, чтобы заложить сильный априор для естественных движений. На втором этапе остаточный модуль обучается адаптировать эти общие человекообразные движения к конкретным экземплярам объектов. Это уточнение критически направляется двумя компонентами: нашим модулем сегментации с учётом отрицательных аффордансов (NAA), который идентифицирует функционально неподходящие области контакта, и процессом дистилляции с привилегированным учителем, который обеспечивает высокую успешность окончательной политики, основанной на зрении. Многочисленные эксперименты демонстрируют, что AffordDex не только достигает универсального ловкого захвата, но и остаётся поразительно человекообразным в позах и функционально подходящим в выборе точек контакта. В результате AffordDex значительно превосходит современные базовые подходы как для известных объектов, так и для неизвестных экземпляров и даже совершенно новых категорий.
Мы представляем первую систему оценки, которая позволяет любым готовым локальным большим языковым моделям (LLM) играть в полную версию игры "Дипломатия" без необходимости тонкой настройки или специализированного обучения. Предыдущие работы требовали использования передовых LLM или тонкой настройки из-за высокой сложности и информационной насыщенности игрового состояния "Дипломатии". В сочетании с высокой вариативностью матчей эти факторы делали изучение "Дипломатии" чрезвычайно сложным. В данной работе мы использовали итерации на основе данных для оптимизации текстового представления игрового состояния, что позволило модели объемом 24 млрд параметров надежно завершать матчи без какой-либо тонкой настройки. Мы разработали инструменты для облегчения проверки гипотез и статистического анализа, а также представили кейс-стади по убеждению, агрессивным стилям игры и производительности на различных моделях. Мы провели множество экспериментов с использованием популярных LLM, обнаружив, что более крупные модели показывают наилучшие результаты, но меньшие модели также играют достаточно хорошо. Мы также вводим Анализ Критических Состояний: экспериментальный протокол для быстрого итеративного анализа ключевых моментов игры с высокой детализацией. Наша система демократизирует оценку стратегического мышления в LLM, устраняя необходимость тонкой настройки, и предоставляет инсайты о том, как эти способности естественным образом возникают в широко используемых LLM. Наш код доступен в приложении и будет опубликован в открытом доступе.
Благодаря развитию кросс-модальных моделей, поиск видео по тексту (Text-to-Video Retrieval, T2VR) быстро прогрессирует, однако его устойчивость остается в значительной степени неисследованной. Существующие атаки на T2VR направлены на отдаление видео от запросов, то есть на снижение их рейтинга, в то время как атаки, которые приближают видео к выбранным запросам, то есть повышают их рейтинг, остаются практически не изученными. Такие атаки могут быть более значимыми, так как злоумышленники могут получать больше просмотров/кликов для финансовой выгоды и распространения (дезинформации). В связи с этим мы впервые предлагаем атаку на T2VR для повышения рейтинга видео, названную Video Promotion attack (ViPro). Мы также предлагаем метод Modal Refinement (MoRe) для более детального учета сложного взаимодействия между визуальными и текстовыми модальностями с целью повышения переносимости в условиях черного ящика. Комплексные эксперименты охватывают 2 существующих базовых метода, 3 ведущие модели T2VR, 3 популярных набора данных с более чем 10 тыс. видео, оцененных в 3 сценариях. Все эксперименты проводятся в многозадачной настройке, чтобы отразить реалистичные сценарии, в которых злоумышленники стремятся повысить рейтинг видео относительно нескольких запросов одновременно. Мы также оценили наши атаки на предмет защиты и незаметности. В целом, ViPro превосходит другие базовые методы в среднем на 30/10/4% для настроек белого/серого/черного ящика. Наша работа подчеркивает уязвимость, которая ранее оставалась незамеченной, предоставляет качественный анализ верхней/нижней границы наших атак и предлагает идеи для потенциальных контрмер. Код будет доступен публично по адресу https://github.com/michaeltian108/ViPro.
В данной статье представлен простой, но эффективный метод регуляризации внутренней языковой модели, индуцированной декодером в моделях автоматического распознавания речи (ASR) с архитектурой "кодировщик-декодировщик", что повышает устойчивость и обобщающую способность как в рамках, так и за пределами домена. Предложенный метод, названный Decoder-Centric Regularization in Encoder-Decoder (DeCRED), добавляет вспомогательные классификаторы к декодеру, позволяя прогнозировать следующий токен с помощью промежуточных логитов. Эмпирически DeCRED снижает среднюю перплексию внутренней языковой модели на уровне BPE на 36,6% относительно 11 тестовых наборов. Более того, это приводит к реальному улучшению показателя WER по сравнению с базовым подходом на 5 из 7 внутридоменных и 3 из 4 внедоменных тестовых наборов, снижая макро-WER с 6,4% до 6,3% и с 18,2% до 16,2% соответственно. На наборе данных TEDLIUM3 DeCRED достигает WER 7,0%, превосходя базовый подход и регуляризацию InterCTC, ориентированную на кодировщик, на 0,6% и 0,5% соответственно. Наконец, мы сравниваем DeCRED с моделями OWSM v3.1 и Whisper-medium, демонстрируя конкурентоспособные значения WER, несмотря на обучение на значительно меньшем объеме данных и с меньшим количеством параметров.
ИИ-ассистенты для написания кода, такие как GitHub Copilot, стремительно меняют процесс разработки программного обеспечения, но их безопасность остается крайне неопределенной, особенно в высокорисковых областях, таких как кибербезопасность. Современные инструменты для тестирования на уязвимости часто полагаются на фиксированные бенчмарки или нереалистичные запросы, упуская множество реальных уязвимостей. Мы представляем ASTRA, автоматизированную систему, предназначенную для систематического выявления недостатков безопасности в системах генерации кода и предоставления рекомендаций по безопасности на основе ИИ. ASTRA работает в три этапа: (1) строит структурированные предметно-ориентированные графы знаний, моделирующие сложные задачи разработки и известные уязвимости; (2) проводит онлайн-исследование уязвимостей каждой целевой модели, адаптивно исследуя как пространство входных данных (пространственное исследование), так и процессы рассуждения (временное исследование), руководствуясь графами знаний; и (3) генерирует высококачественные тестовые случаи, вызывающие нарушения, для улучшения согласованности модели. В отличие от предыдущих методов, ASTRA фокусируется на реалистичных запросах — тех, которые разработчики могут действительно задавать — и использует как оффлайн-моделирование предметной области с помощью абстракций, так и онлайн-адаптацию графов знаний для выявления уязвимостей в крайних случаях. В двух основных областях оценки ASTRA обнаруживает на 11–66% больше проблем, чем существующие методы, и создает тестовые случаи, которые приводят к повышению эффективности обучения согласованности на 17%, демонстрируя свою практическую ценность для создания более безопасных систем ИИ.
В данной статье мы представляем AimBot — легковесную технику визуального дополнения, которая предоставляет явные пространственные подсказки для улучшения обучения визомоторных стратегий в задачах роботизированного манипулирования. AimBot накладывает линии прицеливания и сетки прицела на многовидовые RGB-изображения, предлагая вспомогательное визуальное руководство, кодирующее состояние конечного исполнительного устройства. Наложения вычисляются на основе глубинных изображений, внешних параметров камер и текущей позы конечного исполнительного устройства, явно передавая пространственные взаимосвязи между захватом и объектами в сцене. AimBot требует минимальных вычислительных затрат (менее 1 мс) и не требует изменений в архитектуре моделей, так как просто заменяет исходные RGB-изображения их дополненными версиями. Несмотря на свою простоту, наши результаты показывают, что AimBot последовательно улучшает производительность различных визомоторных стратегий как в симуляции, так и в реальных условиях, подчеркивая преимущества пространственно обоснованной визуальной обратной связи.
Крупные языковые модели (LLM) продемонстрировали впечатляющие возможности в различных областях, при этом генерация кода стала одной из ключевых сфер внимания. Хотя было предложено множество тестов для оценки их способностей к генерации кода, эти тесты сталкиваются с несколькими критическими ограничениями. Во-первых, они часто полагаются на ручные аннотации, которые требуют значительных временных затрат и сложно масштабировать на различные языки программирования и уровни сложности задач. Во-вторых, большинство существующих тестов сосредоточено в основном на Python, в то время как немногочисленные мультиязычные тесты страдают от ограниченной сложности и неравномерного распределения языков. Для решения этих проблем мы предлагаем AutoCodeGen — автоматизированный метод генерации мультиязычных наборов данных для генерации кода высокой сложности без ручных аннотаций. AutoCodeGen обеспечивает корректность и полноту тестовых случаев, генерируя тестовые входные данные с помощью LLM и получая тестовые выходные данные через мультиязычную песочницу, одновременно достигая высокого качества данных благодаря генерации задач в обратном порядке и нескольким этапам фильтрации. Используя этот новый метод, мы представляем AutoCodeBench — крупномасштабный тест для генерации кода, включающий 3920 задач, равномерно распределенных по 20 языкам программирования. Он специально разработан для оценки LLM на сложных, разнообразных и практических мультиязычных задачах. Мы оценили более 30 ведущих открытых и проприетарных LLM на AutoCodeBench и его упрощенной версии AutoCodeBench-Lite. Результаты показывают, что даже самые передовые LLM испытывают трудности с сложностью, разнообразием и мультиязычным характером этих задач. Кроме того, мы представляем AutoCodeBench-Complete, специально разработанный для базовых моделей, чтобы оценить их способности к генерации кода в условиях ограниченного количества примеров. Мы надеемся, что серия AutoCodeBench станет ценным ресурсом и вдохновит сообщество на изучение более сложных и практических сценариев мультиязычной генерации кода.
Крупные языковые модели (LLM) демонстрируют высокие результаты в машинном переводе (MT) благодаря использованию обучения в контексте (ICL), конкурируя с моделями, обученными с учителем, при переводе на языки с большим объемом ресурсов (HRL). Однако их производительность отстает при переводе на языки с ограниченными ресурсами (LRL). Выбор примеров с помощью поиска по сходству и тонкая настройка с учителем помогают, но их улучшения ограничены размером, качеством и разнообразием существующих параллельных наборов данных. Распространенной техникой в MT для языков с ограниченными ресурсами является создание синтетических параллельных данных, наиболее частым из которых является обратный перевод, когда существующие тексты на целевом языке автоматически переводятся на исходный язык. Однако это предполагает наличие качественных и релевантных текстов на целевом языке, которые недоступны для многих LRL. В данной статье мы представляем TopXGen, подход на основе LLM для генерации высококачественных и тематически разнообразных данных на нескольких LRL, которые затем могут быть обратно переведены для создания полезных и разнообразных параллельных текстов для ICL и тонкой настройки. Наша интуиция заключается в том, что хотя LLM испытывают трудности с переводом на LRL, их способность хорошо переводить на HRL и их многоязычность позволяют им генерировать качественные, естественно звучащие тексты на целевом языке, которые могут быть хорошо переведены на исходный язык с большим объемом ресурсов. Мы показываем, что TopXGen повышает производительность LLM в переводе как при тонкой настройке, так и при обучении в контексте. Код и результаты доступны по адресу https://github.com/ArmelRandy/topxgen.
Несмотря на то, что крупные языковые модели становятся всё более мощными, всё ещё неразумно ожидать от них высоких результатов в задачах, которые недостаточно представлены в интернете. Использование таких моделей для специализированных приложений, особенно в нишевых языках программирования и частных доменах, остаётся сложной и в значительной степени нерешённой задачей. В данной работе мы устраняем этот пробел, предлагая комплексный подход с открытым исходным кодом для адаптации языковых моделей к языку программирования Q — популярному инструменту в количественных финансах, который гораздо менее представлен в интернете по сравнению с Python, C, Java и другими «основными» языками, и поэтому не является сильной стороной универсальных моделей ИИ. Мы представляем новый набор данных для оценки в стиле Leetcode для языка Q, тестируем на нём ведущие модели, а затем проводим предварительное обучение, тонкую настройку с учителем и обучение с подкреплением для создания набора моделей, основанных на архитектуре Qwen-2.5, охватывающих пять размеров параметров (1.5B, 3B, 7B, 14B, 32B). Наша лучшая модель достигает точности pass@1 в 59 процентов на нашем бенчмарке для Q, превосходя лучшую из ведущих моделей, Claude Opus-4, на 29.5 процентов. Кроме того, все наши модели, включая модель с 1.5B параметров, превосходят GPT-4.1 в этой задаче. Помимо выпуска моделей, кода и данных, мы предоставляем подробное руководство по созданию наборов данных, предварительному обучению моделей, тонкой настройке с учителем и обучению с подкреплением. Наша методология имеет широкую применимость, и мы обсуждаем, как эти техники могут быть расширены на другие задачи, включая те, где оценка может основываться на мягких или субъективных сигналах.
Задача переноса стиля для 3D-гауссовых сплатов была исследована во многих предыдущих работах, однако эти подходы требуют реконструкции или тонкой настройки сплата с учетом информации о стиле или оптимизации сети извлечения признаков на основе представления сплата. Мы предлагаем подход к стилизации 3D-гауссовых сплатов, не требующий реконструкции или оптимизации. Это достигается путем генерации графовой структуры на неявной поверхности представления сплата. Затем используется прямой метод стилизации, основанный на поверхности, который интерполируется обратно на отдельные сплаты в сцене. Это позволяет использовать любое изображение стиля и 3D-гауссов сплат без необходимости дополнительного обучения или оптимизации. Кроме того, это обеспечивает быструю стилизацию сплатов, достигая скорости менее 2 минут даже на потребительском оборудовании. Мы демонстрируем качественные результаты, достигаемые этим подходом, и сравниваем его с другими методами переноса стиля для 3D-гауссовых сплатов. Код доступен по адресу https://github.com/davidmhart/FastSplatStyler.
Реализация квантовой теории игр на реальном оборудовании представляет собой сложную задачу из-за шума, декогеренции и ограниченной связности кубитов, однако такие демонстрации необходимы для проверки теоретических предсказаний. Мы представляем одну из первых полных экспериментальных реализаций игры "Битва полов" в рамках модели Эйзерта-Вилькенса-Левенштейна (EWL) на сверхпроводящем процессоре IBM Quantum ibm_sherbrooke. Четыре квантовые стратегии (I, H, R(pi/4), R(pi)) были оценены для 31 значения параметра запутанности gamma в диапазоне [0, pi] с использованием 2048 запусков для каждой конфигурации, что позволило провести прямое сравнение аналитических предсказаний и выполнения на оборудовании. Для снижения влияния шума и вариативности мы предлагаем метод Guided Circuit Mapping (GCM), который динамически выбирает пары кубитов и оптимизирует маршрутизацию на основе данных о топологии и калибровке в реальном времени. Аналитическая модель предсказывает улучшение выигрыша до 108% по сравнению с классическим равновесием, и, несмотря на отклонения, вызванные оборудованием, экспериментальные результаты с использованием GCM сохраняют ожидаемые тенденции выигрыша с относительной ошибкой в пределах 3,5%-12%. Эти результаты показывают, что квантовые преимущества в стратегической координации могут сохраняться в реалистичных условиях NISQ, открывая путь к практическому применению квантовой теории игр в многоагентных, экономических и распределенных системах принятия решений.
Понимание предубеждений и стереотипов, закодированных в весах крупных языковых моделей (LLM), имеет решающее значение для разработки эффективных стратегий их устранения. Предвзятое поведение часто бывает тонким и сложным для изоляции, даже когда оно намеренно вызывается, что делает систематический анализ и устранение предубеждений особенно сложными. Для решения этой проблемы мы представляем BiasGym — простую, экономически эффективную и универсальную структуру для надежного внедрения, анализа и смягчения концептуальных ассоциаций в LLM. BiasGym состоит из двух компонентов: BiasInject, который внедряет конкретные предубеждения в модель через тонкую настройку на основе токенов, сохраняя модель замороженной, и BiasScope, который использует эти внедренные сигналы для идентификации и управления компонентами, ответственными за предвзятое поведение. Наш метод обеспечивает последовательное выявление предубеждений для механистического анализа, поддерживает целенаправленное устранение предубеждений без ухудшения производительности на последующих задачах и обобщается на предубеждения, не встречавшиеся во время обучения. Мы демонстрируем эффективность BiasGym в снижении реальных стереотипов (например, что люди из определенной страны являются «безрассудными водителями») и в исследовании вымышленных ассоциаций (например, что люди из определенной страны имеют «синюю кожу»), показывая его полезность как для обеспечения безопасности, так и для исследований интерпретируемости.
Эритроциты (красные кровяные клетки, RBCs) играют ключевую роль в поддержании здоровья человека, и их точный морфологический анализ важен для диагностики гематологических заболеваний. Несмотря на перспективы базовых моделей в медицинской диагностике, комплексные решения на основе ИИ для анализа RBC остаются редкими. Мы представляем RedDino — самообучаемую базовую модель, разработанную для анализа изображений RBC. RedDino использует адаптированную для RBC версию самообучаемого фреймворка DINOv2 и обучается на тщательно отобранном наборе данных, содержащем 1,25 миллиона изображений RBC, полученных из различных источников и с использованием разных методов съемки. Обширные оценки показывают, что RedDino превосходит существующие передовые модели в классификации форм RBC. Благодаря тестам, включая линейное зондирование и классификацию методом ближайшего соседа, мы подтверждаем её мощные характеристики представления данных и способность к обобщению. Наши основные вклады: (1) базовая модель, адаптированная для анализа RBC, (2) исследования методом исключения, изучающие конфигурации DINOv2 для моделирования RBC, и (3) детальная оценка производительности обобщения. RedDino решает ключевые задачи вычислительной гематологии, захватывая тонкие морфологические особенности, что способствует разработке надежных диагностических инструментов. Исходный код и предобученные модели RedDino доступны по адресу https://github.com/Snarci/RedDino, а предобученные модели можно загрузить из нашей коллекции на Hugging Face по адресу https://huggingface.co/collections/Snarcy/reddino-689a13e29241d2e5690202fc.
Урбанизация, изменение климата и стресс в сельском хозяйстве увеличивают спрос на точный и своевременный мониторинг окружающей среды. Температура поверхности земли (LST) является ключевой переменной в этом контексте и извлекается с помощью спутников дистанционного зондирования. Однако эти системы сталкиваются с компромиссом между пространственным и временным разрешением. Хотя методы пространственно-временного слияния предлагают перспективные решения, лишь немногие из них решают задачу оценки ежедневной LST с разрешением 10 м. В данном исследовании мы представляем WGAST — слабо контролируемую генеративную сеть для оценки ежедневной LST с разрешением 10 м посредством пространственно-временного слияния данных Terra MODIS, Landsat 8 и Sentinel-2. WGAST является первой сквозной глубокой обучающейся архитектурой, разработанной для этой задачи. Она использует условную генеративно-состязательную архитектуру, где генератор состоит из четырех этапов: извлечение признаков, слияние, восстановление LST и подавление шума. На первом этапе используется набор кодировщиков для извлечения многоуровневых скрытых представлений из входных данных, которые затем объединяются на втором этапе с использованием косинусного сходства, нормализации и механизмов временного внимания. На третьем этапе декодируются объединенные признаки в высокоразрешающую LST, после чего применяется гауссовский фильтр для подавления высокочастотного шума. Обучение следует слабо контролируемой стратегии, основанной на принципах физического усреднения и усиленной дискриминатором PatchGAN. Эксперименты показывают, что WGAST превосходит существующие методы как в количественных, так и в качественных оценках. По сравнению с лучшим базовым методом, в среднем WGAST снижает RMSE на 17,18% и улучшает SSIM на 11,00%. Кроме того, WGAST устойчив к LST, вызванной облачностью, и эффективно захватывает мелкомасштабные тепловые паттерны, что подтверждено на основе данных 33 наземных датчиков. Код доступен по адресу https://github.com/Sofianebouaziz1/WGAST.git.
Способность крупных языковых моделей (LLM) к непрерывному обучению имеет решающее значение для продвижения искусственного общего интеллекта. Однако непрерывная донастройка LLM в различных областях часто сталкивается с проблемой катастрофического забывания, которое характеризуется: 1) значительной потерей общих способностей модели и 2) резким снижением производительности в ранее изученных задачах. Для одновременного решения обеих проблем простым и стабильным способом мы предлагаем General Sample Replay (GeRe) — фреймворк, использующий стандартные тексты предварительного обучения для эффективного предотвращения забывания. Помимо пересмотра наиболее распространенных подходов, основанных на воспроизведении, в рамках GeRe мы также используем нейронные состояния для введения улучшенного метода оптимизации с ограничениями на основе состояний активации, применяя пороговую функцию потерь (TM), которая поддерживает согласованность состояний активации в процессе обучения с воспроизведением. Мы впервые подтверждаем, что небольшой фиксированный набор заранее собранных общих примеров для воспроизведения достаточен для решения обеих проблем — сохранения общих способностей и улучшения общей производительности в последовательных задачах. Действительно, первое может естественным образом способствовать второму. В контролируемых экспериментах мы систематически сравниваем TM с различными стратегиями воспроизведения в рамках фреймворка GeRe, включая стандартное соответствие меткам, имитацию логитов через расхождение Кульбака-Лейблера и имитацию признаков через L1/L2 потери. Результаты показывают, что TM стабильно улучшает производительность и демонстрирует лучшую устойчивость. Наша работа прокладывает путь для эффективного воспроизведения LLM в будущем. Наш код и данные доступны по адресу https://github.com/Qznan/GeRe.
Современные тестовые наборы для оценки математических рассуждений крупных языковых моделей (LLM) приближаются к насыщению, при этом некоторые из них достигают точности > 90%, но всё чаще страдают от загрязнения обучающих данных. Мы представляем Putnam-AXIOM — тестовый набор из 522 задач университетского уровня, взятых из престижного математического соревнования William Lowell Putnam, а также Putnam-AXIOM Variation — дополнительный набор из 100 функциональных вариаций, созданных путём программного изменения переменных и констант. Протокол вариаций генерирует неограниченный поток задач равной сложности, которые не встречались в обучающих данных, что делает тестовую среду устойчивой к загрязнению. На исходном наборе OpenAI o1-preview — самая сильная из оценённых моделей — показывает точность 41,9%, но её точность падает на 19,6% (относительное снижение на 46,8%) на парных вариациях. Остальные восемнадцать моделей демонстрируют аналогичную тенденцию к снижению, причём у десяти из них 95% доверительные интервалы не перекрываются. Эти разрывы указывают на запоминание и подчеркивают необходимость динамических тестовых наборов. Мы дополняем "коробочную" точность метрикой Teacher-Forced Accuracy (TFA) — лёгким методом, который напрямую оценивает траектории рассуждений и автоматизирует оценку доказательств на естественном языке. Таким образом, Putnam-AXIOM предоставляет строгую и устойчивую к загрязнению систему оценки для проверки продвинутых математических рассуждений LLM. Данные и код для оценки доступны по адресу https://github.com/brando90/putnam-axiom.
Поверхность Земли постоянно изменяется, и обнаружение этих изменений предоставляет ценные данные, которые приносят пользу различным аспектам человеческого общества. Хотя традиционные методы обнаружения изменений использовались для выявления изменений на битемпоральных изображениях, эти подходы обычно требуют экспертных знаний для точной интерпретации. Чтобы обеспечить более широкий и гибкий доступ к информации об изменениях для неэкспертных пользователей, была введена задача визуального ответа на вопросы по обнаружению изменений (Change Detection Visual Question Answering, CDVQA). Однако существующие методы CDVQA разрабатывались в предположении, что обучающие и тестовые наборы данных имеют схожие распределения. Это предположение не выполняется в реальных приложениях, где часто происходят сдвиги доменов. В данной статье задача CDVQA пересматривается с акцентом на решение проблемы сдвига доменов. Для этого вводится новый мультимодальный и мультидоменный набор данных BrightVQA, который способствует исследованиям в области обобщения доменов в CDVQA. Кроме того, предлагается новая модель пространства состояний, названная текстово-условной моделью пространства состояний (Text-Conditioned State Space Model, TCSSM). Фреймворк TCSSM разработан для совместного использования битемпоральных изображений и текстовой информации, связанной с геокатастрофами, с целью извлечения доменно-инвариантных признаков между доменами. Параметры, зависящие от входных данных в TCSSM, динамически предсказываются с использованием как битемпоральных изображений, так и описаний, связанных с геокатастрофами, что способствует согласованию битемпоральных визуальных данных и связанных с ними текстовых описаний. Проведены обширные эксперименты для оценки предложенного метода в сравнении с современными моделями, и продемонстрировано стабильно превосходное качество работы. Код и набор данных будут опубликованы в открытом доступе после принятия статьи по адресу https://github.com/Elman295/TCSSM.
Перенос художественного стиля стал возможен благодаря развитию сверточных и трансформерных нейронных сетей. Большинство алгоритмов применяют перенос стиля ко всему изображению, однако отдельные пользователи могут нуждаться в применении стиля только к определенной области изображения. Стандартная практика заключается в простом маскировании изображения после стилизации. В данной работе показано, что такой подход часто некорректно захватывает стилевые особенности в интересующей области. Мы предлагаем сеть для переноса стиля на основе частичной свертки, которая точно применяет стилевые особенности исключительно к выбранной области. Кроме того, мы представляем методы внутреннего слияния в сети, которые учитывают неточности в выборе области. Мы демонстрируем, что это визуально и количественно улучшает стилизацию на примерах из набора данных SA-1B. Код доступен по адресу https://github.com/davidmhart/StyleTransferMasked.
Паралингвистические вокализации, включая невербальные звуки, такие как смех и дыхание, а также лексикализованные междометия, например, "ээ" и "ох", являются неотъемлемой частью естественного устного общения. Несмотря на их важность в передаче эмоций, намерений и интерактивных сигналов, такие элементы остаются в значительной степени упущенными в традиционных системах автоматического распознавания речи (ASR) и синтеза речи (TTS). Мы представляем NVSpeech — интегрированный и масштабируемый конвейер, который объединяет распознавание и синтез паралингвистических вокализаций, охватывая создание наборов данных, моделирование ASR и управляемый TTS. (1) Мы представляем вручную аннотированный набор данных из 48 430 человеческих высказываний с 18 категориями паралингвистических элементов на уровне слов. (2) Мы разрабатываем модель ASR, учитывающую паралингвистические сигналы, которая рассматривает их как встроенные декодируемые токены (например, "Ты такой смешной [Смех]"), что позволяет осуществлять совместную транскрипцию лексических и невербальных элементов. Эта модель затем используется для автоматической аннотации крупного корпуса — первого крупномасштабного набора данных на китайском языке, содержащего 174 179 высказываний (573 часа) с выравниванием на уровне слов и паралингвистическими сигналами. (3) Мы дообучаем модели TTS с нулевым обучением на данных, аннотированных как вручную, так и автоматически, чтобы обеспечить явный контроль над паралингвистическими вокализациями, позволяя контекстно-зависимую вставку на произвольных позициях токенов для синтеза речи, близкого к человеческому. Объединяя распознавание и генерацию паралингвистических вокализаций, NVSpeech предлагает первый открытый, крупномасштабный, аннотированный на уровне слов конвейер для моделирования выразительной речи на мандаринском языке, интегрируя распознавание и синтез в масштабируемой и управляемой манере. Набор данных и аудиодемонстрации доступны по адресу https://nvspeech170k.github.io/.