Ежедневно отобранные исследовательские статьи по ИИ с переводами
Представляем MiniMax-Speech — авторегрессивную модель преобразования текста в речь (Text-to-Speech, TTS) на основе архитектуры Transformer, которая генерирует высококачественную речь. Ключевым нововведением является наш обучаемый кодировщик говорящего, который извлекает тембральные характеристики из эталонного аудио без необходимости его транскрипции. Это позволяет MiniMax-Speech создавать выразительную речь с тембром, согласованным с эталоном, в режиме zero-shot, а также поддерживает клонирование голоса в режиме one-shot с исключительно высокой степенью сходства с эталонным голосом. Кроме того, общее качество синтезированного аудио улучшено благодаря предложенному Flow-VAE. Наша модель поддерживает 32 языка и демонстрирует превосходные результаты по множеству объективных и субъективных метрик оценки. В частности, она достигает наилучших результатов (state-of-the-art, SOTA) по объективным метрикам клонирования голоса (Word Error Rate и Speaker Similarity) и занимает лидирующую позицию в публичном рейтинге TTS Arena. Еще одним ключевым преимуществом MiniMax-Speech, обеспечиваемым устойчивыми и разделяемыми представлениями из кодировщика говорящего, является её расширяемость без изменения базовой модели, что позволяет реализовать различные приложения, такие как: произвольное управление эмоциями голоса через LoRA; преобразование текста в голос (Text to Voice, T2V) путем синтеза тембральных характеристик непосредственно из текстового описания; и профессиональное клонирование голоса (Professional Voice Cloning, PVC) путем тонкой настройки тембральных характеристик с использованием дополнительных данных. Мы рекомендуем читателям посетить https://minimax-ai.github.io/tts_tech_report для ознакомления с дополнительными примерами.
Системы преобразования текста в аудио, несмотря на их растущую производительность, остаются медленными на этапе вывода, что делает их задержку неприемлемой для многих творческих приложений. Мы представляем метод постобработки Adversarial Relativistic-Contrastive (ARC) — первый алгоритм ускорения для диффузионных/потоковых моделей, основанный на состязательном обучении, а не на дистилляции. В то время как предыдущие методы состязательной постобработки не могли конкурировать с дорогостоящими аналогами на основе дистилляции, ARC постобработка представляет собой простую процедуру, которая (1) расширяет недавнюю релятивистскую состязательную формулировку для постобработки диффузионных/потоковых моделей и (2) сочетает её с новой контрастной функцией дискриминатора, чтобы улучшить соответствие текстовому запросу. Мы применяем ARC постобработку вместе с рядом оптимизаций к модели Stable Audio Open и создаём модель, способную генерировать примерно 12 секунд стереоаудио с частотой 44,1 кГц за примерно 75 мс на H100 и примерно 7 секунд на мобильном устройстве, что делает её самой быстрой моделью преобразования текста в аудио из известных на сегодняшний день.
Мы представляем AM-Thinking-v1, плотную языковую модель объемом 32 миллиарда параметров, которая продвигает границы рассуждений, воплощая дух открытого сотрудничества и инноваций. Превосходя DeepSeek-R1 и конкурируя с ведущими моделями типа Mixture-of-Experts (MoE), такими как Qwen3-235B-A22B и Seed1.5-Thinking, AM-Thinking-v1 демонстрирует впечатляющие результаты: 85,3 на AIME 2024, 74,4 на AIME 2025 и 70,3 на LiveCodeBench, что подтверждает передовые математические и кодировочные способности среди моделей с открытым исходным кодом аналогичного масштаба. Построенная полностью на базе модели Qwen2.5-32B с открытым исходным кодом и общедоступных запросов, AM-Thinking-v1 использует тщательно разработанный посттренировочный конвейер, сочетающий контролируемую тонкую настройку и обучение с подкреплением, чтобы обеспечить исключительные способности к рассуждению. Эта работа демонстрирует, что сообщество с открытым исходным кодом может достичь высокой производительности на уровне 32 миллиардов параметров, что является оптимальным балансом для развертывания и тонкой настройки. Сочетая передовую производительность с практической применимостью, мы надеемся, что AM-Thinking-v1 вдохновит дальнейшие совместные усилия по использованию моделей среднего масштаба, расширяя границы рассуждений, сохраняя доступность в основе инноваций. Мы открыли исходный код нашей модели на платформе Hugging Face: https://huggingface.co/a-m-team/AM-Thinking-v1.
Создание мультимодальных языковых моделей представляет собой фундаментально сложную задачу: оно требует согласования визуальной и языковой модальностей, тщательного отбора высококачественных обучающих данных и предотвращения ухудшения существующих текстовых возможностей после введения визуального компонента. Эти трудности еще больше усугубляются в многоязычной среде, где необходимость в мультимодальных данных на разных языках усиливает существующий дефицит данных, машинный перевод часто искажает смысл, а катастрофическое забывание становится более выраженным. Для решения этих проблем мы предлагаем новые методы, охватывающие как данные, так и моделирование. Во-первых, мы разрабатываем синтетическую систему аннотирования, которая создает высококачественные, разнообразные мультиязычные мультимодальные обучающие данные, позволяя моделям Aya Vision генерировать естественные, предпочитаемые человеком ответы на мультимодальные запросы на многих языках. Дополняя это, мы предлагаем технику кросс-модального объединения моделей, которая смягчает катастрофическое забывание, эффективно сохраняя текстовые возможности и одновременно улучшая мультимодальную генеративную производительность. Модель Aya-Vision-8B демонстрирует наилучшие результаты в своем классе по сравнению с сильными мультимодальными моделями, такими как Qwen-2.5-VL-7B, Pixtral-12B и даже значительно более крупной Llama-3.2-90B-Vision. Мы также масштабируем этот подход с помощью Aya-Vision-32B, которая превосходит модели более чем в два раза большего размера, такие как Molmo-72B и LLaMA-3.2-90B-Vision. Наша работа способствует прогрессу в области мультиязычной мультимодальности и предлагает методы, которые эффективно снижают потребность в вычислительных ресурсах, обеспечивая при этом исключительно высокую производительность.
Оценка выполнения инструкций проверяет способность больших языковых моделей (LLMs) генерировать выходные данные, соответствующие ограничениям, заданным пользователем. Однако существующие бенчмарки часто полагаются на шаблонные запросы с ограничениями, которые не отражают разнообразия реального использования и ограничивают детальную оценку производительности. Чтобы заполнить этот пробел, мы предлагаем многомерную структуру ограничений, включающую три шаблона ограничений, четыре категории ограничений и четыре уровня сложности. На основе этой структуры мы разрабатываем автоматизированный конвейер генерации инструкций, который выполняет расширение ограничений, обнаружение конфликтов и переписывание инструкций, создавая 1200 тестовых примеров с проверяемым кодом для выполнения инструкций. Мы оцениваем 19 LLM из семи семейств моделей и обнаруживаем значительные различия в производительности в зависимости от форм ограничений. Например, средняя производительность падает с 77,67% на уровне I до 32,96% на уровне IV. Кроме того, мы демонстрируем полезность нашего подхода, используя его для генерации данных для обучения с подкреплением, достигая значительных улучшений в выполнении инструкций без ухудшения общей производительности. Глубокий анализ показывает, что эти улучшения в основном связаны с изменениями параметров модулей внимания модели, которые повышают распознавание и соблюдение ограничений. Код и данные доступны по адресу https://github.com/Junjie-Ye/MulDimIF.
Мы представляем gg-bench — набор игровых сред, предназначенных для оценки способностей языковых моделей к общему рассуждению. В отличие от большинства статических тестов, gg-bench представляет собой процесс генерации данных, где новые тестовые примеры могут создаваться по запросу. В частности, gg-bench синтетически генерируется следующим образом: (1) с использованием крупной языковой модели (LLM) создаются естественно-языковые описания новых игр, (2) с помощью LLM каждая игра реализуется в виде кода как среда Gym, и (3) на сгенерированных играх обучаются агенты с подкреплением (RL) через самоигру. Мы оцениваем языковые модели по их проценту побед против этих RL-агентов, предоставляя моделям описание игры, текущее состояние игрового поля и список допустимых ходов, после чего модели выводят ходы, которые они хотят сделать. gg-bench является сложным: современные LLM, такие как GPT-4o и Claude 3.7 Sonnet, достигают процента побед 7-9% на gg-bench при использовании обучения в контексте, в то время как модели рассуждений, такие как o1, o3-mini и DeepSeek-R1, демонстрируют средний процент побед 31-36%. Мы публикуем сгенерированные игры, процесс генерации данных и код для оценки, чтобы поддержать будущие работы по моделированию и расширению нашего теста.
Модели, объединяющие зрительное восприятие и язык (Vision-Language Models, VLMs), сочетают визуальное восприятие с общими возможностями, такими как рассуждение, характерными для крупных языковых моделей (Large Language Models, LLMs). Однако механизмы, с помощью которых эти две способности могут быть объединены и взаимодействовать, остаются малоизученными. В данной работе мы исследуем возможность композиции восприятия и рассуждения через слияние моделей, которое связывает параметры различных моделей. В отличие от предыдущих работ, которые часто сосредоточены на слиянии моделей одного типа, мы предлагаем объединять модели различных модальностей, что позволяет интегрировать способности к рассуждению LLMs в VLMs. В ходе обширных экспериментов мы демонстрируем, что слияние моделей представляет собой успешный путь для передачи способностей к рассуждению от LLMs к VLMs без необходимости дополнительного обучения. Кроме того, мы используем объединенные модели для изучения внутренних механизмов восприятия и рассуждения, а также того, как слияние влияет на них. Мы обнаруживаем, что способности к восприятию преимущественно закодированы в ранних слоях модели, тогда как рассуждение в значительной степени обеспечивается средними и поздними слоями. После слияния мы наблюдаем, что все слои начинают вносить вклад в рассуждение, тогда как распределение способностей к восприятию по слоям остается в основном неизменным. Эти наблюдения проливают свет на потенциал слияния моделей как инструмента для мультимодальной интеграции и интерпретации.
Данное исследование восполняет критический пробел в области обработки естественного языка для арабского языка, разрабатывая эффективную систему арабского обратного словаря (RD), которая позволяет пользователям находить слова на основе их описаний или значений. Мы представляем новый подход на основе трансформеров с архитектурой полуэнкодерной нейронной сети, включающей геометрически уменьшающиеся слои, что позволяет достичь современных результатов для задач арабского RD. Наша методология включает всеобъемлющий процесс создания набора данных и устанавливает формальные стандарты качества для арабских лексикографических определений. Эксперименты с различными предобученными моделями демонстрируют, что модели, специфичные для арабского языка, значительно превосходят общие многоязычные эмбеддинги, причем ARBERTv2 достигает наилучшего ранжирующего показателя (0,0644). Кроме того, мы предоставляем формальную абстракцию задачи обратного словаря, которая углубляет теоретическое понимание, и разрабатываем модульную, расширяемую библиотеку на Python (RDTL) с настраиваемыми конвейерами обучения. Наш анализ качества набора данных выявляет важные инсайты для улучшения построения арабских определений, что приводит к восьми конкретным стандартам для создания высококачественных ресурсов обратного словаря. Эта работа вносит значительный вклад в арабскую вычислительную лингвистику и предоставляет ценные инструменты для изучения языка, академического письма и профессиональной коммуникации на арабском языке.
Обучение навигации в динамичных открытых средах является важным, но сложным навыком для роботов. Большинство существующих методов полагаются на точную локализацию и картографирование или обучаются на основе дорогостоящих демонстраций в реальном мире. В данной работе мы предлагаем Navigation Diffusion Policy (NavDP) — сквозную архитектуру, обученную исключительно в симуляции, которая способна к переносу без дообучения на различные платформы в разнообразных реальных условиях. Ключевым компонентом сети NavDP является комбинация генерации траекторий на основе диффузии и функции-критика для выбора траекторий, которые зависят только от локальных токенов наблюдений, закодированных с помощью общего трансформера политики. Используя привилегированную информацию о глобальной среде в симуляции, мы масштабируем генерацию высококачественных демонстраций для обучения диффузионной политики и формулируем целевые значения функции-критика с использованием контрастных негативных примеров. Наш подход к генерации демонстраций позволяет достичь около 2500 траекторий на GPU в день, что в 20 раз эффективнее сбора данных в реальном мире, и создает крупномасштабный набор данных для навигации, содержащий 363,2 км траекторий в 1244 сценах. Обучаясь на этом симуляционном наборе данных, NavDP демонстрирует наилучшую производительность и выдающуюся способность к обобщению на четвероногих, колесных и гуманоидных роботах в разнообразных внутренних и внешних средах. Кроме того, мы представляем предварительную попытку использования Gaussian Splatting для тонкой настройки в области реального-к-симуляции, чтобы дополнительно сократить разрыв между симуляцией и реальностью. Эксперименты показывают, что добавление таких данных реального-к-симуляции может повысить успешность на 30%, не ухудшая способность к обобщению.
Растущее внедрение агентных рабочих процессов в различных областях вызывает острую необходимость в масштабируемой и систематической оценке сложных трасс, генерируемых этими системами. Современные методы оценки зависят от ручного, предметно-ориентированного анализа длинных трасс рабочими процессами, что не масштабируется с увеличением сложности и объема агентных выводов. Анализ ошибок в таких условиях дополнительно осложняется взаимодействием выходных данных внешних инструментов и рассуждений языковых моделей, что делает его более сложным, чем традиционная отладка программного обеспечения. В данной работе мы (1) формулируем необходимость в надежных и динамичных методах оценки трасс агентных рабочих процессов, (2) вводим формальную таксономию типов ошибок, встречающихся в агентных системах, и (3) представляем набор из 148 крупных трасс, аннотированных человеком (TRAIL), созданных с использованием этой таксономии и основанных на устоявшихся бенчмарках для агентных систем. Чтобы обеспечить экологическую валидность, мы отбираем трассы как из одноагентных, так и из многоагентных систем, сосредотачиваясь на реальных приложениях, таких как разработка программного обеспечения и поиск информации в открытом мире. Наши оценки показывают, что современные языковые модели с длинным контекстом (LLM) плохо справляются с отладкой трасс, при этом лучшая модель Gemini-2.5-pro набирает всего 11% на TRAIL. Наш набор данных и код публично доступны для поддержки и ускорения будущих исследований в области масштабируемой оценки агентных рабочих процессов.
Мы теоретически доказываем, что обобщение улучшается не только за счет масштабирования данных, но и благодаря сжатию внутренних представлений. Чтобы операционализировать это понимание, мы вводим целевую функцию моделирования языка с использованием информационного узкого места (Information Bottleneck Language Modeling, IBLM), которая переформулирует задачу моделирования языка как задачу ограниченной оптимизации: минимизация энтропии представлений при условии оптимальной прогностической производительности. Эмпирически мы наблюдаем возникающий цикл запоминания-сжатия в процессе предварительного обучения крупных языковых моделей (LLM), что подтверждается колебаниями положительного/отрицательного выравнивания градиентов между кросс-энтропией и матричной энтропией (Matrix-Based Entropy, MBE), мерой энтропии представлений. Этот паттерн тесно отражает компромисс между предсказанием и сжатием, предписанный IBLM, а также параллелен биологическому чередованию между обучением в состоянии бодрствования и консолидацией во время сна. Вдохновленные этим наблюдением, мы предлагаем алгоритм обучения Gated Phase Transition (GAPT), который адаптивно переключается между фазами запоминания и сжатия. При применении к предварительному обучению GPT-2 на наборе данных FineWeb, GAPT снижает MBE на 50% и улучшает кросс-энтропию на 4,8%. GAPT улучшает обобщение на данных вне распределения (OOD) на 35% в задаче предварительного обучения на умножении чисел. В условиях, моделирующих катастрофическое забывание, GAPT снижает интерференцию за счет сжатия и разделения представлений, достигая улучшения разделения на 97%, что параллельно функциональной роли консолидации во время сна.
Оценка уровня навыков человека в сложных видах деятельности является сложной задачей, имеющей применение в спорте, реабилитации и обучении. В данной работе мы представляем SkillFormer — параметрически эффективную архитектуру для унифицированной оценки мастерства на основе мульти-видео, включая эгоцентрические и экзоцентрические записи. Основанная на базе TimeSformer, SkillFormer вводит модуль CrossViewFusion, который объединяет специфичные для каждого ракурса признаки с использованием многоголового кросс-внимания, обучаемых ворот и адаптивной самокалибровки. Мы используем Low-Rank Adaptation для тонкой настройки только небольшого подмножества параметров, что значительно снижает затраты на обучение. Фактически, при оценке на наборе данных EgoExo4D SkillFormer достигает наивысшей точности в мульти-видео настройках, демонстрируя при этом замечательную вычислительную эффективность, используя в 4,5 раза меньше параметров и требуя в 3,75 раза меньше эпох обучения по сравнению с предыдущими базовыми моделями. Он превосходит в выполнении множества структурированных задач, подтверждая ценность интеграции мульти-видео для детальной оценки навыков.
Крупные языковые модели демонстрируют высокую производительность в задачах, но часто генерируют недостоверную информацию или опираются на устаревшие данные. Генерация, дополненная поиском (RAG), устраняет эти недостатки, объединяя генерацию с внешним поиском. Мы анализируем, как гиперпараметры влияют на скорость и качество в системах RAG, включая векторные хранилища Chroma и Faiss, стратегии разбиения на фрагменты, повторное ранжирование с использованием кросс-энкодера и параметр температуры, а также оцениваем шесть метрик: достоверность, правильность ответа, релевантность ответа, точность контекста, полноту контекста и сходство ответов. Chroma обрабатывает запросы на 13% быстрее, тогда как Faiss обеспечивает более высокую точность поиска, что выявляет явный компромисс между скоростью и точностью. Наивное разбиение на фрагменты фиксированной длины с небольшими окнами и минимальным перекрытием превосходит семантическую сегментацию, оставаясь самым быстрым вариантом. Повторное ранжирование дает умеренное улучшение качества поиска, но увеличивает время выполнения примерно в 5 раз, поэтому его полезность зависит от ограничений по задержке. Эти результаты помогают специалистам балансировать вычислительные затраты и точность при настройке систем RAG для получения прозрачных и актуальных ответов. Наконец, мы повторно оцениваем лучшие конфигурации с использованием корректирующего рабочего процесса RAG и показываем, что их преимущества сохраняются, когда модель может итеративно запрашивать дополнительные доказательства. Мы достигаем почти идеальной точности контекста (99%), что демонстрирует, что системы RAG могут достигать чрезвычайно высокой точности поиска при правильной комбинации гиперпараметров, что имеет важные последствия для приложений, где качество поиска напрямую влияет на производительность последующих задач, таких как поддержка клинических решений в здравоохранении.
Прогнозирование полезности мультимодальных отзывов (Multimodal Review Helpfulness Prediction, MRHP) является важной задачей в рекомендательных системах, особенно на платформах электронной коммерции. Определение полезности пользовательских отзывов улучшает опыт пользователей и способствует принятию более обоснованных решений потребителями. Однако существующие наборы данных в основном сосредоточены на английском и индонезийском языках, что приводит к недостатку лингвистического разнообразия, особенно для малоресурсных языков, таких как вьетнамский. В данной статье мы представляем ViMRHP (Vietnamese Multimodal Review Helpfulness Prediction), крупномасштабный эталонный набор данных для задачи MRHP на вьетнамском языке. Этот набор данных охватывает четыре домена, включая 2 тыс. товаров с 46 тыс. отзывов. При этом создание крупномасштабного набора данных требует значительных временных и финансовых затрат. Для оптимизации процесса аннотирования мы используем искусственный интеллект (ИИ) для помощи аннотаторам в создании набора данных ViMRHP. С помощью ИИ время аннотирования сокращается (с 90–120 секунд до 20–40 секунд на задачу) при сохранении качества данных и снижении общих затрат примерно на 65%. Однако аннотации, созданные ИИ, все еще имеют ограничения в сложных задачах аннотирования, что мы дополнительно исследуем с помощью детального анализа производительности. В нашем эксперименте на ViMRHP мы оцениваем базовые модели на аннотациях, проверенных людьми и созданных ИИ, чтобы определить различия в их качестве. Набор данных ViMRHP доступен публично по адресу https://github.com/trng28/ViMRHP.
Мы представляем WebApp1K — новый эталонный тест для оценки больших языковых моделей (LLM) в задачах разработки через тестирование (TDD), где тестовые случаи служат одновременно как запросом, так и проверкой для генерации кода. В отличие от традиционных подходов, основанных на естественно-языковых запросах, наш эталонный тест подчеркивает способность LLM интерпретировать и реализовывать функциональность непосредственно из тестовых случаев, что отражает реальные практики разработки программного обеспечения. Состоящий из 1000 разнообразных задач, охватывающих 20 предметных областей, эталонный тест оценивает способность LLM генерировать компактный, функциональный код с учетом ограничений на длину контекста и сложность множества функций. Наши результаты подчеркивают, что следование инструкциям и обучение в контексте являются критически важными способностями для успеха в TDD, превосходя по значимости общую компетентность в программировании или предварительные знания. В ходе всесторонней оценки 19 передовых моделей мы выявили узкие места в производительности, такие как потеря инструкций в длинных запросах, и провели детальный анализ ошибок, охватывающий множество корневых причин. Эта работа подчеркивает практическую ценность эталонных тестов, специфичных для TDD, и закладывает основу для развития возможностей LLM в строгих, прикладных сценариях программирования.