Ежедневно отобранные исследовательские статьи по ИИ с переводами
Обучение с подкреплением (RL) стало перспективным подходом для улучшения способности крупных языковых моделей (LLM) к рассуждению, однако большинство открытых исследований сосредоточено узко на математике и программировании, что ограничивает наше понимание его более широкой применимости к общим задачам рассуждения. Основная проблема заключается в отсутствии надежных и масштабируемых сигналов вознаграждения RL в различных областях рассуждений. Мы представляем Guru — тщательно отобранный корпус данных для RL, содержащий 92 тыс. проверяемых примеров, охватывающих шесть областей рассуждений: математику, программирование, науку, логику, моделирование и табличные данные. Каждая область построена с использованием специфичного для домена дизайна вознаграждения, дедупликации и фильтрации для обеспечения надежности и эффективности при обучении RL. На основе Guru мы систематически пересматриваем установленные выводы в области RL для рассуждений LLM и наблюдаем значительные различия между доменами. Например, хотя предыдущие работы предполагают, что RL в основном извлекает уже имеющиеся знания из предварительно обученных моделей, наши результаты показывают более сложную картину: домены, часто встречающиеся в предварительном обучении (математика, программирование, наука), легко выигрывают от кросс-доменного обучения RL, тогда как домены с ограниченным воздействием в предварительном обучении (логика, моделирование и табличные данные) требуют внутридоменного обучения для достижения значимых улучшений производительности, что указывает на то, что RL, вероятно, способствует реальному приобретению навыков. Наконец, мы представляем Guru-7B и Guru-32B — две модели, которые достигают наилучших результатов среди открытых моделей, обученных RL на общедоступных данных, превосходя лучшие базовые модели на 7,9% и 6,7% в нашем наборе из 17 задач, охватывающих шесть областей рассуждений. Мы также показываем, что наши модели эффективно улучшают показатели Pass@k своих базовых моделей, особенно на сложных задачах, которые реже встречаются в данных предварительного обучения. Мы публикуем данные, модели, код для обучения и оценки, чтобы способствовать развитию общих способностей к рассуждению по адресу: https://github.com/LLM360/Reasoning360.
В данной статье представлены усовершенствованные нативные унифицированные мультимодальные модели, а именно Show-o2, которые используют авторегрессионное моделирование и согласование потоков. Построенные на основе 3D-пространства причинных вариационных автокодировщиков, унифицированные визуальные представления формируются через двойной путь пространственно-временного слияния, что обеспечивает масштабируемость для изображений и видео, а также эффективное понимание и генерацию мультимодальных данных. На основе языковой модели авторегрессионное моделирование и согласование потоков нативно применяются к языковому и потоковому модулям соответственно, что способствует предсказанию текстовых токенов и генерации изображений/видео. Разработан двухэтапный процесс обучения для эффективного изучения и масштабирования до более крупных моделей. Полученные модели Show-o2 демонстрируют универсальность в решении широкого спектра задач мультимодального понимания и генерации для различных модальностей, включая текст, изображения и видео. Код и модели доступны по адресу https://github.com/showlab/Show-o.
Развитие моделей преобразования текста в речь и генерации аудио требует создания надежных эталонов для оценки способностей систем искусственного интеллекта к пониманию эмоций. Современные наборы данных для распознавания эмоций в речи (Speech Emotion Recognition, SER) часто имеют ограничения в эмоциональной детализации, проблемах с конфиденциальностью или зависимости от актерских интерпретаций. В данной статье представлен EmoNet-Voice — новый ресурс для обнаружения эмоций в речи, включающий EmoNet-Voice Big, крупномасштабный набор данных для предварительного обучения (содержащий более 4500 часов речи, 11 голосов, 40 эмоций и 4 языка), и EmoNet-Voice Bench, новый эталонный набор данных с аннотациями экспертов. EmoNet-Voice разработан для оценки моделей SER на детализированном спектре из 40 категорий эмоций с различными уровнями интенсивности. Используя передовые технологии генерации голоса, мы создали синтетические аудиофрагменты, имитирующие актеров, изображающих сцены, призванные вызывать определенные эмоции. Важно отметить, что мы провели строгую валидацию с участием экспертов-психологов, которые присвоили метки воспринимаемой интенсивности. Этот синтетический подход, сохраняющий конфиденциальность, позволяет включать чувствительные эмоциональные состояния, часто отсутствующие в существующих наборах данных. Наконец, мы представляем модели Empathic Insight Voice, которые устанавливают новый стандарт в распознавании эмоций в речи, демонстрируя высокое согласие с оценками экспертов. Наши оценки в рамках современных моделей выявили ценные результаты, например, что эмоции с высокой активацией, такие как гнев, распознаются значительно легче, чем состояния с низкой активацией, такие как концентрация.
В последнее время мультимодальные большие языковые модели (MLLMs) привлекают все больше внимания исследователей благодаря своим мощным возможностям визуального понимания. Хотя они достигли впечатляющих результатов в различных задачах, связанных с обработкой изображений, их производительность в задаче генерации кода на основе графиков остается неоптимальной. Эта задача требует от MLLMs генерации исполняемого кода, который может воспроизвести заданный график, что предполагает не только точное визуальное понимание, но и корректный перевод визуальных элементов в структурированный код. Прямое использование MLLMs для выполнения этой сложной задачи часто приводит к неудовлетворительным результатам. Для решения этой проблемы мы предлагаем метод {ChartIR}, основанный на итеративном уточнении с использованием структурированных инструкций. Во-первых, мы разделяем две задачи: визуальное понимание и перевод в код. Для выполнения компонента визуального понимания мы разрабатываем два типа структурированных инструкций: описание и различие. Инструкция описания фиксирует визуальные элементы эталонного графика, в то время как инструкция различия характеризует расхождения между эталонным графиком и сгенерированным. Эти инструкции эффективно преобразуют визуальные признаки в языковые представления, тем самым облегчая последующий процесс перевода в код. Во-вторых, мы разделяем общий процесс генерации графика на два этапа: начальную генерацию кода и итеративное уточнение, что позволяет постепенно улучшать конечный результат. Экспериментальные результаты показывают, что по сравнению с другими методами наш метод демонстрирует превосходную производительность как на открытой модели Qwen2-VL, так и на закрытой модели GPT-4o.
Подробные описания, которые точно отражают характеристики музыкального произведения, могут обогатить музыкальные базы данных и способствовать развитию исследований в области музыкального искусственного интеллекта. В данной статье представлена многозадачная модель генерации описаний музыки, SonicVerse, которая объединяет создание описаний с дополнительными задачами обнаружения музыкальных характеристик, такими как определение тональности, наличие вокала и другие, чтобы непосредственно захватывать как низкоуровневые акустические детали, так и высокоуровневые музыкальные атрибуты. Ключевым вкладом является архитектура на основе проекций, которая преобразует аудиовход в языковые токены, одновременно обнаруживая музыкальные характеристики с помощью специализированных вспомогательных модулей. Выходные данные этих модулей также проецируются в языковые токены для улучшения входных данных для генерации описаний. Этот подход не только создает насыщенные и описательные подписи для коротких музыкальных фрагментов, но и позволяет напрямую генерировать детализированные временные описания для более длинных музыкальных произведений, объединяя выходные данные с использованием крупной языковой модели. Для обучения модели мы расширили набор данных MusicBench, аннотировав его музыкальными характеристиками с помощью MIRFLEX, модульного экстрактора музыкальных признаков, что привело к созданию парных данных: аудио, описаний и музыкальных характеристик. Экспериментальные результаты показывают, что включение характеристик таким образом улучшает качество и детализацию генерируемых описаний.
Современные крупные языковые модели (LLM) демонстрируют высокую точность на тестах, оценивающих способность к рассуждению. Однако до сих пор неясно, являются ли наблюдаемые результаты следствием истинного рассуждения или статистического воспроизведения данных из обучающего набора. Вдохновленные лестницей причинности (Pearl, 2009) и её тремя уровнями (ассоциации, вмешательства и контрфактические рассуждения), в данной статье представлен RE-IMAGINE — фреймворк для характеристики иерархии способностей к рассуждению в LLM, а также автоматизированный процесс генерации вариаций задач на разных уровнях этой иерархии. Путем изменения задач в промежуточном символическом представлении RE-IMAGINE создает произвольное количество задач, которые невозможно решить с помощью простого запоминания. Более того, фреймворк является универсальным и может применяться в различных областях рассуждений, включая математику, программирование и логику. Мы демонстрируем наш фреймворк на четырех широко используемых тестах для оценки нескольких семейств LLM и наблюдаем снижение производительности, когда модели сталкиваются с вариациями задач. Эти оценки указывают на определенную зависимость от статистического воспроизведения данных для достижения прошлых результатов и открывают путь для дальнейших исследований, направленных на развитие навыков на всех уровнях иерархии рассуждений.