HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

6 papers found

Переосмысление обучения с подкреплением для рассуждений в крупных языковых моделях с кросс-доменной перспективы
Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective

Jun 17

ByZhoujun Cheng, Shibo Hao, Tianyang Liu, Fan Zhou, Yutao Xie, Feng Yao, Yuexin Bian, Yonghao Zhuang, Nilabjo Dey, Yuheng Zha, Yi Gu, Kun Zhou, Yuqi Wang, Yuan Li, Richard Fan, Jianshu She, Chengqian Gao, Abulhair Saparov, Haonan Li, Taylor W. Killian, Mikhail Yurochkin, Zhengzhong Liu, Eric P. Xing, Zhiting Hu

Обучение с подкреплением (RL) стало перспективным подходом для улучшения способности крупных языковых моделей (LLM) к рассуждению, однако большинство открытых исследований сосредоточено узко на математике и программировании, что ограничивает наше понимание его более широкой применимости к общим задачам рассуждения. Основная проблема заключается в отсутствии надежных и масштабируемых сигналов вознаграждения RL в различных областях рассуждений. Мы представляем Guru — тщательно отобранный корпус данных для RL, содержащий 92 тыс. проверяемых примеров, охватывающих шесть областей рассуждений: математику, программирование, науку, логику, моделирование и табличные данные. Каждая область построена с использованием специфичного для домена дизайна вознаграждения, дедупликации и фильтрации для обеспечения надежности и эффективности при обучении RL. На основе Guru мы систематически пересматриваем установленные выводы в области RL для рассуждений LLM и наблюдаем значительные различия между доменами. Например, хотя предыдущие работы предполагают, что RL в основном извлекает уже имеющиеся знания из предварительно обученных моделей, наши результаты показывают более сложную картину: домены, часто встречающиеся в предварительном обучении (математика, программирование, наука), легко выигрывают от кросс-доменного обучения RL, тогда как домены с ограниченным воздействием в предварительном обучении (логика, моделирование и табличные данные) требуют внутридоменного обучения для достижения значимых улучшений производительности, что указывает на то, что RL, вероятно, способствует реальному приобретению навыков. Наконец, мы представляем Guru-7B и Guru-32B — две модели, которые достигают наилучших результатов среди открытых моделей, обученных RL на общедоступных данных, превосходя лучшие базовые модели на 7,9% и 6,7% в нашем наборе из 17 задач, охватывающих шесть областей рассуждений. Мы также показываем, что наши модели эффективно улучшают показатели Pass@k своих базовых моделей, особенно на сложных задачах, которые реже встречаются в данных предварительного обучения. Мы публикуем данные, модели, код для обучения и оценки, чтобы способствовать развитию общих способностей к рассуждению по адресу: https://github.com/LLM360/Reasoning360.

Show-o2: Улучшенные нативные унифицированные мультимодальные модели
Show-o2: Improved Native Unified Multimodal Models

Jun 18

ByJinheng Xie, Zhenheng Yang, Mike Zheng Shou

В данной статье представлены усовершенствованные нативные унифицированные мультимодальные модели, а именно Show-o2, которые используют авторегрессионное моделирование и согласование потоков. Построенные на основе 3D-пространства причинных вариационных автокодировщиков, унифицированные визуальные представления формируются через двойной путь пространственно-временного слияния, что обеспечивает масштабируемость для изображений и видео, а также эффективное понимание и генерацию мультимодальных данных. На основе языковой модели авторегрессионное моделирование и согласование потоков нативно применяются к языковому и потоковому модулям соответственно, что способствует предсказанию текстовых токенов и генерации изображений/видео. Разработан двухэтапный процесс обучения для эффективного изучения и масштабирования до более крупных моделей. Полученные модели Show-o2 демонстрируют универсальность в решении широкого спектра задач мультимодального понимания и генерации для различных модальностей, включая текст, изображения и видео. Код и модели доступны по адресу https://github.com/showlab/Show-o.

EmoNet-Voice: Экспертно-проверенный эталонный набор данных для детектирования эмоций в речи с высокой степенью детализации
EmoNet-Voice: A Fine-Grained, Expert-Verified Benchmark for Speech Emotion Detection

Jun 11

ByChristoph Schuhmann, Robert Kaczmarczyk, Gollam Rabby, Felix Friedrich, Maurice Kraus, Kourosh Nadi, Huu Nguyen, Kristian Kersting, Sören Auer

Развитие моделей преобразования текста в речь и генерации аудио требует создания надежных эталонов для оценки способностей систем искусственного интеллекта к пониманию эмоций. Современные наборы данных для распознавания эмоций в речи (Speech Emotion Recognition, SER) часто имеют ограничения в эмоциональной детализации, проблемах с конфиденциальностью или зависимости от актерских интерпретаций. В данной статье представлен EmoNet-Voice — новый ресурс для обнаружения эмоций в речи, включающий EmoNet-Voice Big, крупномасштабный набор данных для предварительного обучения (содержащий более 4500 часов речи, 11 голосов, 40 эмоций и 4 языка), и EmoNet-Voice Bench, новый эталонный набор данных с аннотациями экспертов. EmoNet-Voice разработан для оценки моделей SER на детализированном спектре из 40 категорий эмоций с различными уровнями интенсивности. Используя передовые технологии генерации голоса, мы создали синтетические аудиофрагменты, имитирующие актеров, изображающих сцены, призванные вызывать определенные эмоции. Важно отметить, что мы провели строгую валидацию с участием экспертов-психологов, которые присвоили метки воспринимаемой интенсивности. Этот синтетический подход, сохраняющий конфиденциальность, позволяет включать чувствительные эмоциональные состояния, часто отсутствующие в существующих наборах данных. Наконец, мы представляем модели Empathic Insight Voice, которые устанавливают новый стандарт в распознавании эмоций в речи, демонстрируя высокое согласие с оценками экспертов. Наши оценки в рамках современных моделей выявили ценные результаты, например, что эмоции с высокой активацией, такие как гнев, распознаются значительно легче, чем состояния с низкой активацией, такие как концентрация.

Улучшенный итеративный метод уточнения для генерации кода из диаграмм с использованием структурированных инструкций
Improved Iterative Refinement for Chart-to-Code Generation via Structured Instruction

Jun 15

ByChengzhi Xu, Yuyang Wang, Lai Wei, Lichao Sun, Weiran Huang

В последнее время мультимодальные большие языковые модели (MLLMs) привлекают все больше внимания исследователей благодаря своим мощным возможностям визуального понимания. Хотя они достигли впечатляющих результатов в различных задачах, связанных с обработкой изображений, их производительность в задаче генерации кода на основе графиков остается неоптимальной. Эта задача требует от MLLMs генерации исполняемого кода, который может воспроизвести заданный график, что предполагает не только точное визуальное понимание, но и корректный перевод визуальных элементов в структурированный код. Прямое использование MLLMs для выполнения этой сложной задачи часто приводит к неудовлетворительным результатам. Для решения этой проблемы мы предлагаем метод {ChartIR}, основанный на итеративном уточнении с использованием структурированных инструкций. Во-первых, мы разделяем две задачи: визуальное понимание и перевод в код. Для выполнения компонента визуального понимания мы разрабатываем два типа структурированных инструкций: описание и различие. Инструкция описания фиксирует визуальные элементы эталонного графика, в то время как инструкция различия характеризует расхождения между эталонным графиком и сгенерированным. Эти инструкции эффективно преобразуют визуальные признаки в языковые представления, тем самым облегчая последующий процесс перевода в код. Во-вторых, мы разделяем общий процесс генерации графика на два этапа: начальную генерацию кода и итеративное уточнение, что позволяет постепенно улучшать конечный результат. Экспериментальные результаты показывают, что по сравнению с другими методами наш метод демонстрирует превосходную производительность как на открытой модели Qwen2-VL, так и на закрытой модели GPT-4o.

SonicVerse: Многозадачное обучение для создания описаний с учетом музыкальных характеристик
SonicVerse: Multi-Task Learning for Music Feature-Informed Captioning

Jun 18

ByAnuradha Chopra, Abhinaba Roy, Dorien Herremans

Подробные описания, которые точно отражают характеристики музыкального произведения, могут обогатить музыкальные базы данных и способствовать развитию исследований в области музыкального искусственного интеллекта. В данной статье представлена многозадачная модель генерации описаний музыки, SonicVerse, которая объединяет создание описаний с дополнительными задачами обнаружения музыкальных характеристик, такими как определение тональности, наличие вокала и другие, чтобы непосредственно захватывать как низкоуровневые акустические детали, так и высокоуровневые музыкальные атрибуты. Ключевым вкладом является архитектура на основе проекций, которая преобразует аудиовход в языковые токены, одновременно обнаруживая музыкальные характеристики с помощью специализированных вспомогательных модулей. Выходные данные этих модулей также проецируются в языковые токены для улучшения входных данных для генерации описаний. Этот подход не только создает насыщенные и описательные подписи для коротких музыкальных фрагментов, но и позволяет напрямую генерировать детализированные временные описания для более длинных музыкальных произведений, объединяя выходные данные с использованием крупной языковой модели. Для обучения модели мы расширили набор данных MusicBench, аннотировав его музыкальными характеристиками с помощью MIRFLEX, модульного экстрактора музыкальных признаков, что привело к созданию парных данных: аудио, описаний и музыкальных характеристик. Экспериментальные результаты показывают, что включение характеристик таким образом улучшает качество и детализацию генерируемых описаний.

RE-IMAGINE: Синтез символических эталонов для оценки способности к рассуждению
RE-IMAGINE: Symbolic Benchmark Synthesis for Reasoning Evaluation

Jun 18

ByXinnuo Xu, Rachel Lawrence, Kshitij Dubey, Atharva Pandey, Risa Ueno, Fabian Falck, Aditya V. Nori, Rahul Sharma, Amit Sharma, Javier Gonzalez

Современные крупные языковые модели (LLM) демонстрируют высокую точность на тестах, оценивающих способность к рассуждению. Однако до сих пор неясно, являются ли наблюдаемые результаты следствием истинного рассуждения или статистического воспроизведения данных из обучающего набора. Вдохновленные лестницей причинности (Pearl, 2009) и её тремя уровнями (ассоциации, вмешательства и контрфактические рассуждения), в данной статье представлен RE-IMAGINE — фреймворк для характеристики иерархии способностей к рассуждению в LLM, а также автоматизированный процесс генерации вариаций задач на разных уровнях этой иерархии. Путем изменения задач в промежуточном символическом представлении RE-IMAGINE создает произвольное количество задач, которые невозможно решить с помощью простого запоминания. Более того, фреймворк является универсальным и может применяться в различных областях рассуждений, включая математику, программирование и логику. Мы демонстрируем наш фреймворк на четырех широко используемых тестах для оценки нескольких семейств LLM и наблюдаем снижение производительности, когда модели сталкиваются с вариациями задач. Эти оценки указывают на определенную зависимость от статистического воспроизведения данных для достижения прошлых результатов и открывают путь для дальнейших исследований, направленных на развитие навыков на всех уровнях иерархии рассуждений.

Переосмысление обучения с подкреплением для рассуждений в крупных языковых моделях с кросс-доменной перспективы
Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective

Jun 17