Ежедневно отобранные исследовательские статьи по ИИ с переводами
В данном отчете мы представляем серию Qwen2.5-Coder, значительное обновление по сравнению с предыдущей версией CodeQwen1.5. Эта серия включает две модели: Qwen2.5-Coder-1.5B и Qwen2.5-Coder-7B. Как модель, специализированная на коде, Qwen2.5-Coder построена на архитектуре Qwen2.5 и продолжает обучение на огромном корпусе из более чем 5,5 триллиона токенов. Благодаря тщательной очистке данных, масштабируемому созданию синтетических данных и сбалансированному смешиванию данных, Qwen2.5-Coder демонстрирует впечатляющие возможности генерации кода, сохраняя при этом общую универсальность. Модель была оценена на широком спектре задач, связанных с кодом, достигая передовых показателей (SOTA) по более чем 10 бенчмаркам, включая генерацию, завершение, рассуждения и восстановление кода, последовательно превосходя более крупные модели того же размера. Мы считаем, что выпуск серии Qwen2.5-Coder не только расширит границы исследований в области интеллекта кода, но также, благодаря своей лицензии с открытым исходным кодом, поощрит более широкое принятие разработчиками в реальных приложениях.
Мы представляем серию Qwen2-VL, передовое обновление предыдущих моделей Qwen-VL, которое переопределяет традиционный подход к обработке изображений с заранее заданным разрешением. Qwen2-VL вводит механизм Наивной Динамической Разрешимости, позволяющий модели динамически обрабатывать изображения с различными разрешениями на разное количество визуальных токенов. Этот подход позволяет модели генерировать более эффективные и точные визуальные представления, тесно соответствуя человеческим восприятиям. Модель также интегрирует Мультимодальное Вращающееся Позиционное Внедрение (M-RoPE), облегчая эффективное слияние информации о позиции в тексте, изображениях и видео. Мы используем унифицированную парадигму для обработки как изображений, так и видео, улучшая визуальные способности модели. Для изучения потенциала крупных мультимодальных моделей, Qwen2-VL исследует законы масштабирования для крупных моделей видео-языка (LVLM). Масштабируя как размер модели - с версиями на 2B, 8B и 72B параметров, так и объем обучающих данных, серия Qwen2-VL достигает высокой конкурентоспособной производительности. Заметно, что модель Qwen2-VL-72B достигает результатов, сравнимых с ведущими моделями, такими как GPT-4o и Claude3.5-Sonnet, на различных мультимодальных бенчмарках, превосходя другие общие модели. Код доступен по ссылке https://github.com/QwenLM/Qwen2-VL.
Широкое понимание текста и обучение в контексте требуют языковых моделей, которые используют полные контексты документов. Из-за вызовов, связанных с прямым обучением моделей с длинным контекстом, было предложено множество методов для расширения моделей для работы с длинными контекстами. Однако из-за различий в данных и классах моделей сравнение этих подходов оказалось сложным, что привело к неопределенности в оценке производительности на длинных контекстах и вопросам о том, отличается ли она от стандартной оценки. Мы реализуем контролируемый протокол для методов расширения с стандартизированной оценкой, используя согласованные базовые модели и данные расширения. Наше исследование дает несколько идей о поведении длинных контекстов. Во-первых, мы подтверждаем критическую роль перплексии как универсального показателя производительности даже в задачах с более длинным контекстом. Во-вторых, мы обнаруживаем, что текущие методы приближенного внимания систематически показывают худшую производительность в задачах с длинным контекстом. Наконец, мы подтверждаем, что точные методы настройки на основе обучения на конечном этапе обычно эффективны в пределах их расширения, в то время как экстраполяция остается сложной. Все кодовые базы, модели и контрольные точки будут доступны в открытом доступе, способствуя прозрачности и облегчая дальнейшие исследования в этой критической области развития искусственного интеллекта.
Цепочка мыслей (CoT) с использованием подсказок является фактическим методом для выявления способностей к рассуждениям у больших языковых моделей (LLM). Но для каких задач это дополнительное "мышление" действительно полезно? Для анализа этого мы провели количественный мета-анализ, охватывающий более 100 статей, использующих CoT, и провели собственные оценки 20 наборов данных на 14 моделях. Наши результаты показывают, что CoT приносит значительные выгоды в производительности в основном на задачах, связанных с математикой или логикой, с гораздо меньшими приростами на других типах задач. На MMLU прямое генерирование ответа без CoT приводит к практически идентичной точности, как и с CoT, если вопрос или ответ модели содержат знак равенства, указывающий на символьные операции и рассуждения. Исходя из этого вывода, мы анализируем поведение CoT на этих проблемах, разделяя планирование и выполнение и сравнивая с LLM, улучшенными инструментами. Большая часть прироста от CoT происходит за счет улучшения символьного выполнения, но он уступает по сравнению с использованием символьного решателя. Наши результаты показывают, что CoT можно применять избирательно, сохраняя производительность и снижая затраты на вывод. Более того, они указывают на необходимость перехода от основанной на подсказках CoT к новым парадигмам, которые лучше используют промежуточные вычисления во всем спектре применения LLM.
Персонализация играет критическую роль во многих языковых задачах и приложениях, поскольку пользователи с одинаковыми требованиями могут предпочитать разнообразные результаты в зависимости от их индивидуальных интересов. Это привело к разработке различных персонализированных подходов, направленных на адаптацию крупных языковых моделей (КЯМ) для генерации настроенных результатов, соответствующих предпочтениям пользователя. Некоторые из них включают настройку уникальной персонализированной КЯМ для каждого пользователя, что является слишком дорогостоящим для широкого применения. Альтернативные подходы вводят информацию о персонализации путем извлечения соответствующих исторических текстов пользователя в качестве демонстраций. Однако этот стратегия на основе извлечения может нарушить последовательность истории пользователя и не уловить общие стили и шаблоны пользователя, что приводит к субоптимальной производительности. Для решения этих проблем мы предлагаем новую модель персонализированной КЯМ. Она создает уникальное вложение для каждого пользователя, моделируя все его исторические контексты через легковесный модуль встраивания пользователя. Присоединяя это вложение к входной задаче, КЯМ могут лучше понимать и улавливать привычки и предпочтения пользователя, тем самым производя более персонализированные результаты без настройки своих собственных параметров. Обширные эксперименты на различных задачах в бенчмарке по персонализации языковой модели (LaMP) показывают, что предложенная модель значительно превосходит существующие персонализированные подходы с КЯМ.
Настройка предпочтений является ключевым процессом для согласования глубоких генеративных моделей с человеческими предпочтениями. Этот обзор предлагает подробное изучение последних достижений в области настройки предпочтений и интеграции обратной связи от людей. Статья разделена на три основных раздела: 1) введение и предварительные сведения: введение в рамки обучения с подкреплением, задачи настройки предпочтений, модели и наборы данных в различных модальностях: язык, речь и зрение, а также различные подходы к политике, 2) детальное рассмотрение каждого подхода к настройке предпочтений: подробный анализ методов, используемых в настройке предпочтений, и 3) приложения, обсуждение и перспективы: исследование применения настройки предпочтений в последующих задачах, включая методы оценки для различных модальностей, а также перспективы будущих исследований. Наша цель - представить последние методологии в области настройки предпочтений и выравнивания моделей, способствуя пониманию этой области исследования для исследователей и практиков. Мы надеемся стимулировать дальнейшее вовлечение и инновации в этой области.
Модели смеси экспертов (MoE) масштабируются более эффективно, чем плотные модели, благодаря разреженным вычислениям через маршрутизацию экспертов, выборочно активирующую только небольшой поднабор экспертных модулей. Однако разреженные вычисления представляют вызов для традиционных методов обучения, поскольку дискретная маршрутизация экспертов затрудняет стандартное обратное распространение и, следовательно, градиентно-ориентированную оптимизацию, которые являются основой глубокого обучения. Для более эффективного использования масштабирующей силы MoE мы представляем GRIN (GRadient-INformed MoE training), который включает разреженную оценку градиента для маршрутизации экспертов и настраивает параллелизм модели для предотвращения потери токенов. Применяя GRIN к авторегрессионному языковому моделированию, мы разрабатываем модель MoE размером 16times3.8B с топ-2. Наша модель, с активированными параметрами всего 6.6B, превосходит плотную модель размером 7B и соответствует производительности плотной модели размером 14B, обученной на тех же данных. Обширные оценки по различным задачам демонстрируют потенциал GRIN для значительного улучшения эффективности MoE, достигая 79.4 на MMLU, 83.7 на HellaSwag, 74.4 на HumanEval и 58.9 на MATH.
С появлением эры больших данных и больших языковых моделей, персонализированная мгновенная настройка "нулевого шота" стала значительным трендом. В данном отчете мы представляем Takin AudioLLM, серию техник и моделей, включающую в себя Takin TTS, Takin VC и Takin Morphing, специально разработанных для производства аудиокниг. Эти модели способны к производству речи "нулевого шота", генерируя высококачественную речь, практически неотличимую от реальной человеческой речи, и облегчая возможность настраивать содержание речи в соответствии с собственными потребностями. В частности, мы сначала представляем Takin TTS, нейронную модель языкового кодека, основанную на улучшенном нейронном речевом кодеке и многофункциональной обучающей структуре, способную генерировать высококачественную естественную речь способом "нулевого шота". Для Takin VC мы выступаем за эффективный подход совместного моделирования контента и тембра для улучшения сходства диктора, а также за использование декодера на основе сопоставления условного потока для дальнейшего улучшения естественности и выразительности. Наконец, мы предлагаем систему Takin Morphing с высоко разделенными и продвинутыми подходами к моделированию тембра и просодии, что позволяет индивидам настраивать производство речи с предпочитаемым тембром и просодией точным и управляемым способом. Обширные эксперименты подтверждают эффективность и надежность наших моделей серии Takin AudioLLM. Для подробных демонстраций обращайтесь по ссылке https://takinaudiollm.github.io.
Мы отправляемся в вечный поиск: раскрытие скрытых измерений объектов по едва заметным частям их видимой структуры. Для решения этой задачи мы представляем Vista3D, фреймворк, обеспечивающий быструю и последовательную генерацию трехмерных объектов всего за 5 минут. В центре Vista3D лежит двухфазный подход: грубая фаза и точная фаза. В грубой фазе мы быстро создаем начальную геометрию с помощью Гауссовского сплетения по одному изображению. В точной фазе мы извлекаем функцию знакового расстояния (SDF) непосредственно из обученного Гауссовского сплетения, оптимизируя ее с помощью дифференцируемого представления изосурфейса. Кроме того, качество генерации повышается за счет использования разделенного представления с двумя независимыми неявными функциями для захвата как видимых, так и скрытых аспектов объектов. Кроме того, оно согласует градиенты от 2D диффузионных априори с 3D-ориентированными диффузионными априори путем композиции ориентированных диффузионных априори. Через обширную оценку мы демонстрируем, что Vista3D эффективно поддерживает баланс между последовательностью и разнообразием созданных трехмерных объектов. Демонстрации и код будут доступны на https://github.com/florinshen/Vista3D.
В данной статье мы представляем SoloAudio, новую генеративную модель на основе диффузии для извлечения целевого звука (TSE). Наш подход обучает латентные модели диффузии на аудио, заменяя предыдущую основу U-Net на трансформер с пропускными соединениями, который работает с латентными признаками. SoloAudio поддерживает как аудио-ориентированное, так и языково-ориентированное извлечение целевого звука, используя модель CLAP в качестве извлекателя признаков для целевых звуков. Более того, SoloAudio использует синтетические аудио, созданные современными моделями текст-в-аудио для обучения, демонстрируя сильную обобщающую способность к данным вне области и невидимым звуковым событиям. Мы оцениваем этот подход на смешанном наборе данных FSD Kaggle 2018 и реальных данных из AudioSet, где SoloAudio достигает передовых результатов как на данных внутри области, так и вне ее, и проявляет впечатляющие возможности нулевого и небольшого количества обучающих примеров. Исходный код и демонстрации доступны для ознакомления.
Мы представляем Диффузионное аудио-подписывание (DAC), нерекурсивную модель диффузии, разработанную для разнообразного и эффективного подписывания аудио. Хотя существующие модели подписывания, основанные на языковых основах, достигли значительного успеха в различных задачах подписывания, их недостаточная производительность в плане скорости генерации и разнообразия затрудняют прогресс в аудио-понимании и мультимедийных приложениях. Наша диффузионная структура предлагает уникальные преимущества, вытекающие из ее врожденной стохастичности и комплексного моделирования контекста в подписывании. Через тщательную оценку мы демонстрируем, что DAC не только достигает уровней производительности SOTA по сравнению с существующими эталонами в качестве подписи, но также значительно превосходит их по скорости генерации и разнообразию. Успех DAC показывает, что генерация текста также может быть плавно интегрирована с задачами генерации аудио и визуального воспроизведения, используя диффузионную основу, что прокладывает путь к объединенной, аудио-связанной генеративной модели по различным модальностям.
Офлайн обучение с подкреплением для мультиагентных систем (MARL) представляет собой увлекательное направление исследований, которое использует статические наборы данных для нахождения оптимальных стратегий управления для мультиагентных систем. Хотя область по своей сути ориентирована на данные, усилия до сих пор пренебрегали данными в стремлении достичь передовых результатов. Вначале мы подтверждаем это утверждение, проанализировав литературу и показав, как большинство работ создают собственные наборы данных без последовательной методологии и предоставляют ограниченную информацию о характеристиках этих наборов данных. Затем мы показываем, почему игнорирование характеристик данных проблематично, приводя яркие примеры того, как тесно производительность алгоритма связана с использованным набором данных, что требует общего фундамента для экспериментов в данной области. В ответ на это мы делаем большой шаг к улучшению использования данных и осознания данных в офлайн MARL, внесая три ключевых вклада: (1) четкое руководство по созданию новых наборов данных; (2) стандартизацию более 80 существующих наборов данных, размещенных в общедоступном репозитории, с использованием единого формата хранения и удобного API; и (3) набор инструментов для анализа, которые позволяют нам лучше понять эти наборы данных, способствуя дальнейшему развитию.
Математика долгое время передавалась через естественный язык, в основном для понимания человеком. С появлением механизированной математики и помощников по доказательствам возникает растущая необходимость понимания неформального математического текста, однако большинство существующих бенчмарков сосредотачиваются исключительно на английском языке, игнорируя другие языки. В данной статье представлен RoMath - набор бенчмарков по математическому рассуждению на румынском языке, включающий три набора данных: RoMath-Баккалауреат, RoMath-Соревнования и RoMath-Синтетический, охватывающие различные математические области и уровни сложности, с целью улучшения моделей на неанглийских языках и стимулирования развития мультиязычного искусственного интеллекта. Сосредотачиваясь на румынском языке, языке с ограниченными ресурсами и уникальными лингвистическими особенностями, RoMath решает ограничения англо-центричных моделей и подчеркивает необходимость специализированных ресурсов за пределами простого автоматического перевода. Мы проводим оценку нескольких моделей языка с открытым весом, подчеркивая важность создания ресурсов для недостаточно представленных языков. Мы предоставляем доступ к коду и набору данных.
Искусственно-интеллектные агенты имеют потенциал помогать пользователям в решении различных значимых задач, включая проведение научных исследований. Для стимулирования развития полезных агентов необходимы бенчмарки, которые были бы сложными, но, что более важно, напрямую соответствовали бы реальным задачам интереса. В данной статье представлен такой бенчмарк, разработанный для измерения точности искусственно-интеллектных агентов в решении критического, но удивительно сложного аспекта научных исследований: вычислительной воспроизводимости. Эта задача, являющаяся фундаментальной для научного процесса, включает воспроизведение результатов исследования с использованием предоставленного кода и данных. Мы представляем CORE-Bench (Бенчмарк агента вычислительной воспроизводимости), состоящий из 270 задач на основе 90 научных статей в трех областях (информатика, социальные науки и медицина). Задачи в CORE-Bench имеют три уровня сложности и включают как задачи только на языке, так и задачи на языке с визуальным компонентом. Мы предоставляем систему оценки для измерения точности агентов быстрым и параллельным способом, экономя дни времени на оценку для каждого запуска по сравнению с последовательной реализацией. Мы оценили два базовых агента: универсальный AutoGPT и агент, специализированный на задаче, названный CORE-Agent. Мы протестировали обе вариации, используя две базовые языковые модели: GPT-4o и GPT-4o-mini. Лучший агент достиг точности 21% на самой сложной задаче, показывая огромные возможности для улучшения автоматизации рутинных научных задач. Наличие агентов, способных воспроизводить существующую работу, является необходимым шагом к созданию агентов, способных проводить новые исследования, а также верифицировать и улучшать производительность других исследовательских агентов. Мы надеемся, что CORE-Bench способствует улучшению состояния воспроизводимости и стимулирует развитие будущих исследовательских агентов.
Восстановление трехмерной визуализации из данных функциональной магнитно-резонансной томографии (fMRI), представленное как Recon3DMind в нашей конференционной работе, представляет значительный интерес как для когнитивной нейронауки, так и для компьютерного зрения. Для продвижения этой задачи мы представляем набор данных fMRI-3D, который включает данные от 15 участников и демонстрирует общее количество 4768 трехмерных объектов. Набор данных состоит из двух компонентов: fMRI-Shape, ранее представленного и доступного на https://huggingface.co/datasets/Fudan-fMRI/fMRI-Shape, и fMRI-Objaverse, предложенного в данной статье и доступного на https://huggingface.co/datasets/Fudan-fMRI/fMRI-Objaverse. fMRI-Objaverse включает данные от 5 испытуемых, 4 из которых также являются частью основного набора данных в fMRI-Shape, причем каждый испытуемый просматривает 3142 трехмерных объекта по 117 категориям, все снабжены текстовыми подписями. Это значительно расширяет разнообразие и потенциальные применения набора данных. Кроме того, мы предлагаем MinD-3D, новую структуру, разработанную для декодирования трехмерной визуальной информации из сигналов fMRI. Структура сначала извлекает и агрегирует признаки из данных fMRI с использованием нейро-слияния кодировщика, затем использует модель диффузии признаков для генерации визуальных признаков и, наконец, восстанавливает трехмерный объект с помощью генеративного декодера-трансформера. Мы устанавливаем новые стандарты, разработав метрики на семантическом и структурном уровнях для оценки производительности модели. Кроме того, мы оцениваем эффективность нашей модели в условиях "вне распределения" и анализируем атрибуцию извлеченных признаков и визуальных областей интереса (ROIs) в сигналах fMRI. Наши эксперименты демонстрируют, что MinD-3D не только восстанавливает трехмерные объекты с высокой семантической и пространственной точностью, но и углубляет наше понимание того, как человеческий мозг обрабатывает трехмерную визуальную информацию. Страница проекта: https://jianxgao.github.io/MinD-3D.
При решении задачи многодокументного резюмирования (MDS) было предложено множество методов, охватывающих как экстрактивные, так и абстрактивные техники резюмирования. Однако каждый подход имеет свои ограничения, что делает менее эффективным полагаться исключительно на один из них. Возникающая и многообещающая стратегия включает синергетическое объединение методов экстрактивного и абстрактивного резюмирования. Несмотря на множество исследований в этой области, исследования по комбинированной методологии остаются редкими, особенно в контексте обработки вьетнамского языка. В данной статье представлена новая вьетнамская структура MDS, использующая двухкомпонентную архитектуру конвейера, интегрирующую экстрактивные и абстрактивные техники. Первый компонент применяет экстрактивный подход для выявления ключевых предложений в каждом документе. Это достигается путем модификации предварительно обученной сети BERT, которая производит семантически значимые векторы фраз с использованием структур сетей сиамских и триплетов. Второй компонент использует модель VBD-LLaMA2-7B-50b для абстрактивного резюмирования, в конечном итоге генерируя окончательный документ-резюме. Предложенная нами структура демонстрирует положительную производительность, достигая показателей ROUGE-2 на уровне 39,6% на наборе данных VN-MDS и превосходя современные базовые уровни.
Человеческие ценности и их измерение являются давним междисциплинарным исследованием. Недавние достижения в области искусственного интеллекта вызвали новый интерес к этой теме, причем большие языковые модели (LLM) выступают как инструменты, так и объекты измерения ценностей. В данной работе представлена Генеративная Психометрика для Ценностей (GPV), парадигма измерения ценностей на основе LLM, теоретически обоснованная в текстово-выявленных селективных восприятиях. Мы начинаем с настройки LLM для точного измерения ценностей на уровне восприятия и проверки способности LLM разбирать тексты на восприятия, что является основой конвейера GPV. Применяя GPV к блогам, написанным людьми, мы демонстрируем его стабильность, достоверность и превосходство над предыдущими психологическими инструментами. Затем, расширяя GPV на измерение ценностей с использованием LLM, мы продвигаем современное искусство с помощью 1) психометрической методологии, измеряющей ценности LLM на основе их масштабируемых и свободноформатных результатов, обеспечивая контекстно-специфическое измерение; 2) сравнительного анализа парадигм измерения, указывающего на ответные искажения предыдущих методов; и 3) попытки связать ценности LLM и их безопасность, раскрывая предсказательную силу различных систем ценностей и влияние различных ценностей на безопасность LLM. Через междисциплинарные усилия мы стремимся использовать искусственный интеллект для психометрики следующего поколения и психометрику для выравнивания ценностей искусственного интеллекта.