Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем Seed-Music, набор систем генерации музыки, способных создавать музыку высокого качества с тонким контролем стиля. Наш единый фреймворк использует как авторегрессивное моделирование языка, так и диффузионные подходы для поддержки двух основных рабочих процессов создания музыки: контролируемая генерация музыки и постпродакшн-редактирование. Для контролируемой генерации музыки наша система позволяет генерацию вокальной музыки с управлением исполнения из мультимодальных входных данных, включая описания стиля, аудио-ссылки, музыкальные нотации и голосовые подсказки. Для постпродакшн-редактирования предлагаются интерактивные инструменты для редактирования текстов и вокальных мелодий непосредственно в созданном аудио. Мы призываем читателей прослушать демонстрационные аудио-примеры по ссылке https://team.doubao.com/seed-music.
Трансформеры являются основой современного глубокого обучения. Традиционно эти модели полагаются на слои многослойного персептрона (MLP) для смешивания информации между каналами. В данной статье мы представляем Кольмогорово-Арнольдовский трансформер (KAT), новую архитектуру, заменяющую слои MLP на слоях сети Кольмогорова-Арнольдова (KAN) для улучшения выразительности и производительности модели. Однако интеграция KAN в трансформеры - непростая задача, особенно при масштабировании. Конкретно мы выделяем три ключевые проблемы: (C1) Базовая функция. Стандартная функция B-сплайн, используемая в KAN, не оптимизирована для параллельных вычислений на современном оборудовании, что приводит к более медленным скоростям вывода. (C2) Неэффективность параметров и вычислений. KAN требует уникальной функции для каждой пары вход-выход, что делает вычисления чрезвычайно объемными. (C3) Инициализация весов. Инициализация весов в KAN особенно сложна из-за их обучаемых активационных функций, которые критически важны для достижения сходимости в глубоких нейронных сетях. Для преодоления упомянутых проблем мы предлагаем три ключевых решения: (S1) Рациональная основа. Мы заменяем функции B-сплайн рациональными функциями для улучшения совместимости с современными GPU. Реализуя это в CUDA, мы добиваемся более быстрых вычислений. (S2) Групповой KAN. Мы делим веса активации через группу нейронов, чтобы снизить вычислительную нагрузку без ущерба производительности. (S3) Инициализация, сохраняющая дисперсию. Мы тщательно инициализируем веса активации, чтобы гарантировать сохранение дисперсии активации на протяжении слоев. Благодаря этим конструкциям, KAT эффективно масштабируется и легко превосходит традиционные трансформеры на основе MLP.
Модели языка на основе трансформеров (LLM) становятся все более важными в различных областях. Однако квадратичная сложность времени операции внимания представляет существенное препятствие для масштабирования на более длинные контексты из-за чрезвычайно высокой задержки вывода и потребления памяти GPU для кэширования векторов ключ-значение (KV). В данной статье предлагается RetrievalAttention, подход без обучения для ускорения вычисления внимания. Для использования динамического разреженного свойства внимания RetrievalAttention создает приближенные индексы ближайших соседей (ANNS) на векторах KV в памяти CPU и извлекает наиболее релевантные с помощью поиска векторов во время генерации. Из-за внедорожной (OOD) между векторами запросов и векторами ключей, стандартные индексы ANNS все еще должны сканировать O(N) (обычно 30% всех ключей) данных для точного извлечения, что не позволяет использовать высокую разреженность. RetrievalAttention первым выявляет проблему OOD внимания на основе ANNS и решает ее с помощью алгоритма поиска векторов, осведомленного о внимании, который может адаптироваться к запросам и обращаться только к 1-3% данных, тем самым достигая сублинейной сложности времени. RetrievalAttention значительно снижает стоимость вывода для LLM с длинным контекстом с гораздо меньшими требованиями к памяти GPU, сохраняя при этом точность модели. В частности, RetrievalAttention требуется всего 16 ГБ памяти GPU для обработки 128 тыс. токенов в LLM с 8 млрд параметров, что позволяет генерировать один токен за 0,188 секунды на одном графическом процессоре NVIDIA RTX4090 (24 ГБ).
Мы представляем jina-embeddings-v3, новую модель встраивания текста с 570 миллионами параметров, достигающую передовых показателей на мультиязычных данных и задачах поиска с длинным контекстом, поддерживая длину контекста до 8192 токенов. Модель включает набор адаптеров Low-Rank Adaptation (LoRA), специфичных для задачи, для создания высококачественных встраиваний для поиска запросов-документов, кластеризации, классификации и сопоставления текста. Кроме того, в процесс обучения интегрировано обучение представлений Matryoshka, позволяющее гибко усекать размеры встраивания без ущерба для производительности. Оценка на бенчмарке MTEB показывает, что jina-embeddings-v3 превосходит последние собственные встраивания от OpenAI и Cohere в англоязычных задачах, обеспечивая более высокую производительность по сравнению с multilingual-e5-large-instruct во всех мультиязычных задачах.
Модели видео-языка недавно превратились в универсальные системы, способные демонстрировать высокую производительность в широком спектре задач, таких как понимание документов, визуальное ответ на вопросы и опора, часто в условиях нулевой обучающей выборки. Понимание комиксов, сложное и многогранные область, может значительно выиграть от этих достижений. Комиксы, как средство, объединяют в себе богатые визуальные и текстовые повествования, представляя для моделей искусственного интеллекта задачи, охватывающие классификацию изображений, обнаружение объектов, сегментацию экземпляров и более глубокое понимание повествования через последовательные панели. Однако уникальная структура комиксов - характеризующаяся творческими вариациями в стиле, порядке чтения и нелинейном повествовании - представляет собой ряд проблем, отличных от других областей визуально-языковых доменов. В данном обзоре мы представляем всесторонний обзор Понимания комиксов с точки зрения как набора данных, так и задач. Наши вклады состоят в следующем: (1) Мы анализируем структуру средства комиксов, детализируя его характерные композиционные элементы; (2) Мы обзорно рассматриваем широко используемые наборы данных и задачи в исследованиях комиксов, подчеркивая их роль в продвижении области; (3) Мы представляем рамочное понимание комиксов (LoCU), новую таксономию, которая переопределяет задачи видео-языка в рамках комиксов и заложит основу для будущих работ; (4) Мы предоставляем детальный обзор и категоризацию существующих методов в соответствии с рамочным пониманием комиксов; (5) Наконец, мы выделяем текущие исследовательские проблемы и предлагаем направления для будущего исследования, особенно в контексте применения моделей видео-языка к комиксам. Этот обзор является первым, предлагающим задачно-ориентированную рамку для интеллекта комиксов и направлен на руководство будущим исследованиям путем решения критических пробелов в доступности данных и определения задач. Проект, связанный с этим обзором, доступен по ссылке https://github.com/emanuelevivoli/awesome-comics-understanding.
Большие языковые модели (LLM) стали неотъемлемой частью множества прикладных задач в реальном мире. К сожалению, настройка этих моделей в масштабе, особенно в федеративных средах, где важны конфиденциальность данных и эффективность коммуникации, представляет существенные вызовы. Существующие методы часто прибегают к параметрически эффективной настройке (PEFT) для смягчения накладных расходов на коммуникацию, но это обычно происходит за счет точности модели. Для преодоления этих ограничений мы предлагаем федеративную настройку всех параметров в масштабе для LLM (Ferret), первый метод первого порядка с общим случайным элементом, позволяющий масштабируемую настройку всех параметров LLM по децентрализованным источникам данных с сохранением конкурентоспособной точности модели. Ferret достигает этого через три аспекта: (1) он использует широко применяемые методы первого порядка для эффективных локальных обновлений; (2) он проецирует эти обновления в низкоразмерное пространство для значительного снижения накладных расходов на коммуникацию; и (3) он восстанавливает локальные обновления из этого низкоразмерного пространства с общим случайным элементом для обеспечения эффективной глобальной агрегации всех параметров, обеспечивая быструю сходимость и конкурентоспособную конечную производительность. Наши строгие теоретические анализы и исследования, а также обширные эксперименты, показывают, что Ferret значительно улучшает масштабируемость существующих подходов к федеративной настройке всех параметров путем достижения высокой вычислительной эффективности, снижения накладных расходов на коммуникацию и быстрой сходимости, сохраняя при этом конкурентоспособную точность модели. Наша реализация доступна по адресу https://github.com/allen4747/Ferret.
Мы представляем Diagram of Thought (DoT), фреймворк, моделирующий итеративное рассуждение в больших языковых моделях (LLM) как построение направленного ациклического графа (DAG) в рамках одной модели. В отличие от традиционных подходов, представляющих рассуждение как линейные цепочки или деревья, DoT организует утверждения, критики, уточнения и проверки в единый DAG-структуру, позволяя модели исследовать сложные пути рассуждений, сохраняя логическую последовательность. Каждый узел в диаграмме соответствует утверждению, которое было предложено, скритиковано, уточнено или проверено, позволяя LLM итеративно улучшать свои рассуждения через обратную связь на естественном языке. Путем использования авторегрессивного прогнозирования следующего токена с помощью токенов, специфичных для роли, DoT облегчает плавные переходы между предложением идей и их критической оценкой, обеспечивая более богатую обратную связь, чем бинарные сигналы. Более того, мы формализуем фреймворк DoT, используя Топос-теорию, обеспечивая математическое основание, которое гарантирует логическую последовательность и обоснованность в процессе рассуждения. Этот подход улучшает как процессы обучения, так и вывода в рамках одной LLM, устраняя необходимость в нескольких моделях или внешних механизмах управления. DoT предлагает концептуальный фреймворк для разработки моделей, специализированных на рассуждениях следующего поколения, акцентируя внимание на эффективности обучения, устойчивых рассуждениях и теоретическом обосновании. Код доступен по ссылке https://github.com/diagram-of-thought/diagram-of-thought.
Модели аудио-языка с открытым словарем, такие как CLAP, предлагают многообещающий подход для классификации аудио-данных с нулевым обучением (ZSAC), позволяя классифицировать данные с любым произвольным набором категорий, указанным с помощью естественноязыковых подсказок. В данной статье мы предлагаем простой, но эффективный метод улучшения ZSAC с помощью CLAP. Конкретно, мы переходим от традиционного метода использования подсказок с абстрактными метками категорий (например, Звук органа) к подсказкам, описывающим звуки с использованием их врожденных описательных характеристик в различных контекстах (например, Глубокие и резонирующие тона органа наполнили собор). Для достижения этого мы вначале предлагаем ReCLAP, модель CLAP, обученную с переписанными аудио-подписями для улучшения понимания звуков в естественной среде. Эти переписанные подписи описывают каждое звуковое событие в оригинальной подписи, используя их уникальные дискриминирующие характеристики. ReCLAP превосходит все базовые показатели как в мультимодальном поиске аудио-текста, так и в ZSAC. Затем, для улучшения классификации аудио-данных с нулевым обучением с помощью ReCLAP, мы предлагаем увеличение подсказок. В отличие от традиционного метода использования ручных шаблонных подсказок, мы генерируем индивидуальные подсказки для каждой уникальной метки в наборе данных. Эти индивидуальные подсказки сначала описывают звуковое событие в метке, а затем используют их в различных сценах. Наш предложенный метод улучшает производительность ReCLAP в ZSAC на 1%-18% и превосходит все базовые показатели на 1% - 55%.
Визуальный вопросно-ответный (VQA) подход стал ключевым в нескольких приложениях для улучшения пользовательского опыта, особенно после того, как модели вид-язык (VLMs) показали хорошие результаты в нулевом выводе. Однако оценка различных VLMs для требований приложения с использованием стандартизированной структуры в практических условиях остается сложной задачей. В данной статье представлено комплексное средство оценки VLMs, нацеленное на задачи VQA в практических условиях. Мы представляем новый набор данных, полученный из установленных бенчмарков VQA, аннотированный с типами задач, областями применения и типами знаний, тремя ключевыми практическими аспектами, по которым задачи могут различаться. Мы также представляем GoEval, мультимодальную метрику оценки, разработанную с использованием GPT-4o, достигающую коэффициента корреляции 56.71% с человеческими оценками. Наши эксперименты с десятью современными моделями VLM показывают, что ни одна модель не превосходит всеобщим образом, что делает правильный выбор ключевым проектным решением. Собственные модели, такие как Gemini-1.5-Pro и GPT-4o-mini, в целом превосходят другие, хотя открытые модели, такие как InternVL-2-8B и CogVLM-2-Llama-3-19B, демонстрируют конкурентные преимущества в конкретных контекстах, предоставляя дополнительные преимущества. Это исследование направлено на выбор VLMs на основе конкретных требований задачи и ограничений ресурсов, а также может быть расширено на другие задачи вид-язык.
Обучение с подкреплением на основе обратной связи от человека (RLHF) является одним из ключевых методов, который помогает крупным языковым моделям (LLM) следовать инструкциям и предоставлять полезные и безопасные ответы. В то время как существуют прямые методы оптимизации политики, современные LLM используют методы на основе RL (обычно PPO) в RLHF для обучения политики генерировать хорошие ответы, направляемые моделью вознаграждения, изученной на основе данных предпочтений. Основным вызовом этих методов является неточность промежуточной модели вознаграждения, особенно в задачах генерации кода, требующих длительного и сложного рассуждения для оценки ответа. Мы обнаружили, что надежность модели вознаграждения варьируется в зависимости от ответов, назначенных различными вознаграждениями. Это побудило нас отфильтровать образцы, чьи вознаграждения могут быть ненадежными, для улучшения соотношения сигнал/шум во время обучения политики, что привело к Фильтрации Политики для Проксимальной Оптимизации Политики (PF-PPO). Для выбора подходящей стратегии фильтрации политики для данной модели вознаграждения коэффициент детерминации (R^2) между вознаграждениями и фактическими баллами на отфильтрованных образцах служит хорошей метрикой и помогает нам найти несколько перспективных стратегий. Мы проводим обширные эксперименты для подтверждения эффективности PF-PPO в задачах генерации кода и обнаруживаем, что некоторые варианты PF-PPO являются очень эффективными и достигают новых достижений в производительности среди моделей на 7-миллиардных параметрах на HumanEval, MBPP и новом и более сложном бенчмарке LeetCode Contest.
Наша работа исследует эффективность применения передовых методов машинного обучения для решения капч из системы reCAPTCHAv2 от Google. Мы оцениваем эффективность автоматизированных систем в решении капч, используя передовые модели YOLO для сегментации и классификации изображений. Наш основной результат заключается в том, что мы можем решить 100% капч, в то время как предыдущие работы решали только 68-71%. Более того, наши результаты показывают, что нет значительной разницы в количестве задач, которые должны решить люди и боты, чтобы пройти капчи в reCAPTCHAv2. Это подразумевает, что текущие технологии искусственного интеллекта могут использовать передовые капчи на основе изображений. Мы также заглянули под капот reCAPTCHAv2 и обнаружили доказательства того, что reCAPTCHAv2 в значительной степени основана на данных cookie и истории браузера при оценке, является ли пользователь человеком или нет. Код предоставлен вместе с этой статьей.
Недавние исследования выявили, что языковые модели, предобученные на текстовых наборах данных, часто лишены элементарных знаний о визуальных аспектах, например, цветах повседневных объектов. Будучи вдохновленными этим наблюдением, мы задаемся вопросом о существовании аналогичного недостатка в области звуковых знаний. Для ответа на этот вопрос мы создаем новый набор данных под названием AuditoryBench, который состоит из двух новых задач для оценки звуковых знаний. Исходя из нашего анализа с использованием эталонного набора данных, мы обнаруживаем, что языковые модели также страдают от серьезного недостатка звуковых знаний. Для преодоления этого ограничения мы предлагаем AudioBERT, новый метод для расширения звуковых знаний BERT с помощью подхода на основе извлечения информации. Сначала мы обнаруживаем участки звуковых знаний в запросах для эффективного опроса нашей модели извлечения информации. Затем мы внедряем звуковые знания в BERT и включаем адаптацию низкого ранга для эффективной адаптации при необходимости звуковых знаний. Наши эксперименты показывают, что AudioBERT довольно эффективен, достигая превосходных результатов на AuditoryBench. Набор данных и код доступны по адресу https://github.com/HJ-Ok/AudioBERT.
Изображение рентгена грудной клетки (CXR) является важным диагностическим инструментом, используемым в больницах для оценки состояния пациентов и отслеживания изменений со временем. Генеративные модели, в частности модели на основе диффузии, показали перспективу в создании реалистичных синтетических рентгеновских снимков. Однако эти модели в основном сосредотачиваются на условной генерации, используя данные одного временного момента, то есть обычно рентгеновские снимки, сделанные в конкретное время, с соответствующими отчетами, что ограничивает их клиническую полезность, особенно для улавливания временных изменений. Для преодоления этого ограничения мы предлагаем новую структуру, EHRXDiff, которая предсказывает будущие изображения рентгена грудной клетки путем интеграции предыдущих рентгеновских снимков с последующими медицинскими событиями, например, назначениями, лабораторными показателями и т. д. Наша структура динамически отслеживает и предсказывает прогрессирование заболевания на основе латентной модели диффузии, условной по предыдущему изображению рентгена грудной клетки и истории медицинских событий. Мы всесторонне оцениваем производительность нашей структуры по трем ключевым аспектам, включая клиническую согласованность, демографическую согласованность и визуальный реализм. Мы демонстрируем, что наша структура генерирует качественные, реалистичные изображения будущего, которые улавливают потенциальные временные изменения, указывая на ее потенциал для дальнейшего развития в качестве клинического симуляционного инструмента. Это может предложить ценные идеи для мониторинга пациентов и планирования лечения в медицинской области.
Системы рекомендаций часто используют текстовую информацию для улучшения своих прогнозов, особенно в сценариях холодного старта или нулевой классификации, где традиционные подходы коллаборативной фильтрации не могут быть использованы. За последние годы было предложено множество подходов к извлечению текстовой информации для систем рекомендаций, причем наиболее известными являются модели предложений на основе трансформеров. Однако эти модели обучены предсказывать семантическую схожесть без использования данных взаимодействия с скрытыми шаблонами, специфичными для систем рекомендаций. В данной статье мы предлагаем beeFormer, фреймворк для обучения моделей предложений на основе трансформеров с использованием данных взаимодействия. Мы демонстрируем, что наши модели, обученные с помощью beeFormer, способны передавать знания между наборами данных, превосходя не только модели предложений на основе семантической схожести, но и традиционные методы коллаборативной фильтрации. Мы также показываем, что обучение на нескольких наборах данных из различных областей позволяет накапливать знания в одной модели, открывая возможность обучения универсальных, областно-независимых моделей предложений на основе трансформеров для извлечения текстовых представлений для систем рекомендаций. Мы выкладываем исходный код, обученные модели и дополнительные детали, позволяющие воспроизвести наши эксперименты на https://github.com/recombee/beeformer.
Преобразование графем в фонемы (Grapheme-to-phoneme, G2P) является критически важным в обработке речи, особенно для приложений, таких как синтез речи. Системы G2P должны обладать лингвистическим пониманием и контекстуальным осознанием языков с полифонными словами и контекстозависимыми фонемами. Большие языковые модели (Large language models, LLMs) недавно продемонстрировали значительный потенциал в различных языковых задачах, что указывает на возможность использования их фонетических знаний для G2P. В данной статье мы оцениваем производительность LLM в преобразовании G2P и представляем методы подсказки и постобработки, которые улучшают выводы LLM без дополнительного обучения или размеченных данных. Мы также представляем набор данных для оценки производительности G2P на фонетических вызовах на уровне предложения в персидском языке. Наши результаты показывают, что применяя предложенные методы, LLM могут превзойти традиционные инструменты G2P, даже в недостаточно представленном языке, таком как персидский, подчеркивая потенциал развития систем G2P с использованием LLM.