Ежедневно отобранные исследовательские статьи по ИИ с переводами
Модели вознаграждения за процесс (PRM) выступают как многообещающий подход для надзора за процессом в математическом рассуждении крупных языковых моделей (LLM), которые направлены на выявление и уменьшение промежуточных ошибок в процессах рассуждения. Однако разработка эффективных PRM сталкивается с существенными проблемами, особенно в области аннотации данных и методологий оценки. В данной статье, через обширные эксперименты, мы демонстрируем, что широко используемый синтез данных на основе оценки методом Монте-Карло (MC) для PRM обычно дает более низкую производительность и обобщение по сравнению с LLM-как-судья и методами аннотации человека. Оценка методом Монте-Карло полагается на модели завершения для оценки правильности текущего шага, что приводит к неточной верификации шага. Более того, мы выявляем потенциальные предвзятости в традиционных стратегиях оценки Лучшего-из-N (BoN) для PRM: (1) Ненадежные модели политики генерируют ответы с правильными ответами, но с дефектными процессами, что приводит к несоответствию между критериями оценки BoN и целями PRM по верификации процесса. (2) Терпимость PRM к таким ответам приводит к завышенным оценкам BoN. (3) Существующие PRM имеют значительную долю минимальных баллов, сосредоточенных на шагах окончательного ответа, что раскрывает сдвиг от оценки процесса к оценке результата в оптимизированных PRM по BoN. Для решения этих проблем мы разрабатываем механизм консенсусной фильтрации, который эффективно интегрирует оценку методом Монте-Карло с LLM-как-судья и пропагандирует более всестороннюю систему оценки, объединяющую метрики на уровне ответа и на уровне шага. Основываясь на этих механизмах, мы значительно улучшаем как производительность модели, так и эффективность данных в оценке BoN и задаче идентификации ошибок по шагам. Наконец, мы выпускаем новый передовой PRM, который превосходит существующие альтернативы с открытым исходным кодом и предоставляет практические рекомендации для будущих исследований в области построения моделей надзора за процессом.
Масштабирование языковых моделей для обработки более длинных последовательностей в общем случае требует больших кэшей ключ-значение (KV), что приводит к значительному избыточному использованию памяти во время вывода. В данной статье мы предлагаем Tensor Product Attention (TPA), новый механизм внимания, который использует тензорные декомпозиции для компактного представления запросов, ключей и значений, что значительно уменьшает размер кэша KV во время вывода. Факторизуя эти представления на контекстуальные низкоранговые компоненты (контекстуальная факторизация) и плавно интегрируя с RoPE, TPA достигает улучшения качества модели наряду с эффективностью использования памяти. Основываясь на TPA, мы представляем Transformer Tensor ProducT ATTenTion (T6), новую архитектуру модели для моделирования последовательностей. Проводя обширное эмпирическое исследование задач языкового моделирования, мы демонстрируем, что T6 превосходит производительность стандартных базовых моделей Transformer, включая MHA, MQA, GQA и MLA по различным метрикам, включая перплексию и ряд известных оценочных бенчмарков. Особенно стоит отметить, что эффективность использования памяти TPA позволяет обрабатывать значительно более длинные последовательности при фиксированных ресурсных ограничениях, решая критическую проблему масштабируемости в современных языковых моделях. Код доступен по ссылке https://github.com/tensorgi/T6.
Развитие моделей видео-языка (VLM) стимулируется масштабными и разнообразными мультимодальными наборами данных. Однако прогресс в создании универсальных биомедицинских VLM ограничен отсутствием аннотированных, публично доступных наборов данных по биологии и медицине. Существующие усилия ограничены узкими областями, не охватывая полного разнообразия биомедицинских знаний, закодированных в научной литературе. Для решения этого пробела мы представляем BIOMEDICA, масштабную, открытую платформу для извлечения, аннотирования и сериализации всего набора данных PubMed Central Open Access в удобный для использования, публично доступный набор данных. Наша платформа создает обширный архив с более чем 24 миллионами уникальных пар изображений и текста из более чем 6 миллионов статей. Также предоставляются метаданные и аннотации, разработанные экспертами. Мы демонстрируем полезность и доступность нашего ресурса, выпустив BMCA-CLIP, набор моделей в стиле CLIP, непрерывно предварительно обученных на наборе данных BIOMEDICA через потоковую передачу, что устраняет необходимость загружать 27 ТБ данных локально. В среднем наши модели достигают передовых показателей по 40 задачам - включая патологию, радиологию, офтальмологию, дерматологию, хирургию, молекулярную биологию, паразитологию и клеточную биологию - превосходя в классификации с нулевой настройкой среднее улучшение в 6,56% (достигая 29,8% и 17,5% в дерматологии и офтальмологии соответственно), а также обладая более сильным поиском изображений и текста, используя в 10 раз меньше вычислительных ресурсов. Для содействия воспроизводимости и сотрудничества мы предоставляем наш код и набор данных для широкого научного сообщества.
Самонастраиваемые большие языковые модели (LLM) нацелены на решение вызовов, поставленных перед традиционными методами настройки, которые часто требуют значительных вычислительных ресурсов и статичны в своей способности обрабатывать разнообразные задачи. Мы представляем \implname, новую систему самонастройки, которая адаптирует LLM для невидимых задач в реальном времени путем выборочной корректировки только отдельных компонентов их матриц весов. Во время вывода, \implname использует двухпроходный механизм: сначала система диспетчеризации определяет свойства задачи, а затем задачно-специфические "экспертные" векторы, обученные с помощью обучения с подкреплением, динамически смешиваются для достижения целевого поведения для поступающего запроса. Наш метод превосходит широко распространенные подходы, такие как LoRA, с меньшим количеством параметров и большей эффективностью. \implname демонстрирует универсальность в различных архитектурах LLM и модальностях, включая задачи вид-язык. \implname представляет собой значительный прогресс, предлагая масштабируемое, эффективное решение для улучшения адаптивности и задачно-специфической производительности LLM, открывая путь к по-настоящему динамическим, самоорганизующимся системам искусственного интеллекта.
Недавние достижения в области крупных языковых моделей (LLM) и мультимодальных моделей речь-текст заложили основу для беспрепятственного голосового взаимодействия, обеспечивая реальное время, естественные и похожие на человеческие разговоры. Предыдущие модели для голосового взаимодействия классифицируются как встроенные и выровненные. Встроенные модели интегрируют обработку речи и текста в одну структуру, но сталкиваются с проблемами, такими как различные длины последовательностей и недостаточное предварительное обучение. Выровненные модели сохраняют возможности текстовых LLM, но часто ограничены небольшими наборами данных и узким фокусом на задачах речи. В данной работе мы представляем MinMo, Мультимодальную Большую Языковую Модель с примерно 8 миллиардами параметров для беспрепятственного голосового взаимодействия. Мы решаем основные ограничения предыдущих выровненных мультимодальных моделей. Мы обучаем MinMo через несколько этапов выравнивания речи-текста, текста-речи, речи-речи и дуплексного взаимодействия, на 1,4 миллиона часов разнообразных речевых данных и широкий спектр речевых задач. После многоэтапного обучения MinMo достигает передового качества по различным бенчмаркам для понимания и генерации речи, сохраняя при этом возможности текстовых LLM, а также облегчает полнодуплексный разговор, то есть одновременное двустороннее общение между пользователем и системой. Более того, мы предлагаем новый и простой декодер речи, который превосходит предыдущие модели в генерации речи. Улучшенные возможности следования инструкциям MinMo поддерживают управление генерацией речи на основе инструкций пользователя, с различными нюансами, включая эмоции, диалекты и скорость речи, а также имитацию конкретных голосов. Для MinMo задержка от речи к тексту составляет примерно 100 мс, полнодуплексная задержка в теории составляет примерно 600 мс, а на практике 800 мс. Веб-страница проекта MinMo находится по адресу https://funaudiollm.github.io/minmo, и код и модели будут скоро опубликованы.
Недавние модели генерации видео показали многообещающие результаты в создании видеороликов высокого качества продолжительностью несколько секунд. Однако эти модели сталкиваются с вызовами при создании длинных последовательностей, которые передают четкие и информативные события, что ограничивает их способность поддерживать последовательные повествования. В данной статье мы представляем крупномасштабный набор данных видео по приготовлению блюд, разработанный для продвижения генерации длинных повествовательных форм в области кулинарии. Мы проверяем качество нашего предложенного набора данных с точки зрения визуальной достоверности и точности текстовых подписей с использованием передовых моделей видение-язык (Vision-Language Models, VLMs) и моделей генерации видео соответственно. Мы также представляем Длинного Режиссера Видео повествовательного формата для улучшения как визуальной, так и семантической связности в создаваемых видеороликах и подчеркиваем роль выравнивания визуальных вложений для достижения улучшенного общего качества видео. Наш метод демонстрирует существенные улучшения в создании визуально детализированных и семантически выровненных ключевых кадров, поддерживаемых методиками донастройки, интегрирующими текстовые и изображенческие вложения в процесс генерации видео. Страница проекта: https://videoauteur.github.io/
На основе наших предыдущих исследований репликации O1 (Часть 1: Обучение путём путешествия [Цинь и др., 2024] и Часть 2: Дистилляция [Хуанг и др., 2024]), данная работа исследует потенциал масштабирования во время вывода в больших языковых моделях (LLM) для медицинских задач рассуждения, начиная от диагностического принятия решений до планирования лечения. Через обширные эксперименты на медицинских бенчмарках различной сложности (MedQA, Medbullets и JAMA Clinical Challenges) наше исследование раскрывает несколько ключевых идей: (1) Увеличение времени вывода действительно приводит к улучшению производительности. С небольшим набором данных для обучения из 500 образцов наша модель обеспечивает значительное улучшение производительности на уровне 6%-11%. (2) Сложность задачи прямо коррелирует с необходимой длиной цепочек рассуждений, подтверждая необходимость продолжительных мыслительных процессов для сложных проблем. (3) Дифференциальные диагнозы, сгенерированные нашей моделью, соответствуют принципам гипотетико-дедуктивного метода, формируя список потенциальных состояний, которые могут объяснить симптомы пациента, и систематически сужая эти возможности путем оценки доказательств. Эти результаты демонстрируют многообещающее взаимодействие между масштабированием во время вывода и обучением путешествия в продвижении реальных клинических рассуждений LLM.
Поиск с увеличением генерации (RAG) продемонстрировал выдающуюся производительность по всем задачам в открытом домене вопросно-ответной системы. Однако традиционные поисковые системы могут извлекать поверхностный контент, что ограничивает способность LLM обрабатывать сложную, многоуровневую информацию. Для решения этой проблемы мы представляем WebWalkerQA, бенчмарк, разработанный для оценки способности LLM выполнять обход веб-страниц. Он оценивает способность LLM просматривать подстраницы веб-сайта для систематического извлечения высококачественных данных. Мы предлагаем WebWalker, который является многоагентной структурой, имитирующей человекоподобную навигацию по веб-сайту через парадигму исследователь-критик. Обширные экспериментальные результаты показывают, что WebWalkerQA представляет собой сложное испытание и демонстрирует эффективность RAG в сочетании с WebWalker, через горизонтальную и вертикальную интеграцию в реальных сценариях.
Большие языковые модели (LLM) продемонстрировали исключительную производительность в различных задачах, однако их обучение остается крайне ресурсоемким и подверженным критическим вызовам, таким как нестабильность обучения. Основным источником этой нестабильности являются всплески градиента и потерь, которые нарушают процесс обучения, часто приводя к дорогостоящим вмешательствам, таким как восстановление контрольной точки и перезапуск эксперимента, что дополнительно усиливает неэффективность. В данной статье представлено всестороннее исследование всплесков градиента, наблюдаемых во время обучения LLM, раскрывающее их распространенность в различных архитектурах и наборах данных. Наш анализ показывает, что эти всплески могут быть в 1000 раз больше обычных градиентов, значительно ухудшая производительность модели. Для решения этой проблемы мы предлагаем Spike-Aware Adam с Momentum Reset SPAM, новый оптимизатор, разработанный для противодействия всплескам градиента путем сброса импульса и учета всплесков градиента. Обширные эксперименты, включая как предварительное обучение, так и дообучение, демонстрируют, что SPAM последовательно превосходит Adam и его варианты в различных задачах, включая (1) предварительное обучение LLM от 60M до 1B, (2) предварительное обучение LLM с 4-битным кодированием, (3) обучение с подкреплением и (4) прогнозирование временных рядов. Кроме того, SPAM облегчает эффективное использование памяти, позволяя разреженный импульс, при котором обновляются и поддерживаются только некоторые члены импульса. При работе в условиях ограниченной памяти SPAM превосходит оптимизаторы современных память-эффективных методов, такие как GaLore и Adam-Mini. Наша работа подчеркивает важность смягчения всплесков градиента в обучении LLM и представляет эффективную стратегию оптимизации, которая улучшает как стабильность обучения, так и эффективность использования ресурсов в масштабе. Код доступен по ссылке https://github.com/TianjinYellow/SPAM-Optimizer.git
Мы представляем Uncommon Objects in 3D (uCO3D), новый объектно-ориентированный набор данных для трехмерного глубокого обучения и трехмерного генеративного искусственного интеллекта. uCO3D является крупнейшей общедоступной коллекцией высокоразрешенных видео объектов с трехмерными аннотациями, обеспечивающей полное покрытие 360 градусов. uCO3D значительно более разнообразен, чем MVImgNet и CO3Dv2, охватывая более 1,000 категорий объектов. Кроме того, он обладает более высоким качеством благодаря обширным проверкам качества как собранных видео, так и трехмерных аннотаций. Подобно аналогичным наборам данных, uCO3D содержит аннотации для трехмерных поз камер, карт глубины и разреженных облаков точек. Кроме того, каждый объект снабжен подписью и трехмерной реконструкцией с помощью трехмерного гауссова сплетения. Мы обучаем несколько крупных трехмерных моделей на MVImgNet, CO3Dv2 и uCO3D и получаем превосходные результаты с использованием последнего, что показывает, что uCO3D лучше подходит для обучающих приложений.
Химическое рассуждение обычно включает в себя сложные многоэтапные процессы, требующие точных расчетов, где даже мелкие ошибки могут привести к каскадным сбоям. Более того, большие языковые модели (LLM) сталкиваются с трудностями в обработке формул, специфичных для области, точном выполнении рассуждений и эффективном интегрировании кода при решении химических задач. Для решения этих проблем мы представляем ChemAgent, новую концепцию, разработанную для улучшения производительности LLM через динамическую, самообновляющуюся библиотеку. Эта библиотека разрабатывается путем декомпозиции химических задач на подзадачи и компиляции их в структурированную коллекцию, на которую можно ссылаться для будущих запросов. Затем, когда поступает новая проблема, ChemAgent извлекает и уточняет соответствующую информацию из библиотеки, которую мы называем памятью, облегчая эффективную декомпозицию задач и генерацию решений. Наш метод разрабатывает три типа памяти и компонент рассуждения, улучшенный библиотекой, позволяющий LLM улучшаться со временем благодаря опыту. Экспериментальные результаты на четырех наборах данных по химическому рассуждению из SciBench показывают, что ChemAgent достигает увеличения производительности до 46% (GPT-4), значительно превосходя существующие методы. Наши результаты указывают на значительный потенциал для будущих применений, включая задачи, такие как поиск лекарств и материаловедение. Наш код можно найти по адресу https://github.com/gersteinlab/chemagent
Фундаментальные модели основаны на масштабных наборах данных, полученных путем сканирования веб-страниц, которые часто содержат шумные данные, предвзятости и неактуальный контент. Существующие методы выбора данных обычно используют эвристику человека, наборы данных для оценки результатов или специализированные модели оценки, и могут упустить полезность образцов в процессе обучения. Вместо этого мы предлагаем новый подход, Mimic Score, метрику качества данных, которая использует предварительно обученную эталонную модель в качестве руководства для оценки полезности образцов данных для обучения новой модели. Она основана на согласованности между градиентом параметров новой модели и вектором, направленным к эталонной модели в пространстве весов. Образцы, не согласующиеся с этим направлением, считаются низкоценными и могут быть отфильтрованы. Вдохновленные Mimic Score, мы разрабатываем Grad-Mimic, фреймворк выбора данных, который идентифицирует и приоритизирует полезные образцы, автоматизируя процесс выбора для создания эффективных фильтров. Эмпирически, использование Mimic Score для руководства обучением модели приводит к последовательному увеличению производительности на шести наборах данных изображений и улучшает производительность моделей CLIP. Более того, Mimic Score и связанные с ними фильтры улучшают существующие методы фильтрации и предлагают точную оценку качества набора данных.