Ежедневно отобранные исследовательские статьи по ИИ с переводами
Нейронные поля радиантов (NeRF) сталкиваются с значительными проблемами в сценариях с небольшим количеством обучающих примеров, в основном из-за переобучения и длительного времени обучения для реалистичного визуализирования. Существующие методы, такие как FreeNeRF и SparseNeRF, используют регуляризацию частот или предварительно обученные априорные знания, но испытывают трудности с комплексным планированием и предвзятостью. Мы представляем FrugalNeRF, новую схему NeRF для сценариев с небольшим количеством обучающих примеров, которая использует весовое разделение вокселей на нескольких масштабах для эффективного представления деталей сцены. Нашим ключевым вкладом является схема геометрической адаптации между масштабами, которая выбирает псевдоистинную глубину на основе ошибок репроекции на разных масштабах. Это направляет обучение без использования внешних априорных знаний, обеспечивая полное использование обучающих данных. Также возможно интегрировать предварительно обученные априорные знания, улучшая качество без замедления сходимости. Эксперименты на наборах данных LLFF, DTU и RealEstate-10K показывают, что FrugalNeRF превосходит другие методы NeRF для сценариев с небольшим количеством обучающих примеров, существенно сокращая время обучения, что делает его практичным решением для эффективной и точной реконструкции трехмерных сцен.
Модель Segment Anything Model 2 (SAM 2) стала мощной основной моделью для сегментации объектов как в изображениях, так и в видео, открывая путь для различных прикладных видео-приложений. Ключевым элементом дизайна SAM 2 для видео-сегментации является его модуль памяти, который инициирует объектно-ориентированные воспоминания из предыдущих кадров для прогнозирования текущего кадра. Однако его дизайн памяти с жадным выбором страдает от проблемы "накопления ошибок", где ошибочная или пропущенная маска будет каскадно влиять на сегментацию последующих кадров, что ограничивает производительность SAM 2 в сложных видео на длительный срок. В этом контексте мы представляем SAM2Long, улучшенную стратегию видео-сегментации объектов без обучения, которая учитывает неопределенность сегментации в каждом кадре и выбирает оптимальные результаты на уровне видео из нескольких путей сегментации способом ограниченного поиска в дереве. На практике мы поддерживаем фиксированное количество путей сегментации на протяжении всего видео. Для каждого кадра предлагается несколько масок на основе существующих путей, создавая различные варианты кандидатов. Затем мы выбираем то же фиксированное количество ветвей с более высокими накопленными баллами в качестве новых путей для следующего кадра. После обработки последнего кадра путь с наивысшим накопленным баллом выбирается в качестве окончательного результата сегментации. Благодаря своему эвристическому дизайну поиска, SAM2Long устойчив к заслонам и повторному появлению объектов, и может эффективно сегментировать и отслеживать объекты в сложных видео на длительный срок. Следует отметить, что SAM2Long достигает среднего улучшения в 3,0 пункта по всем 24 сравнениям "один на один", с приростом до 5,3 пункта в J&F на долгосрочных бенчмарках сегментации объектов в видео, таких как SA-V и LVOS. Код доступен по ссылке https://github.com/Mark12Ding/SAM2Long.
Эффективная и точная оценка является ключевой для непрерывного улучшения больших языковых моделей (БЯМ). Среди различных методов оценки субъективная оценка привлекла значительное внимание благодаря своему превосходному соответствию реальным сценариям использования и предпочтениям людей. Однако оценки на основе людей затратны и лишены воспроизводимости, что делает точные автоматизированные оценщики (судьи) жизненно важными в этом процессе. В данном отчете мы представляем CompassJudger-1, первый открытый универсальный судейский БЯМ. CompassJudger-1 - это универсальный БЯМ, который проявляет замечательную гибкость. Он способен: 1. Выполнять единичную оценку и сравнение двух моделей в качестве модели вознаграждения; 2. Проводить оценки в соответствии с заданными форматами; 3. Генерировать критики; 4. Выполнять разнообразные задачи, как общий БЯМ. Для оценки возможностей оценки различных моделей судей в единой среде мы также создали JudgerBench, новый бенчмарк, который охватывает различные субъективные задачи оценки и охватывает широкий спектр тематик. CompassJudger-1 предлагает всестороннее решение для различных задач оценки, сохраняя гибкость для адаптации к различным требованиям. Как CompassJudger, так и JudgerBench выпущены и доступны научному сообществу по адресу https://github.com/open-compass/CompassJudger. Мы считаем, что путем открытия исходного кода этих инструментов мы можем способствовать сотрудничеству и ускорить прогресс в методологиях оценки БЯМ.
С развитием открытых моделей обучение (или донастройка) моделей на пользовательских наборах данных стало важной частью разработки решений, адаптированных к конкретным промышленным или открытым приложениям. Однако не существует единого инструмента, который упростил бы процесс обучения на различных типах модальностей или задач. Мы представляем AutoTrain (также известный как AutoTrain Advanced) - открытый инструмент/библиотеку без кода, которую можно использовать для обучения (или донастройки) моделей для различных типов задач, таких как: донастройка большой языковой модели (LLM), классификация/регрессия текста, классификация токенов, задача последовательность-последовательность, донастройка предложений-трансформеров, донастройка визуальной языковой модели (VLM), классификация/регрессия изображений, а также классификация и регрессия на табличных данных. AutoTrain Advanced - это открытая библиотека, предоставляющая bew practices для обучения моделей на пользовательских наборах данных. Библиотека доступна по адресу https://github.com/huggingface/autotrain-advanced. AutoTrain можно использовать в полностью локальном режиме или на облачных машинах и работает с десятками тысяч моделей, размещенных на платформе Hugging Face Hub, и их вариациями.
Недавние достижения в мультимодальных базовых моделях привели к значительному прогрессу в понимании визуальной и языковой информации. Первоначальные попытки также исследовали потенциал мультимодальных крупных языковых моделей (MLLM) для генерации визуального контента. Однако существующие работы недостаточно уделяли внимание различным требованиям к детализации различных задач по генерации изображений в рамках единой парадигмы MLLM - от разнообразия, необходимого для генерации текста в изображение, до точной управляемости, необходимой для манипулирования изображениями. В данной работе мы предлагаем PUMA, усовершенствование единой MLLM с мультигранулярной визуальной генерацией. PUMA объединяет мультигранулярные визуальные особенности как входы, так и выходы MLLM, элегантно решая различные требования к детализации различных задач по генерации изображений в рамках единой структуры MLLM. После мультимодального предварительного обучения и настройки инструкций для конкретных задач, PUMA демонстрирует профессионализм в широком спектре мультимодальных задач. Эта работа представляет собой значительный шаг к по-настоящему единой MLLM, способной адаптироваться к требованиям детализации различных визуальных задач. Код и модель будут опубликованы на https://github.com/rongyaofang/PUMA.
Мы представляем Baichuan Alignment, детальный анализ методов выравнивания, используемых в серии моделей Baichuan. Это представляет собой первый в отрасли исчерпывающий обзор методологий выравнивания, предлагающий ценные идеи для продвижения исследований в области искусственного интеллекта. Мы исследуем ключевые компоненты, улучшающие производительность модели во время процесса выравнивания, включая методы оптимизации, стратегии данных, улучшения возможностей и процессы оценки. Процесс охватывает три ключевых этапа: систему дополнения запроса (PAS), надзорную донастройку (SFT) и выравнивание предпочтений. Проблемы, с которыми столкнулись, примененные решения и внесенные улучшения тщательно документированы. Путем сравнения с хорошо установленными эталонами мы выделяем технологические достижения, обеспеченные Baichuan Alignment. Baichuan-Instruct является внутренней моделью, в то время как Qwen2-Nova-72B и Llama3-PBM-Nova-70B являются версиями с инструкциями базовых моделей Qwen2-72B и Llama-3-70B, оптимизированными через Baichuan Alignment. Baichuan-Instruct демонстрирует значительные улучшения в основных возможностях, с повышением уровня удовлетворенности пользователя от 17% до 28% и показывает исключительные результаты на специализированных эталонах. В оценках открытых эталонов Qwen2-Nova-72B и Llama3-PBM-Nova-70B последовательно превосходят свои соответствующие официальные версии с инструкциями почти на всех наборах данных. Настоящий отчет направлен на разъяснение ключевых технологий, лежащих в основе процесса выравнивания, способствуя более глубокому пониманию в сообществе. Модель Llama3-PBM-Nova-70B доступна по ссылке https://huggingface.co/PKU-Baichuan-MLSystemLab/Llama3-PBM-Nova-70B.
Надзорное донастройка (SFT) является ключевым в адаптации крупных языковых моделей (LLM) к конкретной области или задаче. Однако в практических приложениях доступно лишь ограниченное количество размеченных данных, что представляет серьезное испытание для SFT в достижении удовлетворительных результатов. Поэтому очень важно наличие эффективной структуры, которая может полностью использовать размеченные и неразмеченные данные для донастройки LLM. В этом контексте мы представляем полу-надзорную структуру донастройки под названием SemiEvol для адаптации LLM в режиме распространения и выбора. Для распространения знаний SemiEvol применяет двухуровневый подход, распространяя знания от размеченных данных к неразмеченным данным через методы весов и контекста. Для выбора знаний SemiEvol включает механизм коллаборативного обучения, выбирая образцы псевдо-ответов более высокого качества. Мы провели эксперименты, используя GPT-4o-mini и Llama-3.1 на семи общих или областно-специфических наборах данных, продемонстрировав значительное улучшение производительности модели на целевых данных. Кроме того, мы сравнили SemiEvol с SFT и методами самоэволюции, подчеркивая его практичность в гибридных сценариях данных.
Несмотря на недавние достижения в области мультимодальных крупных языковых моделей (MLLMs), их разработка в основном сосредоточена на англоязычных и западно-центричных наборах данных и задачах, что приводит к недостаточному представлению большинства языков мира и разнообразных культурных контекстов. В данной статье представляется Pangea, многоязычная мультимодальная LLM, обученная на PangeaIns, разнообразном наборе данных из 6 млн инструкций на 39 языках. PangeaIns включает в себя: 1) высококачественные английские инструкции, 2) тщательно машинно переведенные инструкции и 3) культурно значимые мультимодальные задачи для обеспечения кросс-культурного охвата. Для тщательной оценки возможностей моделей мы представляем PangeaBench, комплексный набор оценочных данных, охватывающий 14 наборов данных на 47 языках. Результаты показывают, что Pangea значительно превосходит существующие модели с открытым исходным кодом в мультиязычных средах и разнообразных культурных контекстах. Анализ отказов также показывает важность долей данных на английском языке, популярности языка и количества образцов мультимодального обучения для общей производительности. Мы полностью открываем наши данные, код и обученные контрольные точки, чтобы способствовать развитию инклюзивных и надежных многоязычных LLM, способствуя равенству и доступности по всему более широкому лингвистическому и культурному спектру.
Модели вознаграждения имеют решающее значение в техниках, таких как Обучение с подкреплением на основе обратной связи от человека (RLHF) и Законы масштабирования вывода, где они направляют выравнивание языковых моделей и выбор оптимальных ответов. Несмотря на их важность, существующие бенчмарки для моделей вознаграждения часто оценивают модели, запрашивая у них различать между ответами, сгенерированными моделями разной мощности. Однако такой подход не позволяет оценить модели вознаграждения на тонкие, но критически важные изменения содержания и вариации стиля, что приводит к низкой корреляции с производительностью модели политики. В этой связи мы представляем RM-Bench, новый бенчмарк, разработанный для оценки моделей вознаграждения на основе их чувствительности к тонким различиям в содержании и устойчивости к стилевым предвзятостям. Обширные эксперименты показывают, что RM-Bench сильно коррелирует с производительностью модели политики, что делает его надежным инструментом для выбора моделей вознаграждения для эффективного выравнивания языковых моделей. Мы оценили почти 40 моделей вознаграждения на RM-Bench. Наши результаты показывают, что даже самые передовые модели достигают лишь средней производительности 46,6%, что ниже уровня случайной точности (50%) при воздействии стилевых предвзятостей. Эти результаты подчеркивают значительный потенциал для улучшения существующих моделей вознаграждения. Связанный код и данные доступны по ссылке https://github.com/THU-KEG/RM-Bench.
Подход с извлечением информации и генерацией (Retrieval-Augmented Generation, RAG), хотя и является жизнеспособным дополнением к большим языковым моделям (Large Language Models, LLM), часто упускает важный аспект сегментации текста внутри своего конвейера, что влияет на качество задач, требующих обширных знаний. В данной статье представлен концепт Мета-Сегментации, который представляет собой уровень между предложениями и абзацами, состоящий из коллекции предложений внутри абзаца, имеющих глубокие лингвистические логические связи. Для реализации Мета-Сегментации мы разработали две стратегии на основе LLM: Сегментация с использованием выборки отступов (Margin Sampling Chunking) и Сегментация с использованием перплексии (Perplexity Chunking). Первая стратегия использует LLM для выполнения бинарной классификации на основе необходимости сегментации последовательных предложений, принимая решения на основе разницы вероятностей, полученной из выборки отступов. Вторая стратегия точно определяет границы сегментов текста путем анализа характеристик распределения перплексии. Кроме того, учитывая врожденную сложность различных текстов, мы предлагаем стратегию, которая объединяет Мета-Сегментацию с динамическим объединением для достижения баланса между детализированной и крупнозернистой сегментацией текста. Проведенные эксперименты на одиннадцати наборах данных показывают, что Мета-Сегментация может более эффективно улучшить производительность одношагового и многошагового вопросно-ответного моделирования на основе RAG. Например, на наборе данных 2WikiMultihopQA она превосходит сегментацию по сходству на 1,32, потребляя всего 45,8% времени. Наш код доступен по адресу https://github.com/IAAR-Shanghai/Meta-Chunking.
Дистилляция знаний (KD) направлена на передачу знаний от крупной модели-учителя к более компактной модели-ученику. Предыдущие исследования, применяющие дистилляцию знаний в области крупных языковых моделей (LLM), обычно сосредотачивались на этапе пост-тренировки, где модель-ученик напрямую учится от инструкций и соответствующих ответов, сгенерированных моделью-учителем. В данной статье мы расширяем применение KD на этап пре-тренировки LLM, назвав его дистилляцией пре-тренировки (PD). Сначала мы проводим предварительный эксперимент, используя GLM-4-9B в качестве модели-учителя для дистилляции модели-ученика с 1.9 млрд параметров, подтверждая эффективность PD. Учитывая ключевые факторы влияния дистилляции, мы систематически исследуем пространство проектирования дистилляции пре-тренировки в четырех аспектах: обработка логитов, выбор функции потерь, закон масштабирования и использование логитов оффлайн или онлайн. Мы проводим обширные эксперименты для исследования пространства проектирования дистилляции пре-тренировки и находим более эффективные конфигурации и интересные выводы, такие как то, что более крупные LLM-ы обычно больше выигрывают от дистилляции пре-тренировки, в то время как более крупная LLM-а учителя не гарантирует лучших результатов. Мы надеемся, что наше исследование пространства проектирования будет информативным для будущих практик в области дистилляции пре-тренировки.
Формальные доказательства сложно написать даже опытным экспертам. Недавние успехи в области Нейронного Доказательства Теорем (NTP) показывают потенциал в ускорении этого процесса. Однако формальные корпуса, доступные в Интернете, ограничены по сравнению с общим текстом, что представляет собой значительную проблему нехватки данных для NTP. Для решения этой проблемы в данной работе предлагается Alchemy, общая структура для синтеза данных, которая создает формальные теоремы путем символической мутации. Конкретно, для каждой кандидатской теоремы в Mathlib мы определяем все вызываемые теоремы, которые могут быть использованы для переписывания или применения к ней. Впоследствии мы мутируем кандидатскую теорему, заменяя соответствующий терм в утверждении на его эквивалентную форму или предшествующее. В результате наш метод увеличивает количество теорем в Mathlib на порядок, с 110 тыс. до 6 млн. Кроме того, мы проводим непрерывное предварительное обучение и надзорное дообучение на этом расширенном корпусе для больших языковых моделей. Экспериментальные результаты демонстрируют эффективность нашего подхода, достигая улучшения производительности на 5% по абсолютному показателю на бенчмарке Leandojo. Кроме того, наши синтетические данные достигают улучшения производительности на 2.5% по абсолютному показателю на бенчмарке miniF2F вне распределения. Для предоставления дополнительных идей мы проводим всесторонний анализ состава синтетических данных и парадигмы обучения, предлагая ценное руководство для разработки надежного доказателя теорем.
Большие языковые модели (LLM) революционизировали обработку естественного языка, однако их применение к задачам на основе речи остается сложным из-за сложностей интеграции аудио и текстовых модальностей. В данной статье представлена Ichigo - смешанная модель, которая безупречно обрабатывает чередующиеся последовательности речи и текста. Используя токенизированный подход раннего слияния, Ichigo квантует речь в дискретные токены и применяет единообразную архитектуру на основе трансформера как для речевой, так и для текстовой модальностей. Этот метод позволяет совместное рассуждение и генерацию между модальностями без необходимости в отдельных адаптерах. Мы представляем всестороннюю методологию обучения, включая предварительное обучение на многоязычных наборах данных по распознаванию речи и донастройку на отобранном инструкционном наборе данных. Ichigo демонстрирует передовую производительность на бенчмарках вопросно-ответных систем на основе речи, превосходя существующие открытые речевые языковые модели и достигая сравнимых результатов с каскадными системами. Особенно стоит отметить, что Ichigo обладает задержкой всего 111 мс до генерации первого токена, значительно меньшей, чем у текущих моделей. Наш подход не только продвигает область мультимодального искусственного интеллекта, но также предоставляет рамочное решение для более маленьких исследовательских групп, чтобы эффективно вносить свой вклад в открытые речевые языковые модели.
Возникающие возможности нулевого обучения у больших языковых моделей (LLM) привели к их применению в областях, выходящих далеко за рамки задач обработки естественного языка. В обучении с подкреплением, хотя LLM широко используются в текстовых средах, их интеграция с непрерывными пространствами состояний остается малоизученной. В данной статье мы исследуем, как предварительно обученные LLM могут быть задействованы для прогнозирования в контексте динамики непрерывных марковских процессов принятия решений. Мы выделяем работу с многомерными данными и интеграцию управляющего сигнала как ключевые проблемы, ограничивающие потенциал применения LLM в этой конфигурации, и предлагаем метод Disentangled In-Context Learning (DICL) для их решения. Мы представляем приложения концепции в двух настройках обучения с подкреплением: оценка политики на основе модели и обучение с подкреплением с увеличением данных вне политики, подкрепленные теоретическим анализом предложенных методов. Наши эксперименты также демонстрируют, что наш подход производит хорошо калиброванные оценки неопределенности. Мы выкладываем код на https://github.com/abenechehab/dicl.
Расширение крупных языковых моделей для эффективной обработки инструкций с чрезвычайно длинными контекстами еще полностью не исследовано. Основное препятствие заключается в создании высококачественного набора данных для следования длинным инструкциям, разработанного для выравнивания длинных контекстов. Существующие исследования пытались увеличить объем доступных данных путем синтеза длинных образцов следования инструкциям. Однако без разработки четкой стратегии обеспечения качества данных безраздельное увеличение объема данных может привести к появлению низкокачественных образцов и ограничить конечную производительность. Для преодоления этого разрыва мы стремимся решить уникальное испытание выравнивания длинных контекстов, то есть моделирование дальних зависимостей для обработки инструкций и длинных входных контекстов. Мы предлагаем GATEAU, новую структуру, разработанную для выявления влиятельных и высококачественных образцов, обогащенных дальними зависимостями, путем использования созданного Руководства Гомологичных Моделей (HMG) и Измерения Контекстуального Сознания (CAM). Конкретно, HMG пытается измерить сложность генерации соответствующих ответов из-за дальних зависимостей, используя оценки непонятности ответа от двух гомологичных моделей с различными окнами контекста. Также роль CAM заключается в измерении сложности понимания длинных входных контекстов из-за дальних зависимостей путем оценки того, сосредоточено ли внимание модели на важных сегментах. Основываясь на обоих предложенных методах, мы выбираем наиболее сложные образцы в качестве влиятельных данных для эффективного формирования дальних зависимостей, тем самым достигая лучшей производительности LLMs. Обширные эксперименты показывают, что GATEAU эффективно выявляет образцы, обогащенные дальними зависимостями, и модель, обученная на этих выбранных образцах, обладает лучшими возможностями следования инструкциям и понимания длинных контекстов.
Модели текст-к-изображению обучаются с использованием больших наборов данных, собранных путем сканирования пар изображений и текста из интернета. Эти наборы данных часто включают в себя частные, защищенные авторским правом и лицензионные материалы. Обучение моделей на таких наборах данных позволяет им создавать изображения с таким контентом, который может нарушать авторские права и индивидуальную конфиденциальность. Это явление называется имитацией - генерация изображений с контентом, который имеет узнаваемое сходство с обучающими изображениями. В данной работе мы изучаем связь между частотой концепции в обучающем наборе данных и способностью модели ее имитировать. Мы стремимся определить момент, когда модель была обучена на достаточном количестве экземпляров для имитации концепции - порог имитации. Мы ставим этот вопрос как новую проблему: Поиск Порога Имитации (FIT) и предлагаем эффективный подход, который оценивает порог имитации без огромных затрат на обучение нескольких моделей с нуля. Мы проводим эксперименты в двух областях - человеческие лица и художественные стили - для которых мы создаем четыре набора данных, и оцениваем три модели текст-к-изображению, которые были обучены на двух предварительных наборах данных. Наши результаты показывают, что порог имитации этих моделей находится в диапазоне от 200 до 600 изображений, в зависимости от области и модели. Порог имитации может служить эмпирическим основанием для утверждений о нарушении авторских прав и выступать в качестве руководящего принципа для разработчиков моделей текст-к-изображению, которые стремятся соблюдать авторские и конфиденциальные законы. Мы выкладываем код и данные на https://github.com/vsahil/MIMETIC-2.git, а веб-сайт проекта размещен по адресу https://how-many-van-goghs-does-it-take.github.io.
Мы представляем Agent-to-Sim (ATS), фреймворк для изучения моделей интерактивного поведения 3D агентов по непринужденным видеозаписям продолжительного характера. В отличие от предыдущих работ, основанных на маркерном отслеживании и многокамерной съемке, ATS изучает естественное поведение животных и человеческих агентов неинвазивно через видеонаблюдения, записанные в течение длительного времени (например, месяц) в одной среде. Моделирование 3D поведения агента требует постоянного 3D отслеживания (например, знание, какая точка соответствует какой) на протяжении длительного временного интервала. Для получения таких данных мы разработали метод грубой и тонкой регистрации, который отслеживает агента и камеру со временем через каноническое 3D пространство, что приводит к полному и постоянному пространственно-временному 4D представлению. Затем мы обучаем генеративную модель поведения агента, используя сопоставленные данные восприятия и движения агента, запрошенные из 4D реконструкции. ATS обеспечивает перенос из реального мира в симулятор поведения по видеозаписям агента. Мы продемонстрировали результаты на домашних животных (например, кошка, собака, кролик) и человеке, используя монокулярные RGBD видеозаписи, сделанные смартфоном.
Существует значительный разрыв между потребностями пациентов и доступной поддержкой в области психического здоровья сегодня. В данной статье мы стремимся тщательно исследовать потенциал использования Больших Языковых Моделей (Large Language Models, LLMs) для помощи профессиональной психотерапии. Для этого мы предлагаем новый бенчмарк, CBT-BENCH, для систематической оценки помощи когнитивно-поведенческой терапии (Cognitive Behavioral Therapy, CBT). Мы включаем три уровня задач в CBT-BENCH: I: Закрепление базовых знаний CBT с задачей множественного выбора; II: Понимание когнитивной модели с задачами классификации когнитивных искажений, классификации первичных ядерных убеждений и классификации убеждений более тонкого уровня; III: Генерация терапевтических ответов с задачей генерации ответов на высказывания пациента на сессиях CBT. Эти задачи охватывают ключевые аспекты CBT, которые могут быть улучшены с помощью поддержки искусственного интеллекта, а также определяют иерархию требований к возможностям, начиная от повторения базовых знаний до участия в реальных терапевтических разговорах. Мы оценили представительные LLMs нашего бенчмарка. Экспериментальные результаты показывают, что хотя LLMs хорошо справляются с воспроизведением знаний CBT, они не справляются с сложными сценариями реального мира, требующими глубокого анализа когнитивных структур пациентов и генерации эффективных ответов, что указывает на потенциал для будущей работы.
Традиционные модели трансформеров часто выделяют фиксированное количество вычислительных ресурсов для каждого входного токена, что приводит к неэффективным и излишним вычислениям. Для решения этой проблемы был представлен метод Смешанных Глубин (MoD), который динамически корректирует вычислительную глубину, пропуская менее важные слои. Несмотря на свои перспективы, текущие подходы MoD остаются мало исследованными и сталкиваются с двумя основными проблемами: (1) высокие затраты на обучение из-за необходимости обучать весь модельный комплекс вместе с маршрутизаторами, которые определяют, какие слои пропускать, и (2) риск снижения производительности при обходе важных слоев. В ответ на первую проблему мы предлагаем метод Тонирования Маршрутизатора, который донастраивает только маршрутизатор на небольшом наборе данных, резко снижая вычислительные издержки, связанные с полным обучением модели. Для решения второй проблемы мы предлагаем метод MindSkip, который использует Внимание с Динамическими Глубинами. Этот метод сохраняет производительность модели, значительно повышая вычислительную и памятьную эффективность. Обширные эксперименты показывают, что наш подход обеспечивает конкурентоспособные результаты, существенно улучшая эффективность вычислений, например, ускорение на 21\% и лишь незначительное снижение производительности на 0.2\%. Код доступен по ссылке https://github.com/CASE-Lab-UMD/Router-Tuning.
Недавние достижения в области речевых моделей привели к значительным улучшениям в токенизации и синтезе речи. Однако эффективное отображение сложных, многомерных атрибутов речи в дискретные токены остается сложной задачей. Этот процесс требует акустической, семантической и контекстуальной информации для точного представления речи. Существующие представления речи обычно делятся на две категории: акустические токены из аудиокодеков и семантические токены из моделей обучения без учителя для речи. Хотя недавние усилия объединили акустические и семантические токены для улучшения производительности, они не учитывают важную роль контекстуального представления в комплексном моделировании речи. Наши эмпирические исследования показывают, что отсутствие контекстуальных представлений приводит к повышению уровня ошибок слов (WER) и потере информации о словах (WIL) при транскрипции речи. Для решения этих ограничений мы предлагаем два новых подхода к дистилляции: (1) метод дистилляции под руководством языковой модели (LM), который включает контекстуальную информацию, и (2) комбинированный метод дистилляции под руководством LM и модели обучения без учителя для речи (SM), который эффективно дистиллирует мультимодальные представления (акустические, семантические и контекстуальные) в комплексный токенизатор речи, названный DM-Codec. Архитектура DM-Codec использует упрощенную структуру кодировщика-декодировщика с остаточным векторным квантизатором (RVQ) и включает LM и SM в процесс обучения. Эксперименты показывают, что DM-Codec значительно превосходит существующие модели токенизации речи, снижая WER до 13,46%, WIL до 9,82%, улучшая качество речи на 5,84% и понимаемость на 1,85% на наборе данных LibriSpeech. Код, образцы и контрольные точки модели доступны по адресу https://github.com/mubtasimahasan/DM-Codec.
Целью машинного обучения является обобщение. В то время как Теорема о том, что обедов бесплатных нет, утверждает, что мы не можем получить теоретические гарантии для обобщения без дополнительных предположений, на практике мы наблюдаем, что простые модели, которые объясняют обучающие данные, лучше обобщаются: принцип, называемый бритвой Оккама. Несмотря на необходимость простых моделей, большинство текущих подходов в машинном обучении только минимизируют ошибку обучения, и, в лучшем случае, косвенно способствуют простоте через регуляризацию или конструкцию архитектуры. Здесь мы устанавливаем связь между бритвой Оккама и обучением в контексте: внезапно возникающая способность определенных моделей последовательностей, таких как Трансформеры, учиться во время вывода на основе предыдущих наблюдений в последовательности. В частности, мы показываем, что потеря предсказания следующего токена, используемая для обучения моделей в контексте, непосредственно эквивалентна технике сжатия данных, называемой предиктивным кодированием, и что минимизация этой потери означает совместное минимизирование как ошибки обучения, так и сложности модели, которая была неявно выучена из контекста. Наша теория и эмпирические эксперименты, которые мы используем для ее поддержки, не только предоставляют нормативное объяснение обучения в контексте, но также проясняют недостатки текущих методов обучения в контексте, предлагая способы их улучшения. Мы предоставляем наш код по адресу https://github.com/3rdCore/PrequentialCode.
Поскольку большие языковые модели (LLM) все чаще применяются в различных отраслях, возрастает беспокойство относительно их надежности, особенно из-за галлюцинаций - результатов, которые фактически неверны или не имеют отношения к вводу пользователя. Наше исследование исследует взаимосвязь между процессом обучения и возникновением галлюцинаций, чтобы заполнить ключевой пробел в существующих исследованиях, которые в основном сосредотачиваются на стратегиях пост-фактум обнаружения и смягчения. Используя модели из набора Pythia (70M-12B параметров) и несколько метрик обнаружения галлюцинаций, мы анализируем тенденции галлюцинаций на протяжении обучения и исследуем внутреннюю динамику LLM. Мы представляем SEnsitive Neuron Dropout (SeND), новый протокол обучения, разработанный для смягчения галлюцинаций путем уменьшения дисперсии во время обучения. SeND достигает этого путем детерминированного отсева нейронов с значительной изменчивостью на наборе данных, называемых Чувствительными Нейронами. Кроме того, мы разрабатываем метрику обнаружения галлюцинаций без учителя, Эффективный EigenScore (EES), который приближает традиционный EigenScore в 2 раза быстрее. Эта эффективная метрика интегрируется в наш протокол, позволяя SeND быть как вычислительно масштабируемым, так и эффективным в снижении галлюцинаций. Наша эмпирическая оценка демонстрирует, что наш подход повышает надежность LLM на этапе тестирования на до 40% по сравнению с обычным обучением, обеспечивая при этом эффективный метод улучшения фактической точности при адаптации LLM к областям, таким как Википедия и медицинские наборы данных.
Оценка машинно-сгенерированного текста остается значительным вызовом в области обработки естественного языка, особенно для неанглийских языков. Нынешние методологии, включая автоматизированные метрики, оценки человеком и оценки на основе LLM, в основном сосредоточены на английском языке, что показывает значительный разрыв в мультиязычных оценочных фреймворках. Мы представляем Cross Lingual Auto Evaluation (CIA) Suite, расширяемый фреймворк, который включает оценщиков LLM (Hercule) и новый тестовый набор (Recon), специально разработанный для мультиязычной оценки. Наш тестовый набор включает 500 человеко-аннотированных инструкций, охватывающих различные задачи, а также оценки человеческого суждения на шести языках. Это позволит проводить бенчмаркинг общеязыковых LLM и облегчит метаоценку оценщиков LLM. Предложенная модель, Hercule, является кросс-языковой моделью оценки, которая решает проблему недостатка эталонных ответов на целевом языке, обучаясь присваивать баллы ответам на основе легко доступных эталонных ответов на английском языке. Наши эксперименты показывают, что Hercule более точно соответствует человеческим суждениям по сравнению с собственными моделями, демонстрируя эффективность такой кросс-языковой оценки в условиях ограниченных ресурсов. Кроме того, она также эффективна при оценке на невидимых языках. Это исследование является первым всесторонним изучением кросс-языковой оценки с использованием LLM, представляя масштабируемый и эффективный подход для мультиязычной оценки. Весь код, наборы данных и модели будут общедоступны для дальнейших исследований в этой важной области.