Ежедневно отобранные исследовательские статьи по ИИ с переводами
В данной статье представлена техника обучения под названием "Diffusion Forcing", где модель диффузии обучается для удаления шума из набора токенов с независимыми уровнями шума для каждого токена. Мы применяем "Diffusion Forcing" к генерации последовательностей, обучая причинную модель предсказания следующего токена для создания одного или нескольких будущих токенов без полного распространения прошлых. Наш подход показывает способность объединить преимущества моделей предсказания следующего токена, такие как генерация переменной длины, с преимуществами моделей полной последовательности диффузии, такие как способность направлять выборку по желательным траекториям. Наш метод предлагает ряд дополнительных возможностей, таких как (1) развертывание последовательностей непрерывных токенов, таких как видео, с длиной превышающей горизонт обучения, где базовые значения расходятся и (2) новые схемы выборки и направления, которые уникально извлекают выгоду из переменного горизонта и причинной архитектуры "Diffusion Forcing", что приводит к значительному улучшению производительности в задачах принятия решений и планирования. Помимо эмпирического успеха, наш метод доказано оптимизирует вариационную нижнюю границу для вероятностей всех подпоследовательностей токенов, взятых из истинного совместного распределения. Веб-сайт проекта: https://boyuan.space/diffusion-forcing/
Параметро-эффективное донастройка (PEFT) является важным для настройки Больших Языковых Моделей (LLM) с ограниченными ресурсами. Хотя существует несколько методов PEFT для плотно-архитектурных LLM, PEFT для разреженно-архитектурных LLM до сих пор мало исследовался. В данной работе мы изучаем метод PEFT для LLM с архитектурой Mixture-of-Experts (MoE), и содержание данной работы в основном тройное: (1) Мы исследуем степень дисперсии активированных экспертов в настраиваемых задачах и обнаружили, что распределение маршрутизации для конкретной задачи имеет тенденцию к высокой концентрации, в то время как распределение активированных экспертов значительно различается в различных задачах. (2) Мы предлагаем Fine-Tuning, специализированный для экспертов, или ESFT, который настраивает экспертов, наиболее релевантных для последующих задач, при этом замораживая других экспертов и модули; экспериментальные результаты демонстрируют, что наш метод не только улучшает эффективность настройки, но также соответствует или даже превосходит производительность полного параметрического донастройки. (3) Мы дополнительно анализируем влияние архитектуры MoE на специализированную настройку экспертов. Мы обнаружили, что модели MoE с более детализированными экспертами более выгодны при выборе комбинации экспертов, наиболее релевантных для последующих задач, тем самым улучшая как эффективность обучения, так и эффективность.
Во многих недавних работах исследуется использование языковых моделей для задач планирования. Одно направление исследований сосредоточено на переводе естественноязыковых описаний планировочных задач на структурированные языки планирования, такие как язык определения области планирования (PDDL). Хотя этот подход обещающий, точное измерение качества сгенерированного кода PDDL по-прежнему представляет существенные трудности. Во-первых, сгенерированный код PDDL обычно оценивается с использованием проверяющих планировщиков, которые проверяют, может ли проблема быть решена с помощью планировщика. Этот метод недостаточен, поскольку языковая модель может генерировать допустимый код PDDL, который не соответствует естественноязыковому описанию задачи. Во-вторых, существующие наборы оценки часто имеют естественноязыковые описания планировочной задачи, которые тесно напоминают истинный PDDL, уменьшая сложность задачи. Для преодоления этого разрыва мы представляем \benchmarkName, бенчмарк, разработанный для оценки способности языковых моделей генерировать код PDDL из естественноязыковых описаний планировочных задач. Мы начинаем с создания алгоритма эквивалентности PDDL, который строго оценивает правильность сгенерированного языковыми моделями кода PDDL, гибко сравнивая его с истинным PDDL. Затем мы представляем набор данных из 132 037 пар текст-PDDL по 13 различным задачам с разными уровнями сложности. Наконец, мы оцениваем несколько API-доступных и открытых языковых моделей, которые раскрывают сложность этой задачи. Например, 87,6% описаний проблем PDDL, сгенерированных GPT-4o, синтаксически разбираемы, 82,2% являются допустимыми, решаемыми проблемами, но только 35,1% семантически правильны, что подчеркивает необходимость более строгого бенчмарка для этой задачи.