Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем DeepSeek-Prover-V1.5, открытую языковую модель, разработанную для доказательства теорем в Lean 4, которая улучшает DeepSeek-Prover-V1 путем оптимизации процессов как обучения, так и вывода. Обученная на DeepSeekMath-Base с специализацией на формальных математических языках, модель проходит надзорное дообучение с использованием улучшенного формального набора данных для доказательства теорем, полученного из DeepSeek-Prover-V1. Дальнейшее совершенствование достигается с помощью обучения с подкреплением на основе обратной связи от помощника по доказательствам (RLPAF). Помимо подхода к генерации целого доказательства за один проход, присущего DeepSeek-Prover-V1, мы предлагаем RMaxTS, вариант поиска по дереву Монте-Карло, который использует стратегию исследования, основанную на внутренней награде, для генерации разнообразных путей доказательства. DeepSeek-Prover-V1.5 демонстрирует значительные улучшения по сравнению с DeepSeek-Prover-V1, достигая новых результатов на тестовом наборе данных школьного уровня miniF2F (63.5%) и на уровне бакалавриата ProofNet (25.3%).
Большие языковые модели (LLM) достигли значительных прорывов, однако общая парадигма обучения рассматривает LLM как пассивные хранилища информации, игнорируя их потенциал для активного обучения и выравнивания. Некоторые подходы обучают LLM, используя собственные синтетические данные, исследуя возможность активного выравнивания. Однако между этими методами одноразового выравнивания и непрерывного автоматического выравнивания с людьми все еще существует огромный разрыв. В данной статье мы представляем I-SHEEP, Итеративную Парадигму Самоусовершенствования. Эта парадигма, подобная человеческой, позволяет LLM непрерывно самовыравниваться с нуля. По сравнению с методом одноразового выравнивания Dromedary sun2023principledriven, который упоминается в данной статье как первая итерация, I-SHEEP может значительно увеличить возможности как моделей Qwen, так и Llama. I-SHEEP достигает максимального относительного улучшения на 78.2\% в Alpaca Eval, 24.0\% в MT Bench и абсолютного прироста на 8.88\% в точности IFEval по сравнению с последующими итерациями в модели Qwen-1.5 72B. Кроме того, I-SHEEP превосходит базовую модель в различных стандартных задачах генерации, достигая в среднем улучшения на 24.77\% в задачах генерации кода, 12.04\% в TrivialQA и 20.29\% в SQuAD. Мы также предоставляем новые идеи на основе результатов экспериментов. Наши коды, наборы данных и модели доступны по адресу https://anonymous.4open.science/r/I-SHEEP.
Обучение нейронной сети - это монументальное начинание, сходное с высечением знаний в камне: после завершения процесса редактирование знаний в сети практически невозможно, поскольку вся информация распределена по весам сети. Здесь мы исследуем простую, убедительную альтернативу, объединяя представительную мощность глубоких нейронных сетей с гибкостью базы данных. Разбивая задачу классификации изображений на сходство изображений (из предварительно обученного встраивания) и поиск (через быстрый поиск ближайших соседей из базы знаний), мы создаем простую и гибкую визуальную память, обладающую следующими ключевыми возможностями: (1.) Возможность гибко добавлять данные на различных уровнях: от отдельных образцов до целых классов и данных масштаба в миллиарды; (2.) Возможность удаления данных путем разучивания и обрезки памяти; (3.) Интерпретируемый механизм принятия решений, на который мы можем воздействовать для управления его поведением. Вместе эти возможности исчерпывающе демонстрируют преимущества явной визуальной памяти. Мы надеемся, что это может способствовать обсуждению того, как знания должны быть представлены в глубоких моделях зрения - за пределами высечения их в "каменных" весах.
Сжатие набора данных или конденсация направлены на уплотнение обширного набора данных для обучения в существенно более компактный синтетический набор, чтобы обучающая производительность сжатого и исходного наборов на нейронных сетях была сходной. Хотя количество обучающих образцов может быть значительно сокращено, современные передовые методы тяжело полагаются на огромные мягкие метки для достижения удовлетворительной производительности. В результате необходимое хранилище может быть сравнимо даже с исходными наборами данных, особенно для обширных. Для решения этой проблемы, вместо хранения этих тяжелых меток, мы предлагаем новую рамку с легкими метками, названную HeLlO, направленную на эффективные проекторы изображений-меток, с помощью которых синтетические метки могут быть непосредственно созданы в реальном времени из синтетических изображений. Конкретно, для создания таких проекторов мы используем предварительные знания в моделях фундаментальных открытых исходных кодов, например, CLIP, и вводим стратегию донастройки, подобную LoRA, для смягчения разрыва между предварительно обученными и целевыми распределениями, так чтобы исходные модели для генерации мягких меток могли быть сжаты в группу матриц низкого ранга. Более того, предлагается эффективный метод оптимизации изображения для дальнейшего смягчения потенциальной ошибки между исходными и сжатыми генераторами меток. Обширные эксперименты демонстрируют, что с использованием всего около 0,003% от исходного хранилища, необходимого для полного набора мягких меток, мы достигаем сопоставимой производительности с передовыми методами сжатия наборов данных на обширных наборах данных. Наш код будет доступен.
Синтез видеороликов, насыщенных движением и временно последовательных, остается вызовом в искусственном интеллекте, особенно при работе с продолжительными отрезками времени. Существующие модели текст-к-видео (T2V) обычно используют пространственное кросс-внимание для управления текстом, что позволяет направлять различные генерации кадров без специфического текстового руководства для каждого кадра. Таким образом, способность модели понимать временную логику, содержащуюся в подсказках, и создавать видеоролики с согласованным движением ограничена. Для преодоления этого ограничения мы представляем FancyVideo, инновационный генератор видео, который улучшает существующий механизм управления текстом с помощью хорошо спроектированного Модуля Кросс-внимания между кадрами (CTGM). Конкретно, CTGM включает Инжектор Временной Информации (TII), Уточнитель Временной Связи (TAR) и Усилитель Временных Характеристик (TFB) в начале, середине и конце кросс-внимания соответственно, чтобы достичь специфического текстового руководства для каждого кадра. Во-первых, TII внедряет информацию, специфичную для кадра, из латентных характеристик в текстовые условия, тем самым получая кросс-кадровые текстовые условия. Затем TAR улучшает матрицу корреляции между кросс-кадровыми текстовыми условиями и латентными характеристиками вдоль временного измерения. Наконец, TFB усиливает временную последовательность латентных характеристик. Обширные эксперименты, включающие как количественные, так и качественные оценки, демонстрируют эффективность FancyVideo. Наш подход достигает передовых результатов генерации T2V на бенчмарке EvalCrafter и способствует синтезу динамичных и последовательных видеороликов. Результаты видеопоказа доступны по ссылке https://fancyvideo.github.io/, и мы сделаем наш код и веса модели общедоступными.
Хотя многие возможности языковых моделей (LMs) улучшаются с увеличением бюджета обучения, влияние масштаба на галлюцинации пока не до конца понятно. Галлюцинации могут принимать различные формы, и нет универсального определения. Поэтому мы фокусируемся на изучении только тех галлюцинаций, где правильный ответ встречается дословно в наборе данных для обучения. Для полного контроля над содержимым обучающих данных мы создаем набор данных на основе графа знаний (KG) и используем его для обучения набора все более крупных LMs. Мы обнаружили, что для фиксированного набора данных более крупные и дольше обученные LMs галлюцинируют меньше. Однако для галлюцинаций на менее 5% обучающих данных требуется модель порядка большего масштаба и, следовательно, порядка больше вычислительных ресурсов, чем оптимально было описано в работе Хоффманна и др. (2022). Учитывая эту дороговизну, мы изучаем, как детекторы галлюцинаций зависят от масштаба. Хотя мы видим, что размер детектора улучшает производительность на выходах фиксированных LM, мы обнаруживаем обратную зависимость между масштабом LM и обнаружимостью его галлюцинаций.
При обучении больших языковых моделей (LLM) с нуля действительно можно добиться создания моделей с отличными возможностями и преимуществами, однако это сопряжено с существенными затратами и может привести к избыточности компетенций. Задача слияния знаний направлена на интеграцию существующих LLM с различными архитектурами и возможностями в более мощную LLM путем легкого непрерывного обучения, тем самым уменьшая необходимость в дорогостоящем развитии LLM. В данной работе мы предлагаем новую структуру для слияния знаний чат-LLM через два основных этапа, что привело к созданию FuseChat. Во-первых, мы проводим попарное слияние знаний на исходных чат-LLM с различными структурами и масштабами для создания нескольких целевых LLM с идентичной структурой и размером путем легкой донастройки. В ходе этого процесса вводится подход к выравниванию токенов на основе статистики в качестве основы для слияния LLM с различными структурами. Во-вторых, мы объединяем эти целевые LLM в пространстве параметров, где мы предлагаем новый метод определения коэффициентов слияния на основе величины обновлений параметров до и после донастройки. Мы реализуем и проверяем FuseChat с использованием шести известных чат-LLM с различными архитектурами и масштабами, включая OpenChat-3.5-7B, Starling-LM-7B-alpha, NH2-SOLAR-10.7B, InternLM2-Chat-20B, Mixtral-8x7B-Instruct и Qwen-1.5-Chat-72B. Экспериментальные результаты на двух бенчмарках по следованию инструкциям, AlpacaEval 2.0 и MT-Bench, демонстрируют превосходство FuseChat-7B над базовыми моделями различных размеров. Наша модель даже сравнима с более крупной Mixtral-8x7B-Instruct и приближается к GPT-3.5-Turbo-1106 на MT-Bench. Наш код, веса модели и данные доступны по адресу https://github.com/fanqiwan/FuseAI.
Фреймворк Смеси Экспертов (MoE) стал популярной архитектурой для больших языковых моделей благодаря своей выдающейся производительности по сравнению с плотными моделями. Однако обучение MoE с нуля в крупномасштабном режиме является чрезмерно затратным. Существующие методы смягчают это, предварительно обучая несколько плотных экспертных моделей независимо и используя их для инициализации MoE. Это достигается путем использования прямой сети (FFN) экспертов для инициализации экспертов MoE, а также слияния других параметров. Однако этот метод ограничивает повторное использование параметров плотной модели только слоями FFN, тем самым ограничивая преимущества при "переработке" этих моделей в MoE. Мы предлагаем BAM (Branch-Attend-Mix), простой, но эффективный метод, который решает этот недостаток. BAM полностью использует специализированные плотные модели, не только используя их FFN для инициализации слоев MoE, но также полностью используя параметры внимания экспертов, инициализируя их в мягкую вариацию слоев Смеси Внимания (MoA). Мы исследуем два метода для повторного использования параметров внимания: 1) инициализация отдельных внимательных экспертов из плотных моделей, включая все параметры внимания для лучшей производительности модели; и 2) совместное использование ключевых и значимых параметров для всех экспертов для обеспечения лучшей эффективности вывода. Для дальнейшего улучшения эффективности мы принимаем параллельную архитектуру трансформера внимания для MoE, что позволяет экспертам внимания и экспертам FFN вычисляться параллельно. Наши эксперименты на исходных моделях от 590 миллионов до 2 миллиардов параметров показывают, что BAM превосходит базовые показатели как в перплексии, так и в производительности задач на следующем уровне, при тех же вычислительных и данных ограничениях.
Человеко-модельные разговоры предоставляют окно в реальные сценарии, поведение и потребности пользователей, и, следовательно, являются ценным ресурсом для разработки и исследований моделей. В то время как коммерческие компании собирают данные пользователей через API своих моделей, используя их внутри для улучшения собственных моделей, сообщество открытого исходного кода и исследований отстает. Мы представляем коллекцию ShareLM, объединенный набор человеческих разговоров с большими языковыми моделями, и сопутствующий ей плагин - веб-расширение для добровольного внесения разговоров пользователей с моделями. Там, где немногие платформы делятся своими чатами, плагин ShareLM добавляет эту функциональность, позволяя пользователям делиться разговорами с большинства платформ. Плагин позволяет пользователю оценивать свои разговоры как на уровне разговора, так и на уровне ответа, и удалять разговоры, которые он предпочитает оставить в тайне, прежде чем они покинут локальное хранилище пользователя. Мы публикуем разговоры плагина в рамках коллекции ShareLM и призываем к большему усилию сообщества в области открытых данных человеко-модельного взаимодействия. Код, плагин и данные доступны.
Этот документ представляет PeriodWave-Turbo, модель генерации волн высокой достоверности и высокой эффективности с помощью оптимизации сопоставления потоков враждебства. Недавно условные генеративные модели сопоставления потоков (CFM) успешно применялись для задач генерации волн, используя единственную цель оценки поля векторов для обучения. Хотя эти модели могут создавать сигналы волн высокой достоверности, они требуют значительно большего количества шагов ОДУ по сравнению с моделями на основе GAN, которые требуют только одного шага генерации. Кроме того, созданные образцы часто лишены информации высокой частоты из-за шумной оценки поля векторов, что не гарантирует воспроизведение высоких частот. Для преодоления этого ограничения мы улучшаем предварительно обученные генеративные модели CFM путем внедрения модификации генератора с фиксированным шагом. Мы использовали потери реконструкции и враждебную обратную связь для ускорения генерации волн высокой достоверности. Через оптимизацию сопоставления потоков враждебства для достижения передовой производительности по различным объективным метрикам требуется всего 1 000 шагов тонкой настройки. Более того, мы значительно ускоряем скорость вывода с 16 шагов до 2 или 4 шагов. Кроме того, увеличивая основу PeriodWave с 29M до 70M параметров для улучшенной обобщенности, PeriodWave-Turbo достигает беспрецедентной производительности с оценкой качества речи (PESQ) 4,454 на наборе данных LibriTTS. Образцы аудио, исходный код и контрольные точки будут доступны на https://github.com/sh-lee-prml/PeriodWave.
Недавно были достигнуты значительные улучшения в синтезе нового вида (NVS) и генерации 3D. Однако эти работы в основном сосредотачиваются на ограниченных категориях или синтетических 3D-объектах, что затрудняет их обобщение на сложные сцены в естественной среде и не позволяет применять их непосредственно к синтезу 2D. Более того, эти методы сильно зависят от поз камеры, что ограничивает их применение в реальном мире. Для преодоления этих проблем мы предлагаем MVInpainter, переформулируя редактирование 3D как задачу многозначного заполнения 2D. Конкретно, MVInpainter частично заполняет многозначные изображения с помощью справочного руководства, а не неизбежно генерирует совершенно новый вид с нуля, что в значительной степени упрощает сложность NVS в естественной среде и использует незамаскированные подсказки вместо явных условий позы. Для обеспечения согласованности между видами, MVInpainter улучшается видеоприорами от компонентов движения и руководством по внешнему виду от конкатенированного внимания ключа и значения справочника. Более того, MVInpainter включает в себя слотовое внимание для агрегации высокоуровневых оптических потоковых функций из незамаскированных областей для управления движением камеры с обучением и выводом без условий позы. Достаточные эксперименты на уровне сцены как на объектно-ориентированных, так и на прямо-направленных наборах данных подтверждают эффективность MVInpainter, включая различные задачи, такие как удаление, синтез, вставка и замена объектов с несколькими видами. Страница проекта: https://ewrfcas.github.io/MVInpainter/.
Оценка возможностей больших языковых моделей (LLM) часто представляет собой сложную задачу, поскольку трудно найти задачи, с которыми они не сталкивались во время обучения. Мы предпринимаем шаг к решению этой проблемы, обратившись к новой задаче: сосредоточившись на символьных графических программах, которые являются популярным представлением графического контента, процедурно генерирующим визуальные данные. LLM показали захватывающий потенциал к синтезу программ, но понимают ли они символьные графические программы? В отличие от обычных программ, символьные графические программы могут быть преобразованы в графический контент. Здесь мы характеризуем понимание LLM символьных программ их способностью отвечать на вопросы, связанные с графическим контентом. Эта задача сложна, поскольку вопросы трудно ответить, опираясь только на символьные программы, но они легко решаются на основе соответствующего графического контента, как мы убеждаемся через человеческий эксперимент. Для понимания символьных программ LLM могут нуждаться в способности представить, как будет выглядеть соответствующий графический контент, не обращаясь непосредственно к отображенному визуальному контенту. Мы используем эту задачу для оценки LLM, создавая большой бенчмарк для семантического понимания символьных графических программ. Этот бенчмарк создан на основе соответствия программы-графика, требуя при этом минимальных усилий человека. Мы оцениваем текущие LLM на нашем бенчмарке, чтобы прояснить предварительную оценку их способности рассуждать о визуальных сценах по программам. Мы обнаруживаем, что эта задача различает существующие LLM и модели, считающиеся хорошими в рассуждениях, показывают лучшие результаты. Наконец, мы представляем Тюнинг Символьных Инструкций (SIT) для улучшения этой способности. Конкретно, мы опрашиваем GPT4-o вопросами и изображениями, сгенерированными символьными программами. Эти данные затем используются для дообучения LLM. Мы также обнаруживаем, что данные SIT могут улучшить общую способность следования инструкциям LLM.