Ежедневно отобранные исследовательские статьи по ИИ с переводами
В эпоху масштабных языковых моделей, таких как Massive Multitask Language Understanding (MMLU), ключевым стало использование бенчмарков для продвижения границ того, что искусственный интеллект может достичь в понимании языка и рассуждениях в различных областях. Однако по мере улучшения моделей их результаты на этих бенчмарках начали стагнировать, что делает все сложнее выявление различий в возможностях моделей. В данной статье представлен MMLU-Pro, улучшенный набор данных, разработанный для расширения в основном знаниевого бенчмарка MMLU путем интеграции более сложных вопросов, сосредоточенных на рассуждениях, и расширения выбора ответов с четырех до десяти вариантов. Кроме того, MMLU-Pro устраняет тривиальные и шумные вопросы в MMLU. Наши экспериментальные результаты показывают, что MMLU-Pro не только повышает сложность, вызывая значительное снижение точности на 16% до 33% по сравнению с MMLU, но также демонстрирует большую стабильность при изменении запросов. Проведя тестирование с 24 различными стилями запросов, чувствительность оценок модели к изменениям запросов снизилась с 4-5% в MMLU до всего 2% в MMLU-Pro. Кроме того, мы обнаружили, что модели, использующие рассуждения по принципу Chain of Thought (CoT), достигли лучших результатов на MMLU-Pro по сравнению с прямым ответом, что противоречит результатам на оригинальном MMLU и указывает на то, что MMLU-Pro включает более сложные вопросы на рассуждения. Наши оценки подтверждают, что MMLU-Pro является более дискриминирующим бенчмарком для более точного отслеживания прогресса в области.
Языковые модели нацелены на эмуляцию коллективного голоса многих, что приводит к результатам, не соответствующим ни одному конкретному лицу. Отклонение LLM от общего вывода возможно путем наблюдения за обучением или RLHF, но требует чрезмерно больших наборов данных для новых ад-хок задач. Мы утверждаем, что вместо этого возможно настроить LLM на конкретную среду, используя очень небольшое количество (<10) демонстраций в качестве обратной связи. Наш метод, Оптимизация Задач с Повторением Демонстраций (DITTO), напрямую настраивает выводы языковой модели на поведение, продемонстрированное пользователем. Разработанный на основе идей онлайн имитационного обучения, DITTO дешево генерирует онлайн данные сравнения, рассматривая демонстрации пользователей как предпочтительные перед выводом из LLM и его промежуточными контрольными точками. Мы оцениваем способность DITTO к изучению тонкой стилистики и выравниванию задач в различных областях, таких как новостные статьи, электронные письма и блоги. Кроме того, мы проводим пользовательское исследование, запрашивая различные демонстрации у участников (N=16). По результатам наших испытаний и пользовательского исследования мы обнаруживаем, что показатели успеха DITTO превосходят методы обучения с небольшим числом примеров, наблюдение за обучением и другие методы самоигры в среднем на 19% пунктов. Используя демонстрации в качестве обратной связи напрямую, DITTO предлагает новый метод эффективной настройки LLM.
Данная работа решает проблему оценки глубины видео, которая требует не только точности кадра, но, что более важно, согласованности между кадрами. Вместо прямого создания оценщика глубины с нуля, мы переформулируем задачу предсказания в задачу условной генерации. Это позволяет нам использовать предварительные знания, заложенные в существующих моделях генерации видео, тем самым уменьшая сложность обучения и повышая обобщаемость. Конкретно, мы изучаем, как приручить публичный стабильный видеодиффузор (SVD) для предсказания надежной глубины по входным видео с использованием смеси наборов данных глубины изображения и видео. Мы эмпирически подтверждаем, что процедурная стратегия обучения - сначала оптимизация пространственных слоев SVD, а затем оптимизация временных слоев при замороженных пространственных слоях - дает лучшие результаты как по точности пространственной, так и по временной согласованности. Мы также исследуем стратегию скользящего окна для вывода на произвольно длинных видео. Наши наблюдения указывают на компромисс между эффективностью и производительностью, при этом однокадровое перекрытие уже дает благоприятные результаты. Обширные экспериментальные результаты демонстрируют превосходство нашего подхода, названного ChronoDepth, над существующими альтернативами, особенно в плане временной согласованности оцененной глубины. Кроме того, мы выделяем преимущества более согласованной глубины видео в двух практических приложениях: генерации видео с условием глубины и синтезе нового вида. Наша страница проекта доступна по адресу https://jhaoshao.github.io/ChronoDepth/{этот http URL}.
Культурное накопление способствует разнообразному и неограниченному прогрессу в области возможностей на протяжении всей истории человечества. Оно формирует расширяющееся тело знаний и навыков путем объединения индивидуального исследования с межпоколенческой передачей информации. Несмотря на его широкий успех среди людей, возможность накопления культуры искусственными обучаемыми агентами остается мало исследованной. В частности, подходы к обучению с подкреплением обычно нацелены на улучшения только на протяжении одной жизни. Алгоритмы, основанные на поколениях, которые существуют, не улавливают неограниченного, внезапного характера культурного накопления, который позволяет индивидуумам балансировать между инновациями и имитацией. Основываясь на ранее продемонстрированной способности агентов обучения с подкреплением выполнять социальное обучение, мы обнаружили, что тренировочные сценарии, которые уравновешивают это с независимым обучением, приводят к культурному накоплению. Эти накапливающие агенты превосходят тех, кто обучался только в течение одной жизни с тем же накопленным опытом. Мы исследуем это накопление, создавая две модели на основе двух различных представлений о поколении: эпизодические поколения, в которых накопление происходит через контекстное обучение, и поколения на этапе обучения, в которых накопление происходит через обучение весам. Культурное накопление через контекстное обучение и через обучение весам можно интерпретировать как аналогию к накоплению знаний и навыков соответственно. На наш взгляд, данная работа является первой, представляющей общие модели, достигающие внезапного культурного накопления в обучении с подкреплением, открывая новые возможности для более неограниченных систем обучения, а также предлагая новые возможности для моделирования человеческой культуры.
Обученные оптимизаторы (LO) могут значительно сократить время обучения нейронных сетей по настенным часам, существенно снижая затраты на обучение. Однако они часто страдают от плохой мета-обобщаемости, особенно при обучении сетей большего размера, чем те, которые виделись во время мета-обучения. Для решения этой проблемы мы используем недавно предложенную Максимальную Параметризацию Обновлений (muP), которая позволяет обобщать гиперпараметры оптимизатора из меньших моделей на большие без предварительного обучения. Мы расширяем теорию muP на обученные оптимизаторы, рассматривая проблему мета-обучения как поиск обученного оптимизатора в рамках muP. Наша оценка показывает, что LO, обученные мета-методом muP, существенно улучшают мета-обобщаемость по сравнению с LO, обученными в рамках стандартной параметризации (SP). Заметно, что, примененный к моделям большой ширины, наш лучший muLO, обученный за 103 часа на GPU, соответствует или превосходит производительность VeLO, самого крупного общедоступного обученного оптимизатора, мета-обученного на 4000 месяцев TPU-вычислений. Более того, muLO демонстрируют лучшую обобщаемость по сравнению с их SP аналогами к более глубоким сетям и к гораздо более длительным горизонтам обучения (в 25 раз дольше), чем те, которые виделись во время мета-обучения.
Генерация видео сделала замечательный прогресс в последние годы, особенно с появлением моделей диффузии видео. Многие модели генерации видео могут создавать правдоподобные синтетические видео, например, устойчивая диффузия видео (SVD). Однако большинство моделей видео могут генерировать только видео с низкой частотой кадров из-за ограниченной памяти GPU, а также сложности моделирования большого набора кадров. Обучающие видео всегда равномерно выбираются с определенным интервалом для временного сжатия. Предыдущие методы увеличивают частоту кадров либо обучением модели интерполяции видео в пространстве пикселей как этап последующей обработки, либо обучением модели интерполяции в скрытом пространстве для определенной базовой видео модели. В данной статье мы предлагаем метод интерполяции видео без обучения для генеративных моделей диффузии видео, который обобщаем на различные модели способом "включить и работать". Мы исследуем нелинейность в пространстве признаков моделей диффузии видео и преобразуем модель видео в самодиффузионную модель видео с включением разработанных модулей коррекции скрытого состояния. Предложенная самодиффузионная архитектура и модуль коррекции предложены для сохранения временной согласованности между ключевыми кадрами и интерполированными кадрами. Проведены обширные оценки на нескольких популярных видео моделях, чтобы продемонстрировать эффективность предложенного метода, особенно то, что наш метод интерполяции без обучения даже сравним с обученными моделями интерполяции, поддерживаемыми огромными вычислительными ресурсами и масштабными наборами данных.