Ежедневно отобранные исследовательские статьи по ИИ с переводами
В улучшении способностей к рассуждению у крупных языковых моделей (LLMs) предыдущие исследования в основном сосредоточены на специфических методах подсказок, таких как few-shot или zero-shot chain-of-thought (CoT) подсказки. Эти методы, хотя и эффективны, часто требуют трудоемкого ручного проектирования подсказок. Наше исследование предлагает новый подход, задавая вопрос: Могут ли LLMs рассуждать эффективно без подсказок? Наши результаты показывают, что, что интересно, пути рассуждения CoT могут быть вызваны у предварительно обученных LLMs просто путем изменения процесса декодирования. Вместо традиционного жадного декодирования мы исследуем топ-k альтернативных токенов, обнаруживая, что пути CoT часто присущи этим последовательностям. Этот подход не только позволяет избежать влияния подсказок, но и дает возможность оценить внутренние способности LLMs к рассуждению. Более того, мы наблюдаем, что наличие CoT в пути декодирования коррелирует с более высокой уверенностью модели в декодированном ответе. Этот показатель уверенности эффективно различает пути с CoT и без CoT. Обширные эмпирические исследования на различных тестах рассуждения показывают, что предложенное CoT-декодирование существенно превосходит стандартное жадное декодирование.
Все текстовые языковые задачи могут быть сведены либо к генерации, либо к созданию эмбеддингов. Современные модели хорошо справляются только с одной из этих задач. Мы представляем метод генеративного репрезентационного обучения по инструкциям (Generative Representational Instruction Tuning, GRIT), при котором крупная языковая модель обучается выполнять как генеративные, так и задачи создания эмбеддингов, различая их с помощью инструкций. По сравнению с другими открытыми моделями, наша модель GritLM 7B устанавливает новый рекорд на бенчмарке Massive Text Embedding Benchmark (MTEB) и превосходит все модели своего размера на ряде генеративных задач. При дальнейшем масштабировании GritLM 8x7B превосходит все открытые генеративные языковые модели, которые мы тестировали, оставаясь при этом одной из лучших моделей для создания эмбеддингов. Примечательно, что мы обнаружили, что GRIT соответствует по эффективности обучению только на генеративных или только на данных для эмбеддингов, что позволяет объединить оба подхода без потери производительности. Среди других преимуществ, унификация через GRIT ускоряет Retrieval-Augmented Generation (RAG) более чем на 60% для длинных документов, поскольку больше не требуется использование отдельных моделей для извлечения и генерации. Модели, код и другие материалы доступны по адресу https://github.com/ContextualAI/gritlm.
Обучение крупных языковых моделей (LLM) является дорогостоящим процессом. В данной статье мы исследуем подходы к предварительному обучению LLM, которые позволяют эффективно использовать данные, то есть методы, направленные на оптимизацию Парето-границы между качеством модели и потреблением ресурсов/данных для обучения. Мы стремимся понять компромиссы, связанные с процедурами отбора данных, основанными на (i) трудоемких оценках качества данных и (ii) максимизации показателей охвата и разнообразия в пространстве признаков. Наш первый метод, Ask-LLM, использует возможности нулевого обучения (zero-shot reasoning) инструктивно настроенных LLM для непосредственной оценки качества обучающего примера. Для достижения охвата мы предлагаем метод Density sampling, который моделирует распределение данных для выбора разнообразной выборки. В нашем сравнении 19 методов выборки, включающем сотни задач оценки и запусков предварительного обучения, мы обнаружили, что Ask-LLM и Density являются лучшими методами в своих категориях. Выборка на основе охвата может восстановить производительность полного набора данных, в то время как модели, обученные на данных, отобранных с помощью Ask-LLM, стабильно превосходят обучение на полных данных — даже при отбрасывании 90% исходного набора данных, при этом сходимость достигается до 70% быстрее.
Современные крупные языковые модели (LLM) не только ограничены определенной максимальной длиной контекста, но и не способны надежно обрабатывать длинные входные данные. Чтобы устранить эти ограничения, мы предлагаем ReadAgent — систему на основе LLM, которая в наших экспериментах увеличивает эффективную длину контекста до 20 раз. Вдохновленные тем, как люди интерактивно читают длинные документы, мы реализовали ReadAgent как простую систему подсказок, использующую продвинутые языковые возможности LLM для: (1) определения, какой контент следует сохранять вместе в эпизоде памяти, (2) сжатия этих эпизодов памяти в краткие эпизодические воспоминания, называемые ключевыми воспоминаниями (gist memories), и (3) выполнения действий для поиска фрагментов в исходном тексте, если ReadAgent необходимо напомнить себе о relevant details для выполнения задачи. Мы оцениваем ReadAgent в сравнении с базовыми методами, использующими методы извлечения, исходные длинные контексты и ключевые воспоминания. Эти оценки проводятся на трех задачах понимания длинных документов: QuALITY, NarrativeQA и QMSum. ReadAgent превосходит базовые методы на всех трех задачах, одновременно расширяя эффективное окно контекста в 3–20 раз.
Недавние исследования продемонстрировали огромный потенциал синтетически сгенерированных наборов данных для обучения крупных языковых моделей (LLM), особенно для приобретения целевых навыков. Современные крупномасштабные наборы данных для настройки математических инструкций, такие как MetaMathQA (Yu et al., 2024) и MAmmoTH (Yue et al., 2024), создаются с использованием выходных данных закрытых LLM с коммерчески ограничительными лицензиями. Одной из ключевых причин, ограничивающих использование открытых LLM в этих процессах генерации данных, является значительный разрыв в математических навыках между лучшими закрытыми LLM, такими как GPT-4, и лучшими открытыми LLM. Опираясь на недавние достижения в области открытых LLM, нашу новую методику запросов и масштабирование с использованием "грубой силы", мы создали OpenMathInstruct-1 — набор данных для настройки математических инструкций, содержащий 1,8 миллиона пар "задача-решение". Этот набор данных создан путем синтеза решений с использованием интерпретатора кода для GSM8K и MATH, двух популярных бенчмарков математического мышления, с использованием недавно выпущенной модели Mixtral с разрешительной лицензией. Наша лучшая модель, OpenMath-CodeLlama-70B, обученная на подмножестве OpenMathInstruct-1, достигает показателей 84,6% на GSM8K и 50,7% на MATH, что конкурирует с лучшими моделями, обученными на данных GPT. Мы публикуем наш код, модели и набор данных OpenMathInstruct-1 под коммерчески разрешительной лицензией.
Тонкая настройка диффузионных моделей остается малоизученной областью в генеративном искусственном интеллекте (GenAI), особенно в сравнении с впечатляющим прогрессом, достигнутым в тонкой настройке крупных языковых моделей (LLM). Хотя передовые диффузионные модели, такие как Stable Diffusion (SD) и SDXL, используют контролируемую тонкую настройку, их производительность неизбежно выходит на плато после обработки определенного объема данных. Недавно для тонкой настройки диффузионных моделей с использованием данных о человеческих предпочтений был применен метод обучения с подкреплением (RL), однако он требует наличия как минимум двух изображений («победителя» и «проигравшего») для каждого текстового запроса. В данной работе мы представляем инновационную технику, называемую тонкой настройкой через самообучение для диффузионных моделей (SPIN-Diffusion), в которой модель соревнуется со своими предыдущими версиями, что способствует итеративному процессу самосовершенствования. Наш подход предлагает альтернативу традиционным методам контролируемой тонкой настройки и стратегиям RL, значительно улучшая как производительность модели, так и ее соответствие ожиданиям. Эксперименты на наборе данных Pick-a-Pic показывают, что SPIN-Diffusion превосходит существующий метод контролируемой тонкой настройки по соответствию человеческим предпочтениям и визуальной привлекательности уже на первой итерации. К второй итерации она превосходит методы, основанные на RLHF, по всем метрикам, достигая этих результатов с меньшим объемом данных.
Мы исследуем подход к непрерывному предобучению для масштабирования длины контекста языковых моделей до 128K, уделяя особое внимание инженерии данных. Мы предполагаем, что моделирование длинного контекста, в частности способность использовать информацию из произвольных мест ввода, — это навык, который в основном уже приобретается в ходе крупномасштабного предобучения, и что этот навык можно легко расширить на контексты, значительно превышающие те, что встречались во время обучения (например, с 4K до 128K), с помощью легковесного непрерывного предобучения на подходящей смеси данных. Мы изучаем количество и качество данных для непрерывного предобучения: (1) по количеству мы показываем, что 500 миллионов — 5 миллиардов токенов достаточно, чтобы модель могла извлекать информацию из любого места в контексте длиной 128K; (2) по качеству наши результаты одинаково подчеркивают важность баланса доменов и апсэмплинга длины. Конкретно, мы обнаруживаем, что наивный апсэмплинг более длинных данных в определенных доменах, таких как книги, что является распространенной практикой в существующих работах, дает неоптимальные результаты, и что сбалансированная смесь доменов важна. Мы демонстрируем, что непрерывное предобучение полной модели на 1–5 миллиардах токенов таких данных является эффективной и доступной стратегией для масштабирования длины контекста языковых моделей до 128K. Наш подход превосходит сильные модели с длинным контекстом с открытым исходным кодом и сокращает разрыв с передовыми моделями, такими как GPT-4 128K.
Крупные языковые модели (LLM) обычно обучаются в два этапа: предварительное обучение на больших наборах данных интернет-масштаба и тонкая настройка для решения конкретных задач. Учитывая более высокие вычислительные затраты на предварительное обучение, интуитивно можно предположить, что тонкая настройка добавляет меньше новой информации в модель и, следовательно, является более сжимаемой. Мы исследуем это предположение, разлагая веса тонко настроенных моделей на их предварительно обученные компоненты и дополнительную дельту. Мы представляем простой метод, BitDelta, который успешно квантует эту дельту до 1 бита без ущерба для производительности. Этот интересный результат не только подчеркивает потенциальную избыточность информации, добавляемой в процессе тонкой настройки, но также имеет важные последствия для многопользовательского обслуживания и хранения тонко настроенных моделей. Благодаря использованию одной высокоточной базовой модели в сочетании с несколькими 1-битными дельтами, BitDelta значительно сокращает требования к памяти GPU более чем в 10 раз, что также может привести к уменьшению задержек генерации в многопользовательских сценариях. Мы проверяем BitDelta в экспериментах с семействами моделей Llama-2 и Mistral, включая модели с до 70 миллиардов параметров, демонстрируя минимальное снижение производительности во всех протестированных условиях.
Редактирование сигналов с использованием крупных предобученных моделей в режиме zero-shot в последнее время быстро развивается в области обработки изображений. Однако этот прогресс еще не затронул аудиодомен. В данной статье мы исследуем два метода zero-shot редактирования аудиосигналов, основанных на инверсии DDPM в предобученных диффузионных моделях. Первый метод, заимствованный из области изображений, позволяет выполнять редактирование на основе текста. Второй метод представляет собой новый подход к обнаружению семантически значимых направлений редактирования без использования обучения с учителем. Применение этого метода к музыкальным сигналам раскрывает широкий спектр музыкально интересных модификаций, от управления участием конкретных инструментов до импровизаций с мелодией. Примеры можно найти на нашей странице с примерами по адресу https://hilamanor.github.io/AudioEditing/, а код доступен по ссылке https://github.com/hilamanor/AudioEditing/.
Достижения в области 3D-сплатинга на основе гауссовых функций значительно ускорили процессы 3D-реконструкции и генерации. Однако этот метод может требовать большого количества гауссовых функций, что приводит к существенному увеличению объема используемой памяти. В данной статье представлен GES (Generalized Exponential Splatting) — новый метод представления, который использует обобщенную экспоненциальную функцию (Generalized Exponential Function, GEF) для моделирования 3D-сцен. Этот подход требует значительно меньшего количества частиц для представления сцены, что делает его гораздо более эффективным по сравнению с методами на основе гауссовых функций, при этом сохраняя возможность простой замены существующих утилит, основанных на гауссовых функциях. GES был теоретически и эмпирически проверен как в упрощенных одномерных настройках, так и в реалистичных 3D-сценах. Показано, что GES более точно воспроизводит сигналы с резкими границами, что обычно является сложной задачей для гауссовых функций из-за их присущих низкочастотных характеристик. Наш эмпирический анализ демонстрирует, что GEF превосходит гауссовы функции в аппроксимации естественных сигналов (например, квадратных, треугольных и параболических), что снижает необходимость в многочисленных операциях разделения, которые увеличивают объем памяти, используемый в гауссовом сплатинге. Благодаря использованию частотно-модулированной функции потерь, GES достигает конкурентоспособных результатов в тестах на синтез новых видов сцен, при этом требуя менее половины объема памяти по сравнению с гауссовым сплатингом и увеличивая скорость рендеринга до 39%. Код доступен на сайте проекта: https://abdullahamdi.com/ges.
Цель персонализации текста в изображение (Text-to-Image, T2I) заключается в адаптации диффузионной модели под предоставленный пользователем референсный концепт, что позволяет генерировать разнообразные изображения концепта, соответствующие целевым запросам. Традиционные методы, представляющие референсные концепты с помощью уникальных текстовых эмбеддингов, часто не могут точно воспроизвести внешний вид референса. Для решения этой проблемы одним из подходов может быть явное включение референсных изображений в процесс целевого шумоподавления, известное как замена ключ-значение. Однако предыдущие работы ограничиваются локальным редактированием, поскольку они нарушают структурный путь предварительно обученной T2I модели. Чтобы преодолеть это ограничение, мы предлагаем новый подключаемый метод под названием DreamMatcher, который переформулирует персонализацию T2I как семантическое сопоставление. В частности, DreamMatcher заменяет целевые значения на референсные, выровненные с помощью семантического сопоставления, при этом оставляя структурный путь неизменным, чтобы сохранить универсальные возможности предварительно обученных T2I моделей для генерации разнообразных структур. Мы также вводим стратегию семантически согласованного маскирования, чтобы изолировать персонализированный концепт от нерелевантных областей, вводимых целевыми запросами. Совместимый с существующими T2I моделями, DreamMatcher демонстрирует значительные улучшения в сложных сценариях. Интенсивный анализ подтверждает эффективность нашего подхода.
Рассуждение на основе последовательностей необработанных сенсорных данных является повсеместной проблемой в различных областях, от медицинских устройств до робототехники. Эти задачи часто связаны с использованием длинных последовательностей необработанных данных с датчиков (например, магнитометров, пьезорезисторов) для прогнозирования последовательностей желаемых физических величин (например, силы, инерционных измерений). Хотя классические подходы эффективны для локально-линейных задач прогнозирования, они часто оказываются недостаточными при работе с реальными датчиками. Эти датчики обычно нелинейны, подвержены влиянию внешних переменных (например, вибрации) и демонстрируют зависящий от данных дрейф. Для многих задач прогнозирование усложняется из-за небольших размеченных наборов данных, поскольку получение эталонных меток требует дорогостоящего оборудования. В данной работе мы представляем Иерархические модели пространства состояний (HiSS) — концептуально простой новый метод для непрерывного последовательного прогнозирования. HiSS объединяет структурированные модели пространства состояний в иерархию временных уровней. На шести наборах данных реальных датчиков, от прогнозирования состояния на основе тактильных данных до инерционных измерений на основе акселерометров, HiSS превосходит современные модели последовательностей, такие как каузальные трансформеры, LSTM, S4 и Mamba, по меньшей мере на 23% по среднеквадратичной ошибке (MSE). Наши эксперименты также показывают, что HiSS эффективно масштабируется на небольшие наборы данных и совместим с существующими методами фильтрации данных. Код, наборы данных и видео доступны на https://hiss-csp.github.io.
Диффузионные модели в последнее время всё чаще применяются для работы с временными данными, такими как видео, симуляции механики жидкостей или климатические данные. Эти методы обычно рассматривают последующие кадры как равнозначные с точки зрения уровня шума в процессе диффузии. В данной статье исследуется Rolling Diffusion — новый подход, использующий скользящее окно для процесса удаления шума. Он обеспечивает постепенное искажение данных во времени, добавляя больше шума к кадрам, которые появляются позже в последовательности, что отражает возрастающую неопределённость в отношении будущего по мере развёртывания процесса генерации. Эмпирически мы показываем, что в случаях, когда временная динамика сложна, Rolling Diffusion превосходит стандартную диффузию. В частности, этот результат демонстрируется в задаче предсказания видео на наборе данных Kinetics-600 и в эксперименте по прогнозированию хаотической динамики жидкостей.