Ежедневно отобранные исследовательские статьи по ИИ с переводами
Большие языковые модели (LLM) в последние годы сделали значительные успехи в достижении беспрецедентной производительности в различных задачах. Однако из-за коммерческого интереса наиболее конкурентоспособные модели, такие как GPT, Gemini и Claude, были ограждены собственными интерфейсами без раскрытия деталей обучения. Недавно многие учреждения предоставили в открытый доступ несколько мощных LLM, таких как LLaMA-3, сопоставимых с существующими закрытыми LLM. Однако большинство деталей (например, промежуточные контрольные точки, корпусы предварительного обучения и код обучения и т. д.) предоставлены только веса модели. Для повышения прозрачности LLM исследовательское сообщество начало предоставлять в открытый доступ по-настоящему открытые LLM (например, Pythia, Amber, OLMo), где предоставляются более подробные сведения (например, корпусы предварительного обучения и код обучения). Эти модели значительно продвинули научное изучение этих крупных моделей, включая их сильные и слабые стороны, предвзятости и риски. Однако мы наблюдаем, что существующие по-настоящему открытые LLM в задачах рассуждения, знаний и кодирования все еще уступают существующим передовым LLM с аналогичными размерами моделей. В этой связи мы представляем в открытый доступ MAP-Neo, высококвалифицированную и прозрачную двуязычную языковую модель с 7 миллиардами параметров, обученную с нуля на 4,5 триллионах высококачественных токенов. Наш MAP-Neo является первой полностью открытой двуязычной LLM с сопоставимой производительностью по сравнению с существующими передовыми LLM. Более того, мы предоставляем все детали для воспроизведения нашего MAP-Neo, включая очищенный корпус предварительного обучения, процесс очистки данных, контрольные точки и хорошо оптимизированный фреймворк обучения/оценки. Наконец, мы надеемся, что наш MAP-Neo усилит и укрепит открытое исследовательское сообщество и вдохновит на больше инноваций и творчества для облегчения дальнейшего улучшения LLM.
Оптимизация предпочтений, особенно через Обучение с Подкреплением на основе Обратной Связи от Человека (RLHF), достигла значительных успехов в выравнивании Больших Языковых Моделей (LLM) с человеческими намерениями. В отличие от выравнивания с фиксированным набором данных, сбор обратной связи онлайн от людей или ИИ по модельным поколениям обычно приводит к более способным моделям вознаграждения и лучшему выравниванию LLM в ходе итеративного процесса. Однако для достижения глобально точной модели вознаграждения требуется систематическое исследование для генерации разнообразных ответов, охватывающих огромное пространство естественного языка. Простое случайное выборочное обучение на стандартных LLM, максимизирующих вознаграждение, недостаточно для выполнения этого требования. Для решения этой проблемы мы предлагаем двухуровневую целевую функцию, оптимистично нацеленную на потенциально высоковознаграждаемые ответы для активного исследования областей вне распределения. Путем решения проблемы внутреннего уровня с репараметризованной функцией вознаграждения полученный алгоритм, названный Самоисследующие Языковые Модели (SELM), устраняет необходимость в отдельной МВ и итеративно обновляет LLM с простой целевой функцией. По сравнению с Прямой Оптимизацией Предпочтений (DPO), целевая функция SELM снижает безразличное предпочтение невидимых экстраполяций и повышает эффективность исследования. Наши экспериментальные результаты показывают, что после донастройки на моделях Zephyr-7B-SFT и Llama-3-8B-Instruct, SELM значительно улучшает производительность на бенчмарках по следованию инструкциям, таких как MT-Bench и AlpacaEval 2.0, а также на различных стандартных академических бенчмарках в различных средах. Наш код и модели доступны по адресу https://github.com/shenao-zhang/SELM.
Модели текст-видео (T2V) на основе диффузии достигли значительного успеха, однако продолжают сталкиваться с медленной скоростью выборки из-за итеративных процессов выборки. Для решения этой проблемы были предложены модели согласованности для облегчения быстрого вывода, хотя за счет качества выборки. В данной работе мы стремимся преодолеть узкое место качества модели согласованности видео (VCM) для достижения быстрой и высококачественной генерации видео. Мы представляем T2V-Turbo, который интегрирует обратную связь от смеси дифференцируемых моделей вознаграждения в процесс консистентности дистилляции (CD) предварительно обученной модели T2V. Заметим, что мы напрямую оптимизируем вознаграждения, связанные с генерациями с одним шагом, которые естественным образом возникают из вычисления потерь CD, эффективно обходя ограничения памяти, накладываемые обратным распространением градиентов через итеративный процесс выборки. Замечательно, что генерации на 4 шага из нашего T2V-Turbo достигают самого высокого общего балла на VBench, превосходя даже Gen-2 и Pika. Мы также проводим оценку от людей для подтверждения результатов, подтверждая, что генерации на 4 шага из нашего T2V-Turbo предпочтительнее, чем выборки DDIM на 50 шагов от их учителей моделей, что представляет более чем в десять раз ускорение при улучшении качества генерации видео.
Данная статья исследует в какой степени большие языковые модели (LLM) развили теорию ума более высокого порядка (ToM); способность человека рассуждать о различных умственных и эмоциональных состояниях рекурсивным образом (например, Я думаю, что ты считаешь, что она знает). В работе используется рукописный набор тестов - Многопорядковый вопросно-ответный тест по теории ума - для сравнения производительности пяти LLM с недавно собранным бенчмарком взрослых людей. Мы обнаружили, что GPT-4 и Flan-PaLM достигают уровня взрослых и почти уровня взрослых в общей производительности на задачах ToM, и что GPT-4 превосходит производительность взрослых на выводах 6-го порядка. Наши результаты подтверждают, что существует взаимодействие между размером модели и донастройкой для реализации способностей ToM, и что лучшие LLM развили обобщенную способность к ToM. Учитывая роль, которую играет теория ума более высокого порядка в широком спектре кооперативного и конкурентного человеческого поведения, эти результаты имеют значительные последствия для прикладных приложений LLM, предназначенных для пользователей.
Доминирующая структура для выравнивания больших языковых моделей (LLM), будь то через обучение с подкреплением на основе обратной связи от человека или прямую оптимизацию предпочтений, заключается в изучении данных предпочтений. Это включает создание наборов данных, где каждый элемент является четверкой, состоящей из подсказки, двух независимых ответов (завершений подсказки) и человеческого предпочтения между двумя независимыми ответами, приводящего к предпочтительному и непредпочтительному ответу. Такие данные обычно являются редкими и дорогостоящими для сбора. С другой стороны, наборы данных с однотраекторными данными, где каждый элемент является тройкой, состоящей из подсказки, ответа и обратной связи от человека, естественно более обширны. Каноническим элементом таких наборов данных является, например, ответ LLM на запрос пользователя, за которым следует обратная связь пользователя, такая как палец вверх/вниз. Следовательно, в данной работе мы предлагаем DRO, или Прямую Оптимизацию Вознаграждения, как структуру и соответствующие алгоритмы, не требующие попарных предпочтений. DRO использует простую целевую функцию среднеквадратичного отклонения, которую можно реализовать различными способами. Мы эмпирически подтверждаем наши результаты, используя языковые модели кодировщик-декодер T5, и показываем производительность DRO по сравнению с выбранными базовыми показателями, такими как Оптимизация Канемана-Тверского (KTO). Таким образом, мы подтверждаем, что DRO является простым и эмпирически убедительным методом для оптимизации политики с однотраекторными данными.
Большие языковые модели (LLM) часто генерируют галлюцинации и не способны обеспечить атрибуцию для своих генераций. Полупараметрические языковые модели, такие как kNN-LM, решают эти ограничения, улучшая вывод LM для заданного запроса с использованием его ближайших соседей из непараметрического хранилища данных. Однако эти модели часто характеризуются медленной скоростью вывода и порождают несвязные тексты. В данной статье мы представляем метод ближайших соседей спекулятивного декодирования (NEST), новый полупараметрический подход к языковому моделированию, способный включать текстовые фрагменты произвольной длины из реального мира в генерации LM и обеспечивать атрибуцию их источникам. NEST выполняет поиск токенов на уровне каждого шага вывода для вычисления полупараметрического смешанного распределения и определения перспективных продолжений фрагментов в корпусе. Затем он использует приближенную процедуру спекулятивного декодирования, которая принимает префикс извлеченного фрагмента или генерирует новый токен. NEST значительно повышает качество генерации и уровень атрибуции базовой LM на различных задачах, требующих большого объема знаний, превосходя традиционный метод kNN-LM и конкурентно справляясь с увеличением извлечения в контексте. Кроме того, NEST существенно улучшает скорость генерации, достигая ускорения в 1,8 раза во времени вывода при применении к Llama-2-Chat 70B.
В данной статье представлен EasyAnimate, передовой метод генерации видео, который использует мощь архитектуры трансформера для достижения высокопроизводительных результатов. Мы расширили фреймворк DiT, изначально разработанный для синтеза 2D изображений, чтобы адаптировать его к сложностям генерации 3D видео путем включения блока модуля движения. Он используется для захвата временной динамики, обеспечивая производство последовательных кадров и плавных переходов движения. Модуль движения может быть адаптирован к различным базовым методам DiT для генерации видео различных стилей. Он также может создавать видео с разными частотами кадров и разрешениями как во время обучения, так и на этапе вывода, подходящие как для изображений, так и для видео. Более того, мы представляем slice VAE, новый подход для сжатия временной оси, облегчающий генерацию видео большой продолжительности. В настоящее время EasyAnimate демонстрирует профессионализм в генерации видео с 144 кадрами. Мы предоставляем целостную экосистему для производства видео на основе DiT, охватывающую аспекты, такие как предварительная обработка данных, обучение VAE, обучение моделей DiT (как базовой модели, так и модели LoRA) и вывод видео end-to-end. Код доступен по ссылке: https://github.com/aigc-apps/EasyAnimate. Мы продолжаем работать над улучшением производительности нашего метода.
Интеграция нескольких генеративных базовых моделей, особенно тех, которые обучены на различных модальностях, во что-то большее, чем сумма их частей, представляет существенные трудности. Два ключевых препятствия - наличие согласованных данных (концепции, содержащие схожее значение, но выраженные по-разному в различных модальностях) и эффективное использование унимодальных представлений в междоменных генеративных задачах, не ущемляя их первоначальные унимодальные возможности. Мы предлагаем Zipper, архитектуру многобашенного декодера, которая решает эти проблемы, используя кросс-внимание для гибкого компонования мультимодальных генеративных моделей из независимо предварительно обученных унимодальных декодеров. В наших экспериментах по объединению модальностей речи и текста мы показываем, что предложенная архитектура проявляет очень конкурентоспособные результаты в сценариях с ограниченными согласованными данными текст-речь. Мы также демонстрируем гибкость нашей модели в выборочном сохранении унимодальной (например, генерация текста) производительности путем замораживания соответствующей модальной башни (например, текст). В кросс-модальных задачах, таких как автоматическое распознавание речи (ASR), где модальность вывода - текст, мы показываем, что заморозка текстового основания приводит к незначительному снижению производительности. В кросс-модальных задачах, таких как генерация текста в речь (TTS), где модальность вывода - речь, мы показываем, что использование предварительно обученного речевого основания приводит к превосходной производительности по сравнению с базовым уровнем.
Создание высокодетализированных цифровых версий голов человека является важным этапом в процессе дальнейшей интеграции виртуальных компонентов в наш повседневный мир. Конструирование таких аватаров представляет собой сложную исследовательскую задачу из-за высокого спроса на фотореализм и производительность реального времени рендеринга. В данной работе мы предлагаем Нейронные Параметрические Гауссовы Аватары (NPGA), основанный на данных подход к созданию высокодетализированных, управляемых аватаров из многоплановых видеозаписей. Мы строим наш метод вокруг трехмерного Гауссова Сплетения за его высокую эффективность рендеринга и возможность наследовать топологическую гибкость облаков точек. В отличие от предыдущих работ, мы условно привязываем динамику наших аватаров к богатому пространству выражений нейронных параметрических моделей головы (NPHM), вместо трехмерных мешей на основе 3DMMs. Для этого мы дистиллируем обратное поле деформации нашей базовой NPHM в прямые деформации, совместимые с растеризационным рендерингом. Все оставшиеся детали мелкой детализации, зависящие от выражений, изучаются из многоплановых видеозаписей. Для увеличения репрезентативной способности наших аватаров мы дополняем каноническое гауссово облако точек с использованием латентных признаков на уровне примитивов, управляющих его динамическим поведением. Для регуляризации этой увеличенной динамической экспрессивности мы предлагаем лапласианские термины на латентных признаках и предсказанных динамиках. Мы оцениваем наш метод на общедоступном наборе данных NeRSemble, демонстрируя, что NPGA значительно превосходит предыдущие передовые аватары в задаче самоповторения на 2.6 PSNR. Кроме того, мы демонстрируем точные возможности анимации из видеозаписей из реального мира.
Обучение с подкреплением на основе обратной связи от человека (RLHF) продемонстрировало большой потенциал в согласовании больших языковых моделей (LLM) с предпочтениями человека. В зависимости от доступности данных о предпочтениях, как онлайн, так и офлайн RLHF являются активными областями исследований. Одним из ключевых узких мест является понимание того, как интегрировать оценку неопределенности в функцию вознаграждения, изученную из данных о предпочтениях для RLHF, независимо от того, как эти данные о предпочтениях собираются. Хотя принципы оптимизма или пессимизма в условиях неопределенности хорошо известны в стандартном обучении с подкреплением (RL), практически реализуемая и теоретически обоснованная форма, удобная для больших языковых моделей, пока не доступна, поскольку стандартные методики построения доверительных интервалов становятся неустойчивыми при произвольных параметризациях политики. В данной статье мы представляем унифицированный подход к онлайн и офлайн RLHF - оптимизация предпочтений с инцентивами к ценности (VPO) - который регуляризует оценку максимального правдоподобия функции вознаграждения соответствующей функцией ценности, модулируемой знаком для указания выбора оптимизма или пессимизма. VPO также напрямую оптимизирует политику с неявным моделированием вознаграждения и, следовательно, имеет более простую конвейерную систему RLHF, аналогичную прямой оптимизации предпочтений. Теоретические гарантии VPO предоставляются как для онлайн, так и для офлайн настроек, соответствуя скоростям их стандартных RL аналогов. Более того, эксперименты по суммированию текста и диалогу подтверждают практичность и эффективность VPO.
Звуковое содержание является неотъемлемым элементом для мультимедийных произведений, таких как видеоигры, музыка и фильмы. Недавние модели генерации звука на основе диффузии высокого качества могут служить ценным инструментом для создателей. Однако, несмотря на производство звука высокого качества, эти модели часто страдают от медленных скоростей вывода. Этот недостаток создает дополнительную нагрузку на создателей, которые обычно совершенствуют свои звуки методом проб и ошибок, чтобы соответствовать своим художественным намерениям. Для решения этой проблемы мы представляем модели траекторий согласованности звука (SoundCTM). Наша модель позволяет гибко переходить между генерацией звука высокого качества за один шаг и превосходным качеством звука через многошаговую генерацию. Это позволяет создателям изначально управлять звуками с помощью образцов за один шаг, прежде чем совершенствовать их через многошаговую генерацию. Хотя CTM в основе достигает гибкой генерации за один шаг и многошаговой генерации, его впечатляющая производительность в значительной степени зависит от дополнительного предварительно обученного извлекателя признаков и адверсариальной потери, которые дорого стоит обучать и не всегда доступны в других областях. Таким образом, мы пересматриваем обучающую структуру CTM и представляем новое расстояние признаков, используя потерю дистилляции сети учителя. Кроме того, во время дистилляции траекторий без классификатора мы одновременно обучаем условные и безусловные модели учеников и интерполируем между этими моделями во время вывода. Мы также предлагаем обучающиеся без фреймворков для управления SoundCTM, используя его гибкую возможность выборки. SoundCTM достигает обещающей генерации звука в реальном времени за один шаг и многошаговой генерации без использования дополнительных сетей "из коробки". Более того, мы демонстрируем возможность SoundCTM генерации управляемого звука в обучающемся режиме.
Существующие методы генерации трехмерных моделей из текста на основе диффузии в основном сосредотачиваются на создании визуально реалистичных форм и внешнего вида, часто пренебрегая физическими ограничениями, необходимыми для последующих задач. Сгенерированные модели часто не удерживают равновесие при помещении в физические симуляции или при печати на 3D-принтере. Это равновесие критически важно для удовлетворения намерений пользователей в интерактивных играх, воплощенном искусственном интеллекте и робототехнике, где требуются устойчивые модели для надежного взаимодействия. Кроме того, устойчивые модели гарантируют, что трехмерные объекты, такие как фигурки для домашнего декора, могут стоять самостоятельно без необходимости дополнительных опор. Для заполнения этого пробела мы представляем Atlas3D, автоматический и легко реализуемый метод, который улучшает существующие инструменты генерации трехмерных моделей из текста на основе метода Score Distillation Sampling (SDS). Atlas3D обеспечивает создание самостоятельных трехмерных моделей, которые соответствуют физическим законам устойчивости под действием гравитации, контакта и трения. Наш подход объединяет новую функцию потерь на основе дифференцируемой симуляции с физически вдохновленной регуляризацией, служащей как модуль доработки, так и постобработки для существующих фреймворков. Мы проверяем эффективность Atlas3D через обширные задачи генерации и проверяем полученные трехмерные модели как в симулированных, так и в реальных средах.