Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем Drivable 3D Gaussian Avatars (D3GA) — первую управляемую 3D-модель человеческого тела, визуализированную с использованием гауссовых сплатов. Современные фотореалистичные управляемые аватары требуют либо точной 3D-регистрации во время обучения, либо плотных входных изображений во время тестирования, либо того и другого. Модели, основанные на нейронных полях излучения (NeRF), также часто оказываются слишком медленными для приложений телеприсутствия. В данной работе используется недавно представленная техника 3D Gaussian Splatting (3DGS) для визуализации реалистичных человеческих фигур в режиме реального времени, с использованием плотных калиброванных многовидео в качестве входных данных. Для деформации этих примитивов мы отходим от широко используемого метода деформации точек — линейной скиннинговой деформации (LBS) — и применяем классический метод объемной деформации: деформацию с использованием каркаса. Благодаря их меньшему размеру, мы управляем этими деформациями с помощью углов суставов и ключевых точек, что более подходит для приложений коммуникации. Наши эксперименты с девятью субъектами, имеющими различные формы тела, одежду и движения, демонстрируют результаты более высокого качества по сравнению с современными методами при использовании одинаковых обучающих и тестовых данных.
Мы представляем подход для генерации 360-градусного вида человека с согласованным и высоким разрешением на основе одного входного изображения. Методы, такие как NeRF и его варианты, обычно требуют видео или изображений с разных точек зрения. Большинство существующих подходов, использующих монохромный вход, либо полагаются на эталонные 3D-сканы для обучения, либо не обеспечивают 3D-согласованности. Хотя современные 3D-генеративные модели демонстрируют потенциал для создания 3D-согласованных цифровых моделей человека, эти подходы плохо обобщаются на разнообразные виды одежды, а результаты лишены фотореализма. В отличие от существующих работ, мы используем высокопроизводительные 2D-диффузионные модели, предварительно обученные для задач общего синтеза изображений, в качестве априорного представления внешнего вида одетых людей. Для достижения лучшей 3D-согласованности при сохранении идентичности входного изображения мы постепенно синтезируем несколько видов человека на основе входного изображения, восстанавливая недостающие области с помощью диффузии, управляемой формой и обусловленной силуэтом и нормалями поверхности. Затем мы объединяем эти синтезированные многовидовые изображения с помощью обратного рендеринга, чтобы получить полностью текстурированную высококачественную 3D-модель заданного человека. Эксперименты показывают, что наш подход превосходит предыдущие методы и обеспечивает фотореалистичный синтез 360-градусного вида для широкого спектра одетых людей со сложными текстурами на основе одного изображения.
Мы представляем DMV3D — новый подход к генерации 3D-моделей, использующий трансформерную модель крупномасштабной 3D-реконструкции для устранения шума в многовидовой диффузии. Наша модель реконструкции включает в себя представление NeRF в виде триплейна и способна устранять шум в зашумленных многовидовых изображениях через реконструкцию и рендеринг NeRF, достигая одноэтапной генерации 3D-моделей за ~30 секунд на одном GPU A100. Мы обучаем DMV3D на крупномасштабных наборах данных многовидовых изображений объектов с высокой степенью разнообразия, используя только потери на реконструкцию изображений, без доступа к 3D-активам. Мы демонстрируем передовые результаты в задаче реконструкции по одному изображению, где требуется вероятностное моделирование невидимых частей объекта для генерации разнообразных реконструкций с четкими текстурами. Также мы показываем высококачественные результаты генерации 3D-моделей по тексту, превосходящие предыдущие модели 3D-диффузии. Наш проект доступен по адресу: https://justimyhxu.github.io/projects/dmv3d/.
Модели диффузии аудио способны синтезировать широкий спектр звуков. Существующие модели часто работают в латентном пространстве с каскадными модулями восстановления фазы для реконструкции звуковой волны. Это создает трудности при генерации высококачественного аудио. В данной статье мы предлагаем EDMSound, генеративную модель на основе диффузии в спектрограммном пространстве в рамках подхода уточненных моделей диффузии (EDM). В сочетании с эффективным детерминированным сэмплером мы достигли схожего показателя расстояния Фреше для аудио (FAD) с лучшими базовыми моделями всего за 10 шагов и достигли наилучших результатов за 50 шагов на бенчмарке генерации фоновых звуков DCASE2023. Мы также выявили потенциальную проблему моделей генерации аудио на основе диффузии: они склонны генерировать образцы с высокой перцептивной схожестью с данными из обучающей выборки. Страница проекта: https://agentcooper2002.github.io/EDMSound/
Диалоговые ролевые игры (RPG) требуют мощного повествования. Создание сюжетов для таких игр может занимать годы и обычно вовлекает большую творческую команду. В данной работе мы демонстрируем потенциал крупных генеративных текстовых моделей для помощи в этом процессе. GRIM, прототип GRaph-based Interactive narrative visualization system for gaMes (графовая интерактивная система визуализации повествования для игр), создает насыщенный граф сюжета с ветвящимися линиями, которые соответствуют высокоуровневому описанию сюжета и ограничениям, заданным разработчиком. Дизайнеры игр могут интерактивно редактировать граф, автоматически генерируя новые подграфы, которые вписываются в правки в рамках исходного повествования и ограничений. Мы демонстрируем использование GRIM в сочетании с GPT-4, создавая ветвящиеся сюжеты для четырех известных историй с различными контекстуальными ограничениями.
Дополнительный потенциал крупных языковых моделей (LLM) предполагает, что готовые к использованию LLM обладают разнородной экспертизой в широком спектре областей и задач, что позволяет ансамблю LLM достигать стабильно лучших результатов. Существующие методы ансамблирования для LLM в основном сосредоточены на ранжировании выходных данных с использованием моделей вознаграждения, что приводит к значительным вычислительным затратам. Для решения этой проблемы мы возвращаемся к изучению дополнительного потенциала LLM и детализируем его, извлекая скрытую экспертизу с помощью готовых моделей вознаграждения. Мы предлагаем Zooter — метод маршрутизации, управляемый вознаграждением, который использует данные о вознаграждениях на обучающих запросах для обучения функции маршрутизации, способной точно распределять каждый запрос к LLM, обладающей соответствующей экспертизой. Мы также интегрируем улучшение меток на основе тегов, чтобы снизить шум, вызванный неопределенностью при использовании вознаграждений в качестве серебряного супервизии. Zooter демонстрирует вычислительную эффективность на этапе вывода, так как вносит лишь незначительные дополнительные вычислительные затраты на функцию маршрутизации по сравнению с методами ранжирования на основе моделей вознаграждения. Мы оцениваем Zooter на комплексной коллекции бенчмарков, включающей 26 подмножеств в различных областях и задачах. Zooter превосходит лучшую одиночную модель в среднем и занимает первое место в 44% задач, даже опережая несколько методов ранжирования на основе моделей вознаграждения.
Языковые технологии, которые точно моделируют динамику событий, должны выполнять рассуждения на основе здравого смысла. Существующие работы, оценивающие способность к такому рассуждению, сосредоточены на выводах о типичных, повседневных ситуациях. Чтобы вместо этого исследовать способность моделировать необычные, неожиданные и маловероятные ситуации, мы изучаем задачу абдуктивного рассуждения в нестандартных условиях. В рамках этой задачи, получив контекст с неожиданным исходом, необходимо сгенерировать объяснение на естественном языке, которое делает этот исход более вероятным в данном контексте. Для этого мы создаем и публикуем новый корпус на английском языке под названием UNcommonsense. Мы анализируем различия в качестве объяснений, созданных людьми и лучшими крупными языковыми моделями, и обнаруживаем, что объяснения, написанные людьми с использованием моделей, достигают наивысшего качества за счет баланса между специфичностью и разнообразием. Наконец, мы экспериментируем с несколькими алгоритмами онлайн-обучения с подражанием, чтобы обучить открытые и доступные языковые модели для этой задачи. По сравнению с базовым подходом тонкой настройки с учителем, эти методы последовательно снижают частоту ошибок как в стандартных, так и в нестандартных задачах абдуктивного рассуждения, что подтверждается оценками экспертов.
Эффективная настройка параметров стала важным подходом для адаптации крупных языковых моделей к конкретным задачам. Большинство предыдущих работ рассматривали добавление плотных обучаемых параметров, где все параметры используются для адаптации к определённой задаче. Мы обнаружили, что на практике это менее эффективно, как показал пример LoRA, где введение большего количества обучаемых параметров не приносит пользы. Вдохновлённые этим, мы исследуем важность использования "разреженных" вычислений и предлагаем SiRA: разреженную смесь низкоранговой адаптации. SiRA использует разреженную смесь экспертов (SMoE) для повышения производительности LoRA. В частности, она применяет маршрутизацию к топ-k экспертам с ограничением ёмкости, которое ограничивает максимальное количество токенов, обрабатываемых каждым экспертом. Мы предлагаем новый и простой метод исключения экспертов на основе сети управления для снижения проблемы переобучения. В ходе обширных экспериментов мы подтверждаем, что SiRA превосходит LoRA и другие подходы, основанные на смеси экспертов, в различных задачах, как одиночных, так и многозадачных.
Мощные большие языковые модели способствовали развитию помощников для письма, которые обещают значительно повысить качество и эффективность составления текстов и коммуникации. Однако препятствием для эффективной помощи является отсутствие персонализации выходных данных языковых моделей под стиль общения автора и его специализированные знания. В данной статье мы решаем эту проблему, предлагая PEARL — персонализированного помощника для письма на основе языковой модели, усиленной механизмом извлечения, калиброванным на генерацию. Наш механизм извлечения обучается выбирать исторические документы, написанные пользователем, для дополнения запросов таким образом, чтобы они с наибольшей вероятностью персонализировали генерацию языковой модели под запрос пользователя. Мы предлагаем два ключевых новшества для обучения нашего механизма извлечения: 1) Метод выбора обучающих данных, который идентифицирует запросы пользователя, которые могут выиграть от персонализации, и документы, обеспечивающие эту выгоду; и 2) Целевую функцию на основе масштабно-калиброванной дивергенции Кульбака-Лейблера, которая гарантирует, что наш механизм извлечения точно отслеживает полезность документа для персонализированной генерации. Мы демонстрируем эффективность PEARL в генерации персонализированных постов для рабочих социальных сетей и комментариев на Reddit. Наконец, мы показываем потенциал механизма извлечения, калиброванного на генерацию, в качестве предсказателя производительности и дальнейшего улучшения низкокачественных генераций с помощью цепочки языковых моделей.
Последние достижения в области крупных языковых моделей на основе архитектуры Transformer значительно продвинули вперед генерацию естественного языка. Однако для декодирования K токенов авторегрессивной модели требуется K последовательных прямых проходов, что может стать узким местом в производительности для больших языковых моделей. Многие исследования в области неавторегрессивных (NAR) моделей направлены на устранение этого ограничения, связанного с последовательностью, хотя многие из них сосредоточены на специализированных архитектурах в рамках контролируемых бенчмарков. В данной работе мы изучили неконтролируемое предварительное обучение для неавторегрессивных моделей T5 с использованием метода развернутого шумоподавления и продемонстрировали их передовые результаты в задачах генерации, таких как генерация вопросов на основе SQuAD и суммаризация текста в XSum.
Для поддержания доверия пользователей крупные языковые модели (LLM) должны сигнализировать о низкой уверенности в случаях, когда они ошибаются, вместо того чтобы вводить пользователя в заблуждение. Стандартный подход к оценке уверенности заключается в использовании вероятностей softmax этих моделей, однако по состоянию на ноябрь 2023 года передовые LLM, такие как GPT-4 и Claude-v1.3, не предоставляют доступ к этим вероятностям. Мы сначала исследуем метод получения уверенности лингвистически — запрашивая у LLM её уверенность в ответе, — который показывает приемлемые результаты (80,5% AUC на GPT-4 в среднем по 12 наборам данных для ответов на вопросы — на 7% выше случайного базового уровня), но оставляет пространство для улучшений. Затем мы исследуем использование суррогатной модели уверенности — модели, для которой у нас есть вероятности, чтобы оценить уверенность исходной модели в заданном вопросе. Удивительно, но даже несмотря на то, что эти вероятности получены от другой и зачастую менее мощной модели, этот метод приводит к более высокому AUC, чем лингвистическая уверенность, на 9 из 12 наборов данных. Наш лучший метод, объединяющий лингвистическую уверенность и вероятности суррогатной модели, обеспечивает передовые оценки уверенности на всех 12 наборах данных (84,6% средний AUC на GPT-4).
Крупные языковые модели (LLM) открыли новую эру в области обработки естественного языка, демонстрируя выдающиеся результаты в задачах, связанных с пониманием и генерацией текста. Однако они сталкиваются с трудностями при работе с хаотичными контекстами (например, с отвлекающими элементами, а не с длинными нерелевантными контекстами), что приводит к непреднамеренному упущению определённых деталей в таких условиях. В ответ на эти вызовы мы представляем стратегию "Нить мысли" (Thread of Thought, ThoT), вдохновлённую когнитивными процессами человека. ThoT систематически сегментирует и анализирует длинные контексты, умело выбирая релевантную информацию. Эта стратегия служит универсальным "подключаемым" модулем, который легко интегрируется с различными LLM и методами промптинга. В экспериментах мы используем наборы данных PopQA и EntityQ, а также собранный нами набор данных для многозадачных диалогов (Multi-Turn Conversation Response, MTCR), чтобы продемонстрировать, что ThoT значительно улучшает качество рассуждений по сравнению с другими методами промптинга.
Оценка больших языковых моделей (LLM) представляет собой сложную задачу, особенно с учетом тонкостей понимания естественного языка и ожиданий высокоуровневого рассуждения. Традиционные методы оценки обычно опираются на парадигмы, основанные на человеческом суждении, моделях или автоматических метриках, каждая из которых имеет свои преимущества и недостатки. Мы представляем систему "Fusion-Eval", которая использует LLM не только для прямых оценок, но и для умелого объединения выводов от различных оценщиков. Это придает Fusion-Eval гибкость, позволяя ей эффективно работать с разнообразными задачами и оптимально использовать множественные источники. В тестах на наборе данных SummEval Fusion-Eval достигла коэффициента корреляции Спирмена 0.96, превзойдя другие методы оценки. Успех Fusion-Eval подчеркивает потенциал LLM для создания оценок, которые тесно соответствуют человеческим представлениям, устанавливая новый стандарт в области оценки LLM.