Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

Video-LLaMA: Инструктивно-настроенная аудиовизуальная языковая модель для понимания видео
Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding

Jun 5, 2023

Hang Zhang, Xin Li, Lidong Bing

198

Мы представляем Video-LLaMA, мультимодальную платформу, которая наделяет крупные языковые модели (LLM) способностью понимать как визуальный, так и аудиоконтент в видео. Video-LLaMA инициализирует кросс-модальное обучение с использованием замороженных предобученных визуальных и аудио-энкодеров, а также замороженных LLM. В отличие от предыдущих моделей, таких как MiniGPT-4~zhu2023minigpt и LLaVA~liu2023visualit, которые сосредоточены на понимании статических изображений, Video-LLaMA решает две задачи в понимании видео: (1) захват временных изменений в визуальных сценах, (2) интеграция аудиовизуальных сигналов. Для первой задачи мы предлагаем Video Q-former, который расширяет предобученный энкодер изображений до видео-энкодера, и вводим задачу генерации текста из видео для изучения соответствия между видео и языком. Для второй задачи мы используем ImageBind~girdhar2023imagebind в качестве предобученного аудио-энкодера, который демонстрирует исключительную эффективность в выравнивании различных модальностей в общем пространстве эмбеддингов. Затем мы вводим Audio Q-former для изучения аудио-запросных токенов. Чтобы выровнять выходные данные как визуального, так и аудио-энкодера с пространством эмбеддингов LLM, мы обучаем Video-LLaMA на крупномасштабном наборе данных с описаниями изображений и высококачественном наборе данных для настройки инструкций на основе визуальной информации. Мы обнаружили, что Video-LLaMA демонстрирует способность воспринимать и понимать видеоконтент, генерируя осмысленные ответы, основанные на визуальной и аудиоинформации, присутствующей в видео. Это подчеркивает потенциал Video-LLaMA как перспективного прототипа для аудиовизуальных ИИ-ассистентов. Наш код, предобученная модель и демо доступны по адресу https://github.com/DAMO-NLP-SG/Video-LLaMA.

Технический отчет по Polyglot-Ko: Модели обработки корейского языка с открытым исходным кодом для работы с большими объемами данных
A Technical Report for Polyglot-Ko: Open-Source Large-Scale Korean Language Models

Jun 4, 2023

Hyunwoong Ko, Kichang Yang, Minho Ryu, Taekyoon Choi, Seungmu Yang, jiwung Hyun, Sungho Park

111

Polyglot — это новаторский проект, направленный на улучшение производительности многоязычных языковых моделей для неанглийских языков. Несмотря на доступность различных многоязычных моделей, таких как mBERT (Devlin et al., 2019), XGLM (Lin et al., 2022) и BLOOM (Scao et al., 2022), исследователи и разработчики часто прибегают к созданию одноязычных моделей для своих языков из-за неудовлетворённости текущими возможностями многоязычных моделей в работе с неанглийскими языками. Стремясь устранить этот пробел, мы разрабатываем продвинутые многоязычные языковые модели, которые обеспечивают улучшенную производительность для неанглийских языков. В данной статье мы представляем модели Polyglot Korean, которые сосредоточены на конкретном языке, а не на многоязычности. В сотрудничестве с TUNiB наша команда собрала 1,2 ТБ корейских данных, тщательно отобранных для нашего исследования. Мы сознательно решили сосредоточиться на разработке корейских моделей, прежде чем переходить к многоязычным. Этот выбор был обусловлен несколькими факторами: во-первых, корейские модели позволили провести сравнение производительности с существующими многоязычными моделями; и, наконец, они отвечали конкретным потребностям корейских компаний и исследователей. В этой статье представлена наша работа по созданию моделей Polyglot Korean, которые предлагают шаги к устранению разрыва в производительности для неанглийских языков в многоязычных языковых моделях.

Дедуктивная верификация цепочек рассуждений
Deductive Verification of Chain-of-Thought Reasoning

Jun 6, 2023

Zhan Ling, Yunhao Fang, Xuanlin Li, Zhiao Huang, Mingu Lee, Roland Memisevic, Hao Su

Крупные языковые модели (LLMs) значительно выигрывают от использования метода Chain-of-Thought (CoT) при выполнении различных задач, требующих рассуждений. Хотя CoT позволяет моделям генерировать более детализированные процессы рассуждений, акцент на промежуточных шагах может непреднамеренно приводить к появлению галлюцинаций и накоплению ошибок, что ограничивает способность моделей решать сложные задачи. Вдохновленные тем, как люди применяют тщательные и методичные дедуктивные логические рассуждения для решения задач, мы стремимся научить языковые модели выполнять явные и строгие дедуктивные рассуждения, а также обеспечивать достоверность их процесса рассуждений через самопроверку. Однако прямое подтверждение валидности всего процесса дедуктивных рассуждений является сложной задачей, даже для продвинутых моделей, таких как ChatGPT. В связи с этим мы предлагаем разбить процесс проверки рассуждений на ряд пошаговых подпроцессов, каждый из которых получает только необходимый контекст и предпосылки. Для облегчения этой процедуры мы предлагаем Natural Program — формат дедуктивных рассуждений на основе естественного языка. Наш подход позволяет моделям генерировать точные шаги рассуждений, где последующие шаги более строго основываются на предыдущих. Он также позволяет языковым моделям выполнять самопроверку рассуждений пошагово. Интегрируя этот процесс проверки в каждый этап дедуктивных рассуждений, мы значительно повышаем строгость и достоверность генерируемых шагов рассуждений. В ходе этого процесса мы также улучшаем правильность ответов на сложные задачи. Код будет доступен по адресу https://github.com/lz1oceani/verify_cot.

Mega-TTS: Масштабируемый синтез речи из текста в условиях нулевого обучения с использованием внутренней индуктивной предвзятости
Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive Bias

Jun 6, 2023

Ziyue Jiang, Yi Ren, Zhenhui Ye, Jinglin Liu, Chen Zhang, Qian Yang, Shengpeng Ji, Rongjie Huang, Chunfeng Wang, Xiang Yin, Zejun Ma, Zhou Zhao

Масштабирование систем преобразования текста в речь (TTS) на большие и разнородные наборы данных доказало свою высокую эффективность в достижении обобщения тембра и стиля речи, особенно в задачах zero-shot TTS. Однако предыдущие работы обычно кодируют речь в латентное пространство с использованием аудиокодеков и применяют авторегрессионные языковые модели или модели диффузии для генерации, что игнорирует внутреннюю природу речи и может приводить к ухудшению качества или неуправляемым результатам. Мы утверждаем, что речь может быть разложена на несколько атрибутов (например, содержание, тембр, просодия и фаза), и каждый из них должен моделироваться с использованием модулей с соответствующими индуктивными предпосылками. С этой точки зрения мы тщательно разработали новую и масштабируемую систему zero-shot TTS под названием Mega-TTS, которая обучается на больших разнородных данных и моделирует различные атрибуты разными способами: 1) Вместо использования латентного представления, закодированного аудиокодеком, мы выбираем спектрограмму, так как она хорошо разделяет фазу и другие атрибуты. Фаза может быть корректно восстановлена с помощью GAN-вокодера и не требует моделирования языковой моделью. 2) Мы моделируем тембр с использованием глобальных векторов, поскольку тембр является глобальным атрибутом, который изменяется медленно во времени. 3) Мы также используем акустическую модель на основе VQGAN для генерации спектрограммы и языковую модель латентных кодов для аппроксимации распределения просодии, так как просодия быстро изменяется в пределах предложения, а языковые модели способны улавливать как локальные, так и долгосрочные зависимости. Мы масштабировали Mega-TTS на мультидоменные наборы данных с 20 тысячами часов речи и оценили её производительность на незнакомых дикторах. Экспериментальные результаты показывают, что Mega-TTS превосходит современные системы TTS в задачах zero-shot TTS, редактирования речи и кросс-языкового TTS, демонстрируя превосходную естественность, устойчивость и сходство с голосом диктора благодаря правильным индуктивным предпосылкам каждого модуля. Аудиообразцы доступны по ссылке: https://mega-tts.github.io/demo-page.

MotionDiffuser: Управляемое прогнозирование движения множества агентов с использованием диффузии
MotionDiffuser: Controllable Multi-Agent Motion Prediction using Diffusion

Jun 5, 2023

Chiyu Max Jiang, Andre Cornman, Cheolho Park, Ben Sapp, Yin Zhou, Dragomir Anguelov

Мы представляем MotionDiffuser — диффузионное представление для совместного распределения будущих траекторий множества агентов. Такое представление имеет несколько ключевых преимуществ: во-первых, наша модель обучается на высоко мультимодальном распределении, которое охватывает разнообразные будущие исходы. Во-вторых, простая архитектура предсказателя требует только одного целевого показателя обучения — L2-потери — и не зависит от якорных траекторий. В-третьих, наша модель способна обучать совместное распределение для движения множества агентов в перестановочно-инвариантной манере. Кроме того, мы используем сжатое представление траекторий с помощью PCA, что улучшает производительность модели и позволяет эффективно вычислять точную логарифмическую вероятность выборки. Впоследствии мы предлагаем общую структуру ограниченной выборки, которая позволяет управлять выборкой траекторий на основе дифференцируемых функций стоимости. Эта стратегия открывает множество приложений, таких как наложение правил и физических априорных условий или создание специализированных сценариев симуляции. MotionDiffuser может быть интегрирован с существующими базовыми архитектурами для достижения наилучших результатов в прогнозировании движения. Мы получаем результаты, соответствующие современному уровню, в задаче прогнозирования движения множества агентов на наборе данных Waymo Open Motion Dataset.

HeadSculpt: Создание 3D-аватаров голов с использованием текста
HeadSculpt: Crafting 3D Head Avatars with Text

Jun 5, 2023

Xiao Han, Yukang Cao, Kai Han, Xiatian Zhu, Jiankang Deng, Yi-Zhe Song, Tao Xiang, Kwan-Yee K. Wong

В последнее время методы генерации 3D-контента на основе текстовых описаний достигли значительных успехов в создании высококачественных текстур и геометрии, благодаря широкому распространению крупных моделей для обработки изображений и текста. Однако существующие подходы всё ещё сталкиваются с трудностями в создании высокодетализированных 3D-аватаров голов в двух аспектах: (1) Они в основном полагаются на предобученные модели диффузии для генерации изображений из текста, но не учитывают необходимую 3D-осведомлённость и априорные знания о структуре головы. Это приводит к несоответствиям и геометрическим искажениям в создаваемых аватарах. (2) Они недостаточно эффективны в тонкой настройке. Это связано с унаследованными ограничениями предобученных 2D-моделей диффузии, которые становятся более заметными при работе с 3D-аватарами голов. В данной работе мы решаем эти проблемы, представляя универсальный подход от грубой к детальной обработке, названный HeadSculpt, для создания (т.е. генерации и редактирования) 3D-аватаров голов на основе текстовых запросов. В частности, мы сначала наделяем модель диффузии 3D-осведомлённостью, используя контроль на основе ключевых точек и обученное текстовое представление, описывающее внешний вид головы сзади, что позволяет генерировать 3D-согласованные аватары. Далее мы предлагаем новую стратегию дистилляции оценок для редактирования с сохранением идентичности, которая оптимизирует текстурированную сетку с использованием техники дифференцируемого рендеринга высокого разрешения. Это позволяет сохранять идентичность аватара, следуя инструкциям редактирования. Мы демонстрируем превосходную детализацию и возможности редактирования HeadSculpt через всесторонние эксперименты и сравнения с существующими методами.

PolyVoice: Языковые модели для перевода речи в речь
PolyVoice: Language Models for Speech to Speech Translation

Jun 5, 2023

Qianqian Dong, Zhiying Huang, Chen Xu, Yunlong Zhao, Kexin Wang, Xuxin Cheng, Tom Ko, Qiao Tian, Tang Li, Fengpeng Yue, Ye Bai, Xi Chen, Lu Lu, Zejun Ma, Yuping Wang, Mingxuan Wang, Yuxuan Wang

Мы представляем PolyVoice, основанную на языковых моделях платформу для системы перевода "речь-в-речь" (S2ST). Наша платформа состоит из двух языковых моделей: модели перевода и модели синтеза речи. Мы используем дискретизированные речевые единицы, которые генерируются полностью неконтролируемым способом, что позволяет применять нашу платформу для языков без письменности. Для части синтеза речи мы адаптируем существующий подход VALL-E X и создаем аудио языковую модель на основе речевых единиц. Это наделяет нашу платформу способностью сохранять голосовые характеристики и стиль речи исходного аудио. Мы тестируем нашу систему на парах китайский → английский и английский → испанский. Экспериментальные результаты показывают, что наша система способна генерировать речь с высоким качеством перевода и звучания. Примеры аудио доступны по ссылке: https://speechtranslation.github.io/polyvoice.

Статическая оценка завершения кода с использованием крупных языковых моделей
A Static Evaluation of Code Completion by Large Language Models

Jun 5, 2023

Hantian Ding, Varun Kumar, Yuchen Tian, Zijian Wang, Rob Kwiatkowski, Xiaopeng Li, Murali Krishna Ramanathan, Baishakhi Ray, Parminder Bhatia, Sudipta Sengupta, Dan Roth, Bing Xiang

Крупные языковые модели, обученные на коде, продемонстрировали значительный потенциал для повышения производительности разработчиков программного обеспечения. Было предложено несколько исполняемых бенчмарков для оценки функциональной корректности кода, сгенерированного моделями, на простых программных задачах. Тем не менее, проведение аналогичной оценки на сложных реальных проектах является затратным с точки зрения ресурсов выполнения. С другой стороны, статические анализаторы, такие как линтеры, которые могут обнаруживать ошибки без запуска программы, недостаточно изучены для оценки моделей генерации кода. В данной работе мы предлагаем статическую структуру оценки для количественного определения статических ошибок в завершениях кода на Python, используя абстрактные синтаксические деревья. По сравнению с исполняемой оценкой, наш метод не только более эффективен, но и применим к коду в реальных условиях. Для экспериментов мы собираем контекст кода из открытых репозиториев, чтобы сгенерировать миллион тел функций с использованием публичных моделей. Наш статический анализ показывает, что наиболее распространёнными ошибками, допускаемыми языковыми моделями, являются "Неопределённое имя" и "Неиспользуемая переменная". В ходе обширных исследований мы также демонстрируем влияние температуры сэмплирования, размера модели и контекста на статические ошибки в завершениях кода.

Удивительная эффективность диффузионных моделей для оценки оптического потока и монокулярной глубины
The Surprising Effectiveness of Diffusion Models for Optical Flow and Monocular Depth Estimation

Jun 2, 2023

Saurabh Saxena, Charles Herrmann, Junhwa Hur, Abhishek Kar, Mohammad Norouzi, Deqing Sun, David J. Fleet

Денойзинговые диффузионные вероятностные модели произвели революцию в генерации изображений благодаря своей впечатляющей точности и разнообразию. Мы демонстрируем, что они также превосходно справляются с оценкой оптического потока и монохромной глубины, что удивительно, без использования специализированных архитектур и функций потерь, которые традиционно применяются для этих задач. В отличие от точечных оценок, характерных для классических регрессионных методов, диффузионные модели также позволяют проводить Монте-Карло-вывод, например, учитывая неопределенность и неоднозначность в потоке и глубине. Благодаря самоконтролируемому предварительному обучению, комбинированному использованию синтетических и реальных данных для контролируемого обучения, а также техническим инновациям (заполнение пропусков и пошаговое денойзинговое диффузионное обучение) для работы с зашумленными и неполными обучающими данными, а также простой форме постепенного уточнения, можно обучить современные диффузионные модели для оценки глубины и оптического потока. Обширные эксперименты сосредоточены на количественной производительности по сравнению с эталонными тестами, анализе влияния различных компонентов, а также на способности модели учитывать неопределенность и многомодальность, а также восстанавливать пропущенные значения. Наша модель, DDVM (Denoising Diffusion Vision Model), достигает современного уровня относительной ошибки глубины 0.074 на тесте NYU для помещений и показателя Fl-all 3.26\% на тесте KITTI для оптического потока, что примерно на 25\% лучше, чем у лучшего опубликованного метода. Обзор доступен по ссылке: https://diffusion-vision.github.io.

Бинарная и тернарная генерация естественного языка
Binary and Ternary Natural Language Generation

Jun 2, 2023

Zechun Liu, Barlas Oguz, Aasish Pappu, Yangyang Shi, Raghuraman Krishnamoorthi

Троичные и бинарные нейронные сети позволяют выполнять вычисления без умножений и обещают многократное повышение эффективности по сравнению с сетями с полной точностью, если они реализованы на специализированном оборудовании. Однако, поскольку как пространство параметров, так и пространство выходных данных сильно дискретизированы, такие сети оказались крайне сложными для оптимизации. Эти трудности усугубляются для класса моделей генерации текста на основе трансформеров из-за чувствительности операции внимания к квантованию и эффектов накопления шума при авторегрессивном декодировании в пространстве выходных данных с высокой кардинальностью. Мы подходим к проблеме с использованием статистически обоснованного квантования для весов и эластичного квантования активаций и демонстрируем первые троичные и бинарные модели трансформеров для задач суммаризации и машинного перевода. Наша троичная модель BART base достигает оценки R1 41 на бенчмарке CNN/DailyMail, что всего на 3.9 балла отстает от полной модели, при этом она в 16 раз более эффективна. Наша бинарная модель, хотя и менее точная, достигает значимой оценки 35.6. Для машинного перевода мы получили оценки BLEU 21.7 и 17.6 на бенчмарке WMT16 En-Ro, по сравнению с оценкой 26.8 для модели mBART с полной точностью. Мы также сравниваем наш подход в условиях 8-битных активаций, где наши модели с троичными и даже бинарными весами могут соответствовать или превосходить лучшие существующие модели с 8-битными весами в литературе. Наш код и модели доступны по адресу: https://github.com/facebookresearch/Ternary_Binary_Transformer

LEACE: Идеальное линейное удаление концепций в замкнутой форме
LEACE: Perfect linear concept erasure in closed form

Jun 6, 2023

Nora Belrose, David Schneider-Joseph, Shauli Ravfogel, Ryan Cotterell, Edward Raff, Stella Biderman

Удаление концепций направлено на устранение заданных признаков из представления. Этот подход может быть использован для повышения справедливости (например, предотвращения использования классификатором информации о поле или расе) и интерпретируемости (например, удаления концепции для наблюдения изменений в поведении модели). В данной статье мы представляем метод LEAst-squares Concept Erasure (LEACE), который в замкнутой форме гарантированно предотвращает обнаружение концепции всеми линейными классификаторами, нанося при этом минимальный ущерб представлению. Мы применяем LEACE к большим языковым моделям с помощью новой процедуры, называемой "очистка концепций", которая удаляет информацию о целевой концепции из каждого слоя сети. Мы демонстрируем полезность нашего метода на двух задачах: измерение зависимости языковых моделей от информации о частях речи и снижение гендерной предвзятости в эмбеддингах BERT. Код доступен по адресу https://github.com/EleutherAI/concept-erasure.

Управление естественным языком через синтез программ
Natural Language Commanding via Program Synthesis

Jun 6, 2023

Apurva Gandhi, Thong Q. Nguyen, Huitian Jiao, Robert Steen, Ameya Bhatawdekar

Мы представляем Semantic Interpreter — удобную для естественного языка ИИ-систему для программ повышения продуктивности, таких как Microsoft Office, которая использует большие языковые модели (LLM) для выполнения намерений пользователя через функции приложений. Хотя LLM отлично справляются с пониманием намерений пользователя, выраженных на естественном языке, они недостаточны для реализации специфичных для приложений намерений, которые требуют большего, чем преобразования текста в текст. Поэтому мы вводим Office Domain Specific Language (ODSL) — краткий, высокоуровневый язык, специализированный для выполнения действий и взаимодействия с объектами в приложениях Office. Semantic Interpreter использует метод построения промптов Analysis-Retrieval с LLM для синтеза программ, переводя высказывания пользователя на естественном языке в программы ODSL, которые могут быть транслированы в API приложений и затем выполнены. Основное внимание в нашем обсуждении уделено исследовательскому изучению для Microsoft PowerPoint.

Крупные языковые модели для работы с кодом не справляются с завершением кода, содержащего потенциальные ошибки
Large Language Models of Code Fail at Completing Code with Potential Bugs

Jun 6, 2023

Tuan Dinh, Jinman Zhao, Samson Tan, Renato Negrinho, Leonard Lausen, Sheng Zha, George Karypis

Крупные языковые модели для работы с кодом (Code-LLMs) недавно совершили значительный прорыв в области автодополнения кода — фундаментальной функции программной помощи и интеллектуальной работы с кодом. Однако большинство существующих исследований игнорируют возможное наличие ошибок в контексте кода, используемого для генерации, что неизбежно в процессе разработки программного обеспечения. В связи с этим мы вводим и изучаем проблему автодополнения кода с ошибками, вдохновляясь реалистичным сценарием предложения кода в реальном времени, где контекст кода содержит потенциальные ошибки — антипаттерны, которые могут превратиться в баги в завершённой программе. Для систематического изучения этой задачи мы представляем два набора данных: один с синтетическими ошибками, полученными из изменений операторов, влияющих на семантику (buggy-HumanEval), и другой с реалистичными ошибками, извлечёнными из пользовательских решений задач по программированию (buggy-FixEval). Мы обнаруживаем, что наличие потенциальных ошибок значительно ухудшает качество генерации высокопроизводительных Code-LLMs. Например, процент успешного прохождения тестовых случаев в buggy-HumanEval для модели CodeGen-2B-mono снижается более чем на 50% при наличии всего одной потенциальной ошибки в контексте. Наконец, мы исследуем несколько постобработочных методов для смягчения негативного эффекта потенциальных ошибок и обнаруживаем, что после их применения остаётся значительный разрыв в производительности.

Neuralangelo: Высококачественная нейронная реконструкция поверхностей
Neuralangelo: High-Fidelity Neural Surface Reconstruction

Jun 5, 2023

Zhaoshuo Li, Thomas Müller, Alex Evans, Russell H. Taylor, Mathias Unberath, Ming-Yu Liu, Chen-Hsuan Lin

Нейронная реконструкция поверхностей доказала свою эффективность для восстановления плотных 3D-поверхностей с помощью нейронного рендеринга на основе изображений. Однако современные методы сталкиваются с трудностями при восстановлении детализированных структур реальных сцен. Для решения этой проблемы мы представляем Neuralangelo, который сочетает в себе мощь представления многоразрешающих 3D-хэш-сеток с нейронным рендерингом поверхностей. Два ключевых компонента делают наш подход возможным: (1) численные градиенты для вычисления производных высшего порядка в качестве операции сглаживания и (2) оптимизация от грубого к детальному на хэш-сетках, управляющих различными уровнями детализации. Даже без вспомогательных данных, таких как глубина, Neuralangelo эффективно восстанавливает плотные 3D-структуры поверхностей из многовидовых изображений с точностью, значительно превосходящей предыдущие методы, что позволяет детализированно реконструировать крупномасштабные сцены на основе RGB-видеозаписей.

SAM3D: Обнаружение 3D-объектов с нулевым обучением с использованием модели Segment Anything
SAM3D: Zero-Shot 3D Object Detection via Segment Anything Model

Jun 4, 2023

Dingyuan Zhang, Dingkang Liang, Hongcheng Yang, Zhikang Zou, Xiaoqing Ye, Zhe Liu, Xiang Bai

С развитием крупных языковых моделей многие впечатляющие лингвистические системы, такие как ChatGPT, получили широкое распространение и достигли удивительных успехов в решении множества задач, демонстрируя невероятную мощь базовых моделей. В духе раскрытия потенциала базовых моделей для задач компьютерного зрения недавно была предложена модель Segment Anything Model (SAM) — базовая модель для сегментации изображений, которая демонстрирует сильные способности к нулевому обучению (zero-shot) на множестве двумерных задач. Однако вопрос о том, можно ли адаптировать SAM к задачам трехмерного зрения, особенно к задаче обнаружения 3D объектов, остается неисследованным. Вдохновленные этой идеей, в данной работе мы исследуем адаптацию нулевого обучения SAM к задаче обнаружения 3D объектов. Мы предлагаем конвейер обработки данных в представлении "вид сверху" (BEV), основанный на SAM, для обнаружения объектов и получаем обнадеживающие результаты на крупном наборе данных Waymo Open Dataset. Как ранняя попытка, наш метод делает шаг в направлении обнаружения 3D объектов с использованием базовых моделей компьютерного зрения и открывает возможности для раскрытия их потенциала в задачах трехмерного зрения. Код доступен по адресу https://github.com/DYZhang09/SAM3D.

Модели GPT в робототехнических приложениях: система жестикуляции в режиме реального времени для чат-ботов
GPT Models Meet Robotic Applications: Co-Speech Gesturing Chat System

May 10, 2023

Naoki Wake, Atsushi Kanehira, Kazuhiro Sasabuchi, Jun Takamatsu, Katsushi Ikeuchi

В данной технической статье представлена система чат-бота, которая использует последние достижения в области крупномасштабных языковых моделей (LLM), таких как GPT-3 и ChatGPT. Система интегрирована с генератором сопутствующих жестов, который выбирает подходящие жесты на основе концептуального смысла речи. Наша цель — исследовать способы применения последних достижений в области LLM для практических робототехнических приложений, что способствует развитию как чат-ботов, так и самих LLM. В частности, это позволяет создавать высокоотзывчивые системы чат-ботов, используя LLM, и добавляет визуальные эффекты в пользовательский интерфейс LLM в качестве дополнительной ценности. Исходный код системы доступен на GitHub для нашего внутреннего робота (https://github.com/microsoft/LabanotationSuite/tree/master/MSRAbotChatSimulation) и на GitHub для робота Toyota HSR (https://github.com/microsoft/GPT-Enabled-HSR-CoSpeechGestures).

PLANNER: Генерация разнообразных абзацев с использованием латентной языковой диффузионной модели
PLANNER: Generating Diversified Paragraph via Latent Language Diffusion Model

Jun 5, 2023

Yizhe Zhang, Jiatao Gu, Zhuofeng Wu, Shuangfei Zhai, Josh Susskind, Navdeep Jaitly

Авторегрессионные модели для текста иногда генерируют повторяющийся и низкокачественный вывод из-за накопления ошибок на этапах генерации. Эта проблема часто связывается с эффектом смещения экспозиции — различием между тем, как модель обучается, и тем, как она используется во время вывода. Денойзинговые диффузионные модели предлагают альтернативный подход, в котором модель может пересматривать и корректировать свой вывод. Однако они могут быть вычислительно затратными, а предыдущие попытки применения их к тексту привели к моделям, которые генерируют менее беглый вывод по сравнению с авторегрессионными моделями, особенно для длинных текстов и абзацев. В данной статье мы предлагаем PLANNER — модель, которая сочетает латентную семантическую диффузию с авторегрессионной генерацией для создания беглого текста при осуществлении глобального контроля над абзацами. Модель достигает этого за счет объединения авторегрессионного модуля «декодирования» с модулем «планирования», который использует латентную диффузию для генерации семантических эмбеддингов абзацев в порядке от грубого к детальному. Предложенный метод оценивается на различных задачах условной генерации, и результаты в области семантической генерации, завершения текста и суммаризации демонстрируют его эффективность в создании высококачественного длинного текста с высокой производительностью.

VisualGPTScore: Визуально-лингвистическое рассуждение с использованием мультимодальных оценок генеративного предварительного обучения
VisualGPTScore: Visio-Linguistic Reasoning with Multimodal Generative Pre-Training Scores

Jun 2, 2023

Zhiqiu Lin, Xinyue Chen, Deepak Pathak, Pengchuan Zhang, Deva Ramanan

Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), предварительно обученные дискриминативно с использованием контрастных функций потерь для сопоставления изображений и текста, таких как P(совпадение|текст, изображение), подвергались критике за отсутствие композиционного понимания. Это означает, что они могут выдавать схожие оценки, даже если исходная подпись перестроена в другое семантическое утверждение. Чтобы решить эту проблему, мы предлагаем использовать {bf V}изуальный {bf Г}енеративный {bf П}редварительный {bf О}ценщик ({bf VisualGPTScore}) для P(текст|изображение) — мультимодальную генеративную оценку, которая определяет вероятность текстовой подписи, обусловленной изображением, с использованием языковой модели, учитывающей изображение. Вопреки мнению, что VLMs являются просто моделями "мешка слов", наш готовый VisualGPTScore демонстрирует высочайшую производительность на недавно предложенных тестах для извлечения изображений и текста, таких как ARO и Crepe, которые оценивают композиционное мышление. Кроме того, мы разлагаем VisualGPTScore на произведение маргинальной вероятности P(текст) и точечной взаимной информации (Pointwise Mutual Information, PMI). Это помогает (a) диагностировать наборы данных с сильной языковой предвзятостью и (b) устранять предвзятость в результатах на других тестах, таких как Winoground, с использованием информационно-теоретического подхода. VisualGPTScore предоставляет ценные инсайты и служит надежным базовым уровнем для будущей оценки визуально-лингвистической композиционности.

Вероятностная адаптация моделей преобразования текста в видео
Probabilistic Adaptation of Text-to-Video Models

Jun 2, 2023

Mengjiao Yang, Yilun Du, Bo Dai, Dale Schuurmans, Joshua B. Tenenbaum, Pieter Abbeel

Крупные модели преобразования текста в видео, обученные на данных интернет-масштаба, продемонстрировали выдающиеся способности в генерации высококачественных видео на основе произвольных текстовых описаний. Однако адаптация этих моделей к задачам с ограниченными доменно-специфичными данными, такими как анимация или видео робототехники, представляет собой значительную вычислительную проблему, поскольку тонкая настройка предобученной крупной модели может быть чрезмерно затратной. Вдохновленные тем, как небольшой изменяемый компонент (например, промпты, префиксная настройка) может адаптировать крупную языковую модель для выполнения новых задач без необходимости доступа к весам модели, мы исследуем, как адаптировать крупную предобученную модель преобразования текста в видео к различным доменам и задачам без тонкой настройки. В ответ на этот вопрос мы предлагаем Video Adapter, который использует функцию оценки крупной предобученной модели диффузии видео как вероятностный априор для управления генерацией небольшой видео-модели, специфичной для задачи. Наши эксперименты показывают, что Video Adapter способен интегрировать обширные знания и сохранять высокое качество крупной предобученной видео-модели в небольшой видео-модели, которая может генерировать высококачественные, но специализированные видео для различных задач, таких как анимация, эгоцентрическое моделирование и моделирование данных симуляций и реальной робототехники. Дополнительные видео можно найти на сайте https://video-adapter.github.io/.

Обнаружение уязвимостей в коде на основе Transformer во время редактирования: Нулевой, малый или тонкий подход к обучению?
Transformer-based Vulnerability Detection in Code at EditTime: Zero-shot, Few-shot, or Fine-tuning?

May 23, 2023

Aaron Chan, Anant Kharkar, Roshanak Zilouchian Moghaddam, Yevhen Mohylevskyy, Alec Helyar, Eslam Kamal, Mohamed Elkamhawy, Neel Sundaresan

Уязвимости в программном обеспечении наносят предприятиям значительные убытки. Несмотря на обширные усилия в исследованиях и разработке методов обнаружения уязвимостей, невыявленные уязвимости продолжают подвергать риску владельцев и пользователей программного обеспечения. Многие современные методы обнаружения уязвимостей требуют, чтобы фрагменты кода могли быть скомпилированы и собраны перед попыткой обнаружения. К сожалению, это вносит значительную задержку между моментом внедрения уязвимости и её устранением, что может существенно увеличить стоимость исправления уязвимости. Мы признаем, что современные достижения в области машинного обучения могут быть использованы для обнаружения уязвимых паттернов кода в синтаксически неполных фрагментах кода в процессе их написания разработчиком, то есть на этапе редактирования (EditTime). В данной статье мы представляем практическую систему, которая использует глубокое обучение на крупномасштабном наборе данных уязвимых паттернов кода для изучения сложных проявлений более чем 250 типов уязвимостей и обнаружения уязвимых паттернов кода на этапе редактирования. Мы обсуждаем подходы с нулевым обучением (zero-shot), малым количеством примеров (few-shot) и тонкой настройкой (fine-tuning) на современных предварительно обученных больших языковых моделях (LLMs). Мы показываем, что по сравнению с современными моделями обнаружения уязвимостей наш подход улучшает текущие показатели на 10%. Мы также оцениваем наш подход для обнаружения уязвимостей в автоматически сгенерированном коде с использованием языковых моделей. Оценка на наборе высокорисковых сценариев кода показывает снижение уязвимостей до 90%.

Ежедневные статьи

Video-LLaMA: Инструктивно-настроенная аудиовизуальная языковая модель для понимания видео
Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding

Дедуктивная верификация цепочек рассуждений
Deductive Verification of Chain-of-Thought Reasoning

MotionDiffuser: Управляемое прогнозирование движения множества агентов с использованием диффузии
MotionDiffuser: Controllable Multi-Agent Motion Prediction using Diffusion

HeadSculpt: Создание 3D-аватаров голов с использованием текста
HeadSculpt: Crafting 3D Head Avatars with Text

PolyVoice: Языковые модели для перевода речи в речь
PolyVoice: Language Models for Speech to Speech Translation

Статическая оценка завершения кода с использованием крупных языковых моделей
A Static Evaluation of Code Completion by Large Language Models

Удивительная эффективность диффузионных моделей для оценки оптического потока и монокулярной глубины
The Surprising Effectiveness of Diffusion Models for Optical Flow and Monocular Depth Estimation

Бинарная и тернарная генерация естественного языка
Binary and Ternary Natural Language Generation

LEACE: Идеальное линейное удаление концепций в замкнутой форме
LEACE: Perfect linear concept erasure in closed form

Управление естественным языком через синтез программ
Natural Language Commanding via Program Synthesis

Крупные языковые модели для работы с кодом не справляются с завершением кода, содержащего потенциальные ошибки
Large Language Models of Code Fail at Completing Code with Potential Bugs

Neuralangelo: Высококачественная нейронная реконструкция поверхностей
Neuralangelo: High-Fidelity Neural Surface Reconstruction

SAM3D: Обнаружение 3D-объектов с нулевым обучением с использованием модели Segment Anything
SAM3D: Zero-Shot 3D Object Detection via Segment Anything Model

Модели GPT в робототехнических приложениях: система жестикуляции в режиме реального времени для чат-ботов
GPT Models Meet Robotic Applications: Co-Speech Gesturing Chat System

PLANNER: Генерация разнообразных абзацев с использованием латентной языковой диффузионной модели
PLANNER: Generating Diversified Paragraph via Latent Language Diffusion Model

Вероятностная адаптация моделей преобразования текста в видео
Probabilistic Adaptation of Text-to-Video Models

Support

Support

Ежедневные статьи

Video-LLaMA: Инструктивно-настроенная аудиовизуальная языковая модель для понимания видео
Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding

Дедуктивная верификация цепочек рассуждений
Deductive Verification of Chain-of-Thought Reasoning

MotionDiffuser: Управляемое прогнозирование движения множества агентов с использованием диффузии
MotionDiffuser: Controllable Multi-Agent Motion Prediction using Diffusion

HeadSculpt: Создание 3D-аватаров голов с использованием текста
HeadSculpt: Crafting 3D Head Avatars with Text

PolyVoice: Языковые модели для перевода речи в речь
PolyVoice: Language Models for Speech to Speech Translation

Статическая оценка завершения кода с использованием крупных языковых моделей
A Static Evaluation of Code Completion by Large Language Models

Удивительная эффективность диффузионных моделей для оценки оптического потока и монокулярной глубины
The Surprising Effectiveness of Diffusion Models for Optical Flow and Monocular Depth Estimation

Бинарная и тернарная генерация естественного языка
Binary and Ternary Natural Language Generation

LEACE: Идеальное линейное удаление концепций в замкнутой форме
LEACE: Perfect linear concept erasure in closed form

Управление естественным языком через синтез программ
Natural Language Commanding via Program Synthesis

Крупные языковые модели для работы с кодом не справляются с завершением кода, содержащего потенциальные ошибки
Large Language Models of Code Fail at Completing Code with Potential Bugs

Neuralangelo: Высококачественная нейронная реконструкция поверхностей
Neuralangelo: High-Fidelity Neural Surface Reconstruction

SAM3D: Обнаружение 3D-объектов с нулевым обучением с использованием модели Segment Anything
SAM3D: Zero-Shot 3D Object Detection via Segment Anything Model

Модели GPT в робототехнических приложениях: система жестикуляции в режиме реального времени для чат-ботов
GPT Models Meet Robotic Applications: Co-Speech Gesturing Chat System

PLANNER: Генерация разнообразных абзацев с использованием латентной языковой диффузионной модели
PLANNER: Generating Diversified Paragraph via Latent Language Diffusion Model

Вероятностная адаптация моделей преобразования текста в видео
Probabilistic Adaptation of Text-to-Video Models