Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем Video-LLaMA, мультимодальную платформу, которая наделяет крупные языковые модели (LLM) способностью понимать как визуальный, так и аудиоконтент в видео. Video-LLaMA инициализирует кросс-модальное обучение с использованием замороженных предобученных визуальных и аудио-энкодеров, а также замороженных LLM. В отличие от предыдущих моделей, таких как MiniGPT-4~zhu2023minigpt и LLaVA~liu2023visualit, которые сосредоточены на понимании статических изображений, Video-LLaMA решает две задачи в понимании видео: (1) захват временных изменений в визуальных сценах, (2) интеграция аудиовизуальных сигналов. Для первой задачи мы предлагаем Video Q-former, который расширяет предобученный энкодер изображений до видео-энкодера, и вводим задачу генерации текста из видео для изучения соответствия между видео и языком. Для второй задачи мы используем ImageBind~girdhar2023imagebind в качестве предобученного аудио-энкодера, который демонстрирует исключительную эффективность в выравнивании различных модальностей в общем пространстве эмбеддингов. Затем мы вводим Audio Q-former для изучения аудио-запросных токенов. Чтобы выровнять выходные данные как визуального, так и аудио-энкодера с пространством эмбеддингов LLM, мы обучаем Video-LLaMA на крупномасштабном наборе данных с описаниями изображений и высококачественном наборе данных для настройки инструкций на основе визуальной информации. Мы обнаружили, что Video-LLaMA демонстрирует способность воспринимать и понимать видеоконтент, генерируя осмысленные ответы, основанные на визуальной и аудиоинформации, присутствующей в видео. Это подчеркивает потенциал Video-LLaMA как перспективного прототипа для аудиовизуальных ИИ-ассистентов. Наш код, предобученная модель и демо доступны по адресу https://github.com/DAMO-NLP-SG/Video-LLaMA.
Polyglot — это новаторский проект, направленный на улучшение производительности многоязычных языковых моделей для неанглийских языков. Несмотря на доступность различных многоязычных моделей, таких как mBERT (Devlin et al., 2019), XGLM (Lin et al., 2022) и BLOOM (Scao et al., 2022), исследователи и разработчики часто прибегают к созданию одноязычных моделей для своих языков из-за неудовлетворённости текущими возможностями многоязычных моделей в работе с неанглийскими языками. Стремясь устранить этот пробел, мы разрабатываем продвинутые многоязычные языковые модели, которые обеспечивают улучшенную производительность для неанглийских языков. В данной статье мы представляем модели Polyglot Korean, которые сосредоточены на конкретном языке, а не на многоязычности. В сотрудничестве с TUNiB наша команда собрала 1,2 ТБ корейских данных, тщательно отобранных для нашего исследования. Мы сознательно решили сосредоточиться на разработке корейских моделей, прежде чем переходить к многоязычным. Этот выбор был обусловлен несколькими факторами: во-первых, корейские модели позволили провести сравнение производительности с существующими многоязычными моделями; и, наконец, они отвечали конкретным потребностям корейских компаний и исследователей. В этой статье представлена наша работа по созданию моделей Polyglot Korean, которые предлагают шаги к устранению разрыва в производительности для неанглийских языков в многоязычных языковых моделях.
Крупные языковые модели (LLMs) значительно выигрывают от использования метода Chain-of-Thought (CoT) при выполнении различных задач, требующих рассуждений. Хотя CoT позволяет моделям генерировать более детализированные процессы рассуждений, акцент на промежуточных шагах может непреднамеренно приводить к появлению галлюцинаций и накоплению ошибок, что ограничивает способность моделей решать сложные задачи. Вдохновленные тем, как люди применяют тщательные и методичные дедуктивные логические рассуждения для решения задач, мы стремимся научить языковые модели выполнять явные и строгие дедуктивные рассуждения, а также обеспечивать достоверность их процесса рассуждений через самопроверку. Однако прямое подтверждение валидности всего процесса дедуктивных рассуждений является сложной задачей, даже для продвинутых моделей, таких как ChatGPT. В связи с этим мы предлагаем разбить процесс проверки рассуждений на ряд пошаговых подпроцессов, каждый из которых получает только необходимый контекст и предпосылки. Для облегчения этой процедуры мы предлагаем Natural Program — формат дедуктивных рассуждений на основе естественного языка. Наш подход позволяет моделям генерировать точные шаги рассуждений, где последующие шаги более строго основываются на предыдущих. Он также позволяет языковым моделям выполнять самопроверку рассуждений пошагово. Интегрируя этот процесс проверки в каждый этап дедуктивных рассуждений, мы значительно повышаем строгость и достоверность генерируемых шагов рассуждений. В ходе этого процесса мы также улучшаем правильность ответов на сложные задачи. Код будет доступен по адресу https://github.com/lz1oceani/verify_cot.
Масштабирование систем преобразования текста в речь (TTS) на большие и разнородные наборы данных доказало свою высокую эффективность в достижении обобщения тембра и стиля речи, особенно в задачах zero-shot TTS. Однако предыдущие работы обычно кодируют речь в латентное пространство с использованием аудиокодеков и применяют авторегрессионные языковые модели или модели диффузии для генерации, что игнорирует внутреннюю природу речи и может приводить к ухудшению качества или неуправляемым результатам. Мы утверждаем, что речь может быть разложена на несколько атрибутов (например, содержание, тембр, просодия и фаза), и каждый из них должен моделироваться с использованием модулей с соответствующими индуктивными предпосылками. С этой точки зрения мы тщательно разработали новую и масштабируемую систему zero-shot TTS под названием Mega-TTS, которая обучается на больших разнородных данных и моделирует различные атрибуты разными способами: 1) Вместо использования латентного представления, закодированного аудиокодеком, мы выбираем спектрограмму, так как она хорошо разделяет фазу и другие атрибуты. Фаза может быть корректно восстановлена с помощью GAN-вокодера и не требует моделирования языковой моделью. 2) Мы моделируем тембр с использованием глобальных векторов, поскольку тембр является глобальным атрибутом, который изменяется медленно во времени. 3) Мы также используем акустическую модель на основе VQGAN для генерации спектрограммы и языковую модель латентных кодов для аппроксимации распределения просодии, так как просодия быстро изменяется в пределах предложения, а языковые модели способны улавливать как локальные, так и долгосрочные зависимости. Мы масштабировали Mega-TTS на мультидоменные наборы данных с 20 тысячами часов речи и оценили её производительность на незнакомых дикторах. Экспериментальные результаты показывают, что Mega-TTS превосходит современные системы TTS в задачах zero-shot TTS, редактирования речи и кросс-языкового TTS, демонстрируя превосходную естественность, устойчивость и сходство с голосом диктора благодаря правильным индуктивным предпосылкам каждого модуля. Аудиообразцы доступны по ссылке: https://mega-tts.github.io/demo-page.
Мы представляем MotionDiffuser — диффузионное представление для совместного распределения будущих траекторий множества агентов. Такое представление имеет несколько ключевых преимуществ: во-первых, наша модель обучается на высоко мультимодальном распределении, которое охватывает разнообразные будущие исходы. Во-вторых, простая архитектура предсказателя требует только одного целевого показателя обучения — L2-потери — и не зависит от якорных траекторий. В-третьих, наша модель способна обучать совместное распределение для движения множества агентов в перестановочно-инвариантной манере. Кроме того, мы используем сжатое представление траекторий с помощью PCA, что улучшает производительность модели и позволяет эффективно вычислять точную логарифмическую вероятность выборки. Впоследствии мы предлагаем общую структуру ограниченной выборки, которая позволяет управлять выборкой траекторий на основе дифференцируемых функций стоимости. Эта стратегия открывает множество приложений, таких как наложение правил и физических априорных условий или создание специализированных сценариев симуляции. MotionDiffuser может быть интегрирован с существующими базовыми архитектурами для достижения наилучших результатов в прогнозировании движения. Мы получаем результаты, соответствующие современному уровню, в задаче прогнозирования движения множества агентов на наборе данных Waymo Open Motion Dataset.
В последнее время методы генерации 3D-контента на основе текстовых описаний достигли значительных успехов в создании высококачественных текстур и геометрии, благодаря широкому распространению крупных моделей для обработки изображений и текста. Однако существующие подходы всё ещё сталкиваются с трудностями в создании высокодетализированных 3D-аватаров голов в двух аспектах: (1) Они в основном полагаются на предобученные модели диффузии для генерации изображений из текста, но не учитывают необходимую 3D-осведомлённость и априорные знания о структуре головы. Это приводит к несоответствиям и геометрическим искажениям в создаваемых аватарах. (2) Они недостаточно эффективны в тонкой настройке. Это связано с унаследованными ограничениями предобученных 2D-моделей диффузии, которые становятся более заметными при работе с 3D-аватарами голов. В данной работе мы решаем эти проблемы, представляя универсальный подход от грубой к детальной обработке, названный HeadSculpt, для создания (т.е. генерации и редактирования) 3D-аватаров голов на основе текстовых запросов. В частности, мы сначала наделяем модель диффузии 3D-осведомлённостью, используя контроль на основе ключевых точек и обученное текстовое представление, описывающее внешний вид головы сзади, что позволяет генерировать 3D-согласованные аватары. Далее мы предлагаем новую стратегию дистилляции оценок для редактирования с сохранением идентичности, которая оптимизирует текстурированную сетку с использованием техники дифференцируемого рендеринга высокого разрешения. Это позволяет сохранять идентичность аватара, следуя инструкциям редактирования. Мы демонстрируем превосходную детализацию и возможности редактирования HeadSculpt через всесторонние эксперименты и сравнения с существующими методами.
Мы представляем PolyVoice, основанную на языковых моделях платформу для системы перевода "речь-в-речь" (S2ST). Наша платформа состоит из двух языковых моделей: модели перевода и модели синтеза речи. Мы используем дискретизированные речевые единицы, которые генерируются полностью неконтролируемым способом, что позволяет применять нашу платформу для языков без письменности. Для части синтеза речи мы адаптируем существующий подход VALL-E X и создаем аудио языковую модель на основе речевых единиц. Это наделяет нашу платформу способностью сохранять голосовые характеристики и стиль речи исходного аудио. Мы тестируем нашу систему на парах китайский → английский и английский → испанский. Экспериментальные результаты показывают, что наша система способна генерировать речь с высоким качеством перевода и звучания. Примеры аудио доступны по ссылке: https://speechtranslation.github.io/polyvoice.
Крупные языковые модели, обученные на коде, продемонстрировали значительный потенциал для повышения производительности разработчиков программного обеспечения. Было предложено несколько исполняемых бенчмарков для оценки функциональной корректности кода, сгенерированного моделями, на простых программных задачах. Тем не менее, проведение аналогичной оценки на сложных реальных проектах является затратным с точки зрения ресурсов выполнения. С другой стороны, статические анализаторы, такие как линтеры, которые могут обнаруживать ошибки без запуска программы, недостаточно изучены для оценки моделей генерации кода. В данной работе мы предлагаем статическую структуру оценки для количественного определения статических ошибок в завершениях кода на Python, используя абстрактные синтаксические деревья. По сравнению с исполняемой оценкой, наш метод не только более эффективен, но и применим к коду в реальных условиях. Для экспериментов мы собираем контекст кода из открытых репозиториев, чтобы сгенерировать миллион тел функций с использованием публичных моделей. Наш статический анализ показывает, что наиболее распространёнными ошибками, допускаемыми языковыми моделями, являются "Неопределённое имя" и "Неиспользуемая переменная". В ходе обширных исследований мы также демонстрируем влияние температуры сэмплирования, размера модели и контекста на статические ошибки в завершениях кода.
Денойзинговые диффузионные вероятностные модели произвели революцию в генерации изображений благодаря своей впечатляющей точности и разнообразию. Мы демонстрируем, что они также превосходно справляются с оценкой оптического потока и монохромной глубины, что удивительно, без использования специализированных архитектур и функций потерь, которые традиционно применяются для этих задач. В отличие от точечных оценок, характерных для классических регрессионных методов, диффузионные модели также позволяют проводить Монте-Карло-вывод, например, учитывая неопределенность и неоднозначность в потоке и глубине. Благодаря самоконтролируемому предварительному обучению, комбинированному использованию синтетических и реальных данных для контролируемого обучения, а также техническим инновациям (заполнение пропусков и пошаговое денойзинговое диффузионное обучение) для работы с зашумленными и неполными обучающими данными, а также простой форме постепенного уточнения, можно обучить современные диффузионные модели для оценки глубины и оптического потока. Обширные эксперименты сосредоточены на количественной производительности по сравнению с эталонными тестами, анализе влияния различных компонентов, а также на способности модели учитывать неопределенность и многомодальность, а также восстанавливать пропущенные значения. Наша модель, DDVM (Denoising Diffusion Vision Model), достигает современного уровня относительной ошибки глубины 0.074 на тесте NYU для помещений и показателя Fl-all 3.26\% на тесте KITTI для оптического потока, что примерно на 25\% лучше, чем у лучшего опубликованного метода. Обзор доступен по ссылке: https://diffusion-vision.github.io.
Троичные и бинарные нейронные сети позволяют выполнять вычисления без умножений и обещают многократное повышение эффективности по сравнению с сетями с полной точностью, если они реализованы на специализированном оборудовании. Однако, поскольку как пространство параметров, так и пространство выходных данных сильно дискретизированы, такие сети оказались крайне сложными для оптимизации. Эти трудности усугубляются для класса моделей генерации текста на основе трансформеров из-за чувствительности операции внимания к квантованию и эффектов накопления шума при авторегрессивном декодировании в пространстве выходных данных с высокой кардинальностью. Мы подходим к проблеме с использованием статистически обоснованного квантования для весов и эластичного квантования активаций и демонстрируем первые троичные и бинарные модели трансформеров для задач суммаризации и машинного перевода. Наша троичная модель BART base достигает оценки R1 41 на бенчмарке CNN/DailyMail, что всего на 3.9 балла отстает от полной модели, при этом она в 16 раз более эффективна. Наша бинарная модель, хотя и менее точная, достигает значимой оценки 35.6. Для машинного перевода мы получили оценки BLEU 21.7 и 17.6 на бенчмарке WMT16 En-Ro, по сравнению с оценкой 26.8 для модели mBART с полной точностью. Мы также сравниваем наш подход в условиях 8-битных активаций, где наши модели с троичными и даже бинарными весами могут соответствовать или превосходить лучшие существующие модели с 8-битными весами в литературе. Наш код и модели доступны по адресу: https://github.com/facebookresearch/Ternary_Binary_Transformer
Удаление концепций направлено на устранение заданных признаков из представления. Этот подход может быть использован для повышения справедливости (например, предотвращения использования классификатором информации о поле или расе) и интерпретируемости (например, удаления концепции для наблюдения изменений в поведении модели). В данной статье мы представляем метод LEAst-squares Concept Erasure (LEACE), который в замкнутой форме гарантированно предотвращает обнаружение концепции всеми линейными классификаторами, нанося при этом минимальный ущерб представлению. Мы применяем LEACE к большим языковым моделям с помощью новой процедуры, называемой "очистка концепций", которая удаляет информацию о целевой концепции из каждого слоя сети. Мы демонстрируем полезность нашего метода на двух задачах: измерение зависимости языковых моделей от информации о частях речи и снижение гендерной предвзятости в эмбеддингах BERT. Код доступен по адресу https://github.com/EleutherAI/concept-erasure.
Мы представляем Semantic Interpreter — удобную для естественного языка ИИ-систему для программ повышения продуктивности, таких как Microsoft Office, которая использует большие языковые модели (LLM) для выполнения намерений пользователя через функции приложений. Хотя LLM отлично справляются с пониманием намерений пользователя, выраженных на естественном языке, они недостаточны для реализации специфичных для приложений намерений, которые требуют большего, чем преобразования текста в текст. Поэтому мы вводим Office Domain Specific Language (ODSL) — краткий, высокоуровневый язык, специализированный для выполнения действий и взаимодействия с объектами в приложениях Office. Semantic Interpreter использует метод построения промптов Analysis-Retrieval с LLM для синтеза программ, переводя высказывания пользователя на естественном языке в программы ODSL, которые могут быть транслированы в API приложений и затем выполнены. Основное внимание в нашем обсуждении уделено исследовательскому изучению для Microsoft PowerPoint.
Крупные языковые модели для работы с кодом (Code-LLMs) недавно совершили значительный прорыв в области автодополнения кода — фундаментальной функции программной помощи и интеллектуальной работы с кодом. Однако большинство существующих исследований игнорируют возможное наличие ошибок в контексте кода, используемого для генерации, что неизбежно в процессе разработки программного обеспечения. В связи с этим мы вводим и изучаем проблему автодополнения кода с ошибками, вдохновляясь реалистичным сценарием предложения кода в реальном времени, где контекст кода содержит потенциальные ошибки — антипаттерны, которые могут превратиться в баги в завершённой программе. Для систематического изучения этой задачи мы представляем два набора данных: один с синтетическими ошибками, полученными из изменений операторов, влияющих на семантику (buggy-HumanEval), и другой с реалистичными ошибками, извлечёнными из пользовательских решений задач по программированию (buggy-FixEval). Мы обнаруживаем, что наличие потенциальных ошибок значительно ухудшает качество генерации высокопроизводительных Code-LLMs. Например, процент успешного прохождения тестовых случаев в buggy-HumanEval для модели CodeGen-2B-mono снижается более чем на 50% при наличии всего одной потенциальной ошибки в контексте. Наконец, мы исследуем несколько постобработочных методов для смягчения негативного эффекта потенциальных ошибок и обнаруживаем, что после их применения остаётся значительный разрыв в производительности.
Нейронная реконструкция поверхностей доказала свою эффективность для восстановления плотных 3D-поверхностей с помощью нейронного рендеринга на основе изображений. Однако современные методы сталкиваются с трудностями при восстановлении детализированных структур реальных сцен. Для решения этой проблемы мы представляем Neuralangelo, который сочетает в себе мощь представления многоразрешающих 3D-хэш-сеток с нейронным рендерингом поверхностей. Два ключевых компонента делают наш подход возможным: (1) численные градиенты для вычисления производных высшего порядка в качестве операции сглаживания и (2) оптимизация от грубого к детальному на хэш-сетках, управляющих различными уровнями детализации. Даже без вспомогательных данных, таких как глубина, Neuralangelo эффективно восстанавливает плотные 3D-структуры поверхностей из многовидовых изображений с точностью, значительно превосходящей предыдущие методы, что позволяет детализированно реконструировать крупномасштабные сцены на основе RGB-видеозаписей.
С развитием крупных языковых моделей многие впечатляющие лингвистические системы, такие как ChatGPT, получили широкое распространение и достигли удивительных успехов в решении множества задач, демонстрируя невероятную мощь базовых моделей. В духе раскрытия потенциала базовых моделей для задач компьютерного зрения недавно была предложена модель Segment Anything Model (SAM) — базовая модель для сегментации изображений, которая демонстрирует сильные способности к нулевому обучению (zero-shot) на множестве двумерных задач. Однако вопрос о том, можно ли адаптировать SAM к задачам трехмерного зрения, особенно к задаче обнаружения 3D объектов, остается неисследованным. Вдохновленные этой идеей, в данной работе мы исследуем адаптацию нулевого обучения SAM к задаче обнаружения 3D объектов. Мы предлагаем конвейер обработки данных в представлении "вид сверху" (BEV), основанный на SAM, для обнаружения объектов и получаем обнадеживающие результаты на крупном наборе данных Waymo Open Dataset. Как ранняя попытка, наш метод делает шаг в направлении обнаружения 3D объектов с использованием базовых моделей компьютерного зрения и открывает возможности для раскрытия их потенциала в задачах трехмерного зрения. Код доступен по адресу https://github.com/DYZhang09/SAM3D.
В данной технической статье представлена система чат-бота, которая использует последние достижения в области крупномасштабных языковых моделей (LLM), таких как GPT-3 и ChatGPT. Система интегрирована с генератором сопутствующих жестов, который выбирает подходящие жесты на основе концептуального смысла речи. Наша цель — исследовать способы применения последних достижений в области LLM для практических робототехнических приложений, что способствует развитию как чат-ботов, так и самих LLM. В частности, это позволяет создавать высокоотзывчивые системы чат-ботов, используя LLM, и добавляет визуальные эффекты в пользовательский интерфейс LLM в качестве дополнительной ценности. Исходный код системы доступен на GitHub для нашего внутреннего робота (https://github.com/microsoft/LabanotationSuite/tree/master/MSRAbotChatSimulation) и на GitHub для робота Toyota HSR (https://github.com/microsoft/GPT-Enabled-HSR-CoSpeechGestures).
Авторегрессионные модели для текста иногда генерируют повторяющийся и низкокачественный вывод из-за накопления ошибок на этапах генерации. Эта проблема часто связывается с эффектом смещения экспозиции — различием между тем, как модель обучается, и тем, как она используется во время вывода. Денойзинговые диффузионные модели предлагают альтернативный подход, в котором модель может пересматривать и корректировать свой вывод. Однако они могут быть вычислительно затратными, а предыдущие попытки применения их к тексту привели к моделям, которые генерируют менее беглый вывод по сравнению с авторегрессионными моделями, особенно для длинных текстов и абзацев. В данной статье мы предлагаем PLANNER — модель, которая сочетает латентную семантическую диффузию с авторегрессионной генерацией для создания беглого текста при осуществлении глобального контроля над абзацами. Модель достигает этого за счет объединения авторегрессионного модуля «декодирования» с модулем «планирования», который использует латентную диффузию для генерации семантических эмбеддингов абзацев в порядке от грубого к детальному. Предложенный метод оценивается на различных задачах условной генерации, и результаты в области семантической генерации, завершения текста и суммаризации демонстрируют его эффективность в создании высококачественного длинного текста с высокой производительностью.
Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), предварительно обученные дискриминативно с использованием контрастных функций потерь для сопоставления изображений и текста, таких как P(совпадение|текст, изображение), подвергались критике за отсутствие композиционного понимания. Это означает, что они могут выдавать схожие оценки, даже если исходная подпись перестроена в другое семантическое утверждение. Чтобы решить эту проблему, мы предлагаем использовать {bf V}изуальный {bf Г}енеративный {bf П}редварительный {bf О}ценщик ({bf VisualGPTScore}) для P(текст|изображение) — мультимодальную генеративную оценку, которая определяет вероятность текстовой подписи, обусловленной изображением, с использованием языковой модели, учитывающей изображение. Вопреки мнению, что VLMs являются просто моделями "мешка слов", наш готовый VisualGPTScore демонстрирует высочайшую производительность на недавно предложенных тестах для извлечения изображений и текста, таких как ARO и Crepe, которые оценивают композиционное мышление. Кроме того, мы разлагаем VisualGPTScore на произведение маргинальной вероятности P(текст) и точечной взаимной информации (Pointwise Mutual Information, PMI). Это помогает (a) диагностировать наборы данных с сильной языковой предвзятостью и (b) устранять предвзятость в результатах на других тестах, таких как Winoground, с использованием информационно-теоретического подхода. VisualGPTScore предоставляет ценные инсайты и служит надежным базовым уровнем для будущей оценки визуально-лингвистической композиционности.
Крупные модели преобразования текста в видео, обученные на данных интернет-масштаба, продемонстрировали выдающиеся способности в генерации высококачественных видео на основе произвольных текстовых описаний. Однако адаптация этих моделей к задачам с ограниченными доменно-специфичными данными, такими как анимация или видео робототехники, представляет собой значительную вычислительную проблему, поскольку тонкая настройка предобученной крупной модели может быть чрезмерно затратной. Вдохновленные тем, как небольшой изменяемый компонент (например, промпты, префиксная настройка) может адаптировать крупную языковую модель для выполнения новых задач без необходимости доступа к весам модели, мы исследуем, как адаптировать крупную предобученную модель преобразования текста в видео к различным доменам и задачам без тонкой настройки. В ответ на этот вопрос мы предлагаем Video Adapter, который использует функцию оценки крупной предобученной модели диффузии видео как вероятностный априор для управления генерацией небольшой видео-модели, специфичной для задачи. Наши эксперименты показывают, что Video Adapter способен интегрировать обширные знания и сохранять высокое качество крупной предобученной видео-модели в небольшой видео-модели, которая может генерировать высококачественные, но специализированные видео для различных задач, таких как анимация, эгоцентрическое моделирование и моделирование данных симуляций и реальной робототехники. Дополнительные видео можно найти на сайте https://video-adapter.github.io/.
Уязвимости в программном обеспечении наносят предприятиям значительные убытки. Несмотря на обширные усилия в исследованиях и разработке методов обнаружения уязвимостей, невыявленные уязвимости продолжают подвергать риску владельцев и пользователей программного обеспечения. Многие современные методы обнаружения уязвимостей требуют, чтобы фрагменты кода могли быть скомпилированы и собраны перед попыткой обнаружения. К сожалению, это вносит значительную задержку между моментом внедрения уязвимости и её устранением, что может существенно увеличить стоимость исправления уязвимости. Мы признаем, что современные достижения в области машинного обучения могут быть использованы для обнаружения уязвимых паттернов кода в синтаксически неполных фрагментах кода в процессе их написания разработчиком, то есть на этапе редактирования (EditTime). В данной статье мы представляем практическую систему, которая использует глубокое обучение на крупномасштабном наборе данных уязвимых паттернов кода для изучения сложных проявлений более чем 250 типов уязвимостей и обнаружения уязвимых паттернов кода на этапе редактирования. Мы обсуждаем подходы с нулевым обучением (zero-shot), малым количеством примеров (few-shot) и тонкой настройкой (fine-tuning) на современных предварительно обученных больших языковых моделях (LLMs). Мы показываем, что по сравнению с современными моделями обнаружения уязвимостей наш подход улучшает текущие показатели на 10%. Мы также оцениваем наш подход для обнаружения уязвимостей в автоматически сгенерированном коде с использованием языковых моделей. Оценка на наборе высокорисковых сценариев кода показывает снижение уязвимостей до 90%.