Ежедневно отобранные исследовательские статьи по ИИ с переводами
Авторегрессионные модели (ARMs) широко считаются краеугольным камнем больших языковых моделей (LLMs). Мы оспариваем это утверждение, представляя LLaDA — диффузионную модель, обученную с нуля в рамках парадигмы предварительного обучения и контролируемой тонкой настройки (SFT). LLaDA моделирует распределения через процесс маскирования данных в прямом направлении и обратный процесс, параметризованный стандартным Transformer для предсказания замаскированных токенов. Оптимизируя границу правдоподобия, она предоставляет принципиальный генеративный подход для вероятностного вывода. На обширных бенчмарках LLaDA демонстрирует высокую масштабируемость, превосходя наши собственные базовые ARM-модели. Примечательно, что LLaDA 8B конкурирует с мощными LLMs, такими как LLaMA3 8B, в обучении в контексте и, после SFT, показывает впечатляющие способности следовать инструкциям в кейс-стадиях, таких как многопользовательский диалог. Более того, LLaDA решает проблему "проклятия обращения", превосходя GPT-4o в задаче завершения обратного стихотворения. Наши результаты устанавливают диффузионные модели как жизнеспособную и перспективную альтернативу ARMs, бросая вызов предположению, что ключевые возможности LLM, обсуждаемые выше, неразрывно связаны с ARMs.
Большие модели рассуждений (LRM) представляют собой прорыв в возможностях решения проблем в области искусственного интеллекта, однако их эффективность в интерактивных средах может быть ограничена. В данной статье представлено и проанализировано явление чрезмерного анализа в LRM. Феномен, при котором модели отдают предпочтение продолжительным внутренним цепочкам рассуждений перед взаимодействием с окружающей средой. Проведя эксперименты на задачах программной инженерии с использованием SWE Bench Verified, мы выявили три повторяющихся паттерна: Анализ Паралича, Действия-мародеры и Преждевременное Отстранение. Мы предлагаем фреймворк для изучения этих поведенческих шаблонов, который коррелирует с оценками человеческих экспертов, и проанализировали 4018 траекторий. Мы обнаружили, что более высокие оценки чрезмерного анализа коррелируют с уменьшением производительности, причем модели рассуждений проявляют более сильные тенденции к чрезмерному анализу по сравнению с моделями без рассуждений. Наш анализ показывает, что простые усилия по смягчению чрезмерного анализа в агентных средах, такие как выбор решения с более низкой оценкой чрезмерного анализа, могут улучшить производительность модели почти на 30%, снизив при этом вычислительные затраты на 43%. Эти результаты свидетельствуют о том, что смягчение чрезмерного анализа имеет сильные практические последствия. Мы предлагаем, что путем использования встроенных возможностей вызова функций и селективного обучения с подкреплением можно смягчить тенденции к чрезмерному анализу. Мы также открываем наш фреймворк оценки и набор данных для свободного использования, чтобы содействовать исследованиям в этом направлении по ссылке https://github.com/AlexCuadron/Overthinking.
Мы представляем Step-Video-T2V — современную предобученную модель для генерации видео из текста, содержащую 30 миллиардов параметров и способную создавать видео длиной до 204 кадров. Для задач генерации видео разработан глубоко сжимающий Вариационный Автокодировщик (Video-VAE), который достигает коэффициентов сжатия 16x16 в пространственном и 8x во временном измерениях, сохраняя при этом высокое качество реконструкции видео. Пользовательские запросы кодируются с использованием двух двуязычных текстовых энкодеров для обработки как английского, так и китайского языков. Модель DiT с 3D полным вниманием обучается с помощью метода Flow Matching и используется для преобразования входного шума в скрытые кадры. Для уменьшения артефактов и улучшения визуального качества генерируемых видео применяется видеоспецифичный подход DPO (Video-DPO). Мы также подробно описываем наши стратегии обучения и делимся ключевыми наблюдениями и инсайтами. Производительность Step-Video-T2V оценивается на новом бенчмарке для генерации видео, Step-Video-T2V-Eval, демонстрируя её передовое качество в сравнении как с открытыми, так и с коммерческими движками. Кроме того, мы обсуждаем ограничения текущей парадигмы моделей на основе диффузии и намечаем будущие направления для фундаментальных моделей видео. Мы делаем Step-Video-T2V и Step-Video-T2V-Eval доступными по адресу https://github.com/stepfun-ai/Step-Video-T2V. Онлайн-версия также доступна на https://yuewen.cn/videos. Наша цель — ускорить инновации в области фундаментальных моделей видео и расширить возможности создателей видеоконтента.
Диффузионные модели (DMs) стали основным выбором для генеративных задач в различных областях. Однако их зависимость от множества последовательных прямых проходов существенно ограничивает производительность в реальном времени. Предыдущие методы ускорения в основном были сосредоточены на сокращении количества шагов выборки или повторном использовании промежуточных результатов, не учитывая вариации в пространственных областях изображения из-за ограничений сверточных U-Net архитектур. Используя гибкость Diffusion Transformers (DiTs) в обработке переменного количества токенов, мы представляем RAS — новую, не требующую обучения стратегию выборки, которая динамически назначает различные коэффициенты выборки для областей изображения на основе фокуса модели DiT. Наше ключевое наблюдение заключается в том, что на каждом шаге выборки модель концентрируется на семантически значимых областях, и эти области фокуса демонстрируют сильную преемственность между последовательными шагами. Используя это наблюдение, RAS обновляет только области, находящиеся в фокусе, в то время как остальные области обновляются с использованием кэшированного шума из предыдущего шага. Фокус модели определяется на основе вывода предыдущего шага, что позволяет использовать наблюдаемую временную согласованность. Мы оцениваем RAS на моделях Stable Diffusion 3 и Lumina-Next-T2I, достигая ускорения до 2.36x и 2.51x соответственно с минимальным ухудшением качества генерации. Кроме того, пользовательское исследование показывает, что RAS обеспечивает сопоставимое качество при оценке людьми, достигая ускорения в 1.6x. Наш подход делает значительный шаг к более эффективным диффузионным трансформерам, расширяя их потенциал для приложений реального времени.
Крупные мультимодальные модели (LMM) демонстрируют значительные недостатки в интерпретации изображений и, по некоторым критериям, обладают более слабым пространственным восприятием, чем маленькие дети или животные. Несмотря на это, они достигают высоких результатов на многих популярных визуальных тестах, при этом запас для улучшения быстро сокращается из-за стремительного прогресса моделей. Чтобы решить эту проблему, существует острая необходимость в сложных тестах, которые остаются актуальными в течение более длительного времени. Мы доводим эту идею до предела, представляя ZeroBench — легковесный тест на визуальное мышление, который полностью недоступен для современных передовых LMM. Наш тест состоит из 100 вручную отобранных вопросов и 334 менее сложных подвопросов. Мы оцениваем 20 LMM на ZeroBench, и все они показывают результат 0.0%, после чего тщательно анализируем ошибки. Чтобы стимулировать прогресс в области визуального понимания, мы публикуем ZeroBench в открытом доступе.
Несмотря на значительные достижения в области мультимодальных больших языковых моделей (MLLMs), большинство современных моделей не прошли тщательного согласования с человеческими предпочтениями. Этот пробел существует, поскольку текущие исследования в области согласования в основном добились прогресса в отдельных областях (например, в снижении галлюцинаций), в
Диффузионные модели позволяют синтезировать высококачественный и разнообразный визуальный контент. Однако они испытывают трудности с генерацией редких или ранее не встречавшихся концепций. Для решения этой проблемы мы исследуем использование подхода Retrieval-Augmented Generation (RAG) в сочетании с моделями генерации изображений. Мы предлагаем метод ImageRAG, который динамически извлекает релевантные изображения на основе текстового запроса и использует их в качестве контекста для управления процессом генерации. В отличие от предыдущих подходов, которые обучали модели специально для генерации на основе извлеченных данных, ImageRAG использует возможности существующих моделей с условием на изображения и не требует специального обучения для RAG. Наш подход обладает высокой адаптивностью и может быть применен к различным типам моделей, демонстрируя значительное улучшение в генерации редких и детализированных концепций с использованием различных базовых моделей. Страница проекта доступна по адресу: https://rotem-shalev.github.io/ImageRAG
Модели рассуждений с большим языковым контекстом (LLMs), такие как OpenAI o1, o3 и DeepSeek R1, достигли значительного прогресса в математике и программировании, однако сталкиваются с трудностями при решении сложных задач, таких как комбинаторные задачи Международной математической олимпиады (IMO), головоломки из набора Abstraction and Reasoning Corpus (ARC) и вопросы из экзамена Humanity's Last Exam (HLE). Мы используем разнообразный подход к выводу, который сочетает несколько моделей и методов на этапе тестирования. Мы обнаружили, что проверка математических и программных задач, а также отбор с отклонением для других задач являются простыми и эффективными методами. Мы автоматически проверяем правильность решений задач IMO с помощью Lean, а головоломки ARC — с помощью кода, и выясняем, что метод best-of-N эффективно отвечает на вопросы HLE. Наш подход повышает точность ответов на комбинаторные задачи IMO с 33,3% до 77,8%, точность ответов на вопросы HLE — с 8% до 37%, а также решает 80% головоломок ARC, которые не смогли решить 948 человек, и 26,5% головоломок ARC, которые не решает модель o3 с высокими вычислительными ресурсами. Симуляции на этапе тестирования, обучение с подкреплением и метаобучение с обратной связью по выводу улучшают обобщение за счет адаптации представлений графа агента и варьирования подсказок, кода и наборов данных. Наш подход надежен, устойчив и масштабируем, и в духе воспроизводимых исследований мы сделаем его общедоступным после публикации.
Крупные языковые модели (LLM) достигли значительных успехов в решении различных задач обработки естественного языка (NLP). Однако их высокая вычислительная стоимость ограничивает их широкое применение, особенно в задачах, требующих работы в реальном времени. Структурное прореживание предлагает эффективное решение, сжимая модели и обеспечивая прямое улучшение скорости работы от начала до конца, независимо от аппаратной среды. При этом различные компоненты модели демонстрируют разную чувствительность к прореживанию, что требует неоднородного сжатия модели. Однако метод прореживания должен не только выявлять подходящую подструктуру, но и учитывать обучение после сжатия. Для этого мы предлагаем \sysname — метод структурированного прореживания с учетом обучения. \sysname основан на эволюционном поиске, генерируя в каждом поколении несколько дочерних моделей с помощью мутаций и отбирая наиболее приспособленные для выживания. Чтобы оценить эффект пост-обучения, мы включаем в процесс легковесное многоэтапное обучение в популяции дочерних моделей, постепенно увеличивая количество токенов и отсеивая слабо работающие модели на каждом этапе отбора. Мы подтверждаем эффективность нашего метода с помощью обширных экспериментов на моделях Llama-2-7B, Llama-3.1-8B и Qwen-2.5-14B-Instruct, достигая передовых результатов в области структурного прореживания. Например, \sysname превосходит ShearedLlama, требуя в 5 раз меньше данных для обучения после сжатия.
Крупные языковые модели (LLM) обычно представляют числа с использованием нескольких токенов, что требует от модели агрегирования этих токенов для интерпретации числовых значений. Такая фрагментация делает как обучение, так и вывод менее эффективными и негативно сказывается на производительности модели в задачах, связанных с числами. Вдохновленные наблюдением, что предобученные LLM внутренне изучают Фурье-подобные признаки для числовых токенов, мы предлагаем Фурье-вложение чисел (Fourier Number Embedding, FoNE) — новый метод, который напрямую отображает числа в пространство вложений с использованием их Фурье-признаков. FoNE кодирует каждое число как один токен с использованием всего двух измерений вложения на цифру, эффективно захватывая числовые значения без фрагментации. Это компактное представление ускоряет как обучение, так и вывод. По сравнению с традиционными субсловными и поцифровыми вложениями, FoNE не только снижает вычислительные затраты, но и достигает более высокой точности в различных числовых задачах, включая сложение, вычитание и умножение. В задаче сложения 6-значных десятичных чисел FoNE требует в 64 раза меньше данных для достижения 99% точности по сравнению с субсловными и поцифровыми вложениями, используя при этом в 3 и 6 раз меньше токенов на число соответственно. Более того, FoNE является единственным методом, который обеспечивает 100% точность на более чем 100 000 тестовых примерах для сложения, вычитания и умножения. Коды и визуализации доступны по адресу https://fouriernumber.github.io/.
Новые модели диффузии могут синтезировать фотореалистичные изображения с интегрированным высококачественным текстом. Удивительно, что мы демонстрируем через активацию внимания, что менее 1% параметров моделей диффузии, все содержащиеся в слоях внимания, влияют на генерацию текстового контента в изображениях. Основываясь на этом наблюдении, мы улучшаем эффективность и производительность генерации текста, нацеливаясь на слои кросс- и совместного внимания моделей диффузии. Мы представляем несколько приложений, которые выигрывают от локализации слоев, ответственных за генерацию текстового контента. Сначала мы показываем, что тонкая настройка на основе LoRA только локализованных слоев улучшает общие возможности генерации текста больших моделей диффузии, сохраняя качество и разнообразие генераций моделей диффузии. Затем мы демонстрируем, как мы можем использовать локализованные слои для редактирования текстового контента в сгенерированных изображениях. Наконец, мы расширяем эту идею до практического случая предотвращения генерации токсичного текста бесплатным способом. В отличие от предыдущих работ, наш подход к локализации широко применим в различных архитектурах моделей диффузии, включая U-Net (например, LDM и SDXL) и на основе трансформера (например, DeepFloyd IF и Stable Diffusion 3), используя разнообразные текстовые кодировщики (например, от CLIP до крупных языковых моделей, таких как T5). Страница проекта доступна по адресу https://t2i-text-loc.github.io/.
В данной позиционной статье утверждается, что для понимания ИИ мы не можем полагаться на существующий словарный запас человеческих слов. Вместо этого мы должны стремиться к созданию неологизмов: новых слов, которые представляют точные человеческие концепции, которые мы хотим передать машинам, или машинные концепции, которые нам необходимо изучить. Мы исходим из предпосылки, что у людей и машин существуют различные концепции. Это означает, что интерпретируемость можно рассматривать как проблему коммуникации: люди должны иметь возможность ссылаться на машинные концепции и управлять ими, а также передавать человеческие концепции машинам. Создание общего языка для взаимодействия человека и машины через разработку неологизмов, как мы полагаем, может решить эту проблему коммуникации. Успешные неологизмы достигают полезного уровня абстракции: не слишком детализированы, чтобы быть применимыми в различных контекстах, и не слишком обобщены, чтобы передавать точную информацию. В качестве доказательства концепции мы демонстрируем, как "неологизм длины" позволяет управлять длиной ответов языковых моделей, а "неологизм разнообразия" позволяет получать более вариативные ответы. В совокупности мы утверждаем, что мы не можем понять ИИ, используя существующий словарный запас, и его расширение через неологизмы создает возможности как для управления, так и для лучшего понимания машин.
Предварительно обученные базовые модели (FMs) продемонстрировали выдающуюся производительность в задачах прогнозирования одномерных временных рядов. Однако сохраняется несколько практических проблем, включая управление сложными зависимостями между признаками и оценку неопределенности в прогнозах. Данное исследование направлено на устранение этих критических ограничений путем введения адаптеров — преобразований в пространстве признаков, которые облегчают эффективное использование предварительно обученных одномерных моделей временных рядов для многомерных задач. Адаптеры работают, проецируя многомерные входные данные в подходящее латентное пространство и применяя FM независимо к каждому измерению. Вдохновленные литературой по обучению представлений и частично стохастическим байесовским нейронным сетям, мы представляем набор адаптеров и стратегий оптимизации/вывода. Эксперименты, проведенные как на синтетических, так и на реальных наборах данных, подтверждают эффективность адаптеров, демонстрируя значительное улучшение точности прогнозирования и оценки неопределенности по сравнению с базовыми методами. Наша структура, AdaPTS, позиционирует адаптеры как модульное, масштабируемое и эффективное решение для использования моделей временных рядов в многомерных контекстах, способствуя их более широкому внедрению в реальных приложениях. Мы публикуем код по адресу https://github.com/abenechehab/AdaPTS.
Языки с ограниченными ресурсами (LRLs) сталкиваются с серьезными проблемами в обработке естественного языка (NLP) из-за ограниченного объема данных. В то время как современные передовые крупные языковые модели (LLMs) все еще испытывают трудности с LRLs, более маленькие мультиязычные модели (mLMs) такие как mBERT и XLM-R предлагают большую перспективу благодаря лучшему соответствию их возможностей низким объемам обучающих данных. В данном исследовании систематически рассматриваются методы адаптации на основе адаптеров, эффективных по параметрам, для адаптации mLMs к LRLs, оцениваются три архитектуры: Последовательный Узкое место, Обратимое Узкое место и Адаптация с Низким Рангом. Используя неструктурированный текст из GlotCC и структурированные знания из ConceptNet, мы показываем, что небольшие наборы данных для адаптации (например, до 1 ГБ свободного текста или несколько МБ данных графа знаний) приводят к улучшениям во внутренних (маскированное моделирование языка) и внешних задачах (классификация тем, анализ настроений и распознавание именованных сущностей). Мы обнаружили, что адаптеры Последовательного Узкого места превосходят в моделировании языка, в то время как адаптеры Обратимого Узкого места незначительно превосходят другие методы во вторичных задачах из-за лучшего выравнивания встраивания и большего количества параметров. Методы на основе адаптеров соответствуют или превосходят полное дообучение, используя значительно меньше параметров, и более маленькие mLMs оказываются более эффективными для LRLs, чем массивные LLMs, такие как LLaMA-3, GPT-4 и модели на основе DeepSeek-R1. В то время как адаптация улучшает производительность, размер данных предварительного обучения остается доминирующим фактором, особенно для языков с обширным охватом предварительного обучения.
Калибровка больших языковых моделей (LLM) на конкретных наборах данных - распространенная практика для улучшения производительности на целевых задачах. Однако это улучшение производительности часто приводит к переобучению, когда модель становится слишком специализированной либо на задаче, либо на характеристиках обучающих данных, что приводит к потере обобщения. В данной статье представлен метод выборочной самокалибровки с учителем (S3FT), подход к калибровке, который достигает лучшей производительности по сравнению со стандартной калибровкой с учителем (SFT), улучшая при этом обобщение. S3FT использует наличие нескольких верных ответов на запрос. Путем использования верных ответов модели S3FT уменьшает специализацию модели на этапе калибровки. S3FT сначала определяет правильные ответы модели из обучающего набора, применяя соответствующего судью. Затем модель калибруется с использованием правильных ответов модели и правильного ответа (или его перефразировки) для оставшихся образцов. Эффективность S3FT демонстрируется через эксперименты по математическому рассуждению, программированию на Python и задачам по пониманию текста. Результаты показывают, что стандартная SFT может привести к среднему снижению производительности до 4,4 по нескольким показателям, таким как MMLU и TruthfulQA. В отличие от этого, S3FT уменьшает это снижение вдвое, то есть до 2,5, что указывает на лучшие возможности обобщения по сравнению с SFT, при этом значительно лучше справляется с задачами калибровки.
В данной статье мы предлагаем эффективную многоуровневую архитектуру свертки для трехмерной визуальной привязки. Традиционные методы затрудняют обеспечение требований реального времени вывода из-за двухэтапной или точечной архитектуры. Вдохновленные успехом многоуровневой полностью разреженной сверточной архитектуры в обнаружении трехмерных объектов, мы стремимся построить новую рамочную структуру трехмерной визуальной привязки, следуя этому техническому пути. Однако, поскольку в задаче трехмерной визуальной привязки трехмерное представление сцены должно глубоко взаимодействовать с текстовыми характеристиками, архитектура на основе разреженной свертки неэффективна для этого взаимодействия из-за большого количества признаков вокселей. Для этого мы предлагаем обрезку, направляемую текстом (TGP) и дополнение на основе завершения (CBA) для глубокого слияния трехмерного представления сцены и текстовых характеристик эффективным способом путем поэтапной обрезки области и завершения цели. Конкретно, TGP итеративно разреживает трехмерное представление сцены и таким образом эффективно взаимодействует признаки вокселей с текстовыми характеристиками с помощью кросс-внимания. Для смягчения влияния обрезки на тонкую геометрическую информацию, CBA адаптивно исправляет перерезанную область путем завершения вокселями с незначительными вычислительными затратами. По сравнению с предыдущими одноэтапными методами, наш метод достигает лучшей скорости вывода и превосходит предыдущий самый быстрый метод на 100\% кадров в секунду. Наш метод также достигает передовой точности даже по сравнению с двухэтапными методами, с преимуществом в +1.13 по [email protected] на ScanRefer, и преимуществом в +2.6 и +3.2 на NR3D и SR3D соответственно. Код доступен по ссылке https://github.com/GWxuan/TSP3D.
Ключевой целью воплощённого интеллекта является обеспечение способности агентов выполнять долгосрочные задачи в динамических средах, сохраняя при этом устойчивость принятия решений и адаптивность. Для достижения этой цели мы предлагаем агента с пространственно-временной памятью (Spatio-Temporal Memory Agent, STMA) — новую архитектуру, предназначенную для улучшения планирования и выполнения задач за счёт интеграции пространственно-временной памяти. STMA основан на трёх ключевых компонентах: (1) модуль пространственно-временной памяти, который фиксирует исторические и средовые изменения в реальном времени, (2) динамический граф знаний, обеспечивающий адаптивное пространственное рассуждение, и (3) механизм планировщика-критика, который итеративно уточняет стратегии выполнения задач. Мы оцениваем STMA в среде TextWorld на 32 задачах, включающих многошаговое планирование и исследование при различных уровнях сложности. Экспериментальные результаты показывают, что STMA достигает улучшения успешности выполнения задач на 31,25% и увеличения среднего балла на 24,7% по сравнению с современной моделью. Результаты подчеркивают эффективность пространственно-временной памяти в расширении возможностей памяти воплощённых агентов.
Маскированное моделирование изображений (MIM) представляет собой перспективный подход к обучению представлений с самоконтролем, однако существующие модели MIM всё ещё отстают от современных достижений. В данной работе мы систематически анализируем
В приложениях диффузионных моделей управляемая генерация имеет практическое значение, но также представляет собой сложную задачу. Современные методы управляемой генерации в основном сосредоточены на модификации функции оценки диффузионных моделей, тогда как метод Mean Reverting (MR) Diffusion напрямую изменяет структуру стохастического дифференциального уравнения (SDE), что делает включение условий на изображение более простым и естественным. Однако текущие быстрые сэмплеры, не требующие обучения, не применимы напрямую к MR Diffusion. В результате MR Diffusion требует сотен NFEs (количество вычислений функции) для получения высококачественных сэмплов. В данной статье мы предлагаем новый алгоритм под названием MRS (MR Sampler) для сокращения количества NFEs при сэмплировании в MR Diffusion. Мы решаем обратное по времени SDE и обыкновенное дифференциальное уравнение потока вероятности (PF-ODE), связанные с MR Diffusion, и выводим полуаналитические решения. Эти решения состоят из аналитической функции и интеграла, параметризованного нейронной сетью. На основе этого решения мы можем генерировать высококачественные сэмплы за меньшее количество шагов. Наш подход не требует обучения и поддерживает все основные параметризации, включая предсказание шума, предсказание данных и предсказание скорости. Многочисленные эксперименты демонстрируют, что MR Sampler сохраняет высокое качество сэмплирования с ускорением в 10–20 раз для десяти различных задач восстановления изображений. Наш алгоритм ускоряет процесс сэмплирования в MR Diffusion, делая его более практичным для управляемой генерации.
CLaMP 3 - это унифицированная структура, разработанная для решения проблем кросс-модальной и кросс-языковой обобщения в поиске информации о музыке. С использованием контрастного обучения она выравнивает все основные модальности музыки - включая ноты, сигналы исполнения и аудиозаписи - с многоязычным текстом в общем пространстве представления, обеспечивая поиск по несогласованным модальностям с текстом в качестве моста. Он оснащен многоязычным текстовым кодировщиком, способным адаптироваться к невидимым языкам, проявляя сильное кросс-языковое обобщение. Используя поиск с увеличением поколения, мы создали M4-RAG, набор данных веб-масштаба, состоящий из 2,31 миллиона пар музыка-текст. Этот набор данных обогащен подробной метаданными, представляющими широкий спектр музыкальных традиций мира. Для продвижения будущих исследований мы выпустили WikiMT-X, бенчмарк, включающий 1 000 троек нот, аудио и разнообразных текстовых описаний. Эксперименты показывают, что CLaMP 3 достигает передового уровня производительности в нескольких задачах поиска информации о музыке, значительно превосходя предыдущие сильные базовые уровни и демонстрируя отличное обобщение в мультимодальных и многоязычных музыкальных контекстах.
Современные автономные транспортные средства в основном полагаются на свои собственные датчики для понимания окружающей обстановки и планирования будущих траекторий, что может быть ненадежным при неисправности или заслонении датчиков. Для решения этой проблемы были предложены методы кооперативного восприятия через связь между транспортными средствами (V2V), однако они в основном сосредоточены на задачах обнаружения и отслеживания. Вопрос о том, как эти подходы влияют на общую производительность кооперативного планирования, остается недостаточно изученным. Вдохновленные недавними достижениями в использовании больших языковых моделей (LLM) для создания автономных систем вождения, мы предлагаем новую постановку задачи, которая интегрирует LLM в кооперативное автономное вождение, с предложенным набором данных и эталоном Vehicle-to-Vehicle Question-Answering (V2V-QA). Мы также предлагаем наш базовый метод Vehicle-to-Vehicle Large Language Model (V2V-LLM), который использует LLM для объединения информации о восприятии от нескольких подключенных автономных транспортных средств (CAV) и ответа на вопросы, связанные с вождением: локализация, идентификация значимых объектов и планирование. Экспериментальные результаты показывают, что наш предложенный V2V-LLM может стать перспективной унифицированной архитектурой модели для выполнения различных задач в кооперативном автономном вождении и превосходит другие базовые методы, использующие различные подходы к объединению данных. Наша работа также открывает новое направление исследований, которое может повысить безопасность будущих автономных систем вождения. Сайт проекта: https://eddyhkchiu.github.io/v2vllm.github.io/.
Обучение моделей крупных языковых моделей (LLM) на отказ от вредоносных выводов предотвращает их генерацию, однако эта защита остается уязвимой как для автоматизированных, так и для созданных человеком методов взлома. Мы представляем новый подход, в котором человек взламывает обученную на отказ LLM, чтобы сделать её способной взламывать себя или другие LLM. Мы называем такие взломанные LLM атакующими J_2, которые могут систематически оценивать целевые модели, используя различные стратегии "красной команды", и улучшать свою производительность за счет обучения в контексте на основе предыдущих неудач. Наши эксперименты показывают, что Sonnet 3.5 и Gemini 1.5 pro превосходят другие LLM в роли J_2, достигая 93,0% и 91,0% успешности атак (ASR) соответственно против GPT-4o (и аналогичных результатов для других мощных LLM) на Harmbench. Наша работа не только представляет масштабируемый подход к стратегическому тестированию, вдохновленный методами "красной команды", но и подчеркивает взлом-для-взлома как недооцененный сбой в системе защиты. В частности, LLM может обойти свои собственные защитные механизмы, используя взломанную версию себя, которая готова помочь в дальнейшем взломе. Чтобы предотвратить прямое злоупотребление J_2, одновременно продвигая исследования в области безопасности ИИ, мы публикуем нашу методологию, сохраняя детали конкретных подсказок в тайне.
Белки представляют собой динамические молекулярные машины, чьи биологические функции, включая ферментативный катализ, передачу сигналов и структурную адаптацию, неразрывно связаны с их движениями. Однако проектирование белков с заданными динамическими свойствами остается сложной задачей из-за сложных и вырожденных взаимосвязей между последовательностью, структурой и молекулярным движением. В данной работе мы представляем VibeGen — генеративную ИИ-платформу, которая позволяет осуществлять сквозное de novo проектирование белков, учитывая нормальные моды колебаний. VibeGen использует агентную архитектуру с двумя моделями: проектировщик белков, генерирующий последовательности на основе заданных колебательных мод, и предсказатель белков, оценивающий их динамическую точность. Этот подход сочетает в себе разнообразие, точность и новизну в процессе проектирования. С помощью полномасштабных молекулярных симуляций в качестве прямой проверки мы демонстрируем, что спроектированные белки точно воспроизводят заданные амплитуды нормальных мод вдоль основной цепи, одновременно принимая различные стабильные, функционально значимые структуры. Примечательно, что сгенерированные последовательности являются de novo и не демонстрируют значительного сходства с природными белками, что расширяет доступное пространство белков за пределы эволюционных ограничений. Наша работа интегрирует динамику белков в генеративное проектирование и устанавливает прямую двунаправленную связь между последовательностью и колебательным поведением, открывая новые пути для создания биомолекул с заданными динамическими и функциональными свойствами. Этот подход имеет широкие перспективы для рационального проектирования гибких ферментов, динамических каркасов и биоматериалов, прокладывая путь к ИИ-управляемому проектированию белков с учетом их динамики.