HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

23 papers found

Модели диффузии больших языков
Large Language Diffusion Models

Feb 14

ByShen Nie, Fengqi Zhu, Zebin You, Xiaolu Zhang, Jingyang Ou, Jun Hu, Jun Zhou, Yankai Lin, Ji-Rong Wen, Chongxuan Li

123

Авторегрессионные модели (ARMs) широко считаются краеугольным камнем больших языковых моделей (LLMs). Мы оспариваем это утверждение, представляя LLaDA — диффузионную модель, обученную с нуля в рамках парадигмы предварительного обучения и контролируемой тонкой настройки (SFT). LLaDA моделирует распределения через процесс маскирования данных в прямом направлении и обратный процесс, параметризованный стандартным Transformer для предсказания замаскированных токенов. Оптимизируя границу правдоподобия, она предоставляет принципиальный генеративный подход для вероятностного вывода. На обширных бенчмарках LLaDA демонстрирует высокую масштабируемость, превосходя наши собственные базовые ARM-модели. Примечательно, что LLaDA 8B конкурирует с мощными LLMs, такими как LLaMA3 8B, в обучении в контексте и, после SFT, показывает впечатляющие способности следовать инструкциям в кейс-стадиях, таких как многопользовательский диалог. Более того, LLaDA решает проблему "проклятия обращения", превосходя GPT-4o в задаче завершения обратного стихотворения. Наши результаты устанавливают диффузионные модели как жизнеспособную и перспективную альтернативу ARMs, бросая вызов предположению, что ключевые возможности LLM, обсуждаемые выше, неразрывно связаны с ARMs.

Опасность чрезмерного анализа: Изучение дилеммы рассуждения и действия в агентных задачах
The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks

Feb 12

ByAlejandro Cuadron, Dacheng Li, Wenjie Ma, Xingyao Wang, Yichuan Wang, Siyuan Zhuang, Shu Liu, Luis Gaspar Schroeder, Tian Xia, Huanzhi Mao, Nicholas Thumiger, Aditya Desai, Ion Stoica, Ana Klimovic, Graham Neubig, Joseph E. Gonzalez

Большие модели рассуждений (LRM) представляют собой прорыв в возможностях решения проблем в области искусственного интеллекта, однако их эффективность в интерактивных средах может быть ограничена. В данной статье представлено и проанализировано явление чрезмерного анализа в LRM. Феномен, при котором модели отдают предпочтение продолжительным внутренним цепочкам рассуждений перед взаимодействием с окружающей средой. Проведя эксперименты на задачах программной инженерии с использованием SWE Bench Verified, мы выявили три повторяющихся паттерна: Анализ Паралича, Действия-мародеры и Преждевременное Отстранение. Мы предлагаем фреймворк для изучения этих поведенческих шаблонов, который коррелирует с оценками человеческих экспертов, и проанализировали 4018 траекторий. Мы обнаружили, что более высокие оценки чрезмерного анализа коррелируют с уменьшением производительности, причем модели рассуждений проявляют более сильные тенденции к чрезмерному анализу по сравнению с моделями без рассуждений. Наш анализ показывает, что простые усилия по смягчению чрезмерного анализа в агентных средах, такие как выбор решения с более низкой оценкой чрезмерного анализа, могут улучшить производительность модели почти на 30%, снизив при этом вычислительные затраты на 43%. Эти результаты свидетельствуют о том, что смягчение чрезмерного анализа имеет сильные практические последствия. Мы предлагаем, что путем использования встроенных возможностей вызова функций и селективного обучения с подкреплением можно смягчить тенденции к чрезмерному анализу. Мы также открываем наш фреймворк оценки и набор данных для свободного использования, чтобы содействовать исследованиям в этом направлении по ссылке https://github.com/AlexCuadron/Overthinking.

Технический отчет Step-Video-T2V: Практика, проблемы и будущее базовой модели для работы с видео
Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model

Feb 14

ByGuoqing Ma, Haoyang Huang, Kun Yan, Liangyu Chen, Nan Duan, Shengming Yin, Changyi Wan, Ranchen Ming, Xiaoniu Song, Xing Chen, Yu Zhou, Deshan Sun, Deyu Zhou, Jian Zhou, Kaijun Tan, Kang An, Mei Chen, Wei Ji, Qiling Wu, Wen Sun, Xin Han, Yanan Wei, Zheng Ge, Aojie Li, Bin Wang, Bizhu Huang, Bo Wang, Brian Li, Changxing Miao, Chen Xu, Chenfei Wu, Chenguang Yu, Dapeng Shi, Dingyuan Hu, Enle Liu, Gang Yu, Ge Yang, Guanzhe Huang, Gulin Yan, Haiyang Feng, Hao Nie, Haonan Jia, Hanpeng Hu, Hanqi Chen, Haolong Yan, Heng Wang, Hongcheng Guo, Huilin Xiong, Huixin Xiong, Jiahao Gong, Jianchang Wu, Jiaoren Wu, Jie Wu, Jie Yang, Jiashuai Liu, Jiashuo Li, Jingyang Zhang, Junjing Guo, Junzhe Lin, Kaixiang Li, Lei Liu, Lei Xia, Liang Zhao, Liguo Tan, Liwen Huang, Liying Shi, Ming Li, Mingliang Li, Muhua Cheng, Na Wang, Qiaohui Chen, Qinglin He, Qiuyan Liang, Quan Sun, Ran Sun, Rui Wang, Shaoliang Pang, Shiliang Yang, Sitong Liu, Siqi Liu, Shuli Gao, Tiancheng Cao, Tianyu Wang, Weipeng Ming, Wenqing He, Xu Zhao, Xuelin Zhang, Xianfang Zeng, Xiaojia Liu, Xuan Yang, Yaqi Dai, Yanbo Yu, Yang Li, Yineng Deng, Yingming Wang, Yilei Wang, Yuanwei Lu, Yu Chen, Yu Luo, Yuchu Luo, Yuhe Yin, Yuheng Feng, Yuxiang Yang, Zecheng Tang, Zekai Zhang, Zidong Yang, Binxing Jiao, Jiansheng Chen, Jing Li, Shuchang Zhou, Xiangyu Zhang, Xinhao Zhang, Yibo Zhu, Heung-Yeung Shum, Daxin Jiang

Мы представляем Step-Video-T2V — современную предобученную модель для генерации видео из текста, содержащую 30 миллиардов параметров и способную создавать видео длиной до 204 кадров. Для задач генерации видео разработан глубоко сжимающий Вариационный Автокодировщик (Video-VAE), который достигает коэффициентов сжатия 16x16 в пространственном и 8x во временном измерениях, сохраняя при этом высокое качество реконструкции видео. Пользовательские запросы кодируются с использованием двух двуязычных текстовых энкодеров для обработки как английского, так и китайского языков. Модель DiT с 3D полным вниманием обучается с помощью метода Flow Matching и используется для преобразования входного шума в скрытые кадры. Для уменьшения артефактов и улучшения визуального качества генерируемых видео применяется видеоспецифичный подход DPO (Video-DPO). Мы также подробно описываем наши стратегии обучения и делимся ключевыми наблюдениями и инсайтами. Производительность Step-Video-T2V оценивается на новом бенчмарке для генерации видео, Step-Video-T2V-Eval, демонстрируя её передовое качество в сравнении как с открытыми, так и с коммерческими движками. Кроме того, мы обсуждаем ограничения текущей парадигмы моделей на основе диффузии и намечаем будущие направления для фундаментальных моделей видео. Мы делаем Step-Video-T2V и Step-Video-T2V-Eval доступными по адресу https://github.com/stepfun-ai/Step-Video-T2V. Онлайн-версия также доступна на https://yuewen.cn/videos. Наша цель — ускорить инновации в области фундаментальных моделей видео и расширить возможности создателей видеоконтента.

Регионально-адаптивная выборка для диффузионных трансформеров
Region-Adaptive Sampling for Diffusion Transformers

Feb 14

ByZiming Liu, Yifan Yang, Chengruidong Zhang, Yiqi Zhang, Lili Qiu, Yang You, Yuqing Yang

Диффузионные модели (DMs) стали основным выбором для генеративных задач в различных областях. Однако их зависимость от множества последовательных прямых проходов существенно ограничивает производительность в реальном времени. Предыдущие методы ускорения в основном были сосредоточены на сокращении количества шагов выборки или повторном использовании промежуточных результатов, не учитывая вариации в пространственных областях изображения из-за ограничений сверточных U-Net архитектур. Используя гибкость Diffusion Transformers (DiTs) в обработке переменного количества токенов, мы представляем RAS — новую, не требующую обучения стратегию выборки, которая динамически назначает различные коэффициенты выборки для областей изображения на основе фокуса модели DiT. Наше ключевое наблюдение заключается в том, что на каждом шаге выборки модель концентрируется на семантически значимых областях, и эти области фокуса демонстрируют сильную преемственность между последовательными шагами. Используя это наблюдение, RAS обновляет только области, находящиеся в фокусе, в то время как остальные области обновляются с использованием кэшированного шума из предыдущего шага. Фокус модели определяется на основе вывода предыдущего шага, что позволяет использовать наблюдаемую временную согласованность. Мы оцениваем RAS на моделях Stable Diffusion 3 и Lumina-Next-T2I, достигая ускорения до 2.36x и 2.51x соответственно с минимальным ухудшением качества генерации. Кроме того, пользовательское исследование показывает, что RAS обеспечивает сопоставимое качество при оценке людьми, достигая ускорения в 1.6x. Наш подход делает значительный шаг к более эффективным диффузионным трансформерам, расширяя их потенциал для приложений реального времени.

ZeroBench: Невозможный визуальный бенчмарк для современных крупных мультимодальных моделей
ZeroBench: An Impossible Visual Benchmark for Contemporary Large Multimodal Models

Feb 13

ByJonathan Roberts, Mohammad Reza Taesiri, Ansh Sharma, Akash Gupta, Samuel Roberts, Ioana Croitoru, Simion-Vlad Bogolin, Jialu Tang, Florian Langer, Vyas Raina, Vatsal Raina, Hanyi Xiong, Vishaal Udandarao, Jingyi Lu, Shiyang Chen, Sam Purkis, Tianshuo Yan, Wenye Lin, Gyungin Shin, Qiaochu Yang, Anh Totti Nguyen, Kai Han, Samuel Albanie

Крупные мультимодальные модели (LMM) демонстрируют значительные недостатки в интерпретации изображений и, по некоторым критериям, обладают более слабым пространственным восприятием, чем маленькие дети или животные. Несмотря на это, они достигают высоких результатов на многих популярных визуальных тестах, при этом запас для улучшения быстро сокращается из-за стремительного прогресса моделей. Чтобы решить эту проблему, существует острая необходимость в сложных тестах, которые остаются актуальными в течение более длительного времени. Мы доводим эту идею до предела, представляя ZeroBench — легковесный тест на визуальное мышление, который полностью недоступен для современных передовых LMM. Наш тест состоит из 100 вручную отобранных вопросов и 334 менее сложных подвопросов. Мы оцениваем 20 LMM на ZeroBench, и все они показывают результат 0.0%, после чего тщательно анализируем ошибки. Чтобы стимулировать прогресс в области визуального понимания, мы публикуем ZeroBench в открытом доступе.

MM-RLHF: Следующий шаг в согласовании мультимодальных языковых моделей
MM-RLHF: The Next Step Forward in Multimodal LLM Alignment

Feb 14

ByYi-Fan Zhang, Tao Yu, Haochen Tian, Chaoyou Fu, Peiyan Li, Jianshu Zeng, Wulin Xie, Yang Shi, Huanyu Zhang, Junkang Wu, Xue Wang, Yibo Hu, Bin Wen, Fan Yang, Zhang Zhang, Tingting Gao, Di Zhang, Liang Wang, Rong Jin, Tieniu Tan

Несмотря на значительные достижения в области мультимодальных больших языковых моделей (MLLMs), большинство современных моделей не прошли тщательного согласования с человеческими предпочтениями. Этот пробел существует, поскольку текущие исследования в области согласования в основном добились прогресса в отдельных областях (например, в снижении галлюцинаций), в

ImageRAG: Динамическое извлечение изображений для эталонно-управляемой генерации изображений
ImageRAG: Dynamic Image Retrieval for Reference-Guided Image Generation

Feb 13

ByRotem Shalev-Arkushin, Rinon Gal, Amit H. Bermano, Ohad Fried

Диффузионные модели позволяют синтезировать высококачественный и разнообразный визуальный контент. Однако они испытывают трудности с генерацией редких или ранее не встречавшихся концепций. Для решения этой проблемы мы исследуем использование подхода Retrieval-Augmented Generation (RAG) в сочетании с моделями генерации изображений. Мы предлагаем метод ImageRAG, который динамически извлекает релевантные изображения на основе текстового запроса и использует их в качестве контекста для управления процессом генерации. В отличие от предыдущих подходов, которые обучали модели специально для генерации на основе извлеченных данных, ImageRAG использует возможности существующих моделей с условием на изображения и не требует специального обучения для RAG. Наш подход обладает высокой адаптивностью и может быть применен к различным типам моделей, демонстрируя значительное улучшение в генерации редких и детализированных концепций с использованием различных базовых моделей. Страница проекта доступна по адресу: https://rotem-shalev.github.io/ImageRAG

DarwinLM: Эволюционное структурированное прореживание больших языковых моделей
DarwinLM: Evolutionary Structured Pruning of Large Language Models

Feb 11

ByShengkun Tang, Oliver Sieberling, Eldar Kurtic, Zhiqiang Shen, Dan Alistarh

Крупные языковые модели (LLM) достигли значительных успехов в решении различных задач обработки естественного языка (NLP). Однако их высокая вычислительная стоимость ограничивает их широкое применение, особенно в задачах, требующих работы в реальном времени. Структурное прореживание предлагает эффективное решение, сжимая модели и обеспечивая прямое улучшение скорости работы от начала до конца, независимо от аппаратной среды. При этом различные компоненты модели демонстрируют разную чувствительность к прореживанию, что требует неоднородного сжатия модели. Однако метод прореживания должен не только выявлять подходящую подструктуру, но и учитывать обучение после сжатия. Для этого мы предлагаем \sysname — метод структурированного прореживания с учетом обучения. \sysname основан на эволюционном поиске, генерируя в каждом поколении несколько дочерних моделей с помощью мутаций и отбирая наиболее приспособленные для выживания. Чтобы оценить эффект пост-обучения, мы включаем в процесс легковесное многоэтапное обучение в популяции дочерних моделей, постепенно увеличивая количество токенов и отсеивая слабо работающие модели на каждом этапе отбора. Мы подтверждаем эффективность нашего метода с помощью обширных экспериментов на моделях Llama-2-7B, Llama-3.1-8B и Qwen-2.5-14B-Instruct, достигая передовых результатов в области структурного прореживания. Например, \sysname превосходит ShearedLlama, требуя в 5 раз меньше данных для обучения после сжатия.

Разнообразный вывод и проверка для продвинутого логического рассуждения
Diverse Inference and Verification for Advanced Reasoning

Feb 14

ByIddo Drori, Gaston Longhitano, Mao Mao, Seunghwan Hyun, Yuke Zhang, Sungjun Park, Zachary Meeks, Xin-Yu Zhang, Ben Segev, Howard Yong, Nakul Verma, Avi Shporer, Alon Amit, Madeleine Udell

Модели рассуждений с большим языковым контекстом (LLMs), такие как OpenAI o1, o3 и DeepSeek R1, достигли значительного прогресса в математике и программировании, однако сталкиваются с трудностями при решении сложных задач, таких как комбинаторные задачи Международной математической олимпиады (IMO), головоломки из набора Abstraction and Reasoning Corpus (ARC) и вопросы из экзамена Humanity's Last Exam (HLE). Мы используем разнообразный подход к выводу, который сочетает несколько моделей и методов на этапе тестирования. Мы обнаружили, что проверка математических и программных задач, а также отбор с отклонением для других задач являются простыми и эффективными методами. Мы автоматически проверяем правильность решений задач IMO с помощью Lean, а головоломки ARC — с помощью кода, и выясняем, что метод best-of-N эффективно отвечает на вопросы HLE. Наш подход повышает точность ответов на комбинаторные задачи IMO с 33,3% до 77,8%, точность ответов на вопросы HLE — с 8% до 37%, а также решает 80% головоломок ARC, которые не смогли решить 948 человек, и 26,5% головоломок ARC, которые не решает модель o3 с высокими вычислительными ресурсами. Симуляции на этапе тестирования, обучение с подкреплением и метаобучение с обратной связью по выводу улучшают обобщение за счет адаптации представлений графа агента и варьирования подсказок, кода и наборов данных. Наш подход надежен, устойчив и масштабируем, и в духе воспроизводимых исследований мы сделаем его общедоступным после публикации.

FoNE: Точные встраивания чисел в виде одного токена с использованием признаков Фурье
FoNE: Precise Single-Token Number Embeddings via Fourier Features

Feb 13

ByTianyi Zhou, Deqing Fu, Mahdi Soltanolkotabi, Robin Jia, Vatsal Sharan

Крупные языковые модели (LLM) обычно представляют числа с использованием нескольких токенов, что требует от модели агрегирования этих токенов для интерпретации числовых значений. Такая фрагментация делает как обучение, так и вывод менее эффективными и негативно сказывается на производительности модели в задачах, связанных с числами. Вдохновленные наблюдением, что предобученные LLM внутренне изучают Фурье-подобные признаки для числовых токенов, мы предлагаем Фурье-вложение чисел (Fourier Number Embedding, FoNE) — новый метод, который напрямую отображает числа в пространство вложений с использованием их Фурье-признаков. FoNE кодирует каждое число как один токен с использованием всего двух измерений вложения на цифру, эффективно захватывая числовые значения без фрагментации. Это компактное представление ускоряет как обучение, так и вывод. По сравнению с традиционными субсловными и поцифровыми вложениями, FoNE не только снижает вычислительные затраты, но и достигает более высокой точности в различных числовых задачах, включая сложение, вычитание и умножение. В задаче сложения 6-значных десятичных чисел FoNE требует в 64 раза меньше данных для достижения 99% точности по сравнению с субсловными и поцифровыми вложениями, используя при этом в 3 и 6 раз меньше токенов на число соответственно. Более того, FoNE является единственным методом, который обеспечивает 100% точность на более чем 100 000 тестовых примерах для сложения, вычитания и умножения. Коды и визуализации доступны по адресу https://fouriernumber.github.io/.

Точная локализация параметров для текстовой генерации в моделях диффузии
Precise Parameter Localization for Textual Generation in Diffusion Models

Feb 14

ByŁukasz Staniszewski, Bartosz Cywiński, Franziska Boenisch, Kamil Deja, Adam Dziedzic

Новые модели диффузии могут синтезировать фотореалистичные изображения с интегрированным высококачественным текстом. Удивительно, что мы демонстрируем через активацию внимания, что менее 1% параметров моделей диффузии, все содержащиеся в слоях внимания, влияют на генерацию текстового контента в изображениях. Основываясь на этом наблюдении, мы улучшаем эффективность и производительность генерации текста, нацеливаясь на слои кросс- и совместного внимания моделей диффузии. Мы представляем несколько приложений, которые выигрывают от локализации слоев, ответственных за генерацию текстового контента. Сначала мы показываем, что тонкая настройка на основе LoRA только локализованных слоев улучшает общие возможности генерации текста больших моделей диффузии, сохраняя качество и разнообразие генераций моделей диффузии. Затем мы демонстрируем, как мы можем использовать локализованные слои для редактирования текстового контента в сгенерированных изображениях. Наконец, мы расширяем эту идею до практического случая предотвращения генерации токсичного текста бесплатным способом. В отличие от предыдущих работ, наш подход к локализации широко применим в различных архитектурах моделей диффузии, включая U-Net (например, LDM и SDXL) и на основе трансформера (например, DeepFloyd IF и Stable Diffusion 3), используя разнообразные текстовые кодировщики (например, от CLIP до крупных языковых моделей, таких как T5). Страница проекта доступна по адресу https://t2i-text-loc.github.io/.

Мы не можем понять ИИ, используя наш существующий словарный запас.
We Can't Understand AI Using our Existing Vocabulary

Feb 11

ByJohn Hewitt, Robert Geirhos, Been Kim

В данной позиционной статье утверждается, что для понимания ИИ мы не можем полагаться на существующий словарный запас человеческих слов. Вместо этого мы должны стремиться к созданию неологизмов: новых слов, которые представляют точные человеческие концепции, которые мы хотим передать машинам, или машинные концепции, которые нам необходимо изучить. Мы исходим из предпосылки, что у людей и машин существуют различные концепции. Это означает, что интерпретируемость можно рассматривать как проблему коммуникации: люди должны иметь возможность ссылаться на машинные концепции и управлять ими, а также передавать человеческие концепции машинам. Создание общего языка для взаимодействия человека и машины через разработку неологизмов, как мы полагаем, может решить эту проблему коммуникации. Успешные неологизмы достигают полезного уровня абстракции: не слишком детализированы, чтобы быть применимыми в различных контекстах, и не слишком обобщены, чтобы передавать точную информацию. В качестве доказательства концепции мы демонстрируем, как "неологизм длины" позволяет управлять длиной ответов языковых моделей, а "неологизм разнообразия" позволяет получать более вариативные ответы. В совокупности мы утверждаем, что мы не можем понять ИИ, используя существующий словарный запас, и его расширение через неологизмы создает возможности как для управления, так и для лучшего понимания машин.

Выборочная саморегулировка для обучения с учителем для обобщения в больших языковых моделях
Selective Self-to-Supervised Fine-Tuning for Generalization in Large Language Models

Feb 12

BySonam Gupta, Yatin Nandwani, Asaf Yehudai, Dinesh Khandelwal, Dinesh Raghu, Sachindra Joshi

Калибровка больших языковых моделей (LLM) на конкретных наборах данных - распространенная практика для улучшения производительности на целевых задачах. Однако это улучшение производительности часто приводит к переобучению, когда модель становится слишком специализированной либо на задаче, либо на характеристиках обучающих данных, что приводит к потере обобщения. В данной статье представлен метод выборочной самокалибровки с учителем (S3FT), подход к калибровке, который достигает лучшей производительности по сравнению со стандартной калибровкой с учителем (SFT), улучшая при этом обобщение. S3FT использует наличие нескольких верных ответов на запрос. Путем использования верных ответов модели S3FT уменьшает специализацию модели на этапе калибровки. S3FT сначала определяет правильные ответы модели из обучающего набора, применяя соответствующего судью. Затем модель калибруется с использованием правильных ответов модели и правильного ответа (или его перефразировки) для оставшихся образцов. Эффективность S3FT демонстрируется через эксперименты по математическому рассуждению, программированию на Python и задачам по пониманию текста. Результаты показывают, что стандартная SFT может привести к среднему снижению производительности до 4,4 по нескольким показателям, таким как MMLU и TruthfulQA. В отличие от этого, S3FT уменьшает это снижение вдвое, то есть до 2,5, что указывает на лучшие возможности обобщения по сравнению с SFT, при этом значительно лучше справляется с задачами калибровки.

Маленькие модели, большое воздействие: эффективная адаптация маленьких мультиязычных языковых моделей для языков с ограниченными ресурсами на основе корпуса и графов.
Small Models, Big Impact: Efficient Corpus and Graph-Based Adaptation of Small Multilingual Language Models for Low-Resource Languages

Feb 14

ByDaniil Gurgurov, Ivan Vykopal, Josef van Genabith, Simon Ostermann

Языки с ограниченными ресурсами (LRLs) сталкиваются с серьезными проблемами в обработке естественного языка (NLP) из-за ограниченного объема данных. В то время как современные передовые крупные языковые модели (LLMs) все еще испытывают трудности с LRLs, более маленькие мультиязычные модели (mLMs) такие как mBERT и XLM-R предлагают большую перспективу благодаря лучшему соответствию их возможностей низким объемам обучающих данных. В данном исследовании систематически рассматриваются методы адаптации на основе адаптеров, эффективных по параметрам, для адаптации mLMs к LRLs, оцениваются три архитектуры: Последовательный Узкое место, Обратимое Узкое место и Адаптация с Низким Рангом. Используя неструктурированный текст из GlotCC и структурированные знания из ConceptNet, мы показываем, что небольшие наборы данных для адаптации (например, до 1 ГБ свободного текста или несколько МБ данных графа знаний) приводят к улучшениям во внутренних (маскированное моделирование языка) и внешних задачах (классификация тем, анализ настроений и распознавание именованных сущностей). Мы обнаружили, что адаптеры Последовательного Узкого места превосходят в моделировании языка, в то время как адаптеры Обратимого Узкого места незначительно превосходят другие методы во вторичных задачах из-за лучшего выравнивания встраивания и большего количества параметров. Методы на основе адаптеров соответствуют или превосходят полное дообучение, используя значительно меньше параметров, и более маленькие mLMs оказываются более эффективными для LRLs, чем массивные LLMs, такие как LLaMA-3, GPT-4 и модели на основе DeepSeek-R1. В то время как адаптация улучшает производительность, размер данных предварительного обучения остается доминирующим фактором, особенно для языков с обширным охватом предварительного обучения.

AdaPTS: Адаптация универсальных моделей для вероятностного прогнозирования многомерных временных рядов
AdaPTS: Adapting Univariate Foundation Models to Probabilistic Multivariate Time Series Forecasting

Feb 14

ByAbdelhakim Benechehab, Vasilii Feofanov, Giuseppe Paolo, Albert Thomas, Maurizio Filippone, Balázs Kégl

Предварительно обученные базовые модели (FMs) продемонстрировали выдающуюся производительность в задачах прогнозирования одномерных временных рядов. Однако сохраняется несколько практических проблем, включая управление сложными зависимостями между признаками и оценку неопределенности в прогнозах. Данное исследование направлено на устранение этих критических ограничений путем введения адаптеров — преобразований в пространстве признаков, которые облегчают эффективное использование предварительно обученных одномерных моделей временных рядов для многомерных задач. Адаптеры работают, проецируя многомерные входные данные в подходящее латентное пространство и применяя FM независимо к каждому измерению. Вдохновленные литературой по обучению представлений и частично стохастическим байесовским нейронным сетям, мы представляем набор адаптеров и стратегий оптимизации/вывода. Эксперименты, проведенные как на синтетических, так и на реальных наборах данных, подтверждают эффективность адаптеров, демонстрируя значительное улучшение точности прогнозирования и оценки неопределенности по сравнению с базовыми методами. Наша структура, AdaPTS, позиционирует адаптеры как модульное, масштабируемое и эффективное решение для использования моделей временных рядов в многомерных контекстах, способствуя их более широкому внедрению в реальных приложениях. Мы публикуем код по адресу https://github.com/abenechehab/AdaPTS.

Взлом для взлома
Jailbreaking to Jailbreak

Feb 9

ByJeremy Kritz, Vaughn Robinson, Robert Vacareanu, Bijan Varjavand, Michael Choi, Bobby Gogov, Scale Red Team, Summer Yue, Willow E. Primack, Zifan Wang

Обучение моделей крупных языковых моделей (LLM) на отказ от вредоносных выводов предотвращает их генерацию, однако эта защита остается уязвимой как для автоматизированных, так и для созданных человеком методов взлома. Мы представляем новый подход, в котором человек взламывает обученную на отказ LLM, чтобы сделать её способной взламывать себя или другие LLM. Мы называем такие взломанные LLM атакующими J_2, которые могут систематически оценивать целевые модели, используя различные стратегии "красной команды", и улучшать свою производительность за счет обучения в контексте на основе предыдущих неудач. Наши эксперименты показывают, что Sonnet 3.5 и Gemini 1.5 pro превосходят другие LLM в роли J_2, достигая 93,0% и 91,0% успешности атак (ASR) соответственно против GPT-4o (и аналогичных результатов для других мощных LLM) на Harmbench. Наша работа не только представляет масштабируемый подход к стратегическому тестированию, вдохновленный методами "красной команды", но и подчеркивает взлом-для-взлома как недооцененный сбой в системе защиты. В частности, LLM может обойти свои собственные защитные механизмы, используя взломанную версию себя, которая готова помочь в дальнейшем взломе. Чтобы предотвратить прямое злоупотребление J_2, одновременно продвигая исследования в области безопасности ИИ, мы публикуем нашу методологию, сохраняя детали конкретных подсказок в тайне.

STMA: Пространственно-временной агент с памятью для планирования долгосрочных задач в воплощенных системах
STMA: A Spatio-Temporal Memory Agent for Long-Horizon Embodied Task Planning

Feb 14

ByMingcong Lei, Yiming Zhao, Ge Wang, Zhixin Mai, Shuguang Cui, Yatong Han, Jinke Ren

Ключевой целью воплощённого интеллекта является обеспечение способности агентов выполнять долгосрочные задачи в динамических средах, сохраняя при этом устойчивость принятия решений и адаптивность. Для достижения этой цели мы предлагаем агента с пространственно-временной памятью (Spatio-Temporal Memory Agent, STMA) — новую архитектуру, предназначенную для улучшения планирования и выполнения задач за счёт интеграции пространственно-временной памяти. STMA основан на трёх ключевых компонентах: (1) модуль пространственно-временной памяти, который фиксирует исторические и средовые изменения в реальном времени, (2) динамический граф знаний, обеспечивающий адаптивное пространственное рассуждение, и (3) механизм планировщика-критика, который итеративно уточняет стратегии выполнения задач. Мы оцениваем STMA в среде TextWorld на 32 задачах, включающих многошаговое планирование и исследование при различных уровнях сложности. Экспериментальные результаты показывают, что STMA достигает улучшения успешности выполнения задач на 31,25% и увеличения среднего балла на 24,7% по сравнению с современной моделью. Результаты подчеркивают эффективность пространственно-временной памяти в расширении возможностей памяти воплощённых агентов.

Разреженная обрезка вокселей под руководством текста для эффективного привязывания трехмерных визуальных объектов.
Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding

Feb 14

ByWenxuan Guo, Xiuwei Xu, Ziwei Wang, Jianjiang Feng, Jie Zhou, Jiwen Lu

В данной статье мы предлагаем эффективную многоуровневую архитектуру свертки для трехмерной визуальной привязки. Традиционные методы затрудняют обеспечение требований реального времени вывода из-за двухэтапной или точечной архитектуры. Вдохновленные успехом многоуровневой полностью разреженной сверточной архитектуры в обнаружении трехмерных объектов, мы стремимся построить новую рамочную структуру трехмерной визуальной привязки, следуя этому техническому пути. Однако, поскольку в задаче трехмерной визуальной привязки трехмерное представление сцены должно глубоко взаимодействовать с текстовыми характеристиками, архитектура на основе разреженной свертки неэффективна для этого взаимодействия из-за большого количества признаков вокселей. Для этого мы предлагаем обрезку, направляемую текстом (TGP) и дополнение на основе завершения (CBA) для глубокого слияния трехмерного представления сцены и текстовых характеристик эффективным способом путем поэтапной обрезки области и завершения цели. Конкретно, TGP итеративно разреживает трехмерное представление сцены и таким образом эффективно взаимодействует признаки вокселей с текстовыми характеристиками с помощью кросс-внимания. Для смягчения влияния обрезки на тонкую геометрическую информацию, CBA адаптивно исправляет перерезанную область путем завершения вокселями с незначительными вычислительными затратами. По сравнению с предыдущими одноэтапными методами, наш метод достигает лучшей скорости вывода и превосходит предыдущий самый быстрый метод на 100\% кадров в секунду. Наш метод также достигает передовой точности даже по сравнению с двухэтапными методами, с преимуществом в +1.13 по Acc@0.5 на ScanRefer, и преимуществом в +2.6 и +3.2 на NR3D и SR3D соответственно. Код доступен по ссылке https://github.com/GWxuan/TSP3D.

V2V-LLM: Кооперативное автономное вождение между транспортными средствами с использованием мультимодальных больших языковых моделей
V2V-LLM: Vehicle-to-Vehicle Cooperative Autonomous Driving with Multi-Modal Large Language Models

Feb 14

ByHsu-kuang Chiu, Ryo Hachiuma, Chien-Yi Wang, Stephen F. Smith, Yu-Chiang Frank Wang, Min-Hung Chen

Современные автономные транспортные средства в основном полагаются на свои собственные датчики для понимания окружающей обстановки и планирования будущих траекторий, что может быть ненадежным при неисправности или заслонении датчиков. Для решения этой проблемы были предложены методы кооперативного восприятия через связь между транспортными средствами (V2V), однако они в основном сосредоточены на задачах обнаружения и отслеживания. Вопрос о том, как эти подходы влияют на общую производительность кооперативного планирования, остается недостаточно изученным. Вдохновленные недавними достижениями в использовании больших языковых моделей (LLM) для создания автономных систем вождения, мы предлагаем новую постановку задачи, которая интегрирует LLM в кооперативное автономное вождение, с предложенным набором данных и эталоном Vehicle-to-Vehicle Question-Answering (V2V-QA). Мы также предлагаем наш базовый метод Vehicle-to-Vehicle Large Language Model (V2V-LLM), который использует LLM для объединения информации о восприятии от нескольких подключенных автономных транспортных средств (CAV) и ответа на вопросы, связанные с вождением: локализация, идентификация значимых объектов и планирование. Экспериментальные результаты показывают, что наш предложенный V2V-LLM может стать перспективной унифицированной архитектурой модели для выполнения различных задач в кооперативном автономном вождении и превосходит другие базовые методы, использующие различные подходы к объединению данных. Наша работа также открывает новое направление исследований, которое может повысить безопасность будущих автономных систем вождения. Сайт проекта: https://eddyhkchiu.github.io/v2vllm.github.io/.

Кластеризация и предсказание латентных патчей для улучшенного моделирования маскированных изображений
Cluster and Predict Latents Patches for Improved Masked Image Modeling

Feb 12

ByTimothée Darcet, Federico Baldassarre, Maxime Oquab, Julien Mairal, Piotr Bojanowski

Маскированное моделирование изображений (MIM) представляет собой перспективный подход к обучению представлений с самоконтролем, однако существующие модели MIM всё ещё отстают от современных достижений. В данной работе мы систематически анализируем

MRS: Быстрый сэмплер для возвращающихся к среднему диффузий на основе решателей ОДУ и СДУ
MRS: A Fast Sampler for Mean Reverting Diffusion based on ODE and SDE Solvers

Feb 11

ByAo Li, Wei Fang, Hongbo Zhao, Le Lu, Ge Yang, Minfeng Xu

В приложениях диффузионных моделей управляемая генерация имеет практическое значение, но также представляет собой сложную задачу. Современные методы управляемой генерации в основном сосредоточены на модификации функции оценки диффузионных моделей, тогда как метод Mean Reverting (MR) Diffusion напрямую изменяет структуру стохастического дифференциального уравнения (SDE), что делает включение условий на изображение более простым и естественным. Однако текущие быстрые сэмплеры, не требующие обучения, не применимы напрямую к MR Diffusion. В результате MR Diffusion требует сотен NFEs (количество вычислений функции) для получения высококачественных сэмплов. В данной статье мы предлагаем новый алгоритм под названием MRS (MR Sampler) для сокращения количества NFEs при сэмплировании в MR Diffusion. Мы решаем обратное по времени SDE и обыкновенное дифференциальное уравнение потока вероятности (PF-ODE), связанные с MR Diffusion, и выводим полуаналитические решения. Эти решения состоят из аналитической функции и интеграла, параметризованного нейронной сетью. На основе этого решения мы можем генерировать высококачественные сэмплы за меньшее количество шагов. Наш подход не требует обучения и поддерживает все основные параметризации, включая предсказание шума, предсказание данных и предсказание скорости. Многочисленные эксперименты демонстрируют, что MR Sampler сохраняет высокое качество сэмплирования с ускорением в 10–20 раз для десяти различных задач восстановления изображений. Наш алгоритм ускоряет процесс сэмплирования в MR Diffusion, делая его более практичным для управляемой генерации.

CLaMP 3: Универсальный поиск информации о музыке через несогласованные модальности и невидимые языки
CLaMP 3: Universal Music Information Retrieval Across Unaligned Modalities and Unseen Languages

Feb 14

ByShangda Wu, Zhancheng Guo, Ruibin Yuan, Junyan Jiang, Seungheon Doh, Gus Xia, Juhan Nam, Xiaobing Li, Feng Yu, Maosong Sun

CLaMP 3 - это унифицированная структура, разработанная для решения проблем кросс-модальной и кросс-языковой обобщения в поиске информации о музыке. С использованием контрастного обучения она выравнивает все основные модальности музыки - включая ноты, сигналы исполнения и аудиозаписи - с многоязычным текстом в общем пространстве представления, обеспечивая поиск по несогласованным модальностям с текстом в качестве моста. Он оснащен многоязычным текстовым кодировщиком, способным адаптироваться к невидимым языкам, проявляя сильное кросс-языковое обобщение. Используя поиск с увеличением поколения, мы создали M4-RAG, набор данных веб-масштаба, состоящий из 2,31 миллиона пар музыка-текст. Этот набор данных обогащен подробной метаданными, представляющими широкий спектр музыкальных традиций мира. Для продвижения будущих исследований мы выпустили WikiMT-X, бенчмарк, включающий 1 000 троек нот, аудио и разнообразных текстовых описаний. Эксперименты показывают, что CLaMP 3 достигает передового уровня производительности в нескольких задачах поиска информации о музыке, значительно превосходя предыдущие сильные базовые уровни и демонстрируя отличное обобщение в мультимодальных и многоязычных музыкальных контекстах.

Агентное сквозное проектирование белков de novo с учетом заданной динамики с использованием языковой диффузионной модели
Agentic End-to-End De Novo Protein Design for Tailored Dynamics Using a Language Diffusion Model

Feb 14

ByBo Ni, Markus J. Buehler

Белки представляют собой динамические молекулярные машины, чьи биологические функции, включая ферментативный катализ, передачу сигналов и структурную адаптацию, неразрывно связаны с их движениями. Однако проектирование белков с заданными динамическими свойствами остается сложной задачей из-за сложных и вырожденных взаимосвязей между последовательностью, структурой и молекулярным движением. В данной работе мы представляем VibeGen — генеративную ИИ-платформу, которая позволяет осуществлять сквозное de novo проектирование белков, учитывая нормальные моды колебаний. VibeGen использует агентную архитектуру с двумя моделями: проектировщик белков, генерирующий последовательности на основе заданных колебательных мод, и предсказатель белков, оценивающий их динамическую точность. Этот подход сочетает в себе разнообразие, точность и новизну в процессе проектирования. С помощью полномасштабных молекулярных симуляций в качестве прямой проверки мы демонстрируем, что спроектированные белки точно воспроизводят заданные амплитуды нормальных мод вдоль основной цепи, одновременно принимая различные стабильные, функционально значимые структуры. Примечательно, что сгенерированные последовательности являются de novo и не демонстрируют значительного сходства с природными белками, что расширяет доступное пространство белков за пределы эволюционных ограничений. Наша работа интегрирует динамику белков в генеративное проектирование и устанавливает прямую двунаправленную связь между последовательностью и колебательным поведением, открывая новые пути для создания биомолекул с заданными динамическими и функциональными свойствами. Этот подход имеет широкие перспективы для рационального проектирования гибких ферментов, динамических каркасов и биоматериалов, прокладывая путь к ИИ-управляемому проектированию белков с учетом их динамики.