HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

14 papers found

Дрибблология: Испытание языковых моделей в интерпретации бессмыслицы с глубиной
Drivel-ology: Challenging LLMs with Interpreting Nonsense with Depth

Sep 4

ByYang Wang, Chenghao Xiao, Chia-Yi Hsiao, Zi Yan Chang, Chi-Li Chen, Tyler Loakman, Chenghua Lin

208

Мы представляем Дривелологию — уникальный лингвистический феномен, характеризующийся как "бессмыслица с глубиной", высказывания, которые синтаксически связны, но прагматически парадоксальны, эмоционально насыщены или риторически подрывны. Хотя такие выражения могут напоминать поверхностную бессмыслицу, они кодируют скрытый смысл, требующий контекстуального вывода, морального рассуждения или эмоциональной интерпретации. Мы обнаруживаем, что современные большие языковые модели (LLM), несмотря на их успехи во многих задачах обработки естественного языка (NLP), последовательно не способны уловить многослойную семантику дривелологического текста. Для исследования этого мы создали небольшой, но разнообразный эталонный набор данных, содержащий более 1200 тщательно отобранных примеров, включая отдельные случаи на английском, китайском, испанском, французском, японском и корейском языках. Аннотирование оказалось особенно сложным: каждый пример требовал внимательного экспертного анализа, чтобы убедиться, что он действительно отражает характеристики Дривелологии. Процесс включал несколько раундов обсуждения и согласования для разрешения разногласий, подчеркивая тонкий и субъективный характер Дривелологии. Мы оцениваем ряд LLM на задачах классификации, генерации и рассуждения. Наши результаты выявляют явные ограничения LLM: модели часто путают Дривелологию с поверхностной бессмыслицей, создают несвязные обоснования или полностью упускают подразумеваемую риторическую функцию. Эти результаты подчеркивают более глубокий пробел в прагматическом понимании LLM и ставят под сомнение предположение, что статистическая беглость подразумевает когнитивное понимание. Мы публикуем наш набор данных и код, чтобы способствовать дальнейшим исследованиям в моделировании лингвистической глубины за пределами поверхностной связности.

От редактора к оценщику плотной геометрии
From Editor to Dense Geometry Estimator

Sep 4

ByJiYuan Wang, Chunyu Lin, Lei Sun, Rongying Liu, Lang Nie, Mingxing Li, Kang Liao, Xiangxiang Chu, Yao Zhao

Использование визуальных априорных знаний из предобученных моделей генерации текста в изображение (T2I) показало успехи в задачах плотного предсказания. Однако плотное предсказание по своей природе является задачей преобразования изображения в изображение, что предполагает, что модели редактирования изображений, а не генеративные модели T2I, могут быть более подходящей основой для тонкой настройки. Руководствуясь этим, мы провели систематический анализ поведения как редакторов, так и генераторов при тонкой настройке для задач оценки плотной геометрии. Наши результаты показывают, что модели редактирования обладают внутренними структурными априорными знаниями, которые позволяют им сходиться более стабильно за счет «уточнения» своих врожденных признаков и в конечном итоге достигать более высокой производительности по сравнению с генеративными аналогами. На основе этих выводов мы представляем FE2E — фреймворк, который впервые адаптирует продвинутую модель редактирования, основанную на архитектуре Diffusion Transformer (DiT), для задач плотного предсказания геометрии. В частности, чтобы адаптировать редактор для этой детерминированной задачи, мы переформулируем исходную функцию потерь на основе сопоставления потоков в цель обучения «согласованной скорости». Кроме того, мы используем логарифмическую квантизацию для разрешения конфликта точности между родным форматом BFloat16 редактора и высокими требованиями к точности наших задач. Дополнительно мы используем глобальное внимание DiT для совместной оценки глубины и нормалей за один прямой проход, что позволяет их обучающим сигналам взаимно усиливать друг друга. Без увеличения объема обучающих данных FE2E демонстрирует впечатляющие улучшения производительности в задачах нулевого снимка (zero-shot) оценки монохромной глубины и нормалей на нескольких наборах данных. В частности, он достигает более чем 35\% прироста производительности на наборе данных ETH3D и превосходит серию DepthAnything, обученную на 100 раз большем объеме данных. Страницу проекта можно найти {здесь}.

К единому взгляду на посттренировку больших языковых моделей
Towards a Unified View of Large Language Model Post-Training

Sep 4

ByXingtai Lv, Yuxin Zuo, Youbang Sun, Hongyi Liu, Yuntian Wei, Zhekai Chen, Lixuan He, Xuekai Zhu, Kaiyan Zhang, Bingning Wang, Ning Ding, Bowen Zhou

Существует два основных источника обучающих данных для посттренировки современных языковых моделей: онлайн-данные (сгенерированные моделью последовательности) и оффлайн-данные (демонстрации от людей или других моделей). Эти два типа данных обычно используются подходами, такими как обучение с подкреплением (Reinforcement Learning, RL) и тонкая настройка с учителем (Supervised Fine-Tuning, SFT), соответственно. В данной работе мы показываем, что эти подходы не противоречат друг другу, а являются частями единого процесса оптимизации. Мы выводим унифицированный оценщик градиента политики и представляем вычисления для широкого спектра подходов посттренировки как градиент общей целевой функции при различных предположениях о распределении данных и различных компромиссах между смещением и дисперсией. Оценщик градиента строится из четырех взаимозаменяемых компонентов: маски стабилизации, знаменателя эталонной политики, оценки преимущества и градиента правдоподобия. Вдохновленные нашими теоретическими выводами, мы предлагаем гибридную посттренировку (Hybrid Post-Training, HPT) — алгоритм, который динамически выбирает различные обучающие сигналы. HPT разработан для эффективного использования демонстраций и стабильного исследования без ущерба для изученных паттернов рассуждений. Мы проводим обширные эксперименты и исследования с удалением компонентов, чтобы подтвердить эффективность нашей унифицированной теоретической основы и HPT. На шести бенчмарках математического рассуждения и двух наборах данных вне распределения HPT стабильно превосходит сильные базовые модели различных масштабов и семейств.

Inverse IFEval: Способны ли языковые модели отказаться от устойчивых обучающих шаблонов для выполнения реальных инструкций?
Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow Real Instructions?

Sep 4

ByQinyan Zhang, Xinping Lei, Ruijie Miao, Yu Fu, Haojie Fan, Le Chang, Jiafan Hou, Dingling Zhang, Zhongfei Hou, Ziqiang Yang, Changxin Pu, Fei Hu, Jingkai Liu, Mengyun Liu, Yang Liu, Xiang Gao, Jiaheng Liu, Tong Yang, Zaiyuan Wang, Ge Zhang, Wenhao Huang

Крупные языковые модели (LLM) демонстрируют высокую производительность в решении разнообразных задач, но часто проявляют когнитивную инерцию, испытывая трудности при выполнении инструкций, которые противоречат стандартизированным шаблонам, усвоенным в процессе контролируемого тонкого обучения (SFT). Для оценки этого ограничения мы предлагаем Inverse IFEval — эталонный тест, который измеряет способность моделей к контр-интуитивному поведению — их способность преодолевать предубеждения, вызванные обучением, и следовать враждебным инструкциям. Inverse IFEval включает восемь типов таких задач, таких как Исправление вопроса, Намеренные текстовые ошибки, Код без комментариев и Контрфактические ответы. Используя подход с участием человека, мы создали набор данных из 1012 высококачественных вопросов на китайском и английском языках, охватывающих 23 области, которые оцениваются в рамках оптимизированной системы LLM-as-a-Judge. Эксперименты с существующими ведущими LLM подтверждают необходимость предложенного нами эталонного теста Inverse IFEval. Наши результаты подчеркивают, что будущие усилия по согласованию моделей должны быть направлены не только на достижение беглости и фактической точности, но и на учет адаптивности в нестандартных контекстах. Мы надеемся, что Inverse IFEval послужит как диагностическим инструментом, так и основой для разработки методов, которые смягчат когнитивную инерцию, уменьшат переобучение узким шаблонам и в конечном итоге повысят надежность выполнения инструкций LLM в разнообразных и непредсказуемых реальных сценариях.

DeepResearch Arena: Первая проверка исследовательских способностей языковых моделей через задачи, основанные на семинарах
DeepResearch Arena: The First Exam of LLMs' Research Abilities via Seminar-Grounded Tasks

Sep 1

ByHaiyuan Wan, Chen Yang, Junchi Yu, Meiqi Tu, Jiaxuan Lu, Di Yu, Jianbao Cao, Ben Gao, Jiaqing Xie, Aoran Wang, Wenlong Zhang, Philip Torr, Dongzhan Zhou

Глубокие исследовательские агенты привлекают все больше внимания благодаря их потенциалу в организации многоэтапных исследовательских процессов, охватывающих синтез литературы, разработку методологий и эмпирическую проверку. Несмотря на эти достижения, достоверная оценка их исследовательских возможностей остается сложной задачей из-за трудностей в сборе актуальных исследовательских вопросов, которые действительно привлекают внимание и интеллектуальный интерес ученых. Для устранения этого пробела мы представляем DeepResearch Arena — эталонный набор данных, основанный на академических семинарах, которые фиксируют богатый экспертный дискурс и взаимодействие, что лучше отражает реальные исследовательские среды и снижает риск утечки данных. Для автоматического создания DeepResearch Arena мы предлагаем систему Multi-Agent Hierarchical Task Generation (MAHTG), которая извлекает исследовательские идеи из транскриптов семинаров. Система MAHTG преобразует эти идеи в высококачественные исследовательские задачи, обеспечивая прослеживаемость их формулировки и отфильтровывая шум. С помощью системы MAHTG мы создали DeepResearch Arena, содержащий более 10 000 высококачественных исследовательских задач из более чем 200 академических семинаров, охватывающих 12 дисциплин, таких как литература, история и наука. Наши обширные оценки показывают, что DeepResearch Arena представляет значительные вызовы для современных передовых агентов, с явными различиями в производительности между различными моделями.

NER Retriever: Извлечение именованных сущностей в условиях нулевого обучения с использованием типозависимых эмбеддингов
NER Retriever: Zero-Shot Named Entity Retrieval with Type-Aware Embeddings

Sep 4

ByOr Shachar, Uri Katz, Yoav Goldberg, Oren Glickman

Мы представляем NER Retriever, фреймворк для поиска именованных сущностей в режиме zero-shot, который является вариацией задачи распознавания именованных сущностей (NER), где типы сущностей не заданы заранее, а для поиска документов, упоминающих сущности определённого типа, используется описание, предоставленное пользователем. Вместо использования фиксированных схем или тонко настроенных моделей наш метод опирается на внутренние представления больших языковых моделей (LLM), чтобы встраивать как упоминания сущностей, так и открытые описания типов, предоставленные пользователем, в общее семантическое пространство. Мы показываем, что внутренние представления, в частности векторы значений из средних слоёв трансформерных блоков, кодируют информацию о типах более детально, чем обычно используемые эмбеддинги верхних слоёв. Для уточнения этих представлений мы обучаем лёгкую контрастную проекционную сеть, которая выравнивает сущности, совместимые по типу, и разделяет несвязанные типы. Полученные эмбеддинги сущностей компактны, учитывают типы и хорошо подходят для поиска ближайших соседей. Оценка на трёх бенчмарках показывает, что NER Retriever значительно превосходит как лексические, так и плотные методы поиска на уровне предложений. Наши результаты предоставляют эмпирическое обоснование для выбора представлений внутри LLM и демонстрируют практическое решение для масштабируемого поиска сущностей без использования схем. Кодовая база NER Retriever доступна по адресу https://github.com/ShacharOr100/ner_retriever.

Модели переходов: Переосмысление задачи генеративного обучения
Transition Models: Rethinking the Generative Learning Objective

Sep 4

ByZidong Wang, Yiyuan Zhang, Xiaoyu Yue, Xiangyu Yue, Yangguang Li, Wanli Ouyang, Lei Bai

Фундаментальная дилемма в генеративном моделировании сохраняется: итеративные диффузионные модели достигают выдающейся точности, но за счет значительных вычислительных затрат, в то время как эффективные альтернативы с малым количеством шагов ограничены жестким потолком качества. Этот конфликт между количеством шагов генерации и качеством выходных данных возникает из-за ограничительных целей обучения, которые сосредоточены исключительно либо на бесконечно малой динамике (PF-ODEs), либо на прямом предсказании конечной точки. Мы решаем эту проблему, вводя точное уравнение динамики в непрерывном времени, которое аналитически определяет переходы состояний на любом конечном временном интервале. Это приводит к новой генеративной парадигме — моделям переходов (Transition Models, TiM), которые адаптируются к переходам с произвольным количеством шагов, плавно перемещаясь по генеративной траектории от единичных скачков до детализированного уточнения с увеличением числа шагов. Несмотря на наличие всего 865 миллионов параметров, TiM демонстрирует передовые результаты, превосходя ведущие модели, такие как SD3.5 (8 миллиардов параметров) и FLUX.1 (12 миллиардов параметров), на всех оцененных количествах шагов. Важно отметить, что в отличие от предыдущих генераторов с малым количеством шагов, TiM показывает монотонное улучшение качества с увеличением бюджета сэмплирования. Кроме того, при использовании нашей стратегии нативного разрешения TiM обеспечивает исключительную точность на разрешениях до 4096x4096.

Loong: Синтез длинных цепочек рассуждений в масштабе с использованием верификаторов
Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers

Sep 3

ByXingyue Huang, Rishabh, Gregor Franke, Ziyi Yang, Jiamu Bai, Weijie Bai, Jinhe Bi, Zifeng Ding, Yiqun Duan, Chengyu Fan, Wendong Fan, Xin Gao, Ruohao Guo, Yuan He, Zhuangzhuang He, Xianglong Hu, Neil Johnson, Bowen Li, Fangru Lin, Siyu Lin, Tong Liu, Yunpu Ma, Hao Shen, Hao Sun, Beibei Wang, Fangyijie Wang, Hao Wang, Haoran Wang, Yang Wang, Yifeng Wang, Zhaowei Wang, Ziyang Wang, Yifan Wu, Zikai Xiao, Chengxing Xie, Fan Yang, Junxiao Yang, Qianshuo Ye, Ziyu Ye, Guangtao Zeng, Yuwen Ebony Zhang, Zeyu Zhang, Zihao Zhu, Bernard Ghanem, Philip Torr, Guohao Li

Последние достижения в области больших языковых моделей (LLMs) показали, что их способности к рассуждению могут быть значительно улучшены с помощью обучения с подкреплением с верифицируемой наградой (RLVR), особенно в таких областях, как математика и программирование, где правильность может быть автоматически оценена. Однако распространение этого успеха на другие области, требующие интенсивного рассуждения, остается сложной задачей из-за недостатка высококачественных, верифицируемых наборов данных и высокой стоимости человеческого контроля. В данной работе мы представляем проект Loong: открытую платформу для масштабируемой генерации и проверки синтетических данных в широком спектре областей, требующих интенсивного рассуждения. Платформа состоит из двух ключевых компонентов: (1) LoongBench, курируемого набора данных, содержащего 8 729 примеров, проверенных людьми, в 12 областях (например, высшая математика, химия, логика), каждый из которых сопровождается исполняемым кодом и богатыми метаданными; и (2) LoongEnv, модульной среды генерации синтетических данных, которая поддерживает множество стратегий запросов для создания новых триплетов "вопрос-ответ-код". Вместе эти компоненты образуют цикл "агент-среда", который позволяет проводить обучение с подкреплением, где агент на основе LLM получает награду за генерацию решений с использованием цепочки рассуждений (CoT), которые соответствуют ответам, полученным в результате выполнения кода. Эмпирически мы тестируем LoongBench на широком наборе как открытых, так и проприетарных LLM, чтобы оценить охват областей и выявить узкие места в производительности. Кроме того, мы проводим всесторонний анализ синтетических данных, сгенерированных LoongEnv, изучая их правильность, сложность и разнообразие. Код и документация доступны по адресу https://github.com/camel-ai/loong.

Video-MTR: Усиленное многошаговое рассуждение для понимания длинных видео
Video-MTR: Reinforced Multi-Turn Reasoning for Long Video Understanding

Aug 28

ByYuan Xie, Tianshui Chen, Zheng Ge, Lionel Ni

Понимание длинных видеороликов, характеризующихся долгосрочными временными зависимостями и множеством событий, остается сложной задачей. Существующие методы часто полагаются на статическое рассуждение или внешние визуально-языковые модели (VLMs), которые сталкиваются с проблемами, такими как сложность и неоптимальная производительность из-за отсутствия сквозного обучения. В данной статье мы предлагаем Video-MTR, усиленный фреймворк многошагового рассуждения, предназначенный для итеративного выбора ключевых сегментов видео и понимания вопросов. В отличие от традиционного подхода к рассуждению над видео, который генерирует предсказания за один шаг, Video-MTR выполняет рассуждение в несколько этапов, постепенно выбирая сегменты видео на основе развивающегося понимания ранее обработанных сегментов и текущего вопроса. Этот итеративный процесс позволяет проводить более детальный и контекстуально осознанный анализ видео. Для обеспечения промежуточного процесса рассуждения мы вводим новую систему двууровневых вознаграждений с управлением, сочетающую вознаграждения на уровне траектории, основанные на правильности ответа, и вознаграждения на уровне шага, подчеркивающие релевантность кадров и запроса. Эта система оптимизирует как выбор сегментов видео, так и понимание вопросов, устраняя необходимость во внешних VLMs и позволяя проводить сквозное обучение. Многочисленные эксперименты на бенчмарках, таких как VideoMME, MLVU и EgoSchema, демонстрируют, что Video-MTR превосходит существующие методы как по точности, так и по эффективности, продвигая состояние дел в области понимания длинных видеороликов.

Малошаговый процесс для 3D-генерации через дистилляцию транспорта маргинальных данных
Few-step Flow for 3D Generation via Marginal-Data Transport Distillation

Sep 4

ByZanwei Zhou, Taoran Yi, Jiemin Fang, Chen Yang, Lingxi Xie, Xinggang Wang, Wei Shen, Qi Tian

Модели генерации 3D на основе потоков обычно требуют десятков шагов выборки во время вывода. Хотя методы дистилляции с малым количеством шагов, в частности Модели Согласованности (Consistency Models, CMs), достигли значительных успехов в ускорении 2D диффузионных моделей, они остаются малоизученными для более сложных задач генерации 3D. В данном исследовании мы предлагаем новый фреймворк, MDT-dist, для дистилляции 3D потоков с малым количеством шагов. Наш подход основан на основной цели: дистилляции предобученной модели для изучения Транспорта Маргинальных Данных (Marginal-Data Transport). Прямое изучение этой цели требует интегрирования полей скорости, однако этот интеграл трудно реализовать. Поэтому мы предлагаем две оптимизируемые цели: Сопоставление Скорости (Velocity Matching, VM) и Дистилляция Скорости (Velocity Distillation, VD), чтобы эквивалентно преобразовать цель оптимизации с уровня транспорта на уровень скорости и распределения соответственно. Сопоставление Скорости (VM) учится стабильно сопоставлять поля скорости между учеником и учителем, но неизбежно предоставляет смещенные оценки градиента. Дистилляция Скорости (VD) дополнительно улучшает процесс оптимизации, используя изученные поля скорости для выполнения дистилляции плотности вероятности. При оценке на пионерском фреймворке генерации 3D TRELLIS наш метод сокращает количество шагов выборки каждого трансформера потока с 25 до 1 или 2, достигая задержек 0.68с (1 шаг x 2) и 0.94с (2 шага x 2) с ускорением в 9.0x и 6.5x на A800, сохраняя при этом высокую визуальную и геометрическую точность. Многочисленные эксперименты демонстрируют, что наш метод значительно превосходит существующие методы дистилляции CMs и позволяет TRELLIS достичь превосходной производительности в генерации 3D с малым количеством шагов.

Durian: Двойное управляемое эталоном анимирование портретов с переносом атрибутов
Durian: Dual Reference-guided Portrait Animation with Attribute Transfer

Sep 4

ByHyunsoo Cha, Byungjun Kim, Hanbyul Joo

Мы представляем Durian — первый метод генерации анимационных портретных видео с переносом лицевых атрибутов из заданного эталонного изображения на целевой портрет в режиме zero-shot. Для обеспечения высококачественного и пространственно согласованного переноса атрибутов между кадрами мы вводим двойные эталонные сети, которые внедряют пространственные признаки как из портретного, так и из атрибутного изображений в процесс денойзинга диффузионной модели. Мы обучаем модель с использованием формулировки самовосстановления, где два кадра выбираются из одного портретного видео: один используется как эталон атрибутов, а другой — как целевой портрет, а оставшиеся кадры восстанавливаются на основе этих входных данных и соответствующих масок. Для поддержки переноса атрибутов с различной пространственной протяженностью мы предлагаем стратегию расширения масок с использованием генерации изображений, обусловленной ключевыми точками, для обучения. Кроме того, мы дополнительно улучшаем атрибутные и портретные изображения с помощью пространственных и визуальных преобразований, чтобы повысить устойчивость к позиционному несоответствию между ними. Эти стратегии позволяют модели эффективно обобщать разнообразные атрибуты и комбинации эталонных изображений в реальных условиях, несмотря на обучение без явного тройного контроля. Durian демонстрирует передовые результаты в области анимации портретов с переносом атрибутов, а его двойная эталонная конструкция позволяет выполнять композицию нескольких атрибутов за один проход генерации без дополнительного обучения.

Drawing2CAD: Последовательное обучение для генерации CAD-моделей на основе векторных чертежей
Drawing2CAD: Sequence-to-Sequence Learning for CAD Generation from Vector Drawings

Aug 26

ByFeiwei Qin, Shichao Lu, Junhao Hou, Changmiao Wang, Meie Fang, Ligang Liu

Генеративное моделирование в системах автоматизированного проектирования (САПР) стимулирует значительные инновации в промышленных приложениях. Недавние исследования продемонстрировали впечатляющий прогресс в создании твердотельных моделей из различных входных данных, таких как облака точек, сетки и текстовые описания. Однако эти методы принципиально отличаются от традиционных промышленных процессов, которые начинаются с 2D-инженерных чертежей. Автоматическая генерация параметрических моделей САПР из этих 2D-векторных чертежей остается недостаточно изученной, несмотря на ее критическую важность в инженерном проектировании. Для решения этой проблемы наше ключевое понимание заключается в переосмыслении генерации САПР как задачи последовательностного обучения, где примитивы векторных чертежей напрямую влияют на генерацию параметрических операций САПР, сохраняя геометрическую точность и замысел проектирования на протяжении всего процесса преобразования. Мы предлагаем Drawing2CAD — фреймворк с тремя ключевыми техническими компонентами: сетевым представлением векторных примитивов, сохраняющим точную геометрическую информацию, архитектурой трансформера с двойным декодером, которая разделяет генерацию типа команд и параметров, сохраняя точное соответствие, и функцией потерь с мягким целевым распределением, учитывающим присущую гибкость параметров САПР. Для обучения и оценки Drawing2CAD мы создаем CAD-VGDrawing — набор данных, содержащий парные инженерные чертежи и параметрические модели САПР, и проводим тщательные эксперименты, демонстрирующие эффективность нашего метода. Код и набор данных доступны по адресу https://github.com/lllssc/Drawing2CAD.

Дельта-активации: Представление для дообученных больших языковых моделей
Delta Activations: A Representation for Finetuned Large Language Models

Sep 4

ByZhiqiu Xu, Amish Sethi, Mayur Naik, Ser-Nam Lim

Успех мощных открытых больших языковых моделей (LLM) позволил сообществу создать обширную коллекцию дообученных моделей, адаптированных к конкретным задачам и доменам. Однако навигация и понимание этих моделей остаются сложными из-за несогласованных метаданных и неструктурированных репозиториев. Мы представляем метод Delta Activations, который позволяет представлять дообученные модели в виде векторных эмбеддингов, измеряя сдвиги в их внутренних активациях относительно базовой модели. Это представление позволяет эффективно кластеризовать модели по доменам и задачам, выявляя структуру в ландшафте моделей. Delta Activations также демонстрируют желаемые свойства: метод устойчив к различным настройкам дообучения и проявляет аддитивное свойство при смешивании наборов данных для дообучения. Кроме того, мы показываем, что Delta Activations могут представлять задачи с помощью немногих примеров дообучения, а также исследуем их использование для выбора и объединения моделей. Мы надеемся, что Delta Activations смогут упростить практику повторного использования общедоступных моделей. Код доступен по адресу https://github.com/OscarXZQ/delta_activations.

Ложное чувство безопасности: почему обнаружение вредоносных входных данных на основе зондирования не способно к обобщению
False Sense of Security: Why Probing-based Malicious Input Detection Fails to Generalize

Sep 4

ByCheng Wang, Zeming Wei, Qin Liu, Muhao Chen

Крупные языковые модели (LLMs) могут выполнять вредоносные инструкции, что вызывает серьезные опасения в отношении безопасности, несмотря на их впечатляющие возможности. В последних работах использовались подходы на основе зондирования для изучения разделимости вредоносных и доброкачественных входных данных во внутренних представлениях LLMs, и исследователи предложили использовать такие методы зондирования для обнаружения угроз безопасности. Мы систематически пересматриваем эту парадигму. Мотивированные низкой производительностью на данных, выходящих за пределы распределения, мы выдвигаем гипотезу, что зонды изучают поверхностные паттерны, а не семантическую вредоносность. В ходе контролируемых экспериментов мы подтверждаем эту гипотезу и идентифицируем конкретные изучаемые паттерны: инструкционные паттерны и триггерные слова. Наше исследование следует систематическому подходу, начиная с демонстрации сопоставимой производительности простых методов n-грамм, затем переходя к контролируемым экспериментам с семантически очищенными наборами данных и заканчивая детальным анализом зависимостей паттернов. Эти результаты выявляют ложное чувство безопасности, связанное с текущими подходами на основе зондирования, и подчеркивают необходимость пересмотра как моделей, так и протоколов оценки, для чего мы предоставляем дальнейшие обсуждения в надежде предложить ответственные дальнейшие исследования в этом направлении. Мы открыли исходный код проекта по адресу https://github.com/WangCheng0116/Why-Probe-Fails.

Loong: Синтез длинных цепочек рассуждений в масштабе с использованием верификаторов
Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers

Sep 3