Ежедневно отобранные исследовательские статьи по ИИ с переводами
Обучение с подкреплением с верифицируемыми наградами (RLVR) недавно стало ключевой парадигмой для посттренировки больших языковых моделей (LLM), особенно для сложных задач логического рассуждения. Однако было показано, что стандартное обучение RLVR улучшает производительность Pass@1 за счет снижения энтропии политики, что приводит к уменьшению разнообразия генерации и ограничивает производительность Pass@k, которая обычно представляет верхнюю границу способности LLM к рассуждению. В данной работе мы систематически анализируем разнообразие генерации политики с точки зрения тренировочных задач и обнаруживаем, что расширение и обновление тренировочных задач помогает смягчить коллапс энтропии в процессе обучения. На основе этих наблюдений мы предлагаем стратегию онлайн-самоигры с вариационным синтезом задач (SvS) для обучения RLVR, которая использует правильные решения политики для синтеза вариативных задач, при этом гарантируя, что их эталонные ответы остаются идентичными оригинальным. Эта стратегия самосовершенствования эффективно поддерживает энтропию политики в процессе обучения и значительно улучшает Pass@k по сравнению со стандартным RLVR, обеспечивая продолжительные улучшения и достигая абсолютного прироста в 18,3% и 22,8% в производительности Pass@32 на соревновательных бенчмарках AIME24 и AIME25. Эксперименты на 12 бенчмарках логического рассуждения для моделей различных размеров от 3B до 32B последовательно демонстрируют обобщаемость и устойчивость стратегии SvS.
В данной статье мы представляем новую парадигму обучения для адаптивных агентов на основе больших языковых моделей (LLM), которая устраняет необходимость тонкой настройки базовых LLM. Существующие подходы часто либо жестко фиксированы, полагаясь на статические, вручную созданные рабочие процессы рефлексии, либо требуют значительных вычислительных ресурсов, включая обновление градиентов параметров модели LLM. В отличие от них, наш метод обеспечивает низкозатратную непрерывную адаптацию через обучение с подкреплением на основе памяти. Мы формализуем это как Марковский процесс принятия решений с расширенной памятью (M-MDP), оснащенный нейронной политикой выбора случаев для управления решениями о действиях. Прошлый опыт сохраняется в эпизодической памяти, которая может быть как дифференцируемой, так и непараметрической. Политика непрерывно обновляется на основе обратной связи от среды через механизм перезаписи памяти, а улучшение политики достигается за счет эффективного чтения (извлечения) памяти. Мы реализуем нашу модель агента в контексте глубоких исследований, а именно AgentFly, который достигает первого места на валидации GAIA (87,88% Pass@3) и 79,40% на тестовом наборе. Он показывает 66,6% F1 и 80,4% PM на наборе данных DeepResearcher, превосходя современный метод, основанный на обучении, при этом память на основе случаев добавляет от 4,7% до 9,6% абсолютных пунктов на задачах вне распределения. Наш подход предлагает масштабируемый и эффективный путь для разработки универсальных агентов LLM, способных к непрерывному обучению в реальном времени без обновления градиентов, продвигая машинное обучение в сторону открытого приобретения навыков и сценариев глубоких исследований. Код доступен по адресу https://github.com/Agent-on-the-Fly/AgentFly.
Управляемая языком мобильная манипуляция на длительных горизонтах долгое время оставалась серьезной проблемой в области воплощенного семантического рассуждения, обобщаемой манипуляции и адаптивной локомоции. Три фундаментальных ограничения препятствуют прогрессу: Во-первых, хотя крупные языковые модели улучшили пространственное рассуждение и планирование задач благодаря семантическим априорным знаниям, существующие реализации остаются ограниченными сценариями на столе, не учитывая ограниченное восприятие и узкий диапазон действий мобильных платформ. Во-вторых, текущие стратегии манипуляции демонстрируют недостаточную обобщаемость при столкновении с разнообразными конфигурациями объектов, встречающимися в открытых средах. В-третьих, хотя это критически важно для практического применения, двойное требование поддержания высокой маневренности платформы наряду с точным управлением концевым эффектором в неструктурированных условиях остается недостаточно изученным. В данной работе мы представляем ODYSSEY, унифицированную платформу для мобильной манипуляции, предназначенную для проворных четвероногих роботов, оснащенных манипуляторами, которая бесшовно интегрирует высокоуровневое планирование задач с низкоуровневым управлением всем телом. Для решения проблемы эгоцентрического восприятия в задачах, обусловленных языком, мы представляем иерархический планировщик, основанный на модели "визуальный язык", который позволяет декомпозировать инструкции на длительные горизонты и точно выполнять действия. На уровне управления наша новая политика управления всем телом обеспечивает надежную координацию на сложных рельефах. Мы также представляем первый бенчмарк для мобильной манипуляции на длительных горизонтах, оценивая разнообразные сценарии в помещении и на открытом воздухе. Благодаря успешному переносу из симуляции в реальность, мы демонстрируем обобщаемость и надежность системы в реальных условиях, подчеркивая практичность манипуляторов на ногах в неструктурированных средах. Наша работа повышает реализуемость обобщенных роботизированных помощников, способных выполнять сложные, динамические задачи. Наша страница проекта: https://kaijwang.github.io/odyssey.github.io/
Хотя синтез экзоцентрического видео достиг значительного прогресса, генерация эгоцентрического видео остается малоизученной областью, что требует моделирования контента от первого лица наряду с паттернами движения камеры, вызванными движениями тела пользователя. Чтобы устранить этот пробел, мы представляем новую задачу совместной генерации эгоцентрического видео и движения человека, характеризующуюся двумя ключевыми вызовами: 1) **Согласование точки зрения**: траектория камеры в сгенерированном видео должна точно соответствовать траектории головы, выведенной из движения человека; 2) **Причинно-следственное взаимодействие**: синтезированное движение человека должно причинно согласовываться с наблюдаемой визуальной динамикой между соседними кадрами видео. Для решения этих задач мы предлагаем EgoTwin — совместную фреймворк генерации видео и движения, основанный на архитектуре диффузионного трансформера. В частности, EgoTwin вводит головоцентрическое представление движения, которое привязывает движение человека к суставу головы, и включает механизм взаимодействия, вдохновленный кибернетикой, который явно захватывает причинно-следственное взаимодействие между видео и движением в рамках операций внимания. Для всесторонней оценки мы создаем крупномасштабный набор данных реального мира, содержащий синхронизированные тройки текст-видео-движение, и разрабатываем новые метрики для оценки согласованности видео и движения. Многочисленные эксперименты демонстрируют эффективность фреймворка EgoTwin.
По мере того как крупные языковые модели (LLM) всё чаще применяются в реальных задачах, необходимость выборочного удаления нежелательных знаний при сохранении полезности модели становится крайне важной. В последних исследованиях изучались разреженные автоэнкодеры (SAE) для выполнения точных вмешательств в моносемантические признаки. Однако большинство методов на основе SAE работают на этапе вывода, что не создаёт устойчивых изменений в параметрах модели. Такие вмешательства могут быть обойдены или отменены злоумышленниками с доступом к параметрам. Мы представляем CRISP — параметрически эффективный метод устойчивого забывания концепций с использованием SAE. CRISP автоматически идентифицирует значимые признаки SAE на нескольких слоях и подавляет их активации. Мы экспериментируем с двумя LLM и показываем, что наш метод превосходит предыдущие подходы в задачах критически важного забывания из бенчмарка WMDP, успешно удаляя вредные знания при сохранении общих и предметно-ориентированных способностей. Анализ на уровне признаков показывает, что CRISP достигает семантически согласованного разделения между целевыми и безопасными концепциями, позволяя точно подавлять целевые признаки.
Обеспечение взаимодействия объекта с окружающими предметами требует точного определения частей, которые позволяют выполнять конкретные действия. Слабо контролируемое заземление аффордансов (WSAG) стремится имитировать обучение человека на основе демонстраций от третьего лица, где люди интуитивно понимают функциональные части без необходимости пиксельной аннотации. Для достижения этого заземление обычно изучается с использованием общего классификатора для изображений с разных ракурсов, а также стратегий дистилляции, включающих процесс обнаружения частей. Однако, поскольку части, связанные с аффордансами, не всегда легко различимы, модели в основном полагаются на классификацию, часто сосредотачиваясь на общих шаблонах, специфичных для класса, которые не связаны с аффордансами. Чтобы устранить это ограничение, мы выходим за рамки изолированного обучения на уровне частей, вводя селективные прототипные и пиксельные контрастные цели, которые адаптивно изучают признаки, связанные с аффордансами, как на уровне частей, так и на уровне объекта, в зависимости от детализации доступной информации. Изначально мы находим объекты, связанные с действием, как в эгоцентрических (сфокусированных на объекте), так и в экзоцентрических (демонстрациях от третьего лица) изображениях, используя CLIP. Затем, сопоставляя обнаруженные объекты на дополнительных ракурсах, мы выявляем точные подсказки аффордансов на уровне частей в каждом ракурсе. Последовательно обучаясь отличать области, связанные с аффордансами, от фонового контекста, не имеющего отношения к аффордансам, наш подход эффективно смещает активацию с нерелевантных областей на значимые признаки аффордансов. Экспериментальные результаты демонстрируют эффективность нашего метода. Код доступен на github.com/hynnsk/SelectiveCL.
Соревновательное программирование стало важным эталоном для оценки способностей к рассуждению и написанию кода у крупных языковых моделей (LLM). Несмотря на впечатляющий прогресс в существующих тестах, мы утверждаем, что текущие оценки преувеличивают уровень мастерства моделей, скрывая значительный разрыв между LLM и элитными программистами-людьми. Этот разрыв возникает из-за двух ключевых ограничений: недостаточной сложности и широты охвата тестовых задач, а также из-за предвзятости оценки, вызванной низкокачественными тестовыми примерами. Чтобы устранить эти недостатки, мы представляем AetherCode — новый эталон, который включает задачи из престижных соревнований по программированию, таких как IOI и ICPC, предлагая более широкий охват и повышенную сложность. AetherCode также включает всеобъемлющие тестовые наборы, проверенные экспертами и созданные с использованием гибридного подхода, сочетающего автоматическую генерацию и ручную обработку, что обеспечивает строгую и надежную оценку. Сочетая сложный дизайн задач с надежной системой оценки, AetherCode предоставляет более точную меру способностей LLM и устанавливает новый стандарт для будущих исследований в области рассуждений на основе кода.
Благодаря стремительному развитию крупных языковых моделей (LLM), агенты получили возможность сочетать внутренние знания с динамическим использованием инструментов, что значительно повышает их способность решать реальные задачи. В соответствии с этой эволюцией, AgentScope представляет значительные улучшения в новой версии (1.0), направленные на всестороннюю поддержку гибкого и эффективного взаимодействия агентов с окружением на основе инструментов для создания агентских приложений. В частности, мы абстрагируем фундаментальные компоненты, необходимые для агентских приложений, и предоставляем унифицированные интерфейсы и расширяемые модули, позволяя разработчикам легко использовать последние достижения, такие как новые модели и MCP. Кроме того, мы основываем поведение агентов на парадигме ReAct и предлагаем продвинутую инфраструктуру на уровне агентов, основанную на систематическом асинхронном дизайне, что обогащает как взаимодействие между человеком и агентом, так и между агентами, одновременно повышая эффективность выполнения. На основе этого фундамента мы интегрируем несколько встроенных агентов, адаптированных для конкретных практических сценариев. AgentScope также включает надежную инженерную поддержку для удобства разработчиков. Мы предоставляем масштабируемый модуль оценки с интерфейсом визуальной студии, что делает разработку агентских приложений с длительными траекториями более управляемой и удобной для отслеживания. Кроме того, AgentScope предлагает песочницу для безопасного выполнения агентов и упрощает быстрое развертывание в производственных средах. С этими улучшениями AgentScope предоставляет практическую основу для создания масштабируемых, адаптивных и эффективных агентских приложений.
Точная диагностика с использованием крупных языковых моделей в медицине затруднена из-за пробелов в знаниях и галлюцинаций. Методы, основанные на извлечении информации и использовании инструментов, помогают, но их эффективность ограничена слабым использованием внешних знаний и плохой отслеживаемостью обратной связи и рассуждений. Для решения этих проблем мы представляем Deep-DxSearch — агентскую систему RAG (Retrieval-Augmented Generation), обученную с конца в конец с использованием обучения с подкреплением (RL), которая обеспечивает управляемое и отслеживаемое извлечение информации и рассуждения для медицинской диагностики. В Deep-DxSearch мы сначала создаем крупномасштабный медицинский корпус для извлечения информации, включающий записи пациентов и надежные источники медицинских знаний, чтобы поддерживать рассуждения, учитывающие извлечение информации, в различных диагностических сценариях. Более важно, мы рассматриваем языковую модель как основного агента, а корпус для извлечения информации — как его окружение, используя специализированные вознаграждения за формат, извлечение, структуру рассуждений и точность диагностики, тем самым развивая агентскую политику RAG на основе крупномасштабных данных через RL. Эксперименты показывают, что наша сквозная агентская RL-обучающая структура стабильно превосходит подходы, основанные на инженерии подсказок и RAG без обучения, в нескольких центрах обработки данных. После обучения Deep-DxSearch достигает значительного улучшения точности диагностики, превосходя сильные диагностические базовые модели, такие как GPT-4o, DeepSeek-R1 и другие медицинские специализированные фреймворки, как для диагностики распространенных, так и редких заболеваний в условиях распределения и вне распределения. Более того, исследования по удалению компонентов вознаграждения и корпуса для извлечения информации подтверждают их критическую роль, подчеркивая уникальность и эффективность нашего подхода по сравнению с традиционными реализациями. Наконец, кейс-стади и анализы интерпретируемости демонстрируют улучшения в диагностической политике Deep-DxSearch, предоставляя более глубокое понимание ее улучшений в производительности и поддерживая клиницистов в предоставлении более надежных и точных предварительных диагнозов. См. https://github.com/MAGIC-AI4Med/Deep-DxSearch.
Современные методы редактирования видео достигают привлекательных результатов в переносе стиля или изменении внешнего вида. Однако редактирование структурного содержания 3D-сцен в видео остается сложной задачей, особенно при работе с значительными изменениями точки зрения, такими как большие повороты камеры или масштабирование. Основные проблемы включают генерацию нового контента, который остается согласованным с оригинальным видео, сохранение неотредактированных областей и преобразование разреженных 2D-входных данных в реалистичные 3D-видео. Для решения этих задач мы предлагаем Sketch3DVE — метод редактирования видео на основе эскизов с учетом 3D, который позволяет выполнять детальное локальное редактирование видео с значительными изменениями точки зрения. Чтобы справиться с проблемой разреженных входных данных, мы используем методы редактирования изображений для генерации отредактированных результатов для первого кадра, которые затем распространяются на оставшиеся кадры видео. Мы применяем эскизирование как инструмент взаимодействия для точного управления геометрией, при этом также поддерживаются другие методы редактирования изображений на основе масок. Для обработки изменений точки зрения мы проводим детальный анализ и манипуляции с 3D-информацией в видео. В частности, мы используем метод плотного стерео для оценки облака точек и параметров камеры входного видео. Затем мы предлагаем подход к редактированию облака точек, который использует карты глубины для представления 3D-геометрии новых отредактированных компонентов, эффективно согласовывая их с оригинальной 3D-сценой. Для бесшовного объединения нового контента с оригинальным видео при сохранении особенностей неотредактированных областей мы вводим стратегию распространения масок с учетом 3D и используем модель диффузии видео для создания реалистичных отредактированных видео. Многочисленные эксперименты демонстрируют превосходство Sketch3DVE в редактировании видео. Домашняя страница и код: http://geometrylearning.com/Sketch3DVE/.
В последнее время модели Vision-Language-Action (VLA) продемонстрировали высокую производительность в решении различных задач робототехники. Эти модели опираются на мультимодальные входные данные, где языковые инструкции играют ключевую роль — не только в предсказании действий, но и в надежной интерпретации намерений пользователя, даже когда запросы невозможно выполнить. В данной работе мы исследуем, как модели VLA могут распознавать, интерпретировать и реагировать на инструкции с ложными предпосылками: команды на естественном языке, которые ссылаются на объекты или условия, отсутствующие в окружающей среде. Мы предлагаем Instruct-Verify-and-Act (IVA), унифицированную структуру, которая (i) определяет, когда инструкция не может быть выполнена из-за ложной предпосылки, (ii) вовлекается в языковое уточнение или исправление и (iii) связывает правдоподобные альтернативы с восприятием и действием. Для этого мы создаем крупномасштабную настройку инструкций с использованием структурированных языковых подсказок и обучаем модель VLA, способную обрабатывать как точные, так и ошибочные запросы. Наш подход использует контекстуально расширенный полусинтетический набор данных, содержащий парные инструкции с корректными и ложными предпосылками, что обеспечивает надежное обнаружение и исправление на естественном языке. Наши эксперименты показывают, что IVA улучшает точность обнаружения ложных предпосылок на 97,56% по сравнению с базовыми методами, одновременно увеличивая успешные ответы в сценариях с ложными предпосылками на 50,78%.
Многоголовое латентное внимание (Multi-Head Latent Attention, MLA), представленное в DeepSeek-V2, сжимает ключевые и значения в низкоранговый латентный вектор, кэшируя только этот вектор для уменьшения использования памяти. Однако при тензорном параллелизме (Tensor Parallelism, TP) внимание вычисляется на нескольких устройствах, и каждое устройство должно загружать полный кэш, что снижает преимущество MLA перед групповым запросным вниманием (Grouped Query Attention, GQA). Мы предлагаем Тензорно-Параллельное Латентное Внимание (Tensor-Parallel Latent Attention, TPLA): схему, которая разделяет как латентное представление, так и входное измерение каждой головы между устройствами, выполняет внимание независимо для каждого сегмента, а затем объединяет результаты с помощью операции all-reduce. TPLA сохраняет преимущества сжатого кэша ключей и значений (KV cache), одновременно обеспечивая эффективность TP. В отличие от Группового Латентного Внимания (Grouped Latent Attention, GLA), каждая голова в TPLA по-прежнему использует полное латентное представление, сохраняя более высокую репрезентативную способность. TPLA полностью совместима с моделями, предварительно обученными с использованием MLA: она поддерживает предварительное заполнение в стиле MLA и обеспечивает эффективное тензорно-параллельное декодирование без необходимости переобучения. Применение простых ортогональных преобразований — например, преобразования Адамара или PCA — перед разделением на сегменты TP дополнительно снижает межсегментные помехи, что приводит к минимальной потере точности. Уменьшая размер кэша KV на устройстве для DeepSeek-V3 и Kimi-K2, мы достигаем ускорения в 1.79x и 1.93x соответственно при длине контекста в 32K токенов, сохраняя производительность на тестах commonsense и LongBench. TPLA может быть реализована с использованием FlashAttention-3, что обеспечивает практическое ускорение на всех этапах.
Метод 3D Gaussian Splatting (3DGS) продемонстрировал выдающуюся эффективность в синтезе новых видов (NVS). Однако он имеет существенный недостаток: достижение высококачественного рендеринга обычно требует использования большого количества 3D-гауссов, что приводит к значительному потреблению памяти и требованиям к хранению данных. Для решения этой проблемы мы предлагаем первую структуру дистилляции знаний для 3DGS, включающую различные модели-учителя, такие как стандартный 3DGS, его варианты с добавлением шума и версии с регуляризацией через dropout. Выходные данные этих моделей-учителей агрегируются для оптимизации легковесной модели-ученика. Для дистилляции скрытой геометрической структуры мы предлагаем функцию потерь на основе структурного сходства, чтобы повысить согласованность пространственных геометрических распределений между моделью-учеником и моделью-учителем. В результате всесторонних количественных и качественных оценок на различных наборах данных предложенный метод Distilled-3DGS, простая, но эффективная структура без излишеств, демонстрирует впечатляющие результаты рендеринга как по качеству, так и по эффективности хранения данных по сравнению с современными методами. Страница проекта: https://distilled3dgs.github.io. Код: https://github.com/lt-xiang/Distilled-3DGS.
Контуры или замкнутые плоские кривые широко распространены во многих областях. Например, они встречаются как границы объектов в компьютерном зрении, изолинии в метеорологии и орбиты вращающихся механизмов. Во многих случаях при обучении на данных контуров плоские вращения входных данных приводят к соответствующим вращениям выходных данных. Поэтому желательно, чтобы модели глубокого обучения были эквивариантны относительно вращений. Кроме того, контуры обычно представляются в виде упорядоченной последовательности точек границы, где выбор начальной точки произволен. Следовательно, также желательно, чтобы методы глубокого обучения были эквивариантны относительно циклических сдвигов. Мы представляем RotaTouille — фреймворк глубокого обучения для работы с данными контуров, который достигает эквивариантности как относительно вращений, так и циклических сдвигов с помощью комплекснозначной круговой свертки. Мы также вводим и характеризуем эквивариантные нелинейности, слои сжатия и глобальные слои пулинга для получения инвариантных представлений для последующих задач. Наконец, мы демонстрируем эффективность RotaTouille в экспериментах по классификации форм, реконструкции и регрессии контуров.
Крупные языковые модели (LLM) продемонстрировали высокую производительность в задачах, связанных с человеко-ориентированным рассуждением. Хотя предыдущие исследования изучали, способны ли LLM выявлять намерения или обнаруживать обман, они часто упускают из виду индивидуализированные стили рассуждения, которые влияют на то, как люди интерпретируют и действуют в социальных контекстах. Социальные дедуктивные игры (SDG) предоставляют естественную площадку для оценки индивидуализированных стилей рассуждения, где разные игроки могут применять разнообразные, но контекстуально обоснованные стратегии в идентичных условиях. Для решения этой задачи мы представляем InMind, когнитивно обоснованную оценочную структуру, предназначенную для проверки способности LLM улавливать и применять персонализированные стили рассуждения в SDG. InMind дополняет структурированные данные игрового процесса следами стратегий на уровне раундов и пост-игровыми рефлексиями, собранными в режимах Наблюдателя и Участника. Она поддерживает четыре когнитивно мотивированные задачи, которые совместно оценивают как статическое соответствие, так и динамическую адаптацию. В качестве примера мы применяем InMind к игре Avalon, оценивая 11 современных LLM. Универсальные LLM, включая GPT-4o, часто полагаются на лексические подсказки, испытывая трудности с привязкой рефлексий к временному игровому процессу или адаптацией к меняющимся стратегиям. В то же время LLM с усиленным рассуждением, такие как DeepSeek-R1, демонстрируют первые признаки стиле-чувствительного рассуждения. Эти результаты выявляют ключевые ограничения в способности современных LLM к индивидуализированному и адаптивному рассуждению, а также позиционируют InMind как шаг на пути к когнитивно согласованному взаимодействию человека и ИИ.
В задаче оценки позы и формы человека в 3D, SMPLify остается надежным базовым методом, решающим обратную кинематику (IK) с помощью итеративной оптимизации. Однако его высокая вычислительная стоимость ограничивает практическую применимость. Недавние достижения в различных областях показали, что замена итеративной оптимизации на нейронные сети, обученные на данных, может значительно улучшить время выполнения без потери точности. Вдохновленные этой тенденцией, мы предлагаем Learnable SMPLify — нейронную архитектуру, которая заменяет итеративный процесс подгонки в SMPLify на одношаговую регрессионную модель. Наша архитектура направлена на решение двух ключевых задач в нейронной IK: построение данных и обобщение. Для эффективного обучения мы предлагаем стратегию временной выборки, которая создает пары инициализация-цель из последовательных кадров. Для улучшения обобщения на разнообразные движения и неизвестные позы мы предлагаем схему нормализации, ориентированную на человека, и остаточное обучение для сужения пространства решений. Learnable SMPLify поддерживает как последовательный вывод, так и использование в качестве подключаемого пост-процессинга для уточнения существующих методов, основанных на изображениях. Эксперименты показывают, что наш метод становится практичным и простым базовым решением: он работает почти в 200 раз быстрее, чем SMPLify, хорошо обобщается на неизвестные данные 3DPW и RICH, а также работает в модельно-агностической манере при использовании в качестве подключаемого инструмента на LucidAction. Код доступен по адресу https://github.com/Charrrrrlie/Learnable-SMPLify.
Способность к рассуждению играет крайне важную роль в широком применении крупных языковых моделей (LLM). Для повышения качества рассуждений LLM были предложены различные подходы тонкой настройки на основе обучения с подкреплением (RL), направленные на преодоление ограниченной способности к обобщению у моделей, обученных исключительно с помощью контролируемой тонкой настройки (SFT). Несмотря на их эффективность, два основных ограничения препятствуют развитию LLM. Во-первых, стандартные подходы на основе RL игнорируют аннотированные цепочки рассуждений (CoT) и используют нестабильную выборку путей рассуждений, что обычно приводит к коллапсу модели, нестабильному процессу обучения и субоптимальной производительности. Во-вторых, существующие подходы SFT чрезмерно акцентируют внимание на аннотированных CoT, что может привести к ухудшению производительности из-за недостаточного использования потенциальных CoT. В данной статье мы предлагаем подход контрастного обучения с тонкой настройкой на основе аннотированных CoT, т.е. CARFT, для повышения качества рассуждений LLM с учетом указанных ограничений. В частности, мы предлагаем обучение представления для каждой CoT. На основе этого представления мы разрабатываем новые контрастные сигналы для управления процессом тонкой настройки. Наш подход не только полностью использует доступные аннотированные CoT, но и стабилизирует процесс тонкой настройки за счет включения дополнительного сигнала обучения без учителя. Мы проводим всесторонние эксперименты и углубленный анализ с тремя базовыми подходами, двумя базовыми моделями и двумя наборами данных, демонстрируя значительные преимущества CARFT с точки зрения устойчивости, производительности (до 10,15%) и эффективности (до 30,62%). Код доступен по адресу https://github.com/WNQzhu/CARFT.
Оценка атак jailbreak представляет сложность, когда запросы не являются явно вредоносными или не приводят к генерации вредоносных ответов. К сожалению, многие существующие наборы данных для red-teaming содержат такие неподходящие запросы. Для точной оценки атак эти наборы данных необходимо проверять и очищать от вредоносного содержимого. Однако существующие методы обнаружения вредоносного контента полагаются либо на ручную аннотацию, что требует значительных трудозатрат, либо на крупные языковые модели (LLM), точность которых в выявлении вредоносных типов нестабильна. Для баланса между точностью и эффективностью мы предлагаем гибридную систему оценки под названием MDH (Обнаружение вредоносного контента на основе LLM с участием человека), которая сочетает аннотацию на основе LLM с минимальным участием человека, и применяем её для очистки наборов данных и обнаружения jailbroken-ответов. Кроме того, мы обнаружили, что тщательно составленные сообщения разработчиков могут значительно повысить успешность jailbreak, что побудило нас предложить две новые стратегии: D-Attack, использующую симуляцию контекста, и DH-CoT, которая включает в себя захваченные цепочки рассуждений. Коды, наборы данных, оценки и результаты обнаружения будут опубликованы в репозитории GitHub: https://github.com/AlienZhang1996/DH-CoT.