Ежедневно отобранные исследовательские статьи по ИИ с переводами
Крупные языковые модели (LLM) все чаще используются для решения творческих задач, включая симуляцию вымышленных персонажей. Однако их способность воплощать антисоциальные, антагонистические персонажи остается в значительной степени неисследованной. Мы выдвигаем гипотезу, что безопасностная адаптация современных LLM создает фундаментальный конфликт с задачей аутентичного исполнения ролей морально неоднозначных или злодейских персонажей. Для исследования этого вопроса мы представляем бенчмарк Moral RolePlay — новый набор данных, включающий четырехуровневую шкалу морального выравнивания и сбалансированный тестовый набор для строгой оценки. Мы поручаем передовым LLM играть роли персонажей — от моральных образцов для подражания до чистых злодеев. Наша масштабная оценка выявляет последовательное, монотонное снижение достоверности ролевой игры по мере уменьшения моральности персонажа. Мы обнаруживаем, что модели наиболее сильно затрудняются с чертами, напрямую противоположными принципам безопасности, такими как «лживость» и «манипулятивность», часто подменяя нюансированную злобу поверхностной агрессией. Кроме того, мы показываем, что общая эффективность модели в качестве чат-бота является плохим предиктором способности к исполнению ролей злодеев, причем высокоадаптированные в плане безопасности модели демонстрируют особенно низкие результаты. Наша работа представляет первые систематические доказательства этого критического ограничения, подчеркивая ключевое противоречие между безопасностью модели и творческой достоверностью. Наш бенчмарк и выводы прокладывают путь к разработке более нюансированных, контекстно-зависимых методов адаптации.
Восприятие пространственных отношений из визуальных данных является краеугольным камнем человеко-подобного общего интеллекта. В нескольких предыдущих исследованиях предпринимались попытки улучшить пространственное восприятие моделей «визуальный язык» (Vision-Language Models, VLM) путем добавления дополнительных экспертных энкодеров, что влечет за собой дополнительные вычислительные затраты и часто ухудшает общие способности моделей. Чтобы повысить пространственные способности в рамках общих архитектур, мы представляем Visual Spatial Tuning (VST) — комплексную систему для развития у VLM человеко-подобных визуально-пространственных способностей, от восприятия до логического вывода. Мы сначала пытаемся улучшить пространственное восприятие в VLM, создав крупномасштабный набор данных под названием VST-P, который включает 4,1 миллиона примеров, охватывающих 19 навыков для одиночных изображений, множественных изображений и видео. Затем мы представляем VST-R — тщательно отобранный набор данных со 135 тысячами примеров, которые инструктируют модели рассуждать в пространстве. В частности, мы применяем прогрессивный конвейер обучения: контролируемое тонкое настройку для формирования базовых пространственных знаний с последующим обучением с подкреплением для дальнейшего улучшения способностей к пространственному reasoning. Без негативного влияния на общие возможности предложенный метод VST последовательно демонстрирует наилучшие результаты на нескольких пространственных бенчмарках, включая 34,8% на MMSI-Bench и 61,2% на VSIBench. Оказывается, что модели «визуальный язык-действие» (Vision-Language-Action) могут быть значительно улучшены с помощью предложенной парадигмы пространственной настройки, прокладывая путь к созданию более физически обоснованного искусственного интеллекта.
Агентные мультимодальные модели должны не только понимать текст и изображения, но и активно задействовать внешние инструменты, такие как среды выполнения кода и веб-поиск, интегрируя эти операции в процесс рассуждений. В данной работе мы представляем DeepEyesV2 и исследуем, как построить агентную мультимодальную модель с точки зрения создания данных, методов обучения и оценки модели. Мы наблюдаем, что одно лишь прямое обучение с подкреплением не позволяет сформировать устойчивое поведение использования инструментов. Это явление мотивирует двухэтапный конвейер обучения: этап холодного старта для установления шаблонов использования инструментов и этап обучения с подкреплением для дальнейшего совершенствования их вызова. Мы тщательно отбираем разнообразный, умеренно сложный набор данных для обучения, специально включая примеры, где использование инструментов целесообразно. Кроме того, мы представляем RealX-Bench — комплексный бенчмарк, предназначенный для оценки мультимодальных рассуждений в реальных условиях, что по своей сути требует интеграции множества способностей, включая восприятие, поиск и логическое мышление. Мы оцениваем DeepEyesV2 на RealX-Bench и других репрезентативных бенчмарках, демонстрируя его эффективность в задачах понимания реального мира, математических рассуждений и задач, интенсивно использующих поиск. Более того, DeepEyesV2 демонстрирует адаптивный вызов инструментов в зависимости от задачи, склоняясь к использованию операций с изображениями для задач восприятия и численных вычислений для задач рассуждений. Обучение с подкреплением дополнительно позволяет реализовать сложные комбинации инструментов и дает модели возможность выборочно вызывать инструменты в зависимости от контекста. Мы надеемся, что наше исследование сможет предоставить сообществу руководство по разработке агентных мультимодальных моделей.
Крупные языковые модели (LLM) способны выполнять многошаговые рассуждения с помощью метода "цепочки мыслей" (CoT), но не могут надежно проверять собственную логику. Даже при получении правильных ответов лежащие в их основе рассуждения могут содержать ошибки, что подрывает доверие в ситуациях с высокими ставками. Для решения этой проблемы мы представляем VeriCoT — нейро-символический метод, который извлекает и проверяет формальные логические аргументы из рассуждений CoT. VeriCoT формализует каждый шаг рассуждений CoT в логику первого порядка и идентифицирует предпосылки, которые связывают аргумент с исходным контекстом, здравым смыслом или предыдущими шагами рассуждений. Символьное представление позволяет автоматизированным решателям проверять логическую корректность, а предпосылки на естественном языке дают возможность людям и системам выявлять необоснованные или ошибочные шаги рассуждений. Эксперименты на наборах данных ProofWriter, LegalBench и BioASQ показывают, что VeriCoT эффективно идентифицирует ошибочные рассуждения и служит надежным предиктором правильности конечного ответа. Мы также используем сигнал верификации VeriCoT для (1) саморефлексии во время вывода, (2) контролируемого тонкого настроения (SFT) на наборах данных, обогащенных с помощью VeriCoT, и (3) тонкого настроения предпочтений (PFT) с помощью прямой оптимизации предпочтений (DPO) с использованием парных вознаграждений на основе верификации, что дополнительно повышает достоверность и точность рассуждений.
Агенты в реальном мире должны принимать не только логичные, но и своевременные решения. Это требует постоянного осознания динамической среды: возникают угрозы, появляются возможности, другие агенты действуют, в то время как рассуждения самого агента ещё продолжаются. Несмотря на прогресс в области рассуждений языковых моделей, существующие подходы не учитывают эту динамическую природу. Мы представляем рассуждения в реальном времени как новую постановку задачи для агентов в изменяющихся средах и создаём Real-Time Reasoning Gym для её демонстрации. Мы исследуем две парадигмы применения языковых моделей в агентах: (1) реактивные агенты, которые используют языковые модели с ограниченными вычислительными ресурсами для рассуждений для быстрых ответов, и (2) планирующие агенты, которые допускают расширенные вычислительные ресурсы для рассуждений при решении сложных задач. Наши эксперименты показывают, что даже передовые модели испытывают трудности с принятием логичных и своевременных решений в любой из парадигм. Для преодоления этого ограничения мы предлагаем AgileThinker, который одновременно задействует обе парадигмы рассуждений. AgileThinker стабильно превосходит агентов, использующих только одну парадигму рассуждений, по мере роста сложности задачи и временного давления, эффективно балансируя между глубиной рассуждений и задержкой ответа. Наша работа устанавливает рассуждения в реальном времени как критически важный полигон для разработки практических агентов и закладывает основу для исследований в области систем ИИ с временными ограничениями, обозначая путь к созданию агентов, способных работать в реальном времени.
Последние достижения в области интеграции трехмерного движения человека и языка в основном сосредоточены на генерации движения по тексту, оставляя задачу понимания движения относительно малоизученной. Мы представляем плотное описание движения (Dense Motion Captioning) — новую задачу, направленную на временную локализацию и описание действий в последовательностях 3D-движения человека. Существующие наборы данных не обеспечивают детальных временных аннотаций и преимущественно состоят из коротких последовательностей с малым количеством действий. Чтобы преодолеть эти ограничения, мы представляем Complex Motion Dataset (CompMo) — первый крупномасштабный набор данных, содержащий сложные последовательности движений с богатыми аннотациями и точными временными границами. Созданный с помощью тщательно разработанного конвейера генерации данных, CompMo включает 60 000 последовательностей движений, каждая из которых состоит из нескольких действий (от двух до десяти), точно аннотированных с указанием их временных интервалов. Мы также представляем модель DEMO, которая интегрирует большую языковую модель с простым адаптером для обработки движения, обученную генерировать плотные, временно привязанные описания. Наши эксперименты показывают, что DEMO существенно превосходит существующие методы как на CompMo, так и на адаптированных бенчмарках, устанавливая надежный базовый уровень для будущих исследований в области понимания и описания 3D-движения.
В данной работе мы выявляем систематическое смещение в преобладающих архитектурах LVLM в сторону языковой модальности, которое в значительной степени является следствием распространенной практики простого добавления визуальных эмбеддингов к входной текстовой последовательности. Для решения этой проблемы мы предлагаем простой, но эффективный метод, который уточняет текстовые эмбеддинги путем интеграции усредненных (average-pooled) визуальных признаков. Наш подход демонстрирует улучшение визуального grounding'а и значительное снижение галлюцинаций на общепринятых бенчмарках. Хотя усредняющий пулинг предлагает простой, надежный и эффективный способ включения визуальной информации, мы полагаем, что более сложные методы фьюжна могут дополнительно улучшить визуальный grounding и кросс-модальное выравнивание. Учитывая, что основная цель данной работы — продемонстрировать дисбаланс модальностей и его влияние на галлюцинации, а также показать, что уточнение текстовых эмбеддингов с помощью визуальной информации смягчает эту проблему, — мы оставляем исследование продвинутых стратегий фьюжна для будущих работ.
Точная калибровка уверенности в больших языковых моделях (LLM) критически важна для их безопасного использования в областях с высокими рисками, где четко вербализованная уверенность повышает доверие пользователей. Традиционные методы, имитирующие эталонные выражения уверенности, часто не способны уловить рассуждения, необходимые для точной оценки уверенности. Мы предлагаем использовать критические высказывания на естественном языке в качестве решения, идеально подходящего для калибровки уверенности, поскольку точные эталонные метки уверенности трудно получить и они часто требуют множественных генераций. В данной статье исследуется, как критические высказывания на естественном языке могут улучшить вербализованную уверенность, рассматривая следующие вопросы: (1) *Что критиковать:* неопределенность (сфокусированную на вопросе) или уверенность (специфичную для ответа)? Анализ показывает, что уверенность подходит для задач с множественным выбором, в то время как неопределенность превосходит в открытых сценариях. (2) *Как критиковать:* самокритику или обучение калибровке с помощью критики? Мы предлагаем метод Self-Critique, позволяющий LLM критиковать и оптимизировать свою уверенность выходя за рамки простой точности, а также CritiCal — новый метод обучения калибровке с помощью критики, который использует критические высказывания на естественном языке для улучшения калибровки уверенности, выходя за рамки прямой численной оптимизации. Эксперименты показывают, что CritiCal значительно превосходит Self-Critique и другие конкурентные базовые методы, даже превосходя свою учительскую модель, GPT-4o, в задачах сложного логического вывода. CritiCal также демонстрирует robustную обобщающую способность в условиях сдвига распределения данных, способствуя повышению надежности LLM.
Последние достижения в области языковых моделей (ЯМ) с длинным контекстом позволили обрабатывать входные данные объемом в миллионы токенов, расширив их возможности для решения сложных задач, таких как агенты, взаимодействующие с компьютером. Однако последствия для безопасности этих расширенных контекстов остаются неясными. Чтобы заполнить этот пробел, мы представляем NINJA (сокращение от Needle-in-haystack jailbreak attack) — метод, который взламывает выровненные ЯМ путем добавления безвредного, сгенерированного моделью контента к вредоносным целям пользователя. Ключевым для нашего метода является наблюдение, что позиция вредоносных целей играет важную роль в безопасности. Эксперименты на стандартном бенчмарке безопасности HarmBench показывают, что NINJA значительно повышает успешность атак для передовых открытых и проприетарных моделей, включая LLaMA, Qwen, Mistral и Gemini. В отличие от предыдущих методов взлома, наш подход требует мало ресурсов, является переносимым и менее обнаруживаемым. Более того, мы показываем, что NINJA оптимален по вычислительным затратам — при фиксированном бюджете вычислений увеличение длины контекста может превзойти увеличение количества попыток в методе взлома best-of-N. Эти результаты показывают, что даже безвредные длинные контексты — при тщательном позиционировании цели — создают фундаментальные уязвимости в современных ЯМ.
Автоматизированный ремонт программ (APR) недавно сместился в сторону больших языковых моделей и агентских систем, однако большинство систем полагаются на локальный контекст снимков состояния, игнорируя историю репозитория. Предыдущие исследования показывают, что история репозитория помогает исправлять однострочные ошибки, поскольку последний коммит, затрагивающий ошибочную строку, часто является коммитом, внесшим ошибку. В данной статье мы исследуем, может ли история репозитория также улучшить агентские системы APR в крупном масштабе, особенно для сложных многоместных ошибок. Мы представляем HAFixAgent, агент для исправления ошибок с учетом истории, который внедряет эвристики репозитория, полученные из аннотаций строк, в свой цикл исправления. Предварительное исследование всех 854 реальных ошибок из Defects4J обосновывает наш дизайн, показывая, что релевантная история ошибок широко доступна и высоко концентрирована. Эмпирическое сравнение HAFixAgent с двумя современными базовыми системами показывает: (1) **Эффективность**: HAFixAgent значительно превосходит агентский базовый уровень (на 212.3%) и базовый уровень для многоместных ошибок (на 29.9%). (2) **Эффективность затрат**: история незначительно увеличивает количество шагов агента и сохраняет сопоставимые затраты на токены, с заметно более низкими медианными затратами для сложных многофайловых многоместных ошибок. (3) **Практичность**: комбинирование различных исторических эвристик исправляет больше ошибок, предлагая четкий компромисс между затратами и выгодой. HAFixAgent предлагает практический рецепт для агентского APR с учетом истории: обосновывать агента в истории системы контроля версий, отдавать приоритет историческому контексту на основе различий и интегрировать дополнительные эвристики при необходимости.