Ежедневно отобранные исследовательские статьи по ИИ с переводами
Искусственный интеллект (ИИ) ускоряет трансформацию парадигм научных исследований, не только повышая эффективность исследований, но и стимулируя инновации. Мы представляем NovelSeek — унифицированную замкнутую мультиагентную платформу для проведения автономных научных исследований (ASR) в различных научных областях, позволяющую исследователям решать сложные задачи с беспрецедентной скоростью и точностью. NovelSeek выделяется тремя ключевыми преимуществами: 1) Масштабируемость: NovelSeek продемонстрировал свою универсальность в 12 научных задачах, способствуя генерации инновационных идей для улучшения производительности базового кода. 2) Интерактивность: NovelSeek предоставляет интерфейс для обратной связи экспертов и взаимодействия мультиагентов в автоматизированных сквозных процессах, что позволяет интегрировать знания экспертов в предметной области. 3) Эффективность: NovelSeek достиг значительных улучшений в нескольких научных областях при значительно меньших временных затратах по сравнению с усилиями человека. Например, в прогнозировании выхода реакции показатель увеличился с 27,6% до 35,4% всего за 12 часов; в прогнозировании активности энхансеров точность возросла с 0,52 до 0,79 при обработке всего за 4 часа; а в 2D семантической сегментации точность повысилась с 78,8% до 81,0% всего за 30 часов.
Следование инструкциям имеет ключевое значение для согласования крупных языковых моделей (LLM) с намерениями пользователей. Хотя современные модели, ориентированные на рассуждения, демонстрируют впечатляющие результаты в решении сложных математических задач, их способность следовать инструкциям на естественном языке остается недостаточно изученной. В данной работе мы представляем MathIF — специализированный бенчмарк для оценки следования инструкциям в задачах математического рассуждения. Наш эмпирический анализ выявляет устойчивое противоречие между увеличением способности к рассуждению и сохранением управляемости: модели, которые рассуждают более эффективно, часто испытывают трудности с выполнением пользовательских указаний. Мы обнаруживаем, что модели, настроенные на дистиллированные длинные цепочки рассуждений или обученные с использованием подкрепления, ориентированного на рассуждения, часто демонстрируют ухудшение в следовании инструкциям, особенно при увеличении длины генерируемого текста. Кроме того, мы показываем, что даже простые вмешательства могут частично восстановить послушание, хотя и за счет снижения качества рассуждений. Эти результаты подчеркивают фундаментальное противоречие в современных подходах к обучению LLM и обосновывают необходимость создания моделей, более чувствительных к инструкциям. Мы публикуем код и данные по адресу https://github.com/TingchenFu/MathIF.
В последнее время крупные языковые модели (LLM) продемонстрировали впечатляющие способности к рассуждению благодаря масштабному обучению с подкреплением (RL). Однако использование алгоритмов RL для обеспечения эффективного совместного рассуждения с использованием нескольких инструментов в LLM остается открытой проблемой. В данной статье мы представляем Tool-Star — RL-ориентированную структуру, предназначенную для того, чтобы наделить LLM способностью автономно вызывать несколько внешних инструментов в процессе пошагового рассуждения. Tool-Star интегрирует шесть типов инструментов и включает систематические разработки как в синтезе данных, так и в обучении. Для решения проблемы нехватки данных об использовании инструментов мы предлагаем универсальный конвейер синтеза данных для рассуждений с использованием инструментов, который сочетает подсказки с интеграцией инструментов и выборку на основе подсказок для автоматического и масштабируемого создания траекторий использования инструментов. Последующий процесс нормализации качества и классификации с учетом сложности отфильтровывает низкокачественные образцы и организует набор данных от простого к сложному. Кроме того, мы предлагаем двухэтапную структуру обучения для улучшения совместного рассуждения с использованием нескольких инструментов: (1) тонкая настройка с "холодного старта", которая направляет LLM на изучение шаблонов рассуждения с помощью обратной связи от вызова инструментов; и (2) алгоритм RL с многоинструментальным самокритичным подходом и иерархическим дизайном вознаграждений, который укрепляет понимание вознаграждений и способствует эффективному взаимодействию инструментов. Экспериментальные анализы на более чем 10 сложных тестах на рассуждение подчеркивают эффективность и производительность Tool-Star. Код доступен по адресу https://github.com/dongguanting/Tool-Star.
Цепочка рассуждений (chain-of-thought reasoning) значительно улучшила производительность больших языковых моделей (LLMs) в различных областях. Однако этот процесс рассуждения до сих пор ограничивался исключительно текстовым пространством, что снижало его эффективность в задачах, требующих интенсивной визуальной обработки. Для преодоления этого ограничения мы вводим концепцию рассуждений в пространстве пикселей. В рамках этой новой концепции модели, объединяющие зрение и язык (Vision-Language Models, VLMs), оснащаются набором операций визуального рассуждения, таких как увеличение и выбор кадра. Эти операции позволяют VLMs напрямую анализировать, исследовать и делать выводы на основе визуальных данных, тем самым повышая точность рассуждений в визуальных задачах. Развитие таких способностей к рассуждению в пространстве пикселей у VLMs сопряжено с рядом вызовов, включая изначально несбалансированную компетентность модели и её нежелание использовать новые операции в пространстве пикселей. Мы решаем эти проблемы с помощью двухэтапного подхода к обучению. На первом этапе используется настройка на инструкциях с использованием синтезированных траекторий рассуждений, чтобы ознакомить модель с новыми визуальными операциями. Затем этап обучения с подкреплением (RL) использует схему вознаграждения, основанную на любопытстве, чтобы сбалансировать исследование между рассуждениями в пространстве пикселей и текстовыми рассуждениями. Благодаря этим визуальным операциям VLMs могут взаимодействовать со сложными визуальными данными, такими как насыщенные информацией изображения или видео, чтобы активно собирать необходимую информацию. Мы демонстрируем, что этот подход значительно улучшает производительность VLMs на различных тестах визуального рассуждения. Наша модель на 7 миллиардов параметров, \model, достигает 84\% на V* bench, 74\% на TallyQA-Complex и 84\% на InfographicsVQA, что является наивысшей точностью среди всех открытых моделей на сегодняшний день. Эти результаты подчеркивают важность рассуждений в пространстве пикселей и эффективность нашей концепции.
Последние достижения в области мультимодальных генеративных моделей позволили добиться значительного прогресса в редактировании изображений на основе инструкций. Однако, хотя эти модели создают визуально правдоподобные результаты, их способность выполнять задачи редактирования, основанные на знаниях, остается недостаточно изученной. В данной статье мы представляем KRIS-Bench (Knowledge-based Reasoning in Image-editing Systems Benchmark), диагностический эталон, разработанный для оценки моделей через когнитивно-информированную призму. Опираясь на образовательную теорию, KRIS-Bench классифицирует задачи редактирования по трем основным типам знаний: Фактические, Концептуальные и Процедурные. На основе этой таксономии мы разработали 22 репрезентативные задачи, охватывающие 7 измерений рассуждений, и опубликовали 1 267 высококачественных аннотированных примеров редактирования. Для поддержки детальной оценки мы предлагаем комплексный протокол, включающий новый показатель Правдоподобности Знаний, усиленный подсказками на основе знаний и откалиброванный с помощью исследований с участием людей. Эмпирические результаты для 10 современных моделей выявили значительные пробелы в производительности рассуждений, подчеркивая необходимость эталонов, ориентированных на знания, для продвижения разработки интеллектуальных систем редактирования изображений.
Понимание длинных видео стало важной функцией в реальных приложениях, таких как видеонаблюдение, суммирование встреч, анализ образовательных лекций и спортивные трансляции. Однако для VideoLLM это остается вычислительно сложной задачей, в основном из-за двух узких мест: 1) последовательное декодирование видео — процесс преобразования исходного битового потока в RGB-кадры может занимать до минуты для часовых видео, и 2) дорогостоящее предварительное заполнение до нескольких миллионов токенов для вывода LLM, что приводит к высокой задержке и использованию памяти. Для решения этих проблем мы предлагаем QuickVideo, совместную системно-алгоритмическую разработку, которая значительно ускоряет понимание длинных видео для поддержки приложений в реальном времени. Она включает три ключевых инновации: QuickDecoder — параллелизированный декодер видео на основе CPU, который достигает ускорения в 2-3 раза за счет разделения видео на интервалы, выровненные по ключевым кадрам и обрабатываемые параллельно; QuickPrefill — метод предварительного заполнения с эффективным использованием памяти, использующий обрезку KV-кэша для поддержки большего количества кадров с меньшим объемом GPU-памяти; и схему перекрытия, которая совмещает декодирование видео на CPU с выводом на GPU. Вместе эти компоненты сокращают время вывода на минуту для длинных видео, обеспечивая масштабируемое и качественное понимание видео даже на ограниченном оборудовании. Эксперименты показывают, что QuickVideo обобщается для различных длительностей и частот выборки, делая обработку длинных видео практически осуществимой.
Диффузионные трансформеры стали основой для генеративных моделей в области компьютерного зрения, но их масштабируемость ограничена высокой стоимостью настройки гиперпараметров (HP) на больших масштабах. Недавно была предложена Максимальная Параметризация Обновлений (muP) для стандартных трансформеров, которая обеспечивает стабильный перенос HP от небольших к крупным языковым моделям и значительно снижает затраты на настройку. Однако остается неясным, применима ли muP для стандартных трансформеров к диффузионным трансформерам, которые отличаются как архитектурно, так и по целям. В данной работе мы обобщаем стандартную muP для диффузионных трансформеров и подтверждаем ее эффективность в ходе масштабных экспериментов. Во-первых, мы строго доказываем, что muP для основных диффузионных трансформеров, включая DiT, U-ViT, PixArt-alpha и MMDiT, согласуется с muP для стандартного трансформера, что позволяет напрямую применять существующие методологии muP. Используя этот результат, мы систематически демонстрируем, что DiT-muP обладает устойчивой переносимостью HP. В частности, DiT-XL-2-muP с перенесенным коэффициентом обучения достигает сходимости в 2.9 раза быстрее, чем оригинальный DiT-XL-2. Наконец, мы подтверждаем эффективность muP в задаче генерации изображений по тексту, масштабируя PixArt-alpha с 0.04B до 0.61B и MMDiT с 0.18B до 18B. В обоих случаях модели с использованием muP превосходят свои базовые версии при минимальных затратах на настройку: всего 5.5% от одного цикла обучения для PixArt-alpha и 3% от затрат, требуемых экспертами для MMDiT-18B. Эти результаты подтверждают muP как принципиальный и эффективный фреймворк для масштабирования диффузионных трансформеров.
В данной работе мы представляем LLaDA-V — мультимодальную большую языковую модель (MLLM), основанную исключительно на диффузионных подходах, которая объединяет настройку на визуальных инструкциях с маскированными диффузионными моделями, что представляет собой отход от доминирующих в современных мультимодальных подходах авторегрессивных парадигм. Построенная на основе LLaDA, репрезентативной большой языковой диффузионной модели, LLaDA-V включает в себя визуальный кодировщик и MLP-соединитель, который проецирует визуальные признаки в пространство языковых эмбеддингов, обеспечивая эффективное мультимодальное согласование. Наше эмпирическое исследование выявило несколько интересных результатов: Во-первых, LLaDA-V демонстрирует многообещающую мультимодальную производительность, несмотря на то, что её языковая модель уступает в чисто текстовых задачах аналогам, таким как LLaMA3-8B и Qwen2-7B. При обучении на тех же данных инструкций LLaDA-V оказывается высококонкурентоспособной по сравнению с LLaMA3-V в мультимодальных задачах, демонстрируя лучшую масштабируемость данных. Она также сокращает разрыв в производительности с Qwen2-VL, что свидетельствует об эффективности её архитектуры для мультимодальных задач. Во-вторых, LLaDA-V достигает наилучших результатов в мультимодальном понимании по сравнению с существующими гибридными авторегрессивно-диффузионными и чисто диффузионными MLLM. Наши результаты показывают, что большие языковые диффузионные модели демонстрируют потенциал в мультимодальных контекстах и заслуживают дальнейшего исследования в будущих работах. Страница проекта и код: https://ml-gsai.github.io/LLaDA-V-demo/.
Несмотря на недавние успехи в масштабном обучении с подкреплением (RL) для задач рассуждений, рецепт обучения для создания высокопроизводительных моделей рассуждений остается неясным. Ключевые детали реализации передовых моделей, таких как DeepSeek-R1, включая стратегии подготовки данных и рецепт обучения RL, часто опускаются. Более того, последние исследования показывают, что дистилляция остается более эффективной, чем RL, для небольших моделей. В данной работе мы демонстрируем, что масштабное RL может значительно улучшить способности к рассуждениям у сильных моделей малого и среднего размера, достигая результатов, превосходящих модели, основанные на дистилляции. Мы систематически изучаем процесс обучения RL с помощью обширных экспериментов и предлагаем простой, но эффективный подход: сначала обучение на математических задачах, затем на задачах, связанных с кодом. Примечательно, что RL на математических задачах не только значительно улучшает производительность сильных дистиллированных моделей на математических тестах (например, +14,6% / +17,2% на AIME 2025 для моделей 7B / 14B), но и на задачах, связанных с кодом (например, +6,8% / +5,8% на LiveCodeBench для моделей 7B / 14B). Кроме того, дополнительные итерации RL на задачах, связанных с кодом, еще больше улучшают производительность на тестах по коду с минимальным или нулевым ухудшением результатов по математике. Мы разрабатываем надежный конвейер подготовки данных для сбора сложных задач с высококачественными, проверяемыми ответами и тестовыми примерами, что позволяет использовать RL с проверкой в обеих областях. Наконец, мы выявляем ключевые экспериментальные инсайты, включая обучение по учебному плану с постепенным увеличением длины ответов и стабилизирующий эффект обновления параметров на основе текущей политики. Мы обнаруживаем, что RL не только раскрывает базовые способности к рассуждениям, приобретенные на этапах предварительного обучения и тонкой настройки с учителем (например, дистилляции), но и расширяет границы способностей модели к рассуждениям, позволяя ей решать задачи, которые ранее были неразрешимы.
Модели визуальной генерации достигли значительных успехов в создании реалистичных изображений на основе текстовых запросов, однако сталкиваются с трудностями при обработке сложных запросов, требующих указания нескольких объектов с точными пространственными отношениями и атрибутами. Эффективное выполнение таких запросов требует явного анализа семантического содержания и пространственной компоновки. Мы представляем GoT-R1 — фреймворк, который применяет обучение с подкреплением для улучшения семантико-пространственного анализа в визуальной генерации. Развивая подход Generation Chain-of-Thought, GoT-R1 позволяет моделям автономно находить эффективные стратегии анализа, выходящие за рамки предопределенных шаблонов, благодаря тщательно разработанному обучению с подкреплением. Для достижения этого мы предлагаем двухэтапную многомерную систему вознаграждений, которая использует MLLM для оценки как процесса анализа, так и конечного результата, обеспечивая эффективный контроль на всех этапах генерации. Система вознаграждений оценивает семантическое соответствие, пространственную точность и визуальное качество в едином подходе. Экспериментальные результаты демонстрируют значительные улучшения на бенчмарке T2I-CompBench, особенно в задачах композиции, требующих точных пространственных отношений и связывания атрибутов. GoT-R1 продвигает современные технологии генерации изображений, успешно перенося сложные аналитические способности в область визуальной генерации. Для содействия будущим исследованиям мы публикуем наш код и предобученные модели по адресу https://github.com/gogoduan/GoT-R1.
Риск-аверсивное обучение с подкреплением находит применение в различных областях с высокими ставками. В отличие от классического обучения с подкреплением, которое направлено на максимизацию ожидаемой доходности, риск-аверсивные агенты выбирают стратегии, минимизирующие риск, иногда жертвуя ожидаемой ценностью. Эти предпочтения могут быть выражены через теорию полезности. Мы сосредотачиваемся на конкретном случае экспоненциальной функции полезности, где можно вывести уравнения Беллмана и применять различные алгоритмы обучения с подкреплением с минимальными изменениями. Однако эти методы страдают от численной нестабильности из-за необходимости вычисления экспоненты на протяжении всего процесса. Чтобы решить эту проблему, мы предлагаем численно устойчивую и математически обоснованную функцию потерь, основанную на дивергенции Итакуры-Сайто, для обучения функциям ценности состояний и действий. Мы оцениваем предложенную функцию потерь по сравнению с известными альтернативами как теоретически, так и эмпирически. В экспериментальной части мы исследуем несколько финансовых сценариев, некоторые из которых имеют известные аналитические решения, и показываем, что наша функция потерь превосходит альтернативы.
Генеративный ИИ (GenAI) обладает значительным потенциалом для автоматизации повседневных задач редактирования изображений, особенно после недавнего выпуска GPT-4o 25 марта 2025 года. Однако какие объекты чаще всего хотят редактировать люди? Какие виды редактирования они предпочитают (например, удаление или стилизация объекта)? Предпочитают ли люди точные правки с предсказуемым результатом или более творческие подходы? Понимая характеристики реальных запросов и соответствующих правок, выполненных фрилансерами-мастерами фоторедактирования, можем ли мы извлечь уроки для улучшения ИИ-редакторов и определить, какие типы запросов могут быть успешно обработаны текущими ИИ-редакторами? В данной статье мы представляем уникальное исследование, посвящённое этим вопросам, анализируя 83 тыс. запросов за последние 12 лет (2013–2025) в сообществе Reddit, где было собрано 305 тыс. правок от мастеров PSR. Согласно оценкам людей, лишь около 33% запросов могут быть выполнены лучшими ИИ-редакторами (включая GPT-4o, Gemini-2.0-Flash, SeedEdit). Интересно, что ИИ-редакторы хуже справляются с малотворческими запросами, требующими точного редактирования, чем с более открытыми задачами. Они часто испытывают трудности с сохранением идентичности людей и животных и нередко вносят не запрошенные улучшения. С другой стороны, судьи на основе визуально-языковых моделей (например, o1) оценивают иначе, чем люди, и могут предпочитать правки ИИ больше, чем человеческие. Код и качественные примеры доступны по ссылке: https://psrdataset.github.io.
Обучение устойчивых моделей для извлечения и ранжирования обычно требует крупномасштабных наборов данных для извлечения; например, коллекция BGE содержит 1,6 миллиона пар запрос-отрывок, собранных из различных источников данных. Однако мы обнаружили, что некоторые наборы данных могут негативно влиять на эффективность модели — удаление 8 из 15 наборов данных из коллекции BGE уменьшает размер обучающего набора в 2,35 раза и увеличивает nDCG@10 на BEIR на 1,0 балл. Это мотивирует более глубокое изучение качества обучающих данных, с особым акцентом на "ложных отрицаниях", когда релевантные отрывки ошибочно помечаются как нерелевантные. Мы предлагаем простой и экономически эффективный подход, использующий каскадные запросы к LLM для идентификации и перемаркировки сложных отрицаний. Экспериментальные результаты показывают, что перемаркировка ложных отрицаний на истинные положительные улучшает как модель E5 (базовую), так и модель Qwen2.5-7B для извлечения на 0,7–1,4 nDCG@10 на BEIR и на 1,7–1,8 nDCG@10 на zero-shot оценке AIR-Bench. Аналогичные улучшения наблюдаются для моделей ранжирования, дообученных на перемаркированных данных, таких как Qwen2.5-3B на BEIR. Надежность каскадного дизайна дополнительно подтверждается результатами аннотирования людьми, где мы обнаруживаем, что суждения GPT-4o демонстрируют значительно более высокое согласие с людьми, чем GPT-4o-mini.
Крупные языковые модели (LLM) достигли значительных успехов в решении математических задач благодаря рассуждениям по цепочке мыслей (Chain-of-Thought, CoT). Однако существующие наборы данных для математических CoT часто страдают от "прыжков в мыслях" (Thought Leaps), вызванных пропуском промежуточных шагов экспертами, что негативно сказывается на обучении и обобщающей способности моделей. Мы предлагаем задачу CoT Thought Leap Bridge, которая направлена на автоматическое обнаружение таких прыжков и генерацию недостающих промежуточных шагов рассуждений для восстановления полноты и связности CoT. Для этого мы создали специализированный обучающий набор данных ScaleQM+, основанный на структурированном наборе ScaleQuestMath, и обучили модель CoT-Bridge для устранения прыжков в мыслях. В ходе всесторонних экспериментов на эталонных задачах математического рассуждения мы показали, что модели, дообученные на исправленных наборах данных, стабильно превосходят модели, обученные на исходных данных, с улучшением до +5,87% на тесте NuminaMath. Наш подход эффективно улучшает дистиллированные данные (+3,02%) и предоставляет более качественные начальные точки для обучения с подкреплением (+3,1%), функционируя как модуль "подключи и работай", совместимый с существующими методами оптимизации. Кроме того, CoT-Bridge демонстрирует улучшенную обобщающую способность для задач логического рассуждения вне домена, подтверждая, что повышение полноты рассуждений приносит широко применимые преимущества.
Крупные модели рассуждений (LRMs), такие как OpenAI o1 и DeepSeek-R1, значительно улучшили свои способности к рассуждению за счёт генерации более длинных цепочек мыслей, демонстрируя выдающуюся производительность в различных задачах. Однако это улучшение производительности достигается за счёт существенного увеличения избыточных рассуждений в процессе генерации, что приводит к высоким вычислительным затратам и усугубляет проблему чрезмерного анализа. Хотя множество существующих подходов направлено на решение проблемы чрезмерного анализа, они часто полагаются на внешние вмешательства. В данной статье мы предлагаем новую структуру, Самонастраиваемое Торможение (Self-Braking Tuning, SBT), которая решает проблему чрезмерного анализа, позволяя модели регулировать собственный процесс рассуждений, тем самым устраняя зависимость от внешних механизмов контроля. Мы разрабатываем набор метрик для идентификации чрезмерного анализа на основе эталонных ответов и создаём систематический метод для обнаружения избыточных рассуждений. Этот метод точно выявляет ненужные шаги в траектории рассуждений и генерирует обучающие сигналы для изучения поведения саморегуляции. На основе этого мы разрабатываем полную стратегию для создания данных с адаптивной длиной рассуждений и вводим инновационный механизм тормозящих подсказок, который позволяет модели естественным образом обучаться тому, когда следует завершать рассуждения в подходящий момент. Эксперименты на математических тестах (AIME, AMC, MATH500, GSM8K) показывают, что наш метод сокращает потребление токенов до 60%, сохраняя при этом сопоставимую точность с моделями без ограничений.
Несмотря на впечатляющее качество генерации видео моделей Diffusion Transformer (DiT), их практическое применение серьезно ограничивается высокими вычислительными требованиями. Эта неэффективность обусловлена двумя ключевыми проблемами: квадратичной сложностью механизма самовнимания относительно длины токенов и многошаговой природой диффузионных моделей. Для устранения этих ограничений мы представляем Jenga — новый конвейер вывода, который сочетает динамическое выделение внимания с генерацией прогрессивного разрешения. Наш подход основывается на двух ключевых идеях: (1) ранние шаги удаления шума не требуют высокого разрешения латентных представлений, и (2) поздние шаги не нуждаются в плотном внимании. Jenga вводит блочный механизм внимания, который динамически выбирает релевантные взаимодействия токенов с использованием 3D пространственно-заполняющих кривых, а также стратегию прогрессивного разрешения, которая постепенно увеличивает разрешение латентных представлений в процессе генерации. Экспериментальные результаты показывают, что Jenga обеспечивает значительное ускорение работы нескольких современных моделей видео-диффузии при сохранении сопоставимого качества генерации (ускорение в 8,83 раза с падением производительности на 0,01% на VBench). Будучи решением типа "подключи и работай", Jenga делает возможной практическую генерацию высококачественного видео на современном оборудовании, сокращая время вывода с минут до секунд — без необходимости переобучения модели. Код: https://github.com/dvlab-research/Jenga
В данной работе мы представляем Dimple — первую дискретную диффузионную мультимодальную большую языковую модель (DMLLM). Мы наблюдаем, что обучение с использованием исключительно дискретного диффузионного подхода приводит к значительной нестабильности обучения, субоптимальной производительности и серьезным проблемам с предвзятостью длины. Для решения этих задач мы разрабатываем новую парадигму обучения, которая сочетает начальную авторегрессионную фазу с последующей диффузионной фазой. Этот подход позволяет создать модель Dimple-7B, обученную на том же наборе данных и с использованием схожего конвейера обучения, что и LLaVA-NEXT. Dimple-7B в конечном итоге превосходит LLaVA-NEXT по производительности на 3,9%, демонстрируя, что DMLLM может достичь результатов, сопоставимых с авторегрессионными моделями. Для повышения эффективности вывода мы предлагаем стратегию декодирования, названную уверенным декодированием, которая динамически регулирует количество токенов, генерируемых на каждом шаге, значительно сокращая количество итераций генерации. В авторегрессионных моделях количество прямых итераций во время генерации равно длине ответа. Однако при использовании уверенного декодирования количество итераций, необходимых для Dimple, составляет всего лишь text{длина ответа}{3}. Мы также повторно реализуем технику предварительного заполнения в авторегрессионных моделях и показываем, что она не оказывает значительного влияния на производительность в большинстве бенчмарков, при этом обеспечивая ускорение от 1,5 до 7 раз. Кроме того, мы исследуем способность Dimple точно контролировать свои ответы с использованием структурных априорных знаний. Эти априорные знания позволяют формировать структурированные ответы способом, отличным от инструкций или цепочек рассуждений, и обеспечивают детализированный контроль над форматом и длиной ответа, что сложно достичь в авторегрессионных моделях. В целом, данная работа подтверждает осуществимость и преимущества DMLLM, а также повышает ее эффективность вывода и управляемость. Код и модели доступны по адресу https://github.com/yu-rp/Dimple.
С учетом того, что видеоигры теперь генерируют самые высокие доходы в индустрии развлечений, оптимизация процессов разработки игр стала ключевым фактором для устойчивого роста отрасли. Последние достижения в области моделей "визуальный язык" (Vision-Language Models, VLMs) открывают значительный потенциал для автоматизации и улучшения различных аспектов разработки игр, особенно в области обеспечения качества (Quality Assurance, QA), которая остается одним из наиболее трудоемких процессов в отрасли с ограниченными возможностями автоматизации. Для точной оценки производительности VLMs в задачах QA видеоигр и определения их эффективности в решении реальных сценариев существует явная необходимость в стандартизированных бенчмарках, поскольку существующие бенчмарки недостаточно учитывают специфические требования этой области. Чтобы восполнить этот пробел, мы представляем VideoGameQA-Bench — комплексный бенчмарк, охватывающий широкий спектр задач QA в играх, включая визуальное модульное тестирование, визуальное регрессионное тестирование, задачи поиска "иголки в стоге сена", обнаружение глюков и генерацию отчетов об ошибках для изображений и видео различных игр. Код и данные доступны по адресу: https://asgaardlab.github.io/videogameqa-bench/
Хотя обучение с подкреплением (RL) продемонстрировало впечатляющие успехи в улучшении больших языковых моделей (LLM), оно в основном сосредоточено на одношаговых задачах, таких как решение математических задач. Обучение эффективных веб-агентов для многошаговых взаимодействий остается сложной задачей из-за сложности принятия решений на длинных горизонтах в динамических веб-интерфейсах. В данной работе мы представляем WebAgent-R1, простую, но эффективную сквозную многошаговую RL-структуру для обучения веб-агентов. Она обучается непосредственно на основе онлайн-взаимодействий с веб-средами, асинхронно генерируя разнообразные траектории, полностью руководствуясь бинарными наградами, зависящими от успешности задачи. Эксперименты на бенчмарке WebArena-Lite демонстрируют эффективность WebAgent-R1, повышая процент успешного выполнения задач для Qwen-2.5-3B с 6,1% до 33,9% и для Llama-3.1-8B с 8,5% до 44,8%, значительно превосходя существующие передовые методы и сильные проприетарные модели, такие как OpenAI o3. Глубокий анализ показывает эффективность стратегии подсказок на основе мышления и масштабирования во время тестирования за счет увеличения взаимодействий для веб-задач. Мы также исследуем различные политики инициализации RL, вводя два варианта, а именно WebAgent-R1-Zero и WebAgent-R1-CoT, которые подчеркивают важность этапа разогрева (т.е. клонирования поведения) и предоставляют инсайты по включению длинных цепочек рассуждений (CoT) в веб-агентов.
Мультимодальные большие языковые модели (MLLMs) всё чаще используются в контексте настройки как услуги (FTaaS), где пользовательские наборы данных адаптируют универсальные модели для решения конкретных задач. Однако такая гибкость создаёт серьёзные угрозы безопасности, поскольку злонамеренная настройка может с минимальными усилиями внедрить бэкдоры в MLLMs. В данной работе мы наблюдаем, что триггеры бэкдоров систематически нарушают кросс-модальную обработку, вызывая аномальную концентрацию внимания на не-семантических областях — явление, которое мы называем коллапсом внимания. На основе этого наблюдения мы предлагаем Believe Your Eyes (BYE), фреймворк фильтрации данных, который использует паттерны энтропии внимания в качестве самоконтролируемых сигналов для выявления и фильтрации образцов с бэкдорами. BYE работает через трёхэтапный процесс: (1) извлечение карт внимания с использованием настроенной модели, (2) вычисление показателей энтропии и профилирование чувствительных слоёв через бимодальное разделение, и (3) выполнение неконтролируемой кластеризации для удаления подозрительных образцов. В отличие от предыдущих методов защиты, BYE не требует чистого надзора, дополнительных меток или модификаций модели. Эксперименты на различных наборах данных, моделях и типах триггеров подтверждают эффективность BYE: он достигает почти нулевого уровня успешности атак, сохраняя при этом производительность на чистых задачах, предлагая надёжное и универсальное решение против угроз бэкдоров в MLLMs.
Недавние достижения продемонстрировали успех в развитии сильных способностей к рассуждению у мультимодальных больших языковых моделей (MLLMs) с использованием обучения с подкреплением (RL) на основе правил с вознаграждением за результат. Однако в этом подходе обычно отсутствует контроль над мыслительным процессом, ведущим к конечному результату. В результате модель может усвоить субоптимальные стратегии рассуждения, что может ограничить её способность к обобщению. В связи с этим мы предлагаем SophiaVL-R1 как попытку добавить сигналы вознаграждения за мыслительный процесс в данный подход. Для этого мы сначала обучаем модель вознаграждения за мышление, которая оценивает качество всего мыслительного процесса. Учитывая, что вознаграждение за мышление может быть ненадежным для некоторых примеров из-за "взлома вознаграждения", мы предлагаем метод Trust-GRPO, который присваивает весовой коэффициент доверия вознаграждению за мышление в процессе обучения. Этот вес вычисляется на основе сравнения вознаграждений за мышление для ответов, приводящих к правильным и неправильным результатам, что помогает снизить влияние потенциально ненадежных вознаграждений за мышление. Кроме того, мы разрабатываем стратегию обучения с затуханием, которая постепенно уменьшает вознаграждение за мышление со временем, позволяя модели больше полагаться на точное вознаграждение за результат на основе правил на поздних этапах обучения. Эксперименты показывают, что наша модель SophiaVL-R1 превосходит ряд MLLMs для рассуждений на различных тестах (например, MathVisita, MMMU), демонстрируя сильные способности к рассуждению и обобщению. Примечательно, что наша модель SophiaVL-R1-7B даже превосходит LLaVA-OneVision-72B на большинстве тестов, несмотря на то, что последняя имеет в 10 раз больше параметров. Весь код, модели и наборы данных доступны публично по адресу https://github.com/kxfan2002/SophiaVL-R1.
Обучение с подкреплением (Reinforcement Learning, RL) стало мощным инструментом для улучшения способностей к рассуждению у крупных языковых моделей (Large Language Models, LLMs) за счет оптимизации их политик с использованием сигналов вознаграждения. Однако успех RL зависит от надежности вознаграждений, которые предоставляются верификаторами. В данной работе мы выявляем и анализируем широко распространенную проблему — ложные отрицания, когда верификаторы ошибочно отвергают корректные выходы модели. Наше детальное исследование набора данных Big-Math-RL-Verified показывает, что более 38% сгенерированных моделью ответов страдают от ложных отрицаний, когда верификатор не распознает правильные ответы. Мы демонстрируем как эмпирически, так и теоретически, что эти ложные отрицания серьезно ухудшают обучение RL, лишая модель информативных градиентных сигналов и замедляя сходимость. Для решения этой проблемы мы предлагаем tinyV — легковесный верификатор на основе LLM, который дополняет существующие правила, динамически выявляя потенциальные ложные отрицания и восстанавливая корректные ответы для получения более точных оценок вознаграждения. На нескольких бенчмарках математических рассуждений интеграция TinyV повышает процент успешных решений до 10% и ускоряет сходимость по сравнению с базовым подходом. Наши результаты подчеркивают критическую важность устранения ложных отрицаний верификаторов и предлагают практический подход для улучшения тонкой настройки LLM с использованием RL. Наш код доступен по адресу https://github.com/uw-nsl/TinyV.
Мультимодальные большие языковые модели (MLLMs) достигли впечатляющих успехов в задачах ответов на вопросы, однако их способности к пространственному пониманию изучены в меньшей степени. В данной работе исследуется ключевой вопрос: обладают ли существующие MLLMs способностями к восприятию и пониманию трехмерного пространства? Конкретно, мы делаем следующие вклады в этой статье: (i) мы представляем VGBench, бенчмарк, специально разработанный для оценки MLLMs в задачах восприятия визуальной геометрии, таких как оценка позы камеры и движения; (ii) мы предлагаем SpatialScore, наиболее полный и разнообразный на сегодняшний день бенчмарк для мультимодального пространственного понимания, интегрирующий VGBench с релевантными данными из 11 других существующих наборов данных. Этот бенчмарк включает 28 тысяч образцов, охватывающих различные задачи пространственного понимания, модальности и форматы вопросов-ответов, а также тщательно отобранный сложный подмножество, SpatialScore-Hard; (iii) мы разрабатываем SpatialAgent, новую мультиагентную систему, включающую 9 специализированных инструментов для пространственного понимания, поддерживающую как парадигмы Plan-Execute, так и ReAct; (iv) мы проводим обширные оценки, чтобы выявить сохраняющиеся проблемы в пространственном рассуждении, одновременно демонстрируя эффективность SpatialAgent. Мы считаем, что SpatialScore предоставит ценные инсайты и станет строгим бенчмарком для следующего этапа эволюции MLLMs.
Современные модели, объединяющие зрение и язык (Vision-Language Models, VLMs), способны решать широкий спектр задач, требующих визуального анализа. В реальных сценариях желательными свойствами для VLMs являются быстрое выполнение выводов и контролируемая генерация (например, ограничение выходных данных для соответствия заданному формату). Однако существующие авторегрессивные (AR) VLMs, такие как LLaVA, испытывают трудности в этих аспектах. Дискретные диффузионные модели (DMs) предлагают многообещающую альтернативу, позволяя параллельное декодирование для ускорения вывода и использование двунаправленного контекста для контролируемой генерации через заполнение текста. Хотя DMs эффективны в задачах, связанных только с языком, их потенциал для мультимодальных задач изучен недостаточно. Мы представляем LaViDa — семейство VLMs, основанных на DMs. Мы создаем LaViDa, оснащая DMs визуальным кодировщиком и совместно дообучая объединенные компоненты для выполнения мультимодальных инструкций. Для решения возникающих проблем LaViDa включает новые методы, такие как комплементарное маскирование для эффективного обучения, кэширование префиксов KV для ускоренного вывода и сдвиг временных шагов для высококачественной выборки. Эксперименты показывают, что LaViDa демонстрирует конкурентоспособные или превосходящие результаты по сравнению с AR VLMs на мультимодальных бенчмарках, таких как MMMU, предлагая уникальные преимущества DMs, включая гибкий компромисс между скоростью и качеством, контролируемость и двунаправленное рассуждение. На задаче генерации подписей к изображениям COCO LaViDa превосходит Open-LLaVa-Next-8B на +4.1 CIDEr с ускорением в 1.92 раза. На двунаправленных задачах она достигает улучшения на +59% в задаче завершения стихов с ограничениями. Эти результаты демонстрируют LaViDa как мощную альтернативу AR VLMs. Код и модели будут опубликованы в финальной версии статьи.
В последнее время мультимодальные языковые модели (MLLM), основанные на рассуждениях, достигли определенных успехов в генерации длинных текстовых цепочек рассуждений. Однако они по-прежнему испытывают трудности с выполнением сложных задач, требующих динамического и итеративного фокусирования и повторного анализа визуальных областей для точного обоснования текстовых рассуждений визуальными данными. Мы представляем VLM-R^3 (Visual Language Model with Region Recognition and Reasoning) — фреймворк, который наделяет MLLM способностью (i) определять, когда требуется дополнительная визуальная информация, (ii) выбирать, на какую область изображения следует ориентироваться, и (iii) плавно интегрировать содержание соответствующих суб-изображений в чередующуюся цепочку рассуждений. Основой нашего метода является оптимизация политики с подкреплением, обусловленная регионами (Region-Conditioned Reinforcement Policy Optimization, R-GRPO) — парадигма обучения, которая вознаграждает модель за выбор информативных областей, формулирование подходящих преобразований (например, обрезка, увеличение) и интеграцию полученного визуального контекста в последующие шаги рассуждений. Для начальной настройки этой политики мы составили небольшой, но тщательно отобранный корпус Visuo-Lingual Interleaved Rationale (VLIR), который предоставляет пошаговый контроль за выбором областей и текстовым обоснованием. Экстенсивные эксперименты на наборах данных MathVista, ScienceQA и других бенчмарках показывают, что VLM-R^3 устанавливает новый уровень состояния искусства в условиях zero-shot и few-shot, с наибольшим приростом производительности на задачах, требующих тонкого пространственного рассуждения или извлечения детализированных визуальных подсказок.
Недавние исследования продемонстрировали эффективность использования обучения с подкреплением (Reinforcement Learning, RL) для создания моделей рассуждений, которые формулируют цепочки мыслей перед генерацией окончательных ответов. Однако, несмотря на постоянные улучшения, направленные на включение рассуждений в задачи, связанные с обработкой визуальной и текстовой информации, существующие открытые модели визуального рассуждения обычно генерируют содержание рассуждений исключительно на естественном языке, без явного интегрирования визуальной информации. Это ограничивает их способность создавать четко сформулированные и визуально обоснованные цепочки рассуждений. В связи с этим мы предлагаем метод Grounded Reasoning with Images and Texts (GRIT), новый подход к обучению мультимодальных языковых моделей (MLLMs) рассуждать с использованием изображений. GRIT вводит парадигму обоснованного рассуждения, в которой модели генерируют цепочки рассуждений, чередующие естественный язык и явные координаты ограничивающих рамок. Эти координаты указывают на области входного изображения, которые модель использует в процессе рассуждения. Кроме того, GRIT оснащен подходом обучения с подкреплением, GRPO-GR, основанным на алгоритме GRPO. GRPO-GR использует устойчивые вознаграждения, сфокусированные на точности окончательного ответа и формате обоснованного рассуждения, что устраняет необходимость в данных с аннотациями цепочек рассуждений или явными метками ограничивающих рамок. В результате GRIT демонстрирует исключительную эффективность использования данных, требуя всего 20 триплетов "изображение-вопрос-ответ" из существующих наборов данных. Комплексные оценки показывают, что GRIT эффективно обучает MLLMs создавать согласованные и визуально обоснованные цепочки рассуждений, демонстрируя успешное объединение способностей к рассуждению и обоснованию.
Обучение с подкреплением (Reinforcement Learning, RL) доказало свою эффективность как стратегия пост-обучения для улучшения способности к рассуждению в моделях, работающих с визуальными и языковыми данными (Vision-Language Models, VLMs). Метод Group Relative Policy Optimization (GRPO), недавно получивший широкое внимание, побуждает модели генерировать полные цепочки рассуждений перед ответом, что приводит к увеличению использования токенов и вычислительных затрат. Вдохновленные человеческим процессом мышления, где люди пропускают рассуждения для простых вопросов, но тщательно обдумывают сложные, мы исследуем, как научить VLMs сначала определять, когда рассуждения необходимы. Для реализации этой идеи мы предлагаем TON — двухэтапную стратегию обучения: (i) этап контролируемого тонкого настройки (Supervised Fine-Tuning, SFT) с простой, но эффективной операцией «выборочного отбрасывания рассуждений» (thought dropout), где цепочки рассуждений случайным образом заменяются на пустые мысли. Это вводит формат «думать или не думать», который служит отправной точкой для избирательного рассуждения; (ii) этап GRPO, который позволяет модели свободно исследовать, когда думать, а когда нет, при этом максимизируя вознаграждения, связанные с выполнением задачи. Экспериментальные результаты показывают, что TON может сократить длину ответа до 90% по сравнению с базовым GRPO, не жертвуя производительностью и даже улучшая её. Дополнительные оценки на различных задачах, связанных с визуальными и языковыми данными — охватывающих широкий спектр сложности рассуждений для моделей с 3B и 7B параметрами — последовательно демонстрируют, что модель постепенно учится пропускать ненужные шаги рассуждений по мере прогресса обучения. Эти результаты проливают свет на путь к созданию более человеко-подобных паттернов рассуждений в подходах, основанных на обучении с подкреплением. Наш код доступен по адресу https://github.com/kokolerk/TON.
Обучение с подкреплением (RL) приводит к значительному улучшению производительности крупных языковых моделей (LLM) на последующих задачах и их соответствия человеческим ценностям. Удивительно, что такие большие улучшения достигаются за счет обновления лишь небольшой подсети, включающей всего от 5 до 30 процентов параметров, в то время как остальные остаются практически неизменными. Мы называем это явление разреженностью обновления параметров, вызванной RL. Оно наблюдается во всех 7 широко используемых алгоритмах RL (например, PPO, GRPO, DPO) и всех 10 LLM из разных семейств в наших экспериментах. Эта разреженность является внутренней и возникает без каких-либо явных регуляризаций, способствующих разреженности, или архитектурных ограничений. Тонкая настройка только подсети восстанавливает точность на тестовых данных и, что примечательно, создает модель, почти идентичную той, которая получена при полной тонкой настройке. Подсети, полученные с разных случайных начальных значений, обучающих данных и даже алгоритмов RL, демонстрируют значительно большее совпадение, чем можно было бы ожидать случайно. Наш анализ показывает, что эта разреженность не связана с обновлением только подмножества слоев; вместо этого почти все матрицы параметров получают аналогично разреженные обновления. Более того, обновления почти всех матриц параметров являются почти полного ранга, что указывает на то, что RL обновляет небольшое подмножество параметров, которые, тем не менее, охватывают почти все подпространства, которые могут представлять матрицы параметров. Мы предполагаем, что эта разреженность обновлений может быть в основном связана с обучением на данных, близких к распределению политики, а такие методы, как KL-регуляризация и ограничение градиентов, которые побуждают политику оставаться близкой к предварительно обученной модели, имеют ограниченное влияние.
Мультимодальные большие языковые модели (MLLMs) значительно продвинулись в решении визуальных задач, однако их пространственное понимание ограничивается отдельными изображениями, что делает их малопригодными для робототехники и других реальных приложений, требующих анализа нескольких кадров. В данной работе мы предлагаем фреймворк для надежного многокадрового пространственного понимания MLLMs, интегрируя восприятие глубины, визуальное соответствие и динамическое восприятие. Основой нашего подхода является набор данных MultiSPA — новый масштабный сборник, содержащий более 27 миллионов образцов, охватывающих разнообразные 3D и 4D сцены. Вместе с MultiSPA мы представляем комплексный бенчмарк, который тестирует широкий спектр пространственных задач с использованием единых метрик. Наша итоговая модель, Multi-SpatialMLLM, демонстрирует значительное превосходство над базовыми и проприетарными системами, показывая масштабируемое и обобщаемое многокадровое рассуждение. Мы также наблюдаем преимущества в многозадачных сценариях и ранние признаки возникновения новых способностей в сложных условиях, а также демонстрируем, как наша модель может служить аннотатором наград для робототехники на основе анализа нескольких кадров.
Последние достижения в области языковых моделей с возможностью рассуждений (Reasoning LLMs, например, DeepSeek-R1 и OpenAI-o1) продемонстрировали впечатляющие способности к рассуждениям благодаря обучению с подкреплением. Однако расширение этих возможностей на мультимодальные языковые модели (MLLMs) затруднено из-за непомерно высоких затрат на повторное обучение и недостатка высококачественных, проверяемых мультимодальных наборов данных для рассуждений. В данной статье представлена модель FRANK, MLLM, которая не требует дополнительного обучения и обладает способностями к рассуждениям и рефлексии, аналогичными модели R1, при этом не требует обновления градиентов или дополнительного контроля. Наше ключевое наблюдение заключается в разделении восприятия и рассуждений между слоями декодера MLLM. В частности, мы отмечаем, что по сравнению с более глубокими слоями декодера, поверхностные слои уделяют больше внимания визуальным токенам, тогда как глубокие слои сосредоточены на текстовой семантике. Это наблюдение мотивирует использование иерархического подхода к объединению весов, который сочетает визуально предобученную MLLM с языковой моделью, специализированной на рассуждениях. Для этого мы предлагаем послойный механизм слияния, основанный на формуле Тейлора, который интегрирует способность к рассуждениям в глубокие слои декодера, сохраняя при этом визуальную привязку в поверхностных слоях. Эксперименты на сложных мультимодальных тестах для рассуждений подтверждают эффективность нашего подхода. На тестовом наборе MMMU наша модель FRANK-38B достигает точности 69,2, превосходя самый сильный базовый вариант InternVL2.5-38B на +5,3 и даже опережая проприетарную модель GPT-4o. Домашняя страница нашего проекта доступна по адресу: http://iip.whu.edu.cn/frank/index.html.
Крупные визуально-языковые модели (LVLMs) остаются уязвимыми к галлюцинациям, часто генерируя контент, не соответствующий визуальным данным. Хотя современные подходы продвигают многомодальную оптимизацию прямых предпочтений (DPO) для смягчения галлюцинаций, они обычно полагаются на заранее заданные или случайно отредактированные отрицательные примеры, которые не отражают реальные ошибки модели, ограничивая эффективность обучения. В данной работе мы предлагаем фреймворк Online Vision-language Preference Learning (OViP), который динамически формирует контрастные обучающие данные на основе собственных галлюцинированных выходов модели. Выявляя семантические различия между парами сэмплированных ответов и синтезируя отрицательные изображения с использованием диффузионной модели, OViP генерирует более релевантные сигналы обучения в реальном времени. Этот подход, основанный на ошибках, позволяет адаптивно согласовывать как текстовые, так и визуальные предпочтения. Кроме того, мы уточняем существующие протоколы оценки, чтобы лучше учитывать компромисс между подавлением галлюцинаций и выразительностью. Эксперименты на тестах по галлюцинациям и общим бенчмаркам показывают, что OViP эффективно снижает галлюцинации, сохраняя при этом ключевые многомодальные возможности.
Крупные языковые модели (LLM) продемонстрировали передовые возможности в реальных агентских приложениях. Растущие исследовательские усилия направлены на разработку агентов на основе LLM для удовлетворения практических потребностей, что вводит новую проблему: агентские сценарии часто включают длинные инструкции со сложными ограничениями, такими как расширенные системные промпты и детальные спецификации инструментов. Хотя соблюдение таких инструкций крайне важно для агентских приложений, вопрос о том, могут ли LLM надежно следовать им, остается недостаточно изученным. В данной статье мы представляем AgentIF — первый бенчмарк для систематической оценки способности LLM следовать инструкциям в агентских сценариях. AgentIF обладает тремя ключевыми характеристиками: (1) Реалистичность, построен на основе 50 реальных агентских приложений. (2) Длина, в среднем 1723 слова с максимумом 15 630 слов. (3) Сложность, в среднем 11,9 ограничений на инструкцию, охватывающих разнообразные типы ограничений, такие как спецификации инструментов и условные ограничения. Для создания AgentIF мы собрали 707 инструкций с аннотациями, выполненных людьми, для 50 агентских задач из промышленных приложений и открытых агентских систем. Для каждой инструкции мы аннотировали связанные ограничения и соответствующие метрики оценки, включая оценку на основе кода, оценку на основе LLM и гибридную оценку код-LLM. Мы используем AgentIF для систематической оценки существующих передовых LLM. Мы наблюдаем, что текущие модели в целом показывают низкую производительность, особенно в обработке сложных структур ограничений и спецификаций инструментов. Мы также проводим анализ ошибок и аналитические эксперименты по длине инструкций и мета-ограничениям, предоставляя некоторые выводы о причинах сбоев существующих LLM. Мы опубликовали код и данные для содействия будущим исследованиям.
Обучение с подкреплением на основе человеческой обратной связи (RLHF) стало мощной парадигмой пост-обучения для согласования крупных языковых моделей с предпочтениями человека. Основная проблема в RLHF заключается в построении точных сигналов вознаграждения, где традиционные модели вознаграждения Брэдли-Терри (BT RMs) часто страдают от чувствительности к объему и охвату данных, а также уязвимости к взлому вознаграждений. Генеративные модели вознаграждения (GenRMs) предлагают более устойчивую альтернативу, генерируя цепочки рассуждений (CoT) с последующим финальным вознаграждением. Однако существующие GenRMs полагаются на поверхностное, вертикально масштабируемое рассуждение, что ограничивает их способность справляться с тонкими или сложными (например, требующими глубокого анализа) задачами. Более того, их попарные выходы предпочтений несовместимы со стандартными алгоритмами RLHF, которые требуют точечных сигналов вознаграждения. В данной работе мы представляем Think-RM, фреймворк обучения, который позволяет GenRMs осуществлять долгосрочное рассуждение, моделируя внутренний процесс мышления. Вместо создания структурированных, внешне предоставленных рационалов, Think-RM генерирует гибкие, самонаправленные следы рассуждений, поддерживающие такие продвинутые возможности, как саморефлексия, гипотетическое и дивергентное рассуждение. Для развития этих способностей мы сначала разогреваем модели с помощью контролируемого тонкого обучения (SFT) на данных с длинными цепочками рассуждений. Затем мы дополнительно улучшаем долгосрочные способности модели с помощью обучения с подкреплением на основе правил (RL). Кроме того, мы предлагаем новый конвейер попарного RLHF, который напрямую оптимизирует политики, используя попарные предпочтения вознаграждений, устраняя необходимость преобразования в точечные вознаграждения и позволяя более эффективно использовать выходы Think-RM. Эксперименты показывают, что Think-RM достигает передовых результатов на RM-Bench, превосходя как BT RM, так и вертикально масштабируемые GenRM на 8%. В сочетании с нашим попарным конвейером RLHF он демонстрирует превосходную производительность конечной политики по сравнению с традиционными подходами.
Крупные модели рассуждений (Large Reasoning Models, LRMs) представляют собой новую парадигму генерации, основанную на явном рассуждении перед ответом, что приводит к значительным улучшениям в выполнении сложных задач. Однако они создают серьезные риски безопасности при обработке вредоносных запросов и атак со стороны злоумышленников. Хотя современные основные усилия по обеспечению безопасности LRMs, такие как контролируемая тонкая настройка (supervised fine-tuning, SFT), улучшают показатели безопасности, мы обнаруживаем, что модели, выровненные с помощью SFT, плохо обобщаются на невидимые jailbreak-промпты. После тщательного исследования процесса генерации LRMs мы выявили "момент озарения безопасности" (safety aha moment), который может активировать рассуждения о безопасности и привести к безопасному ответу. Этот момент озарения обычно проявляется в "ключевом предложении", которое следует за процессом понимания запроса моделью и может указывать на то, будет ли модель действовать безопасно. На основе этих наблюдений мы предлагаем метод SafeKey, включающий две взаимодополняющие цели для более эффективной активации момента озарения безопасности в ключевом предложении: (1) Dual-Path Safety Head для усиления сигнала безопасности во внутренних представлениях модели перед ключевым предложением и (2) цель Query-Mask Modeling для улучшения внимания модели к пониманию запроса, которое содержит важные подсказки для безопасности. Эксперименты на множестве бенчмарков безопасности демонстрируют, что наши методы значительно улучшают обобщение безопасности на широкий спектр jailbreak-атак и вредоносных промптов, выходящих за пределы распределения, снижая средний уровень вредоносности на 9,6%, при сохранении общих способностей модели. Наш анализ показывает, как SafeKey повышает безопасность, изменяя внутреннее внимание и улучшая качество скрытых представлений.
Модели пошагового вознаграждения (Process Reward Models, PRMs), которые предоставляют поэтапную обратную связь на рассуждения, генерируемые крупными языковыми моделями (Large Language Models, LLMs), привлекают всё больше внимания. Однако остаются два ключевых пробела в исследованиях: сбор точных меток ошибок на уровне шагов для обучения обычно требует дорогостоящей аннотации человеком, а существующие PRMs ограничены задачами математического рассуждения. В ответ на эти пробелы данная работа направлена на решение проблем автоматического создания наборов данных и обобщения PRMs для разнообразных задач рассуждения. Для достижения этой цели мы предлагаем FoVer — подход для обучения PRMs на метках ошибок уровня шагов, автоматически аннотированных инструментами формальной верификации, такими как Z3 для формальной логики и Isabelle для доказательства теорем, которые обеспечивают автоматическую и точную проверку для символьных задач. Используя этот подход, мы синтезируем обучающий набор данных с метками ошибок на ответах LLM для задач формальной логики и доказательства теорем без участия человека. Хотя такой синтез данных возможен только для задач, совместимых с формальной верификацией, мы наблюдаем, что PRMs на основе LLM, обученные на нашем наборе данных, демонстрируют кросс-задачное обобщение, улучшая проверку в разнообразных задачах рассуждения. В частности, PRMs, обученные с использованием FoVer, значительно превосходят базовые PRMs, основанные на исходных LLM, и достигают конкурентоспособных или превосходящих результатов по сравнению с современными PRMs, обученными на метках, аннотированных человеком или более мощными моделями, что измеряется пошаговой проверкой на ProcessBench и производительностью Best-of-K на 12 тестовых наборах, включая MATH, AIME, ANLI, MMLU и BBH. Наборы данных, модели и код доступны по адресу https://github.com/psunlpgroup/FoVer.
Высококачественные системы машинного перевода, основанные на больших языковых моделях (LLM), упростили создание персонализированных переводов, отражающих специфические стилистические ограничения. Однако эти системы по-прежнему испытывают трудности в ситуациях, где стилистические требования менее явны и могут быть сложнее для передачи через промптинг. Мы исследуем различные стратегии персонализации переводов, созданных LLM, в условиях ограниченных ресурсов, уделяя особое внимание сложной области литературного перевода. Мы изучаем стратегии промптинга и вмешательства на этапе вывода для направления генераций модели в сторону персонализированного стиля, а также предлагаем контрастный фреймворк, использующий скрытые концепции, извлеченные из разреженных автокодировщиков, для выявления ключевых свойств персонализации. Наши результаты показывают, что направление генераций позволяет достичь высокой степени персонализации при сохранении качества перевода. Мы также исследуем влияние направляющих вмешательств на представления в LLM, обнаруживая, что слои модели, имеющие значительное влияние на персонализацию, аналогично реагируют на многошаговый промптинг и наш метод направляющих вмешательств, что указывает на схожие механизмы работы.
Оценка способностей больших языковых моделей (LLM) к генерации текста является сложной задачей, особенно для языков с ограниченными ресурсами, где методы прямой оценки практически отсутствуют. Мы предлагаем MUG-Eval — новый фреймворк, который оценивает мультиязычные генеративные способности LLM, преобразуя существующие бенчмарки в диалоговые задачи и измеряя точность моделей на этих задачах. Эти диалоговые задачи были специально разработаны так, чтобы требовать эффективного общения на целевом языке. Затем мы используем показатель успешности выполнения задачи как индикатор успешной генерации диалога. Наш подход предлагает два ключевых преимущества: он не зависит от языково-специфичных инструментов NLP или аннотированных наборов данных, которые ограничены для большинства языков, и не полагается на LLM в роли судей, качество оценки которых снижается за пределами нескольких языков с высокими ресурсами. Мы оцениваем 8 LLM на 30 языках, охватывающих категории с высокими, средними и низкими ресурсами, и обнаруживаем, что MUG-Eval сильно коррелирует с устоявшимися бенчмарками (r > 0,75), обеспечивая стандартизированные сравнения между языками и моделями. Наш фреймворк предоставляет надежное и ресурсоэффективное решение для оценки мультиязычной генерации, которое может быть расширено на тысячи языков.
Мы представляем RoPECraft, метод переноса движения в видео без обучения для диффузионных трансформеров, который работает исключительно за счет модификации их ротационных позиционных эмбеддингов (RoPE). Сначала мы извлекаем плотный оптический поток из эталонного видео и используем полученные смещения движения для преобразования комплексно-экспоненциальных тензоров RoPE, эффективно кодируя движение в процесс генерации. Затем эти эмбеддинги дополнительно оптимизируются на этапах денойзинга через выравнивание траекторий между предсказанными и целевыми скоростями с использованием задачи согласования потоков. Чтобы сохранить выходные данные соответствующими текстовому запросу и предотвратить дублирование генераций, мы включаем регуляризационный термин, основанный на фазовых компонентах преобразования Фурье эталонного видео, проецируя фазовые углы на гладкое многообразие для подавления высокочастотных артефактов. Эксперименты на бенчмарках показывают, что RoPECraft превосходит все недавно опубликованные методы как качественно, так и количественно.
Понимание метафор в изображениях остается серьезной проблемой для систем ИИ, поскольку существующие модели испытывают трудности с улавливанием тонких культурных, эмоциональных и контекстуальных аспектов, заложенных в визуальном контенте. Хотя мультимодальные большие языковые модели (MLLMs) демонстрируют высокие результаты в базовых задачах визуального ответа на вопросы (VQA), они сталкиваются с фундаментальным ограничением в задачах интерпретации изображений: контекстуальными пробелами, которые затрудняют понимание связей между различными визуальными элементами и их абстрактными значениями. Вдохновленные когнитивным процессом человека, мы предлагаем Let Androids Dream (LAD) — новую структуру для понимания и рассуждения о подтексте изображений. LAD устраняет недостаток контекста с помощью трехэтапной структуры: (1) Восприятие: преобразование визуальной информации в богатые и многоуровневые текстовые представления, (2) Поиск: итеративный поиск и интеграция междисциплинарных знаний для устранения неоднозначности и (3) Рассуждение: генерация контекстуально согласованной интерпретации изображения с помощью явного рассуждения. Наша структура с использованием облегченной модели GPT-4o-mini достигает наилучших результатов (SOTA) по сравнению с более чем 15 MLLMs на английском бенчмарке интерпретации изображений и значительного улучшения на китайском бенчмарке, показывая сопоставимые результаты с моделью GPT-4o в задачах с множественным выбором (MCQ) и превосходя ее на 36,7% в задачах с открытым ответом (OSQ). Кроме того, наша работа предлагает новые идеи о том, как ИИ может более эффективно интерпретировать подтекст изображений, продвигая область визуально-языкового рассуждения и взаимодействия человека с ИИ. Наш проект доступен публично по адресу https://github.com/MING-ZCH/Let-Androids-Dream-of-Electric-Sheep.
Способны ли крупные языковые модели (LLM) признавать свои ошибки, когда они должны знать лучше? В данной работе мы определяем поведение признания ошибок в ранее сгенерированных ответах как "отзыв" и стремимся понять, когда и почему LLM выбирают отозвать ответ. Сначала мы создаем специфичные для модели наборы данных, чтобы оценить, будет ли модель отзывать неправильный ответ, который противоречит ее собственным параметрическим знаниям. Хотя LLM способны на отзыв, они делают это лишь редко. Мы показываем, что отзыв тесно связан с ранее выявленными индикаторами внутренних убеждений моделей: модели не отзывают неправильные ответы, которые они "считают" фактически верными. Эксперименты с управлением дополнительно демонстрируют, что внутренние убеждения причинно влияют на отзыв модели. В частности, когда модель не верит в свой ответ, это не только побуждает модель попытаться проверить ответ, но и изменяет поведение внимания во время самопроверки. Наконец, мы показываем, что простое контролируемое тонкое обучение значительно улучшает производительность отзыва, помогая модели усвоить более точные внутренние убеждения. Код и наборы данных доступны на https://github.com/ayyyq/llm-retraction.
Модели "Визия-Язык" (VLMs) приобретают знания о реальном мире и способность к общему рассуждению через корпуса изображений и текстов интернет-масштаба. Они могут дополнять роботизированные системы пониманием сцены и планированием задач, а также помогать визомоторным политикам, обученным на данных траекторий роботов. Мы исследуем обратную парадигму — использование богатых, реальных, многомодальных данных траекторий роботов для улучшения и оценки VLMs. В этой статье мы представляем Robo2VLM, фреймворк для генерации набора данных "Визуальный вопрос-ответ" (VQA) для VLMs. Для заданной траектории робота, управляемого человеком, Robo2VLM извлекает истинные данные из невизуальных и неописательных сенсорных модальностей, таких как поза конечного эффектора, раскрытие захвата и сенсорное усилие. На основе этих модальностей он сегментирует траекторию робота в последовательность фаз манипуляции. На каждой фазе Robo2VLM использует понимание сцены и взаимодействия для определения 3D-свойств робота, цели задачи и целевого объекта. Эти свойства используются для генерации репрезентативных запросов VQA — изображений с текстовыми вопросами с множественным выбором — на основе шаблонов вопросов, связанных с пространственным, целевым и интерактивным рассуждением. Мы создаем Robo2VLM-1, крупномасштабный набор данных "в реальных условиях" с 684,710 вопросами, охватывающими 463 различные сцены и 3,396 задач роботизированной манипуляции из 176k реальных траекторий роботов. Результаты показывают, что Robo2VLM-1 может служить эталоном и улучшать возможности VLMs в пространственном и интерактивном рассуждении.
Несмотря на значительные достижения в области крупномасштабных визуально-языковых моделей (LVLMs), сохраняется пробел, особенно в отношении их интерпретируемости и того, как они обнаруживают и интерпретируют текстовую информацию в изображениях. В данной статье мы исследуем различные LVLMs, чтобы определить конкретные головы, ответственные за распознавание текста из изображений, которые мы называем головой оптического распознавания символов (OCR Head). Наши выводы относительно этих голов следующие: (1) Меньшая разреженность: в отличие от предыдущих голов поиска, для извлечения текстовой информации из изображений активируется большое количество голов. (2) Качественное отличие: OCR головы обладают свойствами, которые значительно отличаются от общих голов поиска, демонстрируя низкое сходство в их характеристиках. (3) Статическая активация: частота активации этих голов тесно коррелирует с их OCR показателями. Мы подтверждаем наши выводы в последующих задачах, применяя цепочку рассуждений (Chain-of-Thought, CoT) как к OCR, так и к традиционным головам поиска, а также маскируя эти головы. Мы также показываем, что перераспределение значений sink-токенов внутри OCR голов улучшает производительность. Эти инсайты обеспечивают более глубокое понимание внутренних механизмов, которые LVLMs используют для обработки встроенной текстовой информации в изображениях.
По мере того как модели, объединяющие зрение и язык (VLMs), всё чаще интегрируются в повседневную жизнь, необходимость точного понимания визуальной культуры становится критически важной. Однако эти модели часто не справляются с эффективной интерпретацией культурных нюансов. Предыдущие исследования продемонстрировали эффективность генерации, усиленной поиском (RAG), в улучшении понимания культур в текстовых задачах, однако её применение в мультимодальных сценариях остаётся недостаточно изученным. Чтобы заполнить этот пробел, мы представляем RAVENEA (Retrieval-Augmented Visual culturE uNdErstAnding) — новый эталонный набор данных, предназначенный для продвижения понимания визуальной культуры через поиск, с акцентом на две задачи: визуальный вопросно-ответный анализ с культурным уклоном (cVQA) и создание подписей к изображениям с учётом культурного контекста (cIC). RAVENEA расширяет существующие наборы данных, интегрируя более 10 000 документов из Википедии, отобранных и ранжированных экспертами-аннотаторами. С помощью RAVENEA мы обучаем и оцениваем семь мультимодальных поисковых систем для каждого запроса по изображению, а также измеряем влияние входных данных, усиленных поиском, на четырнадцать современных VLMs. Наши результаты показывают, что облегчённые VLMs, дополненные поиском с учётом культурного контекста, превосходят свои аналоги без такого дополнения (как минимум на 3,2% по cVQA и на 6,2% по cIC). Это подчеркивает ценность методов, усиленных поиском, и эталонных наборов данных, учитывающих культурное разнообразие, для мультимодального понимания.
Современные токенизаторы на основе BPE часто разбивают календарные даты на бессмысленные фрагменты, например, 20250312 → 202, 503, 12, что увеличивает количество токенов и скрывает внутреннюю структуру, необходимую для надежного временного рассуждения. В данной работе мы (1) вводим простую, но интерпретируемую метрику, называемую коэффициентом фрагментации дат, которая измеряет, насколько точно токенизатор сохраняет многозначные компоненты дат; (2) представляем DateAugBench — набор из 6500 примеров, охватывающих три задачи временного рассуждения: разрешение дат на основе контекста, головоломки на инвариантность формата и арифметику дат в исторических, современных и будущих режимах; и (3) с помощью послойного анализа и анализа причинно-следственных связей внимания раскрываем механизм абстракции дат, при котором крупные языковые модели объединяют фрагменты месяцев, дней и годов для временного рассуждения. Наши эксперименты показывают, что чрезмерная фрагментация коррелирует с падением точности до 10 пунктов на редких датах, таких как исторические и футуристические даты. Кроме того, мы обнаруживаем, что чем крупнее модель, тем быстрее происходит возникающая абстракция дат, которая восстанавливает фрагменты дат. Наконец, мы наблюдаем путь рассуждения, который LLM следуют для сборки фрагментов дат, обычно отличающийся от человеческой интерпретации (год → месяц → день).
Мы представляем новый набор данных, предназначенный для оценки физических и пространственных способностей к рассуждению у крупных языковых моделей (LLM) на основе топологической оптимизации — метода вычисления оптимального распределения материала в пределах проектного пространства при заданных нагрузках и опорах. В этом наборе данных LLM предоставляются условия, такие как 2D границы, приложенные силы и опоры, и они должны рассуждать о результирующем оптимальном распределении материала. Набор данных включает разнообразные задачи, начиная от заполнения замаскированных областей в частичных структурах до предсказания полного распределения материала. Решение этих задач требует понимания потока сил и необходимого распределения материала при заданных ограничениях, без доступа к инструментам симуляции или явным физическим моделям, что бросает вызов моделям в рассуждениях о структурной устойчивости и пространственной организации. Наш набор данных направлен на оценку пространственных и физических способностей к рассуждению в 2D условиях, предлагая дополнительную перспективу к традиционным языковым и логическим тестам.
Предварительно обучаясь синтезировать связные изображения из искаженных входных данных, генеративные модели по своей природе учатся понимать границы объектов и композицию сцен. Как мы можем перепрофилировать эти генеративные представления для задач общего восприятия и организации? Мы дообучаем Stable Diffusion и MAE (кодировщик+декодировщик) для категориально-независимой сегментации экземпляров, используя нашу функцию потерь для раскрашивания экземпляров исключительно на узком наборе типов объектов (предметы интерьера и автомобили). Удивительно, но наши модели демонстрируют сильную способность к обобщению "с нуля", точно сегментируя объекты типов и стилей, не встречавшихся при дообучении (а во многих случаях и при предварительном обучении MAE на ImageNet-1K). Наши лучшие модели близко подходят к сильно контролируемой модели SAM при оценке на неизвестных типах и стилях объектов и превосходят её при сегментации тонких структур и неоднозначных границ. В отличие от этого, существующие архитектуры для сегментации по запросу или модели, предварительно обученные дискриминативно, не способны к такому обобщению. Это позволяет предположить, что генеративные модели изучают внутренний механизм группировки, который переносится между категориями и доменами, даже без предварительного обучения на интернет-масштабных данных. Код, предварительно обученные модели и демонстрации доступны на нашем сайте.
Крупные аудио-языковые модели (LALMs) расширяют возможности крупных языковых моделей за счет мультимодального понимания речи, звука и других данных. Хотя их производительность в задачах обработки речи и звука тщательно изучена, их способности к рассуждению остаются недостаточно исследованными. В частности, их способность к многошаговому рассуждению, то есть умение вспоминать и интегрировать несколько фактов, не подвергалась систематической оценке. Существующие тестовые наборы данных сосредоточены на общих задачах обработки речи и звука, способностях к ведению диалога и вопросах справедливости, но упускают этот аспект. Чтобы восполнить этот пробел, мы представляем SAKURA — тестовый набор данных, оценивающий способность LALMs к многошаговому рассуждению на основе речевой и звуковой информации. Результаты показывают, что LALMs испытывают трудности с интеграцией речевых/звуковых представлений для многошагового рассуждения, даже когда они корректно извлекают релевантную информацию, что подчеркивает фундаментальную проблему в мультимодальном рассуждении. Наши выводы выявляют критическое ограничение в LALMs, предлагая новые идеи и ресурсы для будущих исследований.