Ежедневно отобранные исследовательские статьи по ИИ с переводами
Навигация в вебе представляет собой уникальную область, которая может автоматизировать множество повторяющихся задач из реальной жизни, но при этом является сложной, так как требует принятия долгосрочных последовательных решений, выходящих за рамки типичных задач мультимодальных больших языковых моделей (MLLM). Однако до сих пор отсутствовали специализированные модели вознаграждения для веб-навигации, которые можно было бы использовать как во время обучения, так и во время тестирования. Несмотря на важность скорости и экономической эффективности, предыдущие работы использовали MLLM в качестве моделей вознаграждения, что накладывает значительные ограничения для реального применения. Чтобы решить эту проблему, в данной работе мы предлагаем первую модель пошагового вознаграждения (PRM) под названием Web-Shepherd, которая способна оценивать траектории веб-навигации на уровне отдельных шагов. Для этого мы сначала создали коллекцию WebPRM — крупномасштабный набор данных, содержащий 40 тысяч пар предпочтений на уровне шагов и аннотированные контрольные списки, охватывающие различные области и уровни сложности. Затем мы также представляем WebRewardBench — первый мета-оценочный бенчмарк для оценки PRM. В наших экспериментах мы наблюдаем, что Web-Shepherd достигает примерно на 30 пунктов большей точности по сравнению с использованием GPT-4o на WebRewardBench. Кроме того, при тестировании на WebArena-lite с использованием GPT-4o-mini в качестве политики и Web-Shepherd в качестве верификатора, мы достигаем на 10,9 пунктов лучшей производительности при 10-кратном снижении затрат по сравнению с использованием GPT-4o-mini в качестве верификатора. Наша модель, набор данных и код доступны по ссылке LINK.
Мы представляем MMaDA, новый класс мультимодальных диффузионных базовых моделей, разработанных для достижения превосходной производительности в различных областях, таких как текстовое рассуждение, мультимодальное понимание и генерация изображений по тексту. Этот подход выделяется тремя ключевыми инновациями: (i) MMaDA использует унифицированную диффузионную архитектуру с общей вероятностной формулировкой и модально-независимым дизайном, что устраняет необходимость в компонентах, специфичных для каждой модальности. Такая архитектура обеспечивает бесшовную интеграцию и обработку различных типов данных. (ii) Мы применяем стратегию тонкой настройки с использованием смешанной длинной цепочки рассуждений (CoT), которая создает унифицированный формат CoT для всех модальностей. Согласование процессов рассуждения в текстовой и визуальной областях облегчает обучение на начальном этапе перед финальной стадией обучения с подкреплением (RL), что повышает способность модели справляться со сложными задачами с самого начала. (iii) Мы предлагаем UniGRPO, унифицированный алгоритм RL на основе градиента политики, специально адаптированный для диффузионных базовых моделей. Используя диверсифицированное моделирование вознаграждений, UniGRPO объединяет пост-обучение для задач рассуждения и генерации, обеспечивая стабильное улучшение производительности. Экспериментальные результаты показывают, что MMaDA-8B демонстрирует сильные обобщающие способности как унифицированная мультимодальная базовая модель. Она превосходит мощные модели, такие как LLaMA-3-7B и Qwen2-7B, в текстовом рассуждении, опережает Show-o и SEED-X в мультимодальном понимании и превосходит SDXL и Janus в генерации изображений по тексту. Эти достижения подчеркивают эффективность MMaDA в устранении разрыва между предварительным и пост-обучением в рамках унифицированных диффузионных архитектур, предоставляя всеобъемлющую основу для будущих исследований и разработок. Мы открываем исходный код и обученные модели по адресу: https://github.com/Gen-Verse/MMaDA.
Крупные языковые модели (LLM) требуют значительных вычислительных и оперативных ресурсов, что создает сложности при их развертывании. Обучение с учетом квантования (QAT) решает эти проблемы за счет снижения точности модели при сохранении производительности. Однако масштабируемость QAT, особенно при 4-битной точности (W4A4), изучена недостаточно. Существующие законы масштабирования QAT часто игнорируют ключевые факторы, такие как количество обучающих токенов и гранулярность квантования, что ограничивает их применимость. В данной статье предлагается унифицированный закон масштабирования для QAT, который моделирует ошибку квантования как функцию размера модели, объема обучающих данных и размера группы квантования. На основе 268 экспериментов с QAT мы показываем, что ошибка квантования уменьшается с увеличением размера модели, но возрастает при большем количестве обучающих токенов и более грубой гранулярности квантования. Чтобы определить источники ошибки квантования W4A4, мы разлагаем ее на компоненты весов и активаций. Оба компонента следуют общей тенденции ошибки квантования W4A4, но с разной чувствительностью. В частности, ошибка квантования весов увеличивается быстрее при большем количестве обучающих токенов. Дополнительный анализ показывает, что ошибка квантования активаций в слое FC2, вызванная выбросами, является основным узким местом ошибки квантования W4A4 QAT. Применяя смешанную точность квантования для устранения этого узкого места, мы демонстрируем, что ошибки квантования весов и активаций могут сходиться к схожим уровням. Кроме того, при увеличении объема обучающих данных ошибка квантования весов в конечном итоге превышает ошибку квантования активаций, что указывает на важность снижения ошибки квантования весов в таких сценариях. Эти результаты предоставляют ключевые инсайты для улучшения исследований и разработок в области QAT.
Модели векторного представления текста на основе больших языковых моделей (LLM), использующие преимущества масштабного предварительного и последующего обучения, начали превосходить модели на основе BERT и T5 в задачах общего назначения, таких как поиск документов. Однако фундаментальное ограничение векторных представлений LLM заключается в использовании однонаправленного внимания во время авторегрессивного предварительного обучения, что не соответствует двунаправленной природе задач векторного представления текста. В связи с этим мы предлагаем использовать диффузионные языковые модели для векторного представления текста, мотивируя это их изначально двунаправленной архитектурой и недавними успехами в сопоставлении или превосходстве над LLM, особенно в задачах, требующих рассуждений. Мы представляем первое систематическое исследование диффузионной модели векторного представления текста, которая превосходит модель на основе LLM на 20% в поиске длинных документов, на 8% в поиске, требующем интенсивных рассуждений, на 2% в поиске, ориентированном на выполнение инструкций, и демонстрирует конкурентоспособные результаты на традиционных тестах векторного представления текста. Наш анализ подтверждает, что двунаправленное внимание играет ключевую роль в кодировании глобального контекста в длинных и сложных текстах.
Традиционные методы визуального заземления в основном сосредоточены на сценариях с одним изображением и простыми текстовыми ссылками. Однако расширение этих методов на реальные сценарии, которые включают неявные и сложные инструкции, особенно в сочетании с несколькими изображениями, представляет значительные трудности, что в основном связано с отсутствием развитых способностей к рассуждению в разнообразных мультимодальных контекстах. В данной работе мы стремимся решить более практическую задачу универсального заземления и предлагаем UniVG-R1 — мультимодальную большую языковую модель (MLLM) с управляемым рассуждением для универсального визуального заземления, которая улучшает способности к рассуждению с помощью обучения с подкреплением (RL) в сочетании с данными "холодного старта". В частности, мы сначала создаем высококачественный набор данных для заземления с цепочкой рассуждений (Chain-of-Thought, CoT), аннотированный подробными цепочками рассуждений, чтобы направлять модель на правильные пути рассуждения с помощью контролируемой тонкой настройки. Затем мы применяем обучение с подкреплением на основе правил, чтобы побудить модель идентифицировать правильные цепочки рассуждений, тем самым стимулируя ее способности к рассуждению. Кроме того, мы выявляем смещение сложности, возникающее из-за преобладания простых примеров по мере прогресса обучения с подкреплением, и предлагаем стратегию адаптации весов с учетом сложности для дальнейшего улучшения производительности. Экспериментальные результаты демонстрируют эффективность UniVG-R1, которая достигает наилучших результатов на MIG-Bench с улучшением на 9,1% по сравнению с предыдущим методом. Более того, наша модель демонстрирует сильную обобщаемость, достигая среднего улучшения на 23,4% в производительности при нулевом обучении на четырех бенчмарках для заземления рассуждений на изображениях и видео. Страницу проекта можно найти по адресу https://amap-ml.github.io/UniVG-R1-page/.
Масштабирование высококачественных данных о траекториях долгое время оставалось ключевым ограничением для разработки агентов, имитирующих человеческое взаимодействие с компьютером. Мы представляем PC Agent-E — эффективную структуру обучения агентов, которая значительно снижает зависимость от крупномасштабных демонстраций, выполненных человеком. Начиная всего с 312 аннотированных человеком траекторий использования компьютера, мы дополнительно улучшили качество данных, синтезировав разнообразные решения о действиях с помощью Claude 3.7 Sonnet. Обучившись на этих обогащенных траекториях, наша модель PC Agent-E достигла впечатляющего относительного улучшения на 141%, превзойдя мощный Claude 3.7 Sonnet с расширенным процессом мышления на тестовом стенде WindowsAgentArena-V2, который мы также представили. Более того, PC Agent-E демонстрирует высокую способность к обобщению на различных операционных системах в среде OSWorld. Наши результаты показывают, что сильные навыки использования компьютера могут быть развиты на основе небольшого объема высококачественных данных о траекториях.
Мы представляем Toto, базовую модель для прогнозирования временных рядов с 151 миллионом параметров. Toto использует современную архитектуру, состоящую только из декодера, дополненную инновационными решениями, разработанными для учета специфических проблем, характерных для многомерных данных временных рядов в области наблюдаемости. Корпус предварительного обучения Toto включает в себя данные наблюдаемости, открытые наборы данных и синтетические данные, и в 4-10 раз превышает объемы, используемые в ведущих базовых моделях для временных рядов. Кроме того, мы представляем BOOM, крупномасштабный бенчмарк, состоящий из 350 миллионов наблюдений по 2 807 реальным временным рядам. Для Toto и BOOM данные наблюдаемости получены исключительно из телеметрии и внутренних метрик наблюдаемости компании Datadog. Многочисленные оценки показывают, что Toto демонстрирует наилучшие результаты как на BOOM, так и на общепринятых бенчмарках для прогнозирования временных рядов общего назначения. Веса модели Toto, код для вывода и скрипты для оценки, а также данные и код для оценки BOOM доступны в открытом доступе под лицензией Apache 2.0 по адресам https://huggingface.co/Datadog/Toto-Open-Base-1.0 и https://github.com/DataDog/toto.
Модели с большими возможностями рассуждений (Large Reasoning Models, LRMs) продемонстрировали впечатляющие способности в решении сложных задач с использованием обучения с подкреплением (Reinforcement Learning, RL), особенно за счет генерации длинных цепочек рассуждений. Однако такие расширенные выводы часто содержат значительную избыточность, что ограничивает эффективность LRMs. В данной статье мы исследуем подходы на основе RL для повышения эффективности рассуждений. В частности, мы сначала представляем унифицированную структуру, которая формулирует различные методы эффективного рассуждения через призму формирования вознаграждения на основе длины. Опираясь на эту перспективу, мы предлагаем новый метод формирования вознаграждения на основе длины с использованием ступенчатой функции (Length-bAsed StEp Reward shaping, LASER), который использует ступенчатую функцию в качестве вознаграждения, контролируемого целевой длиной. LASER превосходит предыдущие методы, достигая оптимального баланса Парето между производительностью и эффективностью. Далее мы расширяем LASER на основе двух ключевых интуиций: (1) Поведение модели в рассуждениях эволюционирует в процессе обучения, что требует адаптивных и динамических спецификаций вознаграждения; (2) Вместо равномерного поощрения более коротких или длинных цепочек рассуждений (Chain of Thought, CoT), мы предполагаем, что формирование вознаграждения на основе длины должно учитывать сложность, т.е. оно должно сильнее штрафовать длинные CoT для простых запросов. Такой подход, как ожидается, будет способствовать сочетанию быстрого и медленного мышления, приводя к лучшему общему компромиссу. Полученный метод называется LASER-D (Dynamic and Difficulty-aware). Эксперименты на моделях DeepSeek-R1-Distill-Qwen-1.5B, DeepSeek-R1-Distill-Qwen-7B и DeepSeek-R1-Distill-Qwen-32B показывают, что наш подход значительно улучшает как производительность рассуждений, так и эффективность длины ответа. Например, LASER-D и его вариант достигают улучшения на +6.1 на AIME2024 при сокращении использования токенов на 63%. Дополнительный анализ показывает, что наше сжатие на основе RL создает более лаконичные паттерны рассуждений с меньшей избыточной "саморефлексией". Ресурсы доступны по адресу https://github.com/hkust-nlp/Laser.
Модели мира, которые предсказывают переходы на основе последовательностей наблюдений и действий, показали значительный потенциал в повышении эффективности использования данных для принятия последовательных решений. Однако существующие модели мира часто требуют обширного обучения, специфичного для конкретной области, и всё ещё производят низкокачественные, грубые предсказания, что ограничивает их применимость в сложных средах. В отличие от этого, видео-диффузионные модели, обученные на больших наборах данных интернет-масштаба, продемонстрировали впечатляющие способности в генерации высококачественных видео, которые передают разнообразные динамики реального мира. В данной работе мы представляем Vid2World — универсальный подход для использования и переноса предобученных видео-диффузионных моделей в интерактивные модели мира. Чтобы преодолеть разрыв, Vid2World выполняет каузализацию предобученной видео-диффузионной модели, адаптируя её архитектуру и цель обучения для обеспечения авторегрессивной генерации. Кроме того, вводится механизм каузального управления действиями, чтобы повысить управляемость действий в результирующей интерактивной модели мира. Многочисленные эксперименты в областях манипуляции роботов и симуляции игр показывают, что наш метод предлагает масштабируемый и эффективный подход для перепрофилирования высокопроизводительных видео-диффузионных моделей в интерактивные модели мира.
Получение детализированных 3D-сцен обычно требует дорогостоящего оборудования, данных с нескольких ракурсов или трудоемкого моделирования. Поэтому легковесная альтернатива — генерация сложных 3D-сцен из одного изображения сверху — играет важную роль в реальных приложениях. Хотя современные 3D-генеративные модели достигли впечатляющих результатов на уровне объектов, их расширение до генерации полных сцен часто приводит к несогласованной геометрии, ошибкам в композиции и низкокачественным мешам. В данной работе мы представляем 3DTown — обучение-независимый фреймворк, предназначенный для синтеза реалистичных и согласованных 3D-сцен из одного изображения сверху. Наш метод основан на двух принципах: региональная генерация для улучшения соответствия и разрешения при переходе от изображения к 3D, и пространственно-осознанное 3D-восстановление для обеспечения глобальной согласованности сцены и высококачественной генерации геометрии. В частности, мы разбиваем входное изображение на перекрывающиеся области и генерируем каждую с использованием предобученного 3D-генератора объектов, после чего применяем процесс восстановления с маскированным исправлением потока, который заполняет недостающую геометрию, сохраняя структурную непрерывность. Этот модульный подход позволяет преодолеть ограничения по разрешению и сохранить пространственную структуру без необходимости 3D-надзора или дообучения. Многочисленные эксперименты на разнообразных сценах показывают, что 3DTown превосходит современные базовые методы, включая Trellis, Hunyuan3D-2 и TripoSG, по качеству геометрии, пространственной согласованности и точности текстур. Наши результаты демонстрируют, что высококачественная генерация 3D-городов возможна из одного изображения с использованием принципиального, обучение-независимого подхода.
Крупные модели рассуждений (LRMs) демонстрируют выдающуюся производительность благодаря длинным цепочкам рассуждений, но часто сталкиваются с избыточными вычислительными затратами из-за избыточного анализа, особенно на простых задачах. В данной работе мы систематически оцениваем верхние границы LRMs в режимах "Долгого мышления" и "Отсутствия мышления" и обнаруживаем феномен "Внутреннего механизма самовосстановления", при котором модели неявно дополняют рассуждения в процессе генерации ответа. На основе этого наблюдения мы предлагаем адаптивное самовосстановление рассуждений (ASRR) — фреймворк, который подавляет ненужные рассуждения и обеспечивает неявное восстановление. Благодаря введению регуляции вознаграждения за длину, учитывающей точность, ASRR адаптивно распределяет усилия на рассуждения в зависимости от сложности задачи, достигая высокой эффективности с минимальной потерей производительности. Эксперименты на множестве бенчмарков и моделей показывают, что по сравнению с GRPO, ASRR сокращает бюджет на рассуждения до 32,5% (1,5B) и 25,7% (7B) с минимальной потерей точности (1,2% и 0,6% pass@1) и значительно повышает показатели безопасности (до +21,7%). Наши результаты подчеркивают потенциал ASRR для обеспечения эффективного, адаптивного и безопасного рассуждения в LRMs.
Игра в видеоигры требует восприятия, памяти и планирования — именно те способности, которыми должны овладеть современные агенты на основе больших языковых моделей (LLM). Мы изучаем основные проблемы использования популярных видеоигр для оценки современных LLM и обнаруживаем, что прямое внедрение LLM в игры не может обеспечить эффективную оценку по трем причинам: хрупкость визуального восприятия, чувствительность к промптам и потенциальное загрязнение данных. Мы представляем lmgame-Bench, чтобы превратить игры в надежные инструменты оценки. lmgame-Bench включает набор платформеров, головоломок и нарративных игр, предоставляемых через унифицированный API в стиле Gym, дополненных легковесными модулями восприятия и памяти, и предназначен для стабилизации вариативности промптов и устранения загрязнения данных. На примере 13 ведущих моделей мы показываем, что lmgame-Bench является сложным, но при этом хорошо дифференцирует модели. Анализ корреляций показывает, что каждая игра исследует уникальное сочетание способностей, которые часто тестируются изолированно в других условиях. Более интересно, что применение обучения с подкреплением на одной игре из lmgame-Bench переносится как на неизвестные игры, так и на внешние задачи планирования. Наш код для оценки доступен по адресу https://github.com/lmgame-org/GamingAgent/lmgame-bench.
Люди естественным образом используют множественные модальности рассуждений для обучения и решения логических задач, такие как различные форматы представления, включая естественный язык, код и символическую логику. В отличие от этого, большинство существующих подходов, основанных на больших языковых моделях (LLM), используют одну модальность рассуждений во время обучения, обычно естественный язык. Хотя некоторые методы исследовали выбор или дополнение модальностей на этапе вывода, процесс обучения остается "слепым" к модальностям, что ограничивает синергию между ними. Чтобы заполнить этот пробел, мы предлагаем Mixture-of-Thought (MoT) — фреймворк, который позволяет LLM рассуждать с использованием трех взаимодополняющих модальностей: естественного языка, кода и новой символической модальности — таблицы истинности, которая систематически перечисляет логические случаи и частично устраняет ключевые недостатки рассуждений на естественном языке. MoT использует двухфазный дизайн: (1) саморазвивающееся обучение MoT, которое совместно обучается на отфильтрованных, самостоятельно сгенерированных обоснованиях из разных модальностей; и (2) вывод MoT, который полностью использует синергию трех модальностей для получения более точных предсказаний. Эксперименты на бенчмарках логического рассуждения, включая FOLIO и ProofWriter, демонстрируют, что наш фреймворк MoT стабильно и значительно превосходит сильные базовые LLM с подходами цепочки рассуждений на одной модальности, достигая увеличения средней точности до +11.7 процентных пунктов. Дополнительные анализы показывают, что наш фреймворк MoT приносит пользу как на этапе обучения, так и на этапе вывода; что он особенно эффективен на более сложных задачах логического рассуждения; и что разные модальности вносят взаимодополняющие преимущества, при этом рассуждения с использованием таблиц истинности помогают преодолеть ключевые ограничения в выводе на естественном языке.
Крупные модели рассуждений, такие как OpenAI o1 и DeepSeek-R1, достигли выдающихся результатов в области логического мышления. Ключевым компонентом их обучения является включение верифицируемых вознаграждений в рамках обучения с подкреплением (RL). Однако существующие бенчмарки для оценки вознаграждений не охватывают системы, основанные на эталонных данных, что ограничивает понимание исследователями точности верификаторов, используемых в RL. В данной статье мы представляем два бенчмарка, VerifyBench и VerifyBench-Hard, разработанные для оценки производительности систем вознаграждений, основанных на эталонных данных. Эти бенчмарки созданы путем тщательного сбора и обработки данных, а также последующей аккуратной аннотации человеком для обеспечения высокого качества. Современные модели демонстрируют значительный потенциал для улучшения на обоих бенчмарках, особенно модели меньшего масштаба. Кроме того, мы проводим всесторонний и детальный анализ результатов оценки, предлагая инсайты для понимания и разработки систем вознаграждений, основанных на эталонных данных. Предложенные нами бенчмарки служат эффективными инструментами для повышения точности верификаторов и улучшения способностей моделей, обученных с помощью RL, в задачах логического рассуждения.
Человеческое познание обычно предполагает мышление через абстрактные, гибкие концепции, а не строгое использование дискретных языковых токенов. Однако современные модели рассуждений ограничены рамками человеческого языка, обрабатывая дискретные вложения токенов, которые представляют фиксированные точки в семантическом пространстве. Это дискретное ограничение снижает выразительную способность и верхний потенциал таких моделей рассуждений, часто приводя к неполному исследованию путей рассуждения, поскольку стандартные методы Chain-of-Thought (CoT) полагаются на выбор одного токена на шаг. В данной работе мы представляем Soft Thinking, метод, не требующий обучения, который имитирует "мягкое" человеческое рассуждение, генерируя мягкие, абстрактные концептуальные токены в непрерывном концептуальном пространстве. Эти концептуальные токены создаются путем вероятностно-взвешенной смеси вложений токенов, которые формируют непрерывное концептуальное пространство, обеспечивая плавные переходы и более богатые представления, выходящие за традиционные дискретные границы. По сути, каждый сгенерированный концептуальный токен объединяет несколько значений из связанных дискретных токенов, неявно исследуя различные пути рассуждения для эффективного сходимости к правильному ответу. Эмпирические оценки на различных математических и кодировочных тестах последовательно демонстрируют эффективность и производительность Soft Thinking, улучшая точность pass@1 до 2,48 пунктов при одновременном снижении использования токенов до 22,4% по сравнению со стандартным CoT. Качественный анализ также показывает, что результаты Soft Thinking остаются высоко интерпретируемыми и читаемыми, подчеркивая потенциал Soft Thinking для преодоления внутреннего ограничения дискретного языкового рассуждения. Код доступен по адресу https://github.com/eric-ai-lab/Soft-Thinking.
Диффузионные языковые модели (DLMs) рассматриваются как перспективная альтернатива авторегрессивным языковым моделям. Однако долгое время их применение ограничивалось медленным выводом. Основная проблема заключается в том, что их неавторегрессивная архитектура и двунаправленное внимание исключают использование кэша ключей и значений (KV-cache), который ускоряет декодирование. Мы устраняем это узкое место, предлагая механизм, аналогичный KV-cache, — отложенный KV-Cache (delayed KV-Cache) для процесса удаления шума в DLMs. Наш подход основан на наблюдении, что разные токены имеют различные динамики представления в ходе диффузионного процесса. Соответственно, мы предлагаем стратегию отложенного и условного кэширования состояний ключей и значений. Мы разработали два взаимодополняющих варианта для пошагового кэширования ключей и значений: (1) dKV-Cache-Decode, который обеспечивает практически без потерь ускорение и даже улучшает производительность на длинных последовательностях, что указывает на недостаточное использование контекстной информации существующими DLMs в процессе вывода. (2) dKV-Cache-Greedy, который использует агрессивное кэширование с сокращённым сроком жизни, достигая большего ускорения с квадратичной временной сложностью ценой некоторого снижения производительности. В итоге dKV-Cache обеспечивает ускорение вывода в 2–10 раз, значительно сокращая разрыв между авторегрессивными и диффузионными моделями. Мы оценили наш dKV-Cache на нескольких бенчмарках, демонстрируя ускорение в задачах общего понимания языка, математических задач и генерации кода. Эксперименты показывают, что кэш может быть успешно применён в DLMs даже без дополнительного обучения на основе текущих моделей.
Современные модели генерации изображений по текстовым описаниям (Text-to-Image, T2I) демонстрируют впечатляющие результаты, однако они сталкиваются с трудностями в сценариях, где знания, подразумеваемые в текстовом запросе, являются неопределёнными. Например, модель T2I, выпущенная в феврале, не сможет создать подходящий постер для фильма, премьера которого состоится в апреле, поскольку дизайн персонажей и стили остаются неизвестными для модели. Для решения этой проблемы мы предлагаем фреймворк Internet-Augmented Text-to-Image Generation (IA-T2I), который позволяет моделям T2I уточнять такие неопределённые знания, предоставляя им эталонные изображения. В частности, разработан активный модуль поиска, который определяет, требуется ли эталонное изображение на основе заданного текстового запроса; введён иерархический модуль выбора изображений для поиска наиболее подходящего изображения, возвращаемого поисковой системой, чтобы улучшить работу модели T2I; предложен механизм саморефлексии, который непрерывно оценивает и уточняет сгенерированное изображение, чтобы обеспечить его точное соответствие текстовому запросу. Для оценки производительности предложенного фреймворка мы собрали набор данных Img-Ref-T2I, где текстовые запросы включают три типа неопределённых знаний: (1) известные, но редкие; (2) неизвестные; (3) неоднозначные. Кроме того, мы тщательно разработали сложный запрос для GPT-4o, чтобы провести оценку предпочтений, которая показала точность, сопоставимую с оценкой предпочтений человеком. Результаты экспериментов подтверждают эффективность нашего фреймворка, превосходящего GPT-4o примерно на 30% в оценке человеком.
Генерация, усиленная извлечением на основе графов знаний, направлена на снижение галлюцинаций в больших языковых моделях (LLM), вызванных недостаточными или устаревшими знаниями. Однако существующие методы часто не в полной мере используют предварительные знания, заложенные в графах знаний (KG), особенно их структурную информацию и явные или неявные ограничения. Первое может повысить достоверность рассуждений LLM, а второе — улучшить надежность генерации ответов. Вдохновленные этим, мы предлагаем надежную структуру рассуждений, названную "Обдумывание предварительных данных" (Deliberation over Priors, DP), которая эффективно использует предварительные знания, содержащиеся в KG. В частности, DP применяет стратегию прогрессивной дистилляции знаний, которая интегрирует структурные предварительные данные в LLM через комбинацию контролируемой тонкой настройки и оптимизации по Канеману-Тверски, тем самым повышая достоверность генерации путей отношений. Кроме того, наша структура использует стратегию рассуждения-интроспекции, которая направляет LLM на выполнение уточненной проверки рассуждений на основе извлеченных ограничительных предварительных данных, обеспечивая надежность генерации ответов. Многочисленные эксперименты на трех эталонных наборах данных показывают, что DP достигает новых наилучших результатов, особенно улучшая Hit@1 на 13% в наборе данных ComplexWebQuestions, и генерирует высоконадежные ответы. Мы также проводим различные анализы, чтобы подтвердить гибкость и практичность нашей структуры. Код доступен по адресу https://github.com/reml-group/Deliberation-on-Priors.
Тонкая настройка открытых крупных языковых моделей (LLM) с использованием проприетарных данных стала стандартной практикой для разработчиков, стремящихся получить специализированные LLM для конкретных задач. Однако мы обнаруживаем новую и тревожную угрозу, связанную с этой практикой: создатель открытой LLM может впоследствии извлечь приватные данные, использованные для тонкой настройки, с помощью простого обучения с использованием бэкдора, требующего лишь черного ящика доступа к настроенной модели. Наши всесторонние эксперименты, проведенные на 4 популярных открытых моделях с параметрами от 3B до 32B и 2 наборах данных для тонкой настройки, показывают, что эффективность извлечения может быть поразительно высокой: в практических условиях до 76,3% данных (запросов) из общего числа 5000 образцов могут быть идеально извлечены, а в более идеальных условиях успешность может достигать 94,9%. Мы также исследуем стратегию защиты на основе обнаружения, но обнаруживаем, что её можно обойти с помощью улучшенной атаки. В целом, мы подчеркиваем срочность решения этой новой угрозы утечки данных при тонкой настройке и надеемся, что дальнейшие исследования смогут продвинуть прогресс в устранении этой тревожной проблемы. Код и данные, использованные в наших экспериментах, доступны по адресу https://github.com/thu-coai/Backdoor-Data-Extraction.
Модели мира предсказывают переходы состояний в ответ на действия и всё чаще разрабатываются для различных модальностей. Однако стандартные цели обучения, такие как метод максимального правдоподобия (MLE), часто не соответствуют задачам, специфичным для моделей мира, таким как метрики предсказания переходов, включая точность или перцептивное качество. В данной статье мы представляем RLVR-World, унифицированную структуру, которая использует обучение с подкреплением с верифицируемыми наградами (RLVR) для прямой оптимизации моделей мира по таким метрикам. Несмотря на формулировку моделирования мира как авторегрессивного предсказания токенизированных последовательностей, RLVR-World оценивает метрики декодированных предсказаний в качестве верифицируемых наград. Мы демонстрируем значительное улучшение производительности как для языковых, так и для видео-ориентированных моделей мира в различных областях, включая текстовые игры, веб-навигацию и манипуляции роботов. Наша работа показывает, что, помимо недавних достижений в языковых моделях с рассуждениями, RLVR предлагает перспективную парадигму пост-обучения для повышения полезности генеративных моделей в более широком смысле.
Крупные модели рассуждений (Large Reasoning Models, LRMs) достигли значительных успехов в задачах, требующих интенсивного рассуждения, таких как математика и программирование. Однако их улучшенные способности к рассуждению не обязательно приводят к повышению безопасности — в некоторых случаях они могут даже ухудшить её. Это поднимает важный исследовательский вопрос: как можно повысить безопасность LRMs? В данной статье мы представляем всестороннее эмпирическое исследование о том, как улучшить безопасность LRMs с помощью контролируемой тонкой настройки (Supervised Fine-Tuning, SFT). Наше исследование начинается с неожиданного наблюдения: прямое извлечение безопасных ответов из модели DeepSeek-R1 не приводит к значительному повышению безопасности. Мы анализируем это явление и выделяем три ключевых паттерна ошибок, которые способствуют этому. Затем мы показываем, что явное устранение этих проблем в процессе извлечения данных может привести к существенному улучшению безопасности. Далее мы исследуем, необходим ли длинный и сложный процесс рассуждений для достижения безопасности. Интересно, что мы обнаруживаем, что использование коротких или шаблонных процессов рассуждений может обеспечить сопоставимую безопасность — и при этом такие процессы значительно проще для изучения моделями, чем более сложные цепочки рассуждений. Эти выводы побуждают к более глубокому размышлению о роли рассуждений в обеспечении безопасности. Наконец, мы обнаруживаем, что добавление данных для математических рассуждений в процессе тонкой настройки безопасности помогает сбалансировать безопасность и чрезмерный отказ. В целом, мы надеемся, что наше эмпирическое исследование предоставит более целостное представление о повышении безопасности LRMs. Код и данные, использованные в наших экспериментах, доступны по адресу: https://github.com/thu-coai/LRM-Safety-Study.
Diffusion Transformer (DiT), перспективная диффузионная модель для визуальной генерации, демонстрирует впечатляющие результаты, но требует значительных вычислительных ресурсов. Интересно, что анализ предобученных моделей DiT показывает, что глобальное самовнимание часто избыточно, преимущественно захватывая локальные паттерны, что подчеркивает потенциал для более эффективных альтернатив. В данной работе мы возвращаемся к сверткам как альтернативному строительному блоку для создания эффективных и выразительных диффузионных моделей. Однако простая замена самовнимания на свертки обычно приводит к ухудшению производительности. Наши исследования связывают этот разрыв в производительности с более высокой избыточностью каналов в ConvNets по сравнению с Transformers. Для решения этой проблемы мы вводим компактный механизм внимания к каналам, который способствует активации более разнообразных каналов, тем самым повышая разнообразие признаков. Это приводит к созданию Diffusion ConvNet (DiCo), семейства диффузионных моделей, полностью построенных на стандартных модулях ConvNet, которые предлагают высокую генеративную производительность с существенным повышением эффективности. На бенчмарках ImageNet с условиями по классам DiCo превосходит предыдущие диффузионные модели как по качеству изображений, так и по скорости генерации. В частности, DiCo-XL достигает FID 2.05 при разрешении 256x256 и 2.53 при 512x512, с ускорением в 2.7x и 3.1x по сравнению с DiT-XL/2 соответственно. Более того, наша самая крупная модель, DiCo-H, масштабированная до 1 миллиарда параметров, достигает FID 1.90 на ImageNet 256x256 — без какого-либо дополнительного контроля во время обучения. Код: https://github.com/shallowdream204/DiCo.
Последние достижения в области крупных моделей рассуждений (Large Reasoning Models, LRMs) продемонстрировали впечатляющие способности в математическом и логическом мышлении. Однако современные LRMs редко признают незнание или отвечают "Я не знаю". Вместо этого они часто выдают неверные ответы, проявляя излишнюю уверенность, что вызывает опасения относительно их фактической надежности. В данной работе мы выявляем два патологических шаблона рассуждений, характеризующихся чрезмерным анализом, которые способствуют появлению излишне уверенных и ошибочных ответов: догадки в последний момент и спираль переосмысления. Для решения этих проблем мы предлагаем BARREL — новую структуру, которая способствует краткому и гранично-осознанному фактическому рассуждению. Наши эксперименты показывают, что обучение с использованием BARREL повышает надежность модели DeepSeek-R1-Distill-Llama-8B с 39,33% до 61,48%, сохраняя при этом точность, сопоставимую с моделями, дообученными на данных рассуждений, сгенерированных R1. Эти результаты демонстрируют, что наше пилотное исследование вдохновляет на создание более надежных и фактически точных LRMs Системы 2.
Системы контекстного поиска требуют эффективной обработки контекстно-зависимых запросов, которые часто содержат неоднозначность, пропуски и кореференцию. Реформализация контекстных запросов (Conversational Query Reformulation, CQR) решает эту задачу, преобразуя такие запросы в самодостаточные формы, подходящие для стандартных поисковых систем. Однако существующие подходы CQR страдают от двух критических ограничений: высокой зависимости от дорогостоящего внешнего контроля, такого как аннотации от людей или крупные языковые модели, и недостаточного согласования между моделью реформализации и последующими поисковыми системами. Мы представляем ConvSearch-R1 — первую самоуправляемую структуру, которая полностью устраняет зависимость от внешнего контроля за реформализацией, используя обучение с подкреплением для оптимизации преобразования напрямую через сигналы поиска. Наш новый двухэтапный подход сочетает в себе предварительное обучение политики (Self-Driven Policy Warm-Up) для решения проблемы холодного старта через самообучение, направляемое поиском, и обучение с подкреплением, направляемое поиском (Retrieval-Guided Reinforcement Learning), с специально разработанным механизмом формирования вознаграждения, учитывающим ранжирование, который решает проблему разреженности в традиционных метриках поиска. Экстенсивные эксперименты на наборах данных TopiOCQA и QReCC демонстрируют, что ConvSearch-R1 значительно превосходит предыдущие передовые методы, достигая улучшения более чем на 10% на сложном наборе данных TopiOCQA, при этом используя модели с меньшим количеством параметров (3B) без какого-либо внешнего контроля.
В стандартной авторегрессионной генерации языковая модель (LLM) предсказывает распределение следующего токена, выбирает дискретный токен и затем отбрасывает это распределение, передавая только выбранный токен в качестве нового входа. Чтобы сохранить богатую информацию этого распределения, мы предлагаем метод Mixture of Inputs (MoI), который не требует дополнительного обучения и предназначен для авторегрессионной генерации. После генерации токена по стандартной парадигме мы создаем новый вход, который объединяет сгенерированный дискретный токен с ранее отброшенным распределением токенов. В частности, мы используем байесовский метод оценки, который рассматривает распределение токенов как априорное, выбранный токен как наблюдение и заменяет традиционный one-hot вектор на непрерывное апостериорное ожидание в качестве нового входа модели. MoI позволяет модели сохранять более богатое внутреннее представление на протяжении всего процесса генерации, что приводит к улучшению качества текста и способности к рассуждению. На задачах математического рассуждения, генерации кода и вопросов уровня PhD, MoI стабильно улучшает производительность на множестве моделей, включая QwQ-32B, Nemotron-Super-49B, Gemma-3-27B и DAPO-Qwen-32B, без дополнительного обучения и с минимальными вычислительными затратами.
Смещение в больших языковых моделях (LLM) существенно снижает их надежность и справедливость. Мы сосредоточились на распространенной форме смещения: когда две референтные концепции в концептуальном пространстве модели, такие как полярности настроений (например, "положительное" и "отрицательное"), асимметрично коррелируют с третьей, целевой концепцией, такой как аспект отзыва, модель демонстрирует непреднамеренное смещение. Например, понимание "еды" не должно склоняться к какому-либо конкретному настроению. Существующие методы оценки смещения анализируют поведенческие различия LLM путем создания размеченных данных для различных социальных групп и измерения ответов модели на них, что требует значительных человеческих усилий и охватывает лишь ограниченный набор социальных концепций. Чтобы преодолеть эти ограничения, мы предлагаем BiasLens — фреймворк для анализа смещения без использования тестовых наборов, основанный на структуре векторного пространства модели. BiasLens сочетает векторы активации концепций (CAV) с разреженными автокодировщиками (SAE) для извлечения интерпретируемых представлений концепций и количественно оценивает смещение, измеряя вариацию сходства представлений между целевой концепцией и каждой из референтных концепций. Даже без размеченных данных BiasLens демонстрирует высокую согласованность с традиционными метриками оценки смещения (коэффициент корреляции Спирмена r > 0,85). Более того, BiasLens выявляет формы смещения, которые трудно обнаружить с помощью существующих методов. Например, в смоделированных клинических сценариях страховой статус пациента может привести к тому, что LLM выдаст предвзятые диагностические оценки. В целом, BiasLens предлагает масштабируемую, интерпретируемую и эффективную парадигму для обнаружения смещения, прокладывая путь к улучшению справедливости и прозрачности в LLM.
Межмолекулярные потенциалы и силовые поля, основанные на машинном обучении, критически зависят от точных атомных структур, однако такие данные ограничены из-за недостатка экспериментально определенных кристаллов. Хотя атомно-разрешающая электронная микроскопия предлагает потенциальный источник структурных данных, преобразование этих изображений в форматы, пригодные для симуляций, остается трудоемким и подверженным ошибкам, создавая узкое место для обучения и валидации моделей. Мы представляем AutoMat, сквозной конвейер с поддержкой агентов, который автоматически преобразует изображения сканирующей просвечивающей электронной микроскопии (STEM) в атомные кристаллические структуры и предсказывает их физические свойства. AutoMat объединяет адаптивное шумоподавление, поиск шаблонов с учетом физики, симметрийно-осознанную атомную реконструкцию, быстрое релаксирование и предсказание свойств с помощью MatterSim, а также скоординированное управление всеми этапами. Мы предлагаем первый специализированный бенчмарк STEM2Mat-Bench для этой задачи и оцениваем производительность с использованием среднеквадратичного отклонения решетки, средней абсолютной ошибки энергии образования и успешности сопоставления структур. Благодаря координации вызовов внешних инструментов, AutoMat позволяет текстовой языковой модели (LLM) превзойти мультимодальные модели в этой области, обеспечивая замкнутое рассуждение на протяжении всего конвейера. В крупномасштабных экспериментах на 450 образцах структур AutoMat значительно превосходит существующие мультимодальные языковые модели и инструменты. Эти результаты подтверждают как AutoMat, так и STEM2Mat-Bench, отмечая важный шаг на пути к объединению микроскопии и атомного моделирования в материаловедении. Код и набор данных доступны публично по адресам https://github.com/yyt-2378/AutoMat и https://huggingface.co/datasets/yaotianvector/STEM2Mat.
Минимизация энтропии (EM) обучает модель концентрировать ещё больше вероятностной массы на своих наиболее уверенных выходах. Мы показываем, что эта простая цель сама по себе, без каких-либо размеченных данных, может существенно улучшить производительность крупных языковых моделей (LLM) на сложных задачах по математике, физике и программированию. Мы исследуем три подхода: (1) EM-FT минимизирует энтропию на уровне токенов, аналогично тонкой настройке по инструкциям, но на неразмеченных выходах, сгенерированных моделью; (2) EM-RL: обучение с подкреплением, где отрицательная энтропия является единственной наградой для максимизации; (3) EM-INF: корректировка логитов на этапе вывода для снижения энтропии без использования обучающих данных или обновления параметров. На модели Qwen-7B подход EM-RL, без каких-либо размеченных данных, достигает сопоставимой или даже лучшей производительности, чем сильные базовые методы обучения с подкреплением, такие как GRPO и RLOO, которые обучаются на 60 тыс. размеченных примеров. Более того, EM-INF позволяет Qwen-32B соответствовать или превосходить производительность проприетарных моделей, таких как GPT-4o, Claude 3 Opus и Gemini 1.5 Pro, на сложном бенчмарке SciCode, при этом будучи в 3 раза более эффективной, чем методы самосогласованности и последовательного уточнения. Наши результаты показывают, что многие предобученные LLM обладают ранее недооценёнными способностями к рассуждению, которые могут быть эффективно раскрыты исключительно за счёт минимизации энтропии, без использования размеченных данных или даже обновления параметров.
Диффузионные модели зарекомендовали себя как мощные генеративные инструменты в различных областях, однако адаптация предобученных моделей для демонстрации конкретных желаемых свойств остается сложной задачей. Хотя обучение с подкреплением (RL) предлагает перспективное решение, существующие методы сталкиваются с трудностями в одновременном достижении стабильной и эффективной тонкой настройки, а также поддержке недифференцируемых функций вознаграждения. Более того, их зависимость от редких вознаграждений обеспечивает недостаточное руководство на промежуточных этапах, что часто приводит к субоптимальному качеству генерации. Для устранения этих ограничений требуются плотные и дифференцируемые сигналы на протяжении всего процесса диффузии. Таким образом, мы предлагаем VAlue-based Reinforced Diffusion (VARD): новый подход, который сначала обучает функцию ценности, предсказывающую ожидаемые вознаграждения из промежуточных состояний, а затем использует эту функцию ценности с регуляризацией KL для обеспечения плотного руководства на протяжении всего процесса генерации. Наш метод сохраняет близость к предобученной модели, одновременно обеспечивая эффективное и стабильное обучение с помощью обратного распространения ошибки. Экспериментальные результаты демонстрируют, что наш подход способствует лучшему управлению траекториями, повышает эффективность обучения и расширяет применимость RL к диффузионным моделям, оптимизированным для сложных, недифференцируемых функций вознаграждения.
Появление крупных аудио-языковых моделей (LAMs) несет в себе как потенциал, так и риски, поскольку их аудиовыходы могут содержать вредоносный или неэтичный контент. Однако текущие исследования не предлагают систематической количественной оценки безопасности LAMs, особенно в отношении атак jailbreak, которые представляют сложность из-за временной и семантической природы речи. Чтобы восполнить этот пробел, мы представляем AJailBench — первый бенчмарк, специально разработанный для оценки уязвимостей jailbreak в LAMs. Мы начинаем с создания AJailBench-Base, набора данных из 1 495 адверсариальных аудиоподсказок, охватывающих 10 категорий, нарушающих политики, преобразованных из текстовых атак jailbreak с использованием реалистичного синтеза речи. Используя этот набор данных, мы оцениваем несколько современных LAMs и обнаруживаем, что ни одна из них не демонстрирует устойчивости ко всем атакам. Для дальнейшего усиления тестирования jailbreak и моделирования более реалистичных условий атак мы предлагаем метод генерации динамических адверсариальных вариантов. Наш инструмент Audio Perturbation Toolkit (APT) применяет целевые искажения в временной, частотной и амплитудной областях. Чтобы сохранить исходный замысел jailbreak, мы применяем ограничение семантической согласованности и используем байесовскую оптимизацию для эффективного поиска возмущений, которые одновременно незаметны и высокоэффективны. Это приводит к созданию AJailBench-APT, расширенного набора данных оптимизированных адверсариальных аудиосэмплов. Наши результаты показывают, что даже небольшие, семантически сохраненные возмущения могут значительно снизить показатели безопасности ведущих LAMs, подчеркивая необходимость более устойчивых и семантически осознанных механизмов защиты.
В данной работе исследуется предварительное проектирование промптов (prior prompt engineering, pPE) в контексте тонкой настройки с подкреплением (reinforcement fine-tuning, RFT), где языковые модели (language models, LMs) стимулируются к демонстрации поведения, максимизирующего производительность, через сигналы вознаграждения. В то время как существующие исследования RFT в основном сосредоточены на алгоритмах, формировании вознаграждений и курировании данных, проектирование предварительного промпта — инструкций, добавляемых к запросам во время обучения для вызова поведения, такого как пошаговое рассуждение, — остается недостаточно изученным. Мы исследуем, могут ли различные подходы pPE направлять языковые модели на усвоение различных типов поведения после RFT. Вдохновленные проектированием промптов на этапе вывода (inference-time prompt engineering, iPE), мы переводим пять репрезентативных стратегий iPE — рассуждение, планирование, рассуждение на основе кода, вспоминание знаний и использование нулевых примеров — в соответствующие подходы pPE. Мы экспериментируем с моделью Qwen2.5-7B, применяя каждый из подходов pPE, а затем оцениваем производительность на внутридоменных и внедоменных тестах (например, AIME2024, HumanEval+ и GPQA-Diamond). Наши результаты показывают, что все модели, обученные с использованием pPE, превосходят свои аналоги, использующие iPE, причем подход pPE с нулевыми примерами достигает наибольшего среднего прироста производительности и наибольшего улучшения на тестах AIME2024 и GPQA-Diamond, превосходя широко используемый подход рассуждения. Кроме того, адаптируя фреймворк классификации поведения, мы демонстрируем, что различные стратегии pPE прививают моделям различные стили поведения. Эти результаты позиционируют pPE как мощный, но недостаточно изученный аспект RFT.
Крупные мультимодальные модели (LMM) в настоящее время демонстрируют выдающиеся результаты на многих бенчмарках, связанных с обработкой визуальной и текстовой информации. Однако они всё ещё испытывают трудности с критериями, ориентированными на человека, такими как справедливость, этика, эмпатия и инклюзивность, которые являются ключевыми для согласования с человеческими ценностями. Мы представляем HumaniBench — комплексный бенчмарк, состоящий из 32 тысяч пар "изображение-вопрос" из реального мира, аннотированных с использованием масштабируемого конвейера с участием GPT4o и тщательно проверенных экспертами в предметной области. HumaniBench оценивает семь принципов ИИ, ориентированного на человека (HCAI): справедливость, этику, понимание, логическое рассуждение, языковую инклюзивность, эмпатию и устойчивость, в рамках семи разнообразных задач, включая открытые и закрытые вопросы визуального ответа (VQA), многоязычные вопросы, визуальное заземление, эмпатическое описание изображений и тесты на устойчивость. Оценка 15 современных LMM (как открытых, так и закрытых) показывает, что проприетарные модели в целом лидируют, хотя устойчивость и визуальное заземление остаются их слабыми сторонами. Некоторые модели с открытым исходным кодом также испытывают трудности с балансом между точностью и соблюдением принципов, ориентированных на человека. HumaniBench — это первый бенчмарк, специально разработанный вокруг принципов HCAI. Он предоставляет строгую тестовую среду для диагностики разрывов в согласовании и направления LMM к поведению, которое является как точным, так и социально ответственным. Набор данных, аннотационные подсказки и код для оценки доступны по адресу: https://vectorinstitute.github.io/HumaniBench.
Модели вознаграждения играют ключевую роль в согласовании больших языковых моделей (LLM) с человеческими предпочтениями, однако их обучение требует значительных затрат, включая крупномасштабные данные с аннотированными предпочтениями и мощные предобученные LLM. В то же время растущая доступность высококачественных синтетических наборов данных для выполнения инструкций ставит вопрос: могут ли более простые, основанные на эталонных данных метрики служить жизнеспособной альтернативой моделям вознаграждения в процессе согласования на основе обучения с подкреплением (RL)? В данной работе мы сначала показываем, что BLEU, базовая метрика сопоставления строк, неожиданно демонстрирует высокое соответствие с сильными моделями вознаграждения в согласии с человеческими предпочтениями на общих наборах данных для выполнения инструкций. Основываясь на этом наблюдении, мы разрабатываем BLEUBERI — метод, который сначала выявляет сложные инструкции, а затем применяет оптимизацию политики на основе группового относительного сравнения (GRPO), используя BLEU непосредственно в качестве функции вознаграждения. Мы демонстрируем, что модели, обученные с помощью BLEUBERI, конкурируют с моделями, обученными с использованием RL, направляемого моделями вознаграждения, на четырех сложных наборах данных для выполнения инструкций и трех различных базовых языковых моделях. Человеческая оценка также подтверждает, что качество выходных данных моделей BLEUBERI сопоставимо с моделями, согласованными через модели вознаграждения. Более того, модели BLEUBERI генерируют выходные данные, которые более точно соответствуют фактам, чем конкурирующие методы. В целом, мы показываем, что при наличии доступа к высококачественным эталонным выходным данным (легко получаемым через существующие наборы данных для выполнения инструкций или синтетическую генерацию данных), метрики, основанные на сопоставлении строк, являются дешевыми, но эффективными заменителями моделей вознаграждения в процессе согласования. Мы публикуем наш код и данные по адресу https://github.com/lilakk/BLEUBERI.
Спекулятивное декодирование стало популярным методом ускорения вывода крупных языковых моделей (LLM) при сохранении их превосходной производительности в генерации текста. Предыдущие методы либо использовали фиксированную конфигурацию спекулятивного декодирования независимо от префиксных токенов, либо обучали черновые модели оффлайн или онлайн для их согласования с контекстом. В данной статье предлагается обучающийся онлайн фреймворк без необходимости обучения, который адаптивно выбирает конфигурацию гиперпараметров для спекулятивного декодирования по мере генерации текста. Сначала мы формулируем эту задачу выбора гиперпараметров как проблему многорукого бандита и предоставляем общий фреймворк спекулятивного декодирования BanditSpec. Далее разрабатываются и анализируются два алгоритма выбора гиперпараметров на основе бандитов, UCBSpec и EXP3Spec, с точки зрения новой величины — сожаления о времени остановки. Мы ограничиваем это сожаление сверху как в стохастических, так и в адверсарных настройках вознаграждений. Путем вывода информационно-теоретического результата о невозможности показано, что производительность сожаления UCBSpec оптимальна с точностью до универсальных констант. Наконец, обширные эмпирические эксперименты с моделями LLaMA3 и Qwen2 демонстрируют, что наши алгоритмы эффективны по сравнению с существующими методами, а пропускная способность близка к оракулу лучшего гиперпараметра в смоделированных реальных сценариях обслуживания LLM с разнообразными входными запросами.
Многоагентные системы (MAS), основанные на больших языковых моделях (LLM), демонстрируют значительный потенциал для научных открытий. Однако существующие подходы часто автоматизируют научные исследования с использованием заранее заданных рабочих процессов, которые не учитывают ограничения рациональности. Это зачастую приводит к бесцельному выдвижению гипотез и неспособности последовательно связывать гипотезы с доказательствами, что препятствует систематическому снижению неопределенности. Преодоление этих ограничений требует фундаментального подхода к систематическому снижению неопределенности. Мы представляем PiFlow, информационно-теоретическую структуру, которая рассматривает автоматизированное научное открытие как структурированную задачу снижения неопределенности, руководствуясь принципами (например, научными законами). В оценках, проведенных в трех различных научных областях — открытие структур наноматериалов, биомолекул и кандидатов в сверхпроводники с целевыми свойствами — наш метод значительно повышает эффективность открытий, что отражается в увеличении площади под кривой (AUC) значений свойств относительно шагов исследования на 73,55%, а также улучшает качество решений на 94,06% по сравнению с базовой агентной системой. В целом, PiFlow служит методом Plug-and-Play, устанавливая новый парадигмальный сдвиг в высокоэффективном автоматизированном научном открытии, прокладывая путь для более надежных и ускоренных исследований на основе ИИ. Код доступен публично на нашем {GitHub}(https://github.com/amair-lab/PiFlow).
Обучение с подкреплением (RL) недавно стало перспективным подходом для улучшения способностей крупных языковых моделей (LLM) к рассуждению, где генератор LLM выступает в роли политики, управляемой верификатором (моделью вознаграждения). Однако современные методы пост-обучения RL для LLM обычно используют верификаторы, которые фиксированы (основаны на правилах или заморожены после предварительного обучения) или обучены дискриминативно с помощью контролируемого тонкого настройки (SFT). Такие подходы уязвимы к взлому вознаграждения и плохо обобщаются за пределы своих обучающих распределений. Чтобы преодолеть эти ограничения, мы предлагаем Tango — новый фреймворк, который использует RL для одновременного обучения как генератора LLM, так и верификатора в чередующемся режиме. Ключевым нововведением Tango является его генеративный верификатор на уровне процессов, который обучается с помощью RL и совместно эволюционирует с генератором. Важно отметить, что верификатор обучается исключительно на основе вознаграждений за корректность верификации на уровне результатов, не требуя явных аннотаций на уровне процессов. Такой генеративный верификатор, обученный с помощью RL, демонстрирует повышенную устойчивость и превосходное обобщение по сравнению с детерминированными или обученными через SFT верификаторами, способствуя эффективному взаимному усилению с генератором. Многочисленные эксперименты показывают, что обе компоненты Tango достигают передовых результатов среди моделей масштаба 7B/8B: генератор демонстрирует наилучшие результаты на пяти соревновательных математических бенчмарках и четырех сложных задачах рассуждения вне домена, а верификатор лидирует на наборе данных ProcessBench. Примечательно, что обе компоненты показывают особенно значительные улучшения на самых сложных задачах математического рассуждения. Код доступен по адресу: https://github.com/kaiwenzha/rl-tango.
Надежная оценка способностей крупных языковых моделей (LLM) к созданию длинных повествований остается серьезной проблемой, поскольку существующие тесты часто не обладают необходимым масштабом, разнообразием или объективными критериями. Для решения этой задачи мы представляем WebNovelBench — новый тест, специально разработанный для оценки генерации длинных романов. WebNovelBench использует масштабный набор данных, включающий более 4000 китайских веб-романов, и формулирует задачу оценки как генерацию истории на основе синопсиса. Мы предлагаем многогранную структуру, охватывающую восемь аспектов качества повествования, которые оцениваются автоматически с использованием подхода LLM-as-Judge. Оценки агрегируются с помощью метода главных компонент и сопоставляются с процентильным рангом по сравнению с произведениями, написанными людьми. Наши эксперименты показывают, что WebNovelBench эффективно различает шедевры, созданные людьми, популярные веб-романы и контент, сгенерированный LLM. Мы проводим всесторонний анализ 24 современных LLM, ранжируя их способности к повествованию и предлагая рекомендации для дальнейшего развития. Этот тест предоставляет масштабируемую, воспроизводимую и основанную на данных методологию для оценки и совершенствования генерации повествований с использованием LLM.
Крупные мультимодальные модели демонстрируют выдающиеся результаты в мультимодальных задачах, но сталкиваются с серьезными вычислительными трудностями из-за чрезмерных вычислений на визуальных токенах. В отличие от методов сокращения токенов, которые сосредоточены на избыточности на уровне токенов, мы выявляем и исследуем избыточность вычислений на визуальных токенах, чтобы гарантировать отсутствие потери информации. Наше ключевое наблюдение заключается в том, что визуальные токены из предварительно обученного визуального кодера не обязательно требуют всех тяжелых операций (например, self-attention, FFN) в декодер-ориентированных LMM и могут обрабатываться более легкими способами при правильном проектировании. Мы разработали серию экспериментов для обнаружения и постепенного устранения избыточности вычислений, связанных с визуальными данными. На основе наших выводов мы предлагаем ProxyV — новый подход, который использует прокси-визуальные токены для снижения вычислительной нагрузки на исходные визуальные токены. ProxyV повышает эффективность без ущерба для производительности и даже может привести к заметному улучшению производительности в сценариях с умеренным повышением эффективности. Кроме того, гибкость ProxyV демонстрируется за счет его комбинации с методами сокращения токенов для дальнейшего повышения эффективности. Код будет опубликован по адресу https://github.com/penghao-wu/ProxyV.
Аудиовизуальное распознавание речи (AVSR) повышает устойчивость в шумных условиях за счет интеграции визуальных сигналов. Хотя последние достижения включают большие языковые модели (LLM) в AVSR, их высокая вычислительная стоимость затрудняет развертывание в условиях ограниченных ресурсов. Для решения этой проблемы мы предлагаем Llama-SMoP, эффективную мультимодальную LLM, которая использует модуль Sparse Mixture of Projectors (SMoP) для масштабирования емкости модели без увеличения затрат на вывод. Внедряя разреженно-управляемые проекторы на основе смеси экспертов (MoE), Llama-SMoP позволяет использовать меньшие LLM, сохраняя при этом высокую производительность. Мы исследуем три конфигурации SMoP и показываем, что Llama-SMoP DEDR (Disjoint-Experts, Disjoint-Routers), использующий модально-специфичные маршрутизаторы и эксперты, достигает превосходных результатов в задачах ASR, VSR и AVSR. Абляционные исследования подтверждают его эффективность в активации экспертов, масштабируемости и устойчивости к шуму.
Человеческие слушатели легко адаптируются к незнакомым говорящим и языковым разновидностям через воздействие, но распространяются ли эти преимущества адаптации на современные модели обработки устной речи? Мы представляем масштабируемую структуру, которая позволяет осуществлять обучение в контексте (ICL) в модели Phi-4 Multimodal с использованием чередующихся задач и пар "аудио-текст", и обнаруживаем, что всего 12 примеров высказываний (~50 секунд) во время вывода снижают частоту ошибок на слова в среднем на 19,7% (1,2 п.п.) в различных корпусах английского языка. Эти улучшения наиболее заметны в малоресурсных разновидностях, когда контекст и целевой говорящий совпадают, и когда предоставляется больше примеров — хотя масштабирование нашей процедуры приводит к уменьшению предельной отдачи от длины контекста. В целом, мы обнаруживаем, что наша новая схема адаптации ICL (1) демонстрирует схожий профиль производительности с человеческими слушателями и (2) обеспечивает последовательные улучшения устойчивости автоматического распознавания речи (ASR) для различных говорящих и языковых фонов. Хотя адаптация в целом успешна, значительные пробелы остаются для определенных разновидностей, что указывает на области, где текущие модели все еще уступают человеческой гибкости. Мы публикуем наши промпты и код на GitHub.
Крупные языковые модели (LLM) имеют внутренние ограничения в плане достоверности и фактической точности, что обычно называют галлюцинациями. Было разработано несколько тестовых наборов, которые предоставляют основу для оценки фактической точности в контексте англоязычных данных, полагаясь на дополнительный информативный контекст, такой как веб-ссылки или текстовые отрывки, но игнорируя доступные структурированные фактические ресурсы. В этом контексте базы знаний (Knowledge Graphs, KG) были признаны полезным инструментом для снижения галлюцинаций, поскольку они предоставляют структурированный способ представления фактов о сущностях и их отношениях с минимальными лингвистическими издержками. Мы устраняем недостаток путей в KG и мультиязычности для моделирования фактической точности в существующих тестовых наборах для оценки галлюцинаций и предлагаем мультиязычный, многошаговый тестовый набор на основе KG под названием MultiHal, предназначенный для оценки генерации текста. В рамках нашего процесса сбора данных мы извлекли 140 тысяч путей из открытых KG, из которых отфильтровали шумные пути, создав высококачественное подмножество из 25,9 тысяч. Наша базовая оценка показывает абсолютное увеличение на примерно 0,12–0,36 баллов для показателя семантического сходства в KG-RAG по сравнению с обычными QA-системами на нескольких языках и для нескольких моделей, демонстрируя потенциал интеграции KG. Мы ожидаем, что MultiHal будет способствовать дальнейшим исследованиям в области задач снижения галлюцинаций и проверки фактов на основе графов.
Кодовое переключение — это распространённое явление, при котором в одном высказывании, мысли или разговоре происходит чередование между разными языками. Мы предполагаем, что люди переключаются между языками, потому что чувствуют себя более комфортно, обсуждая определённые темы и области на одном языке, чем на другом. С ростом популярности языковых моделей, ориентированных на знания, мы задаёмся следующим естественным вопросом: могут ли модели обладать большими знаниями по некоторым темам на определённом языке X? И что более важно, можем ли мы улучшить рассуждения, изменив язык, на котором они выполняются? Мы вводим термин «Языково-специфические знания» (Language Specific Knowledge, LSK) для описания этого явления. Поскольку этнические культуры часто развиваются параллельно с разными языками, мы используем культурно-специфические наборы данных (которые содержат знания о культурных и социальных нормах поведения). Мы обнаруживаем, что языковые модели могут работать лучше, используя цепочку рассуждений (chain-of-thought) на некоторых языках, отличных от английского, иногда даже на языках с ограниченными ресурсами. В сочетании с предыдущими работами, показывающими, что семантическое сходство не эквивалентно сходству представлений, мы выдвигаем гипотезу, что культурно-специфические тексты чаще встречаются на соответствующих языках, что позволяет специфическим знаниям существовать только в определённых «экспертных» языках. Вдохновлённые нашими первоначальными результатами, мы разрабатываем простую методологию под названием LSKExtractor для оценки языково-специфических знаний, присутствующих в языковой модели, и их использования в процессе вывода. Мы демонстрируем наши результаты на различных моделях и наборах данных, показывая среднее относительное улучшение точности на 10%. Наше исследование способствует открытой разработке языковых моделей, которые являются более инклюзивными и лучше соответствуют культурным и лингвистическим контекстам, в которых они применяются.