Ежедневно отобранные исследовательские статьи по ИИ с переводами
Заметный рост возможностей крупных языковых моделей (LLM) стимулировал исследования в области мультиагентных систем, при этом дебаты в рамках таких систем стали перспективным направлением для улучшения решения задач. Эти подходы, известные как мультиагентные дебаты (MAD), где агенты совместно представляют, критикуют и уточняют аргументы, потенциально предлагают улучшенные рассуждения, устойчивость и разнообразие перспектив по сравнению с монолитными моделями. Несмотря на предыдущие исследования, использующие MAD, систематическое понимание их эффективности по сравнению с методами, основанными на одном агенте, особенно в различных условиях, остается недостаточным. Данная работа стремится заполнить этот пробел, концептуализируя MAD как метод масштабирования вычислений на этапе тестирования, отличающийся возможностями совместного уточнения и разнообразного исследования. Мы проводим всестороннее эмпирическое исследование, сравнивая MAD с сильными базовыми методами масштабирования на этапе тестирования, основанными на одном агенте, в задачах математического рассуждения и безопасности. Наше исследование систематически изучает влияние сложности задачи, масштаба модели и разнообразия агентов на производительность MAD. Ключевые результаты показывают, что для математического рассуждения MAD предлагает ограниченные преимущества по сравнению с масштабированием на одном агенте, но становится более эффективным с увеличением сложности задачи и уменьшением возможностей модели, при этом разнообразие агентов не приносит значительной пользы. Напротив, для задач безопасности совместное уточнение в MAD может повысить уязвимость, но включение разнообразных конфигураций агентов способствует постепенному снижению успешности атак через процесс совместного уточнения. Мы считаем, что наши результаты предоставляют важные рекомендации для будущего развития более эффективных и стратегически развернутых систем MAD.
Существующие подходы к сегментации с использованием рассуждений обычно дообучают мультимодальные большие языковые модели (MLLMs) на парах изображение-текст с соответствующими масками. Однако они демонстрируют ограниченную обобщаемость к сценариям, выходящим за пределы распределения данных, без явного процесса рассуждений. Хотя недавние исследования используют обучение с подкреплением через оптимизацию политики на основе групповых относительных показателей (GRPO) для улучшения способности к рассуждениям, они часто страдают от "переобдумывания" — создания излишне подробных цепочек рассуждений независимо от сложности задачи. Это приводит к повышенным вычислительным затратам и ограниченному контролю над качеством рассуждений. Для решения этой проблемы мы предлагаем PixelThink — простую, но эффективную схему, которая интегрирует внешне оцениваемую сложность задачи и внутренне измеряемую неопределённость модели для регулирования генерации рассуждений в рамках парадигмы обучения с подкреплением. Модель учится сокращать длину рассуждений в соответствии со сложностью сцены и уверенностью в предсказании. Для поддержки всесторонней оценки мы представляем ReasonSeg-Diff — расширенный бенчмарк с аннотированными эталонными рассуждениями и оценками сложности, а также набор метрик, предназначенных для совместной оценки точности сегментации, качества рассуждений и эффективности. Экспериментальные результаты показывают, что предложенный подход улучшает как эффективность рассуждений, так и общую производительность сегментации. Наша работа вносит новые перспективы в область эффективного и интерпретируемого мультимодального понимания. Код и модель будут общедоступны.
В данной работе мы представляем первое исследование, посвященное изучению масштабирования на этапе вывода для задач табличного рассуждения. Мы разрабатываем и оцениваем две стратегии пост-обучения, позволяющие реализовать масштабирование на этапе вывода: дистилляцию из трасс рассуждений передовой модели и обучение с подкреплением с проверяемыми наградами (RLVR). Для дистилляции мы представляем крупномасштабный набор данных трасс рассуждений, сгенерированных моделью DeepSeek-R1, который используется для тонкой настройки языковых моделей (LLM) в модель Table-R1-SFT. Для RLVR мы предлагаем специфичные для задач функции проверяемых наград и применяем алгоритм GRPO для получения модели Table-R1-Zero. Мы оцениваем наши модели серии Table-R1 на различных задачах табличного рассуждения, включая краткие вопросы и ответы, проверку фактов и свободные вопросы и ответы. Примечательно, что модель Table-R1-Zero демонстрирует сопоставимую или превосходящую производительность по сравнению с GPT-4.1 и DeepSeek-R1, используя при этом LLM всего с 7 миллиардами параметров. Она также показывает сильную способность к обобщению на данных из других областей. Обширные эксперименты и качественный анализ выявляют преимущества настройки на инструкции, выбора архитектуры модели и кросс-задачного обобщения, а также появление ключевых навыков табличного рассуждения в процессе обучения с подкреплением.
Последние достижения в области мультимодальных больших языковых моделей (MLLM) значительно улучшили производительность в задачах обработки 2D-изображений. Однако повышение их пространственного интеллекта остается сложной задачей. Существующие 3D MLLM всегда полагаются на дополнительные 3D или 2.5D данные для включения пространственного восприятия, что ограничивает их применимость в сценариях с использованием только 2D-входов, таких как изображения или видео. В данной статье мы представляем Spatial-MLLM — новый фреймворк для пространственного рассуждения на основе визуальных данных, использующий исключительно 2D-наблюдения. В отличие от традиционных видео MLLM, которые опираются на визуальные кодировщики на основе CLIP, оптимизированные для семантического понимания, наше ключевое наблюдение заключается в использовании сильного структурного априори из базовой модели визуальной геометрии с прямым распространением. В частности, мы предлагаем архитектуру с двумя кодировщиками: предобученный 2D визуальный кодировщик для извлечения семантических признаков и пространственный кодировщик, инициализированный на основе базовой модели визуальной геометрии, для извлечения признаков 3D-структуры. Затем соединитель интегрирует оба типа признаков в единые визуальные токены для улучшенного пространственного понимания. Кроме того, мы предлагаем стратегию выборки кадров с учетом пространства на этапе вывода, которая выбирает наиболее информативные для пространственного анализа кадры из видео, гарантируя, что даже при ограниченной длине токенов модель фокусируется на кадрах, критически важных для пространственного рассуждения. Помимо улучшений архитектуры, мы создаем набор данных Spatial-MLLM-120k и обучаем модель на нем с использованием контролируемой тонкой настройки и GRPO. Эксперименты на различных реальных наборах данных демонстрируют, что наша Spatial-MLLM достигает наилучших результатов в широком спектре задач визуального пространственного понимания и рассуждения. Страница проекта: https://diankun-wu.github.io/Spatial-MLLM/.
Недавние исследования, посвященные посттренировке больших языковых моделей (LLM) для улучшения способности к рассуждению с использованием обучения с подкреплением (RL), обычно сосредоточены на задачах, которые могут быть точно проверены и вознаграждены, таких как решение математических задач. В отличие от этого, наше исследование изучает влияние шума в вознаграждениях — более практичный аспект для реальных сценариев, связанных с посттренировкой LLM с использованием моделей вознаграждения. Мы обнаружили, что LLM демонстрируют высокую устойчивость к значительному шуму в вознаграждениях. Например, ручное инвертирование 40% выходных данных функции вознаграждения в математических задачах всё же позволяет модели Qwen-2.5-7B достичь быстрой сходимости, улучшая её производительность с 5% до 72% по сравнению с 75% точностью модели, обученной с использованием безошибочных вознаграждений. Удивительно, что вознаграждение только за появление ключевых фраз рассуждения (так называемое вознаграждение за шаблон рассуждения, RPR), таких как «сначала мне нужно», — без проверки правильности ответов — позволило модели достичь пиковой производительности (более 70% точности для Qwen-2.5-7B), сравнимой с моделями, обученными с использованием строгой проверки правильности и точных вознаграждений. Осознавая важность процесса рассуждения по сравнению с конечными результатами, мы объединили RPR с моделями вознаграждения, содержащими шум. RPR помогло калибровать шумные модели вознаграждения, смягчая потенциальные ложные отрицательные результаты и улучшая производительность LLM на задачах с открытым концом. Эти результаты подчеркивают важность улучшения базовых способностей моделей на этапе предварительного обучения, а также предоставляют идеи для развития методов посттренировки. Наш код и скрипты доступны по адресу https://github.com/trestad/Noisy-Rewards-in-Learning-to-Reason.
Мультимодальные языковые модели (MLLMs) активно изучаются в контексте ответов на вопросы по видео в последнее время. Однако большинство существующих оценок сосредоточено на естественных видео, игнорируя синтетические видео, такие как контент, созданный искусственным интеллектом (AIGC). В то же время некоторые работы в области генерации видео полагаются на MLLMs для оценки качества созданных видео, но способности MLLMs интерпретировать видео AIGC остаются в значительной степени неисследованными. Чтобы устранить этот пробел, мы предлагаем новый бенчмарк, VF-Eval, который включает четыре задачи — проверку связности, осознание ошибок, определение типа ошибок и оценку рассуждений — для всесторонней оценки способностей MLLMs на видео AIGC. Мы оценили 13 передовых MLLMs на VF-Eval и обнаружили, что даже лучшая модель, GPT-4.1, с трудом достигает стабильно хороших результатов по всем задачам. Это подчеркивает сложность нашего бенчмарка. Кроме того, чтобы исследовать практическое применение VF-Eval в улучшении генерации видео, мы провели эксперимент RePrompt, демонстрируя, что более тесное согласование MLLMs с обратной связью от человека может быть полезным для генерации видео.
Быстрое развитие крупных визуально-языковых моделей (VLMs) стимулировало развитие чисто визуальных GUI-агентов, способных воспринимать и взаимодействовать с графическими пользовательскими интерфейсами (GUI) для автономного выполнения пользовательских инструкций. Однако существующие подходы обычно используют оффлайн-обучение, что сталкивается с двумя ключевыми ограничениями: (1) сильная зависимость от высококачественных ручных аннотаций для локализации элементов и контроля действий, и (2) ограниченная адаптивность к динамическим и интерактивным средам. Для устранения этих ограничений мы предлагаем ZeroGUI, масштабируемую онлайн-платформу для автоматизации обучения GUI-агентов с нулевыми затратами на человеческие ресурсы. В частности, ZeroGUI интегрирует (i) автоматическую генерацию задач на основе VLM для создания разнообразных учебных целей из текущего состояния среды, (ii) автоматическую оценку вознаграждений на основе VLM для оценки успешности задач без использования ручных функций оценки, и (iii) двухэтапное онлайн-обучение с подкреплением для непрерывного взаимодействия с GUI-средами и обучения на их основе. Эксперименты на двух продвинутых GUI-агентах (UI-TARS и Aguvis) демонстрируют, что ZeroGUI значительно повышает производительность в средах OSWorld и AndroidLab. Код доступен по адресу https://github.com/OpenGVLab/ZeroGUI.
Диффузионные языковые модели большого размера (Diffusion LLMs) продемонстрировали потенциал для неавторегрессивной генерации текста с возможностью параллельного декодирования. Однако практическая скорость вывода открытых Diffusion LLMs часто отстает от авторегрессивных моделей из-за отсутствия кэша ключей и значений (Key-Value Cache, KV Cache) и ухудшения качества при одновременном декодировании нескольких токенов. Чтобы устранить этот разрыв, мы представляем новый механизм блочного приближенного KV Cache, адаптированный для двунаправленных диффузионных моделей, который позволяет повторно использовать кэш с незначительным снижением производительности. Кроме того, мы выявляем коренную причину ухудшения качества генерации при параллельном декодировании как нарушение зависимостей токенов в условиях предположения об условной независимости. Для решения этой проблемы мы предлагаем стратегию уверенного параллельного декодирования, которая выборочно декодирует токены, превышающие порог уверенности, смягчая нарушения зависимостей и сохраняя качество генерации. Экспериментальные результаты на моделях LLaDA и Dream в рамках нескольких бенчмарков для LLM демонстрируют улучшение пропускной способности до 27,6 раз с минимальной потерей точности, сокращая разрыв в производительности с авторегрессивными моделями и открывая путь для практического внедрения Diffusion LLMs.
Недавние исследования показали, что длинные цепочки рассуждений (Chain-of-Thought, CoT) могут значительно улучшить производительность крупных языковых моделей (LLMs) на сложных задачах. Однако это преимущество еще не было продемонстрировано в области понимания видео, поскольку большинство существующих тестовых наборов данных не обладают достаточной глубиной рассуждений, чтобы показать преимущества расширенных цепочек CoT. Хотя недавние усилия были направлены на создание тестовых наборов для видео-рассуждений, задачи в них часто основываются на знаниях и не сильно зависят от визуального контента. Чтобы устранить этот пробел, мы представляем VideoReasonBench — тестовый набор данных, разработанный для оценки визуально-ориентированных сложных видео-рассуждений. Чтобы обеспечить визуальное разнообразие и высокую сложность рассуждений, каждое видео в VideoReasonBench изображает последовательность детализированных операций над скрытым состоянием, которое видно только в части видео. Вопросы оценивают три возрастающих уровня навыков видео-рассуждений: воспроизведение наблюдаемой визуальной информации, вывод содержания скрытых состояний и предсказание информации за пределами видео. В такой постановке задачи модели должны точно воспроизводить множество операций в видео и выполнять пошаговые рассуждения, чтобы получить правильные ответы на эти вопросы. Используя VideoReasonBench, мы всесторонне оценили 18 современных мультимодальных LLMs (MLLMs) и обнаружили, что большинство из них плохо справляются со сложными видео-рассуждениями. Например, GPT-4o достигает точности всего 6,9%, в то время как улучшенная версия Gemini-2.5-Pro значительно превосходит другие модели с точностью 56,0%. Наши исследования "масштабирования во время тестирования" дополнительно показывают, что увеличение бюджета на рассуждения, хотя и не приносит или приносит минимальную пользу на существующих видео-тестах, является важным для улучшения производительности на VideoReasonBench.
Системы автоматизированного проектирования (САПР) играют ключевую роль в инженерии и производстве, позволяя создавать точные и редактируемые 3D-модели. Использование различных данных, полученных от сенсоров или предоставленных пользователем, в качестве входных данных для реконструкции САПР может сделать доступ к приложениям для проектирования более демократичным. Однако существующие методы обычно сосредоточены на одном типе входных данных, таких как облака точек, изображения или текст, что ограничивает их универсальность и надежность. Используя последние достижения в области моделей, объединяющих зрение и язык (Vision-Language Models, VLM), мы предлагаем многомодальную модель реконструкции САПР, которая одновременно обрабатывает все три типа входных данных. Вдохновленные подходами к обучению крупных языковых моделей (Large Language Models, LLM), мы применяем двухэтапный процесс: контролируемую тонкую настройку (Supervised Fine-Tuning, SFT) на данных, сгенерированных процедурно в большом масштабе, с последующей тонкой настройкой с использованием обучения с подкреплением (Reinforcement Learning, RL) на основе программно полученной обратной связи в реальном времени. Кроме того, мы впервые исследуем применение RL для тонкой настройки LLM в задачах САПР, демонстрируя, что онлайн-алгоритмы RL, такие как Group Relative Preference Optimization (GRPO), превосходят офлайн-альтернативы. На тестовом наборе данных DeepCAD наша модель после SFT превосходит существующие одномодальные подходы одновременно по всем трем типам входных данных. Что еще важнее, после RL-настройки cadrille устанавливает новый рекорд на трех сложных наборах данных, включая реальный.
В данной статье представлен метод Diffusion via Autoregressive models (D-AR), новый подход, который переосмысливает процесс диффузии изображений как стандартную авторегрессионную процедуру в формате предсказания следующего токена. Мы начинаем с разработки токенизатора, преобразующего изображения в последовательности дискретных токенов, где токены на разных позициях могут быть декодированы в различные шаги удаления шума в пространстве пикселей. Благодаря свойствам диффузии, эти токены естественным образом следуют порядку от грубого к детальному, что напрямую подходит для авторегрессионного моделирования. Таким образом, мы применяем стандартное предсказание следующего токена для этих токенов, не изменяя базовых принципов (ни масок причинности, ни стратегий обучения/вывода), и такая последовательная генерация токенов напрямую отражает процесс диффузии в пространстве изображений. То есть, как только авторегрессионная модель генерирует очередную порцию токенов, мы можем напрямую декодировать их в соответствующий шаг удаления шума в потоковом режиме. Наш подход естественным образом раскрывает несколько интересных свойств, например, поддерживает согласованные предварительные просмотры при генерации только части токенов и позволяет выполнять синтез с управлением композицией без дополнительного обучения. На стандартном бенчмарке ImageNet наш метод достигает показателя FID 2.09, используя модель Llama с 775 миллионами параметров и 256 дискретными токенами. Мы надеемся, что наша работа вдохновит будущие исследования на создание унифицированных авторегрессионных архитектур для визуального синтеза, особенно с использованием крупных языковых моделей. Код и модели будут доступны по адресу https://github.com/showlab/D-AR.
Мы представляем AnySplat — прямую нейронную сеть для синтеза новых видов из некалиброванных коллекций изображений. В отличие от традиционных конвейеров нейронного рендеринга, требующих известных поз камер и оптимизации для каждой сцены, или современных прямых методов, которые не справляются с вычислительной нагрузкой плотных видов, наша модель предсказывает всё за один проход. Один прямой проход позволяет получить набор 3D-гауссовых примитивов, кодирующих как геометрию сцены, так и её внешний вид, а также соответствующие внутренние и внешние параметры камеры для каждого входного изображения. Этот унифицированный подход легко масштабируется на случайно снятые многовидовые наборы данных без каких-либо аннотаций поз. В обширных оценках с нулевым обучением AnySplat соответствует качеству базовых методов, учитывающих позы, как в сценариях с разреженными, так и с плотными видами, превосходя существующие подходы, не требующие информации о позах. Кроме того, он значительно снижает задержку рендеринга по сравнению с оптимизационными нейронными полями, делая синтез новых видов в реальном времени доступным для неограниченных условий съёмки. Страница проекта: https://city-super.github.io/anysplat/
Недавно разработанные крупные модели рассуждений (LRMs) демонстрируют мощную производительность в решении сложных задач благодаря способности к длинным цепочкам рассуждений (CoT). Поскольку эти LRMs в основном развиваются путем посттренинга на задачах формального рассуждения, остается неясным и обсуждаемым, обобщают ли они свои способности к рассуждению для снижения галлюцинаций в задачах поиска фактов. Например, DeepSeek-R1 сообщает о повышении производительности на бенчмарке SimpleQA, ориентированном на поиск фактов, в то время как OpenAI-o3 наблюдает даже более сильные галлюцинации. Это расхождение естественным образом поднимает следующий исследовательский вопрос: более ли склонны модели рассуждений к галлюцинациям? В данной статье этот вопрос рассматривается с трех точек зрения. (1) Сначала мы проводим комплексную оценку галлюцинаций в LRMs. Наш анализ показывает, что LRMs, прошедшие полный посттренинг с использованием контролируемой тонкой настройки (SFT) с "холодного старта" и подкрепляющего обучения (RL) с проверяемыми наградами, в целом снижают уровень галлюцинаций. В то же время как дистилляция в одиночку и RL-тренинг без начальной тонкой настройки вводят более тонкие галлюцинации. (2) Чтобы понять, почему различные посттренинговые подходы по-разному влияют на галлюцинации в LRMs, мы проводим анализ поведения. Мы выделяем два критических когнитивных поведения, которые напрямую влияют на фактологическую точность LRM: Повторение ошибок, когда поверхностные попытки рассуждений повторяют одну и ту же ошибочную логику, и Несоответствие между рассуждением и ответом, когда итоговый ответ не соответствует предыдущему процессу CoT. (3) Кроме того, мы исследуем механизм галлюцинаций в LRMs с точки зрения неопределенности модели. Мы обнаруживаем, что увеличение галлюцинаций в LRMs обычно связано с рассогласованием между неопределенностью модели и фактической точностью. Наша работа предоставляет начальное понимание галлюцинаций в LRMs.
Языковые модели (LMs) демонстрируют высокие результаты на стандартных тестах по программированию, но испытывают трудности с реальными задачами разработки программного обеспечения, такими как решение проблем на GitHub в рамках SWE-Bench, особенно когда количество параметров модели меньше 100 млрд. Хотя на практике предпочтение отдается меньшим моделям из-за их более низких вычислительных затрат, улучшение их производительности остается сложной задачей. Существующие подходы в основном полагаются на контролируемое тонкое обучение (SFT) с использованием высококачественных данных, которые дорого собирать в больших масштабах. Альтернативой является масштабирование на этапе тестирования: генерация нескольких выходных данных, их оценка с помощью верификатора и выбор наилучшего варианта. Хотя этот подход эффективен, он часто требует чрезмерного количества выборок и дорогостоящей оценки, что ограничивает его практическое применение. Мы предлагаем Evolutionary Test-Time Scaling (EvoScale) — метод, эффективный по количеству выборок, который рассматривает генерацию как эволюционный процесс. Путем итеративного улучшения выходных данных через отбор и мутацию EvoScale смещает распределение выходных данных в сторону областей с более высокой оценкой, сокращая количество выборок, необходимых для нахождения правильных решений. Чтобы снизить накладные расходы на повторную выборку и отбор, мы обучаем модель саморазвитию с использованием обучения с подкреплением (RL). Вместо того чтобы полагаться на внешние верификаторы на этапе вывода, модель учится самостоятельно улучшать оценки своих генераций на протяжении итераций. Протестированная на SWE-Bench-Verified, EvoScale позволяет нашей 32-миллиардной модели Satori-SWE-32B соответствовать или превосходить производительность моделей с более чем 100 млрд параметров, используя при этом небольшое количество выборок. Код, данные и модели будут полностью открыты для общественности.
Мы представляем LoRAShop — первую платформу для редактирования изображений с использованием нескольких концепций на основе моделей LoRA. LoRAShop основывается на ключевом наблюдении о паттернах взаимодействия признаков внутри трансформеров диффузии в стиле Flux: признаки трансформеров, специфичные для концепций, активируют пространственно согласованные области на ранних этапах процесса удаления шума. Мы используем это наблюдение для получения разъединённой латентной маски для каждой концепции в предварительном прямом проходе и смешиваем соответствующие веса LoRA только в областях, ограничивающих концепции, которые необходимо персонализировать. Полученные правки бесшовно интегрируют несколько объектов или стилей в исходную сцену, сохраняя глобальный контекст, освещение и мелкие детали. Наши эксперименты показывают, что LoRAShop обеспечивает лучшее сохранение идентичности по сравнению с базовыми методами. Устраняя необходимость в повторном обучении и внешних ограничениях, LoRAShop превращает персонализированные модели диффузии в практичный инструмент «фотошоп с LoRA» и открывает новые возможности для композиционного визуального повествования и быстрой творческой итерации.
Трансформеры утвердились в качестве наиболее популярной архитектуры для моделирования последовательностей, главным образом благодаря их эффективности в задачах извлечения контекста и способности к масштабируемому обучению. Однако их квадратичная сложность по памяти и времени ограничивает применимость в более длинных последовательностях, что побудило исследователей изучить эффективные альтернативные архитектуры, такие как современные рекуррентные нейронные сети (также известные как модули долгосрочной рекуррентной памяти). Несмотря на их недавний успех в разнообразных задачах, они сталкиваются с трудностями в задачах, требующих понимания длинного контекста и экстраполяции на более длинные последовательности. Мы отмечаем, что эти недостатки обусловлены тремя разрозненными аспектами их дизайна: (1) ограниченная емкость памяти, обусловленная архитектурой памяти и отображением признаков входных данных; (2) онлайн-характер обновления, то есть оптимизация памяти только на основе последнего входного сигнала; и (3) менее выразительное управление их памятью фиксированного размера. Для улучшения всех трех аспектов мы представляем ATLAS — модуль долгосрочной памяти с высокой емкостью, который обучается запоминать контекст, оптимизируя память на основе текущих и прошлых токенов, преодолевая онлайн-характер моделей долгосрочной памяти. На основе этого подхода мы представляем новое семейство архитектур, подобных трансформерам, под названием DeepTransformers, которые являются строгими обобщениями оригинальной архитектуры трансформера. Наши экспериментальные результаты в задачах языкового моделирования, здравого смысла, интенсивного запоминания и понимания длинного контекста показывают, что ATLAS превосходит производительность трансформеров и современных линейных рекуррентных моделей. ATLAS также улучшает производительность Titans в задачах с длинным контекстом, достигая +80\% точности на 10 миллионах токенов в тесте BABILong.
Унифицированные мультимодальные большие языковые модели, такие как Show-o и Janus, демонстрируют высокую производительность как в задачах генерации, так и в задачах понимания. Однако такие модели обычно требуют масштабных наборов данных и значительных вычислительных ресурсов на этапе предварительного обучения. Кроме того, было предложено несколько методов пост-обучения, но они часто зависят от внешних данных или ограничиваются специфической настройкой под конкретные задачи. В данной работе мы представляем UniRL — подход к пост-обучению с самосовершенствованием. Наш подход позволяет модели генерировать изображения на основе текстовых запросов и использовать их в качестве обучающих данных на каждой итерации, не полагаясь на внешние данные изображений. Более того, он позволяет двум задачам усиливать друг друга: сгенерированные изображения используются для понимания, а результаты понимания используются для контроля генерации. Мы исследуем методы контролируемого тонкого настройки (SFT) и оптимизации групповой относительной политики (GRPO) для оптимизации моделей. UniRL предлагает три ключевых преимущества: (1) он не требует внешних данных изображений, так как все обучающие выборки генерируются самой моделью в процессе обучения; (2) он не только улучшает производительность отдельных задач, но и снижает дисбаланс между генерацией и пониманием; (3) он требует лишь нескольких дополнительных шагов обучения на этапе пост-обучения. Мы оцениваем UniRL на основе моделей Show-o и Janus, достигая показателя GenEval 0.77 для Show-o и 0.65 для Janus. Код и модели будут доступны по адресу https://github.com/showlab/UniRL.
Задача исправления ошибок, где модель генерирует патчи для устранения реальных багов, стала важным эталоном для оценки возможностей больших языковых моделей (LLM). Хотя SWE-bench и его варианты стали стандартом в этой области, они имеют ключевые ограничения: они не обновлялись с момента первоначального выпуска, охватывают узкий набор репозиториев и сильно зависят от ручного труда при создании экземпляров и настройке окружения. Эти факторы препятствуют масштабируемости и создают риски переобучения и загрязнения данных. В данной работе мы представляем SWE-bench-Live, динамически обновляемый эталон, разработанный для преодоления этих проблем. Наш первоначальный выпуск включает 1 319 задач, полученных из реальных проблем GitHub, созданных с 2024 года, охватывающих 93 репозитория. Каждая задача сопровождается выделенным образом Docker для обеспечения воспроизводимости выполнения. Основой нашего эталона является \method, автоматизированный конвейер обработки, который упрощает весь процесс от создания экземпляров до настройки окружения, устраняя ручные узкие места и обеспечивая масштабируемость и непрерывные обновления. Мы оцениваем ряд современных фреймворков агентов и LLM на SWE-bench-Live, выявляя значительный разрыв в производительности по сравнению со статическими эталонами, такими как SWE-bench, даже в контролируемых условиях оценки. Чтобы лучше понять это расхождение, мы проводим детальный анализ по происхождению репозиториев, новизне проблем и сложности задач. Предоставляя свежий, разнообразный и исполняемый эталон, основанный на активности живых репозиториев, SWE-bench-Live способствует строгой, устойчивой к загрязнению оценке LLM и агентов в динамичных условиях реальной разработки программного обеспечения.
Разреженные автокодировщики (SAE) продемонстрировали значительный потенциал в интерпретации скрытых состояний языковых моделей путем их декомпозиции на интерпретируемые латентные направления. Однако обучение SAE в масштабе остается сложной задачей, особенно при использовании больших размеров словарей. Хотя декодеры могут использовать специализированные ядра для повышения эффективности, кодировщики по-прежнему требуют вычислительно затратных линейных операций с большими выходными размерностями. Для решения этой проблемы мы предлагаем KronSAE — новую архитектуру, которая факторизует латентное представление с помощью декомпозиции Кронекера, значительно снижая затраты памяти и вычислений. Кроме того, мы представляем mAND — дифференцируемую функцию активации, аппроксимирующую бинарную операцию AND, что улучшает интерпретируемость и производительность в нашей факторизованной структуре.
Механизмы предпочтений, такие как человеческие предпочтения, LLM-как-судья (LaaJ) и модели вознаграждения, играют ключевую роль в согласовании и оценке больших языковых моделей (LLM). Однако базовые концепции, лежащие в основе этих предпочтений, остаются недостаточно изученными. В данной работе мы предлагаем полностью автоматизированный метод для генерации локальных и глобальных объяснений предпочтений, основанных на концепциях, в различных областях. Наш метод использует LLM для идентификации концепций, которые отличают выбранные ответы от отвергнутых, и для их представления с помощью векторов, основанных на концепциях. Для моделирования взаимосвязей между концепциями и предпочтениями мы предлагаем прозрачную иерархическую модель множественной регрессии, которая учитывает как общие, так и специфичные для конкретной области эффекты. Для оценки нашего метода мы создаем набор данных, охватывающий восемь сложных и разнообразных областей, и объясняем двенадцать механизмов. Наш метод демонстрирует высокую точность в прогнозировании предпочтений, превосходя базовые подходы, оставаясь при этом объяснимым. Кроме того, мы оцениваем объяснения в двух прикладных сценариях. Во-первых, использование концепций из объяснений LaaJ для управления выводами LLM приводит к ответам, которые судьи последовательно предпочитают. Во-вторых, использование концепций, объясняющих человеческие предпочтения, в запросах к LaaJ улучшает их прогнозы предпочтений. В совокупности наша работа устанавливает новую парадигму объяснимости в эпоху LLM.
Визуальные тексты, встроенные в видео, содержат богатую семантическую информацию, которая имеет ключевое значение как для целостного понимания видео, так и для детального анализа локальных действий человека. Однако существующие тестовые наборы для понимания видео в значительной степени игнорируют текстовую информацию, в то время как специализированные тесты для OCR ограничены статичными изображениями, что ограничивает их способность учитывать взаимодействие между текстом и динамическим визуальным контекстом. Чтобы устранить этот пробел, мы предлагаем VidText — новый тестовый набор, разработанный для всесторонней и глубокой оценки понимания текста в видео. VidText обладает следующими ключевыми особенностями: 1) Он охватывает широкий спектр реальных сценариев и поддерживает многоязычный контент, включая разнообразные ситуации, в которых текст естественным образом появляется в видео. 2) Он представляет иерархическую систему оценки с задачами на уровне видео, клипов и отдельных объектов, что позволяет оценивать как глобальное обобщение, так и локальное извлечение информации. 3) Тестовый набор также включает набор парных задач на восприятие и рассуждение, начиная от восприятия визуального текста и заканчивая кросс-модальными рассуждениями между текстовой и визуальной информацией. Эксперименты с 18 современными крупными мультимодальными моделями (LMM) показывают, что текущие модели испытывают трудности в большинстве задач, оставляя значительный простор для улучшений. Дополнительный анализ подчеркивает влияние как внутренних факторов модели, таких как разрешение входных данных и возможности OCR, так и внешних факторов, включая использование вспомогательной информации и стратегий рассуждения по цепочке мыслей (Chain-of-Thought). Мы надеемся, что VidText заполнит существующий пробел в тестовых наборах для понимания видео и станет основой для будущих исследований мультимодального рассуждения с текстом в динамических видео.
Разработка базовых моделей обработки речи (Speech Foundation Models, SFMs), таких как Whisper и SeamlessM4T, значительно продвинула область обработки речи. Однако их закрытый характер — с недоступными обучающими данными и кодом — создает серьезные проблемы для воспроизводимости и объективной оценки. В то время как в других областях был достигнут существенный прогресс в направлении открытой науки благодаря созданию полностью прозрачных моделей, обученных на открытом исходном коде (Open Source, OS) и данных, аналогичные усилия в области обработки речи остаются ограниченными. Чтобы восполнить этот пробел, мы представляем FAMA — первое семейство SFM для открытой науки, поддерживающее английский и итальянский языки и обученное на более чем 150 тысячах часов открытых речевых данных. Кроме того, мы представляем новый набор данных, содержащий 16 тысяч часов очищенной и псевдоразмеченной речи для обоих языков. Результаты показывают, что FAMA демонстрирует конкурентоспособную производительность по сравнению с существующими SFM, при этом работая до 8 раз быстрее. Все артефакты, включая код, наборы данных и модели, выпущены под лицензиями, соответствующими принципам открытого исходного кода, что способствует открытости в исследованиях речевых технологий.
Ударение в предложении относится к акцентированию определенных слов в устной речи для выделения или противопоставления идеи, либо для введения новой информации. Оно часто используется для подразумевания скрытого намерения, которое не выражено явно. Последние достижения в речевых языковых моделях (SLM) позволили напрямую обрабатывать аудио, что дает моделям возможность обходить транскрипцию и использовать всю полноту речевого сигнала для выполнения задач, таких как ответы на устные вопросы. Несмотря на ключевую роль ударения в формировании смысла и намерений говорящего, оно остается в значительной степени упущенным при оценке и разработке таких моделей. В данной работе мы устраняем этот пробел, представляя StressTest — эталонный тест, специально разработанный для оценки способности модели различать интерпретации устных предложений на основе паттерна ударения. Мы оцениваем производительность нескольких ведущих SLM и обнаруживаем, что, несмотря на их общие возможности, они плохо справляются с такими задачами. Чтобы преодолеть это ограничение, мы предлагаем новый подход к генерации синтетических данных и создаем Stress17k — обучающий набор, который моделирует изменение смысла, подразумеваемого вариациями ударения. Затем мы эмпирически показываем, что оптимизация моделей с использованием этого синтетического набора данных хорошо согласуется с реальными аудиозаписями и позволяет эффективно дообучать SLM. Результаты показывают, что наша дообученная модель, StresSLM, значительно превосходит существующие модели как в задачах анализа ударения в предложениях, так и в задачах его обнаружения. Код, модели, данные и аудиообразцы доступны по адресу: pages.cs.huji.ac.il/adiyoss-lab/stresstest.
Безопасное рассуждение — это новый подход, в котором большие языковые модели (LLM) анализируют политики безопасности перед генерацией ответов, что позволяет смягчить ограничения существующих мер безопасности, такие как чрезмерный отказ и уязвимости к взлому. Однако реализация этого подхода сопряжена с трудностями из-за ресурсоемкого процесса создания высококачественных наборов данных с встроенными цепочками рассуждений (CoT), которые соответствуют политикам, сохраняя при этом точность и избегая галлюцинаций или конфликтов политик. Для решения этой проблемы мы предлагаем AIDSAFE: Agentic Iterative Deliberation for Safety Reasoning — новый метод генерации данных, который использует многоагентное обсуждение для итеративного расширения рассуждений о политиках безопасности. Этап уточнения данных в AIDSAFE обеспечивает высокое качество выходных данных, устраняя повторяющиеся, избыточные и обманчивые мысли. CoT, сгенерированные с помощью AIDSAFE, предоставляют прочную основу для обучения безопасности на основе контролируемой тонкой настройки (SFT). Кроме того, для удовлетворения потребности в данных о предпочтениях на этапах согласования, таких как обучение DPO, мы предлагаем дополнительный метод, использующий усиление убеждений для создания четко различимых примеров выбранных и отклоненных CoT. Наши оценки показывают, что CoT, сгенерированные с помощью AIDSAFE, достигают превосходного соответствия политикам и качества рассуждений. В результате мы демонстрируем, что тонкая настройка открытых LLM на этих CoT может значительно улучшить обобщение безопасности и устойчивость к взлому, сохраняя при этом приемлемую полезность и точность в предотвращении чрезмерного отказа. Наборы данных CoT, созданные с помощью AIDSAFE, доступны здесь: https://huggingface.co/datasets/AmazonScience/AIDSAFE.
Последовательные модели, такие как трансформеры, требуют, чтобы входные данные были представлены в виде одномерных последовательностей. В задачах компьютерного зрения это обычно включает преобразование изображений в одномерный формат с использованием фиксированного порядка построчного сканирования (растрового порядка). Хотя полное самовнимание является перестановочно-инвариантным, современные трансформеры для работы с длинными последовательностями всё чаще полагаются на архитектурные аппроксимации, которые нарушают эту инвариантность и вводят чувствительность к порядку патчей. Мы показываем, что порядок патчей существенно влияет на производительность модели в таких условиях, причём простые альтернативы, такие как порядок по столбцам или кривые Гильберта, приводят к заметным изменениям точности. Вдохновлённые этим, мы предлагаем REOrder — двухэтапную структуру для поиска оптимального порядка патчей для конкретной задачи. Сначала мы выводим информационно-теоретический априор, оценивая сжимаемость различных последовательностей патчей. Затем мы обучаем политику над перестановками, оптимизируя политику Плэккетта-Льюса с использованием алгоритма REINFORCE. Этот подход позволяет эффективно обучаться в комбинаторном пространстве перестановок. REOrder улучшает точность top-1 по сравнению с порядком построчного сканирования на ImageNet-1K до 3,01% и на Functional Map of the World на 13,35%.
Теоретическое доказательство служит важной площадкой для оценки сложных способностей к рассуждению в больших языковых моделях (LLM). Однако традиционные подходы к автоматизированному доказательству теорем (ATP) в значительной степени опираются на формальные системы доказательств, которые плохо согласуются с сильными сторонами LLM, основанными на неформальных знаниях, полученных в ходе предварительного обучения на естественном языке. В данной работе мы предлагаем DeepTheorem — всеобъемлющую неформальную систему доказательства теорем, использующую естественный язык для улучшения математического рассуждения в LLM. DeepTheorem включает в себя масштабный эталонный набор данных, состоящий из 121 тыс. высококачественных неформальных теорем и доказательств уровня Международной математической олимпиады (IMO), охватывающих различные математические области, тщательно аннотированных на предмет корректности, сложности и тематических категорий, а также сопровождаемых систематически сконструированными проверяемыми вариантами теорем. Мы разрабатываем новую стратегию обучения с подкреплением (RL-Zero), специально адаптированную для неформального доказательства теорем, которая использует проверенные варианты теорем для стимулирования устойчивого математического вывода. Кроме того, мы предлагаем всеобъемлющие метрики оценки результатов и процесса, анализирующие корректность доказательств и качество шагов рассуждения. Обширные экспериментальные анализы демонстрируют, что DeepTheorem значительно улучшает производительность LLM в доказательстве теорем по сравнению с существующими наборами данных и протоколами контролируемого тонкого настройки, достигая передовой точности и качества рассуждений. Наши результаты подчеркивают потенциал DeepTheorem для фундаментального продвижения автоматизированного неформального доказательства теорем и математических исследований.
Унифицированные модели генерации направлены на решение разнообразных задач в различных модальностях — таких как генерация текста, генерация изображений и рассуждения на основе визуально-языковых данных — в рамках единой архитектуры и парадигмы декодирования. Авторегрессивные унифицированные модели страдают от медленного вывода из-за последовательного декодирования, а неавторегрессивные унифицированные модели демонстрируют слабую обобщающую способность из-за ограниченных предобученных базовых моделей. Мы представляем Muddit — унифицированный трансформер с дискретным диффузионным процессом, который обеспечивает быструю и параллельную генерацию как для текстовой, так и для визуальной модальностей. В отличие от предыдущих унифицированных диффузионных моделей, обучаемых с нуля, Muddit интегрирует сильные визуальные априорные знания из предобученной модели для генерации изображений по тексту с легковесным текстовым декодером, что позволяет осуществлять гибкую и качественную мультимодальную генерацию в рамках единой архитектуры. Экспериментальные результаты показывают, что Muddit достигает конкурентоспособного или превосходящего качества и эффективности по сравнению с значительно более крупными авторегрессивными моделями. Данная работа подчеркивает потенциал чисто дискретного диффузионного подхода, оснащенного сильными визуальными априорными знаниями, в качестве масштабируемой и эффективной базовой модели для унифицированной генерации.
Алгоритмы обучения с подкреплением играют ключевую роль в согласовании крупных языковых моделей с человеческими предпочтениями и в улучшении их способностей к рассуждению. Однако современные алгоритмы обучения с подкреплением часто страдают от нестабильности обучения из-за слабых ограничений на политику и низкой вычислительной эффективности, вызванной использованием вспомогательных моделей. В данной работе мы предлагаем On-Policy RL with Optimal reward baseline (OPO) — новый и упрощённый алгоритм обучения с подкреплением, разработанный для решения этих проблем. OPO подчеркивает важность точного обучения на основе текущей политики, что эмпирически стабилизирует процесс обучения и улучшает исследование. Кроме того, OPO вводит оптимальный базовый уровень вознаграждения, который теоретически минимизирует дисперсию градиента. Мы оцениваем OPO на задачах математического рассуждения. Результаты демонстрируют его превосходную производительность и стабильность обучения без использования дополнительных моделей или регуляризационных членов. Более того, OPO достигает меньших сдвигов политики и более высокой энтропии выходных данных, способствуя более разнообразным и менее повторяющимся ответам. Эти результаты подчеркивают OPO как перспективное направление для стабильного и эффективного обучения с подкреплением в задачах согласования и рассуждения крупных языковых моделей. Реализация доступна по адресу https://github.com/microsoft/LMOps/tree/main/opo.
Последние достижения в области агентов на основе больших языковых моделей (LLM) значительно ускорили автоматизацию научных открытий, но одновременно вызвали серьезные этические и вопросы безопасности. Для систематического решения этих проблем мы представляем SafeScientist — инновационную структуру AI-ученого, специально разработанную для повышения безопасности и этической ответственности в научных исследованиях, управляемых ИИ. SafeScientist активно отказывается от выполнения этически неприемлемых или высокорисковых задач и строго акцентирует внимание на безопасности на протяжении всего исследовательского процесса. Для обеспечения всестороннего контроля безопасности мы интегрируем несколько защитных механизмов, включая мониторинг запросов, мониторинг взаимодействия агентов, мониторинг использования инструментов и компонент этической оценки. В дополнение к SafeScientist мы предлагаем SciSafetyBench — новый эталонный тест, специально разработанный для оценки безопасности ИИ в научных контекстах, включающий 240 высокорисковых научных задач в 6 областях, а также 30 специально разработанных научных инструментов и 120 задач, связанных с рисками использования инструментов. Многочисленные эксперименты показывают, что SafeScientist значительно улучшает показатели безопасности на 35\% по сравнению с традиционными структурами AI-ученого, не снижая качества научных результатов. Кроме того, мы тщательно проверяем устойчивость нашей системы безопасности к различным методам атак, что дополнительно подтверждает эффективность нашего интегрированного подхода. Код и данные будут доступны по адресу https://github.com/ulab-uiuc/SafeScientist. red{Внимание: в данной статье содержатся примеры данных, которые могут быть оскорбительными или вредными.}
Последние достижения в области мировых моделей произвели революцию в симуляции динамических сред, позволив системам предвидеть будущие состояния и оценивать потенциальные действия. В автономном вождении эти возможности помогают транспортным средствам предугадывать поведение других участников дорожного движения, осуществлять планирование с учетом рисков, ускорять обучение в симуляциях и адаптироваться к новым сценариям, тем самым повышая безопасность и надежность. Современные подходы демонстрируют недостатки в поддержании устойчивой 3D-геометрической согласованности или накоплении артефактов при обработке окклюзий, что критически важно для надежной оценки безопасности в задачах автономной навигации. Для решения этой проблемы мы представляем GeoDrive, который явно интегрирует устойчивые 3D-геометрические условия в модели мира для вождения, чтобы улучшить пространственное понимание и управляемость действий. В частности, мы сначала извлекаем 3D-представление из входного кадра, а затем получаем его 2D-рендеринг на основе заданной пользователем траектории эго-автомобиля. Для обеспечения динамического моделирования мы предлагаем модуль динамического редактирования во время обучения, который улучшает рендеринг путем изменения позиций транспортных средств. Многочисленные эксперименты показывают, что наш метод значительно превосходит существующие модели как по точности действий, так и по осознанию 3D-пространства, что приводит к более реалистичному, адаптивному и надежному моделированию сцен для более безопасного автономного вождения. Кроме того, наша модель способна обобщать новые траектории и предлагает возможности интерактивного редактирования сцен, такие как редактирование объектов и управление их траекториями.
Цепочка рассуждений (Chain-of-Thought, CoT) позволяет большим языковым моделям (LLM) выходить за рамки быстрых ответов Системы-1 и включаться в более обдуманное рассуждение Системы-2. Однако это достигается за счет значительной неэффективности, вызванной многословными промежуточными выводами. Недавние методы рассуждений в латентном пространстве повышают эффективность, работая со скрытыми состояниями без декодирования в язык, но они рассматривают все шаги одинаково, не различая ключевые выводы от вспомогательных шагов, что приводит к неоптимальному использованию вычислительных ресурсов. В данной работе мы предлагаем рассуждения Системы-1.5 — адаптивную структуру рассуждений, которая динамически распределяет вычисления между шагами через сокращенные пути в латентном пространстве. В частности, рассуждения Системы-1.5 вводят два типа динамических сокращений. Сокращение по глубине модели (DS) адаптивно рассуждает по вертикальной глубине, позволяя некритичным токенам завершаться раньше через легковесные адаптерные ветви, в то время как критичные токены продолжают проходить через более глубокие слои трансформера. Сокращение по шагам (SS) повторно использует скрытые состояния между шагами декодирования, чтобы пропускать тривиальные шаги и рассуждать горизонтально в латентном пространстве. Обучение рассуждений Системы-1.5 включает двухэтапный процесс самодистилляции: сначала дистилляция естественноязыковой CoT в непрерывное рассуждение в латентном пространстве, а затем дистилляция полного пути рассуждений Системы-2 в адаптивные сокращенные пути (рассуждения Системы-1.5). Эксперименты на задачах рассуждения демонстрируют превосходную производительность нашего метода. Например, на GSM8K рассуждения Системы-1.5 достигают качества рассуждений, сопоставимого с традиционными методами тонкой настройки CoT, при этом ускоряя вывод более чем в 20 раз и сокращая генерацию токенов в среднем на 92,31%.
Консультации между врачом и пациентом требуют многоэтапного, контекстно-зависимого общения, адаптированного к различным типам пациентов. Обучение или оценка языковых моделей (LLM) для врачей в таких условиях требует реалистичных систем взаимодействия с пациентами. Однако существующие симуляторы часто не отражают всего спектра типов пациентов, встречающихся в клинической практике. Для решения этой проблемы мы представляем PatientSim — симулятор пациента, который генерирует реалистичные и разнообразные типы пациентов для клинических сценариев, основываясь на медицинской экспертизе. PatientSim работает с использованием: 1) клинических профилей, включающих симптомы и медицинскую историю, полученных из реальных данных наборов MIMIC-ED и MIMIC-IV, и 2) типов пациентов, определяемых четырьмя параметрами: личность, уровень владения языком, уровень запоминания медицинской истории и уровень когнитивной спутанности, что приводит к 37 уникальным комбинациям. Мы оценили восемь LLM на предмет фактической точности и согласованности с типом пациента. Лучшая модель с открытым исходным кодом, Llama 3.3, была проверена четырьмя клиницистами для подтверждения надежности нашей системы. Как открытая и настраиваемая платформа, PatientSim предоставляет воспроизводимое и масштабируемое решение, которое может быть адаптировано для конкретных учебных задач. Предоставляя среду, соответствующую требованиям конфиденциальности, она служит надежным тестовым стендом для оценки медицинских диалоговых систем в различных клинических ситуациях и демонстрирует потенциал в качестве образовательного инструмента для здравоохранения.
Крупные языковые модели (LLM), основанные на архитектуре Transformer, кэшируют контекст в виде пар ключ-значение (KV) во время вывода. По мере увеличения длины контекста размеры KV-кэша растут, что приводит к значительным накладным расходам по памяти и увеличению задержки внимания. В данной статье представлен метод KVzip, не зависящий от запросов способ вытеснения KV-кэша, который позволяет эффективно повторно использовать сжатые KV-кэши для различных запросов. KVzip оценивает важность пары KV с использованием базовой LLM для восстановления исходного контекста из кэшированных пар KV, после чего вытесняет пары с меньшей важностью. Обширные эмпирические оценки показывают, что KVzip сокращает размер KV-кэша в 3–4 раза и задержку декодирования FlashAttention примерно в 2 раза при незначительной потере производительности в задачах ответов на вопросы, поиска, рассуждений и понимания кода. Оценки включают различные модели, такие как LLaMA3.1-8B, Qwen2.5-14B и Gemma3-12B, с длиной контекста до 170 тысяч токенов. KVzip значительно превосходит существующие методы вытеснения KV, зависящие от запросов, которые демонстрируют снижение производительности даже при 90% бюджете кэша в сценариях с множественными запросами.
Диффузионные модели продемонстрировали выдающееся качество генерации, однако за счет значительного количества вычислений функций. Недавно были разработаны продвинутые решатели на основе обыкновенных дифференциальных уравнений (ODE), чтобы смягчить высокие вычислительные затраты, связанные с решением обратной диффузии при ограниченном количестве шагов выборки. Однако эти решатели, вдохновленные многошаговыми методами типа Адамса, полагаются исключительно на интерполяцию Лагранжа, связанную с временным параметром \( t \). Мы показываем, что такая интерполяция является неоптимальной для диффузионных моделей, и раскрываем компактное пространство поиска, состоящее из временных шагов и коэффициентов решателя. На основе нашего анализа мы предлагаем новый дифференцируемый алгоритм поиска решателя, который позволяет находить более оптимальные решения. Оснащенные найденным решателем, модели с исправленным потоком, такие как SiT-XL/2 и FlowDCN-XL/2, достигают показателей FID 2.40 и 2.35 соответственно на ImageNet256 всего за 10 шагов. В то же время модель DDPM, DiT-XL/2, достигает показателя FID 2.33 также за 10 шагов. Примечательно, что наш найденный решатель значительно превосходит традиционные решатели. Более того, он демонстрирует универсальность, работая с различными архитектурами моделей, разрешениями и размерами моделей.
Существующие тестовые наборы для оценки понимания видео часто смешивают вопросы, основанные на знаниях, и вопросы, основанные исключительно на изображениях, вместо того чтобы четко изолировать способность модели к временному рассуждению, что является ключевым аспектом, отличающим понимание видео от других модальностей. Мы выделяем два основных ограничения, которые затрудняют определение того, действительно ли более высокие баллы свидетельствуют о лучшем понимании динамического содержания видео: (1) сильные языковые априори, когда модели могут отвечать на вопросы без просмотра видео; и (2) инвариантность к перемешиванию, когда модели сохраняют схожую производительность на определенных вопросах даже при временном перемешивании кадров видео. Для устранения этих проблем мы предлагаем VBenchComp, автоматизированный процесс, который классифицирует вопросы на различные домены: LLM-Answerable (вопросы, на которые можно ответить без просмотра видео), Semantic (вопросы, на которые можно ответить даже при перемешивании кадров видео) и Temporal (вопросы, требующие понимания правильного временного порядка кадров). Остальные вопросы помечаются как Others. Это позволяет проводить детальную оценку различных способностей видео-LLM. Наш анализ выявляет скрытые слабости моделей, которые не проявляются в традиционных общих баллах, и мы предлагаем рекомендации для разработки будущих тестовых наборов, которые более точно оценивают видео-LLM.
Генерация видео достигла значительных успехов с появлением глубоких генеративных моделей, особенно подходов на основе диффузии. Однако генерация видео на основе нескольких референсных объектов по-прежнему сталкивается с серьезными проблемами в поддержании согласованности между несколькими объектами и обеспечении высокого качества генерации. В данной статье мы представляем MAGREF, унифицированную структуру для генерации видео с любыми референсами, которая вводит маскированное управление для создания согласованных видео с несколькими объектами, основанных на разнообразных референсных изображениях и текстовом запросе. В частности, мы предлагаем (1) механизм динамического маскирования с учетом регионов, который позволяет одной модели гибко обрабатывать различные объекты, включая людей, объекты и фоны, без изменения архитектуры, и (2) механизм поэлементной конкатенации каналов, работающий на уровне каналов для лучшего сохранения визуальных характеристик. Наша модель демонстрирует наивысшее качество генерации видео, обобщаясь от обучения на одном объекте до сложных сценариев с несколькими объектами, обеспечивая согласованную синтезацию и точный контроль над каждым объектом, превосходя существующие открытые и коммерческие базовые подходы. Для облегчения оценки мы также представляем комплексный бенчмарк для видео с несколькими объектами. Многочисленные эксперименты подтверждают эффективность нашего подхода, прокладывая путь к масштабируемой, управляемой и высококачественной синтезации видео с несколькими объектами. Код и модель доступны по адресу: https://github.com/MAGREF-Video/MAGREF.
Крупные языковые модели (LLMs) демонстрируют перспективный потенциал в убеждении, однако существующие работы по обучению LLM-убеждающих агентов остаются предварительными. В частности, хотя люди обладают навыками активного и динамичного моделирования мыслей и мнений оппонента, современные LLM испытывают трудности с таким рассуждением, основанным на теории сознания (Theory of Mind, ToM), что приводит к ограниченному разнообразию и осведомленности о позиции оппонента. Для устранения этого ограничения мы представляем подход Theory of Mind Augmented Persuader (ToMAP), который позволяет создавать более гибких убеждающих агентов за счет включения двух модулей теории сознания, повышающих осведомленность и анализ ментального состояния оппонента. В частности, мы начинаем с того, что побуждаем убеждающего агента рассмотреть возможные возражения против целевого основного утверждения, а затем используем текстовый кодировщик в сочетании с обученным классификатором на основе MLP для предсказания текущей позиции оппонента по этим контраргументам. Наша тщательно разработанная схема обучения с подкреплением позволяет агенту научиться анализировать информацию, связанную с оппонентом, и использовать ее для генерации более эффективных аргументов. Эксперименты показывают, что убеждающий агент ToMAP, содержащий всего 3 миллиарда параметров, превосходит значительно более крупные базовые модели, такие как GPT-4o, с относительным приростом в 39,4% на множестве моделей убеждаемых и различных корпусов. Важно отметить, что ToMAP демонстрирует сложные цепочки рассуждений и снижение повторений в процессе обучения, что приводит к более разнообразным и эффективным аргументам. Функция осведомленности об оппоненте также делает ToMAP подходящим для длительных диалогов и позволяет ему использовать более логичные и учитывающие позицию оппонента стратегии. Эти результаты подчеркивают эффективность нашего метода и выделяют его потенциал для разработки более убедительных языковых агентов. Код доступен по адресу: https://github.com/ulab-uiuc/ToMAP.
В данной работе мы объединяем более 10 существующих подходов к одношаговой диффузионной дистилляции, таких как Diff-Instruct, DMD, SIM, SiD, f-distill и другие, в рамках теоретически обоснованной структуры, которую мы называем \emph{Uni-Instruct}. Uni-Instruct мотивирован предложенной нами теорией расширения диффузии для семейства f-дивергенций. Затем мы представляем ключевые теории, которые преодолевают проблему вычислительной сложности исходной расширенной f-дивергенции, что приводит к эквивалентной, но вычислительно эффективной функции потерь, которая успешно обучает одношаговые диффузионные модели за счет минимизации расширенного семейства f-дивергенций. Новое объединение, предложенное Uni-Instruct, не только вносит теоретический вклад, помогающий понять существующие подходы с более высокой точки зрения, но также приводит к передовым результатам в одношаговой диффузионной генерации. На эталонном тесте генерации CIFAR10 Uni-Instruct достигает рекордных значений Frechet Inception Distance (FID) \emph{1.46} для безусловной генерации и \emph{1.38} для условной генерации. На эталонном тесте генерации ImageNet-64×64 Uni-Instruct устанавливает новый рекорд одношаговой генерации с FID \emph{1.02}, что превосходит его 79-шаговую учительскую диффузию с значительным улучшением на 1.33 (1.02 против 2.35). Мы также применяем Uni-Instruct к более широким задачам, таким как генерация текста в 3D. Для генерации текста в 3D Uni-Instruct демонстрирует достойные результаты, слегка превосходя предыдущие методы, такие как SDS и VSD, как по качеству генерации, так и по разнообразию. Как теоретические, так и эмпирические достижения Uni-Instruct могут способствовать будущим исследованиям в области одношаговой диффузионной дистилляции и передачи знаний в диффузионных моделях.
Разделение аудиоисточников является фундаментальной задачей для машин, стремящихся понимать сложные акустические среды, и лежит в основе множества аудиоприложений. Современные подходы с использованием контролируемого глубокого обучения, хотя и мощные, ограничены необходимостью в обширных, специфичных для задачи размеченных данных и испытывают трудности с обобщением на огромную изменчивость и открытый характер реальных акустических сцен. Вдохновленные успехами генеративных базовых моделей, мы исследуем, могут ли предобученные аудиодиффузионные модели с текстовым управлением преодолеть эти ограничения. Мы делаем удивительное открытие: разделение источников без предварительного обучения (zero-shot) может быть достигнуто исключительно с помощью предобученной аудиодиффузионной модели с текстовым управлением при правильной конфигурации. Наш метод, названный ZeroSep, работает путем инвертирования смешанного аудио в латентное пространство диффузионной модели, а затем использует текстовое управление для направления процесса удаления шума с целью восстановления отдельных источников. Без какого-либо специфичного для задачи обучения или дообучения ZeroSep перепрофилирует генеративную диффузионную модель для задачи дискриминативного разделения и изначально поддерживает открытые сценарии благодаря своим богатым текстовым априорным знаниям. ZeroSep совместим с различными предобученными аудиодиффузионными моделями с текстовым управлением и демонстрирует высокую производительность на множестве бенчмарков для разделения, превосходя даже контролируемые методы.
Крупные языковые модели (LLM) генерируют функционально корректные решения, но часто уступают в эффективности кода, что является критическим узким местом для реального применения. В данной статье мы представляем новую структуру итеративной оптимизации на этапе тестирования, используя замкнутую систему, в которой LLM итеративно улучшают код на основе эмпирической обратной связи от исполнения в песочнице. Мы исследуем три стратегии обучения: тонкую настройку с учителем (SFT), оптимизацию прямых предпочтений (DPO) и групповую относительную оптимизацию политик (GRPO). Эксперименты на нашем наборе данных Venus и бенчмарке APPS показывают, что SFT и DPO быстро достигают предела в улучшении эффективности. В отличие от них, GRPO, использующая обучение с подкреплением (RL) с обратной связью от исполнения, непрерывно оптимизирует производительность кода, значительно повышая как показатель pass@1 (с 47% до 62%), так и вероятность превосходства по эффективности над решениями, созданными людьми (с 31% до 45%). Наша работа демонстрирует эффективное улучшение эффективности кода на этапе тестирования и подчеркивает мощь RL в обучении LLM действительно самостоятельно повышать эффективность кода.
Мы предлагаем унифицированную систему управления движением в генерации видео, которая бесшовно интегрирует движение камеры, трансляцию на уровне объектов и мелкозернистое локальное движение с использованием входных данных на основе траекторий. В отличие от предыдущих методов, которые решают эти типы движения через отдельные модули или специализированные конструкции, наш подход предлагает целостное решение, проецируя пользовательские траектории в латентное пространство предварительно обученных моделей генерации видео из изображений с помощью легковесного инжектора движения. Пользователи могут задавать ключевые точки и их пути движения для управления локализованными деформациями, движением целых объектов, динамикой виртуальной камеры или их комбинациями. Введенные сигналы траектории направляют генеративный процесс для создания временно согласованных и семантически выровненных последовательностей движения. Наша система демонстрирует превосходную производительность в различных задачах управления движением в видео, включая стилизованные эффекты движения (например, "кисти движения"), динамические изменения точки обзора и точное манипулирование локальным движением. Эксперименты показывают, что наш метод обеспечивает значительно лучшую управляемость и визуальное качество по сравнению с предыдущими подходами и коммерческими решениями, оставаясь при этом широко совместимым с различными современными архитектурами генерации видео. Страница проекта: https://anytraj.github.io/.
Диффузионные Трансформеры (DiT) стали стандартной моделью для генерации высококачественного визуального контента, такого как видео и изображения. Основным узким местом является механизм внимания, сложность которого растет квадратично с увеличением разрешения и длины видео. Логичным способом снизить эту нагрузку является использование разреженного внимания, при котором в расчет включается только подмножество токенов или патчей. Однако существующие методы не сохраняют визуальное качество при крайне высоких уровнях разреженности и могут даже приводить к значительным вычислительным накладным расходам. % Для решения этой проблемы мы предлагаем Re-ttention, который реализует очень высокое разреженное внимание для моделей визуальной генерации, используя временную избыточность Диффузионных Моделей для преодоления сдвига вероятностной нормализации в механизме внимания. В частности, Re-ttention переформирует оценки внимания на основе истории предыдущих распределений softmax, чтобы сохранить визуальное качество полного квадратичного внимания при очень высоких уровнях разреженности. % Экспериментальные результаты на моделях T2V/T2I, таких как CogVideoX и PixArt DiTs, демонстрируют, что Re-ttention требует всего 3.1% токенов во время вывода, превосходя современные методы, такие как FastDiTAttn, Sparse VideoGen и MInference. Кроме того, мы измеряем задержку, чтобы показать, что наш метод может достичь более 45% сокращения сквозной задержки и более 92% сокращения задержки само-внимания на GPU H100 при незначительных накладных расходах. Код доступен онлайн здесь: https://github.com/cccrrrccc/Re-ttention{https://github.com/cccrrrccc/Re-ttention}
Мы обучили 13 440 крупных языковых моделей и обнаружили, что минимизация энтропии требует всего одного неразмеченного примера данных и 10 шагов оптимизации для достижения улучшений в производительности, сопоставимых или даже превосходящих результаты, полученные с использованием тысяч примеров данных и тщательно разработанных наград в обучении с подкреплением на основе правил. Этот поразительный результат может побудить к пересмотру парадигм пост-обучения для крупных языковых моделей. Наш код доступен по адресу https://github.com/zitian-gao/one-shot-em.
Ребусы, визуальные головоломки, кодирующие язык через образы, пространственное расположение и символические замены, представляют уникальную задачу для современных моделей обработки зрения и языка (VLMs). В отличие от традиционных задач, таких как генерация подписей к изображениям или ответы на вопросы, решение ребусов требует многомодальной абстракции, символического мышления и понимания культурных, фонетических и лингвистических каламбуров. В данной статье мы исследуем способность современных VLMs интерпретировать и решать ребусы, создавая вручную аннотированный набор разнообразных англоязычных ребусов, начиная от простых пиктографических замен до пространственно-зависимых подсказок (например, "head" над "heels"). Мы анализируем, как различные VLMs справляются с этими задачами, и наши результаты показывают, что, хотя модели демонстрируют удивительные способности в расшифровке простых визуальных подсказок, они значительно затрудняются с задачами, требующими абстрактного мышления, нестандартного подхода и понимания визуальных метафор.
Недавние крупные модели рассуждений (LRMs) с трассировкой мышления продемонстрировали высокую производительность в задачах на рассуждение на английском языке. Однако их способность мыслить на других языках изучена в меньшей степени. Эта способность так же важна, как и точность ответов, для реальных приложений, поскольку пользователи могут находить трассировку рассуждений полезной для контроля только в том случае, если она выражена на их родном языке. Мы всесторонне оцениваем две ведущие семейства LRMs на нашем бенчмарке XReasoning и обнаруживаем, что даже самые передовые модели часто возвращаются к английскому языку или создают фрагментированные рассуждения на других языках, что указывает на существенный разрыв в многоязычных рассуждениях. Вмешательства на основе промтов, которые заставляют модели рассуждать на языке пользователя, улучшают читаемость и контроль, но снижают точность ответов, выявляя важный компромисс. Мы также показываем, что целевое пост-обучение всего на 100 примерах смягчает это несоответствие, хотя некоторая потеря точности сохраняется. Наши результаты подчеркивают ограниченные возможности многоязычных рассуждений современных LRMs и намечают направления для будущих исследований. Код и данные доступны по адресу https://github.com/Betswish/mCoT-XReasoning.
Последние достижения в области крупных визуально-языковых моделей (LVLMs) открыли перспективные возможности для применения в медицинских задачах, таких как генерация отчетов и визуальный вопросно-ответный анализ. Однако существующие бенчмарки в основном сосредоточены на итоговом диагностическом ответе, предоставляя ограниченное понимание того, используют ли модели клинически значимые рассуждения. Для решения этой проблемы мы представляем CheXStruct и CXReasonBench — структурированный конвейер и бенчмарк, созданные на основе общедоступного набора данных MIMIC-CXR-JPG. CheXStruct автоматически извлекает последовательность промежуточных шагов рассуждения непосредственно из рентгеновских снимков грудной клетки, таких как сегментация анатомических областей, определение анатомических ориентиров и диагностических измерений, вычисление диагностических индексов и применение клинических порогов. CXReasonBench использует этот конвейер для оценки того, могут ли модели выполнять клинически валидные шаги рассуждения и в какой степени они способны обучаться на основе структурированных указаний, что позволяет проводить детальную и прозрачную оценку диагностических рассуждений. Бенчмарк включает 18 988 пар вопросов и ответов по 12 диагностическим задачам и 1 200 случаев, каждый из которых сопровождается до 4 визуальных входных данных, и поддерживает многопутевую, многоэтапную оценку, включая визуальное закрепление через выбор анатомических областей и диагностические измерения. Даже самые мощные из 10 протестированных LVLMs испытывают трудности со структурированными рассуждениями и обобщением, часто не справляясь с соединением абстрактных знаний с анатомически обоснованной визуальной интерпретацией. Код доступен по адресу https://github.com/ttumyche/CXReasonBench.
Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), продемонстрировали высокие способности в согласовании визуальных и текстовых модальностей, что открывает широкие возможности для применения в задачах многомодального понимания и генерации. Несмотря на их эффективность в сценариях обучения с нуля и трансферного обучения, VLMs остаются уязвимыми к ошибкам классификации, часто выдавая уверенные, но некорректные предсказания. Это ограничение представляет значительный риск в критически важных для безопасности областях, где ошибочные предсказания могут привести к серьезным последствиям. В данной работе мы представляем TrustVLM — не требующий дополнительного обучения фреймворк, разработанный для решения ключевой задачи оценки надежности предсказаний VLMs. Вдохновленные наблюдаемым разрывом между модальностями в VLMs и инсайтом, что определенные концепции более четко представлены в пространстве изображений, мы предлагаем новую функцию оценки уверенности, которая использует это пространство для улучшения обнаружения ошибок классификации. Мы тщательно оцениваем наш подход на 17 разнообразных наборах данных, используя 4 архитектуры и 2 VLMs, и демонстрируем передовые результаты с улучшением до 51,87% в AURC, 9,14% в AUROC и 32,42% в FPR95 по сравнению с существующими базовыми методами. Улучшая надежность модели без необходимости переобучения, TrustVLM прокладывает путь для более безопасного внедрения VLMs в реальных приложениях. Код будет доступен по адресу https://github.com/EPFL-IMOS/TrustVLM.
Мы представляем UniTEX — новый двухэтапный фреймворк для генерации 3D-текстур, позволяющий создавать высококачественные и согласованные текстуры для 3D-объектов. Существующие подходы в основном полагаются на UV-инпейнтинг для уточнения текстур после репроекции сгенерированных изображений с нескольких ракурсов на 3D-формы, что приводит к проблемам, связанным с топологической неоднозначностью. Чтобы решить эту задачу, мы предлагаем обойти ограничения UV-мэппинга, работая непосредственно в унифицированном 3D-функциональном пространстве. В частности, мы сначала предлагаем перенести генерацию текстур в 3D-пространство с помощью Текстурирующих Функций (Texture Functions, TFs) — непрерывного объемного представления, которое отображает любую 3D-точку в текстуру на основе близости к поверхности, независимо от топологии сетки. Затем мы предлагаем предсказывать эти TFs напрямую из изображений и геометрических данных с использованием трансформерной модели Large Texturing Model (LTM). Для дальнейшего повышения качества текстур и использования мощных 2D-приоров мы разработали продвинутую стратегию на основе LoRA, позволяющую эффективно адаптировать крупномасштабные Diffusion Transformers (DiTs) для высококачественного синтеза текстур с нескольких ракурсов на первом этапе. Многочисленные эксперименты демонстрируют, что UniTEX достигает превосходного визуального качества и целостности текстур по сравнению с существующими подходами, предлагая обобщаемое и масштабируемое решение для автоматической генерации 3D-текстур. Код будет доступен по адресу: https://github.com/YixunLiang/UniTEX.
Гауссово разбиение (Gaussian Splatting, GS) недавно появилось как эффективное представление для рендеринга 3D-сцен из 2D-изображений и было расширено для работы с изображениями, видео и динамическим 4D-контентом. Однако применение переноса стиля к представлениям на основе GS, особенно за пределами простых изменений цвета, остается сложной задачей. В данной работе мы представляем CLIPGaussians — первую унифицированную структуру для переноса стиля, которая поддерживает стилизацию, управляемую текстом и изображениями, для множества модальностей: 2D-изображений, видео, 3D-объектов и 4D-сцен. Наш метод работает непосредственно с гауссовыми примитивами и интегрируется в существующие GS-конвейеры в качестве подключаемого модуля, не требуя использования крупных генеративных моделей или повторного обучения с нуля. Подход CLIPGaussians позволяет совместно оптимизировать цвет и геометрию в 3D и 4D-сценах, обеспечивает временную согласованность в видео, сохраняя при этом размер модели. Мы демонстрируем превосходную точность и согласованность стиля во всех задачах, подтверждая CLIPGaussians как универсальное и эффективное решение для мультимодального переноса стиля.
Существующие методы дистилляции цепочки рассуждений (CoT) эффективно передают способности к рассуждению базовым моделям, но страдают от двух основных ограничений: чрезмерной многословности трассировок рассуждений и недостаточной адаптивности к сложности задачи. Длинные трассировки рассуждений значительно увеличивают затраты на вывод, а решения фиксированной длины не позволяют базовым моделям обучаться адаптивным стратегиям рассуждения. Для решения этих проблем мы предлагаем метод динамического сокращения трассировок рассуждений без потери производительности, основанный на осведомленности о сложности задачи (DAP). В нашем подходе большая учительская модель сначала оценивает сложность каждой задачи, а затем переписывает свои трассировки рассуждений до подходящей более короткой длины, создавая лаконичные, но полные трассировки. Используя конвейер DAP, мы создали дистиллированный набор данных под названием LiteCoT, состоящий из 100 тысяч лаконичных примеров рассуждений, где решения в среднем содержат всего 720 токенов (на порядок короче типичных CoT). На основе LiteCoT мы дистиллировали новое семейство моделей рассуждений под названием Liter (1.5B, 7B и 32B), основанных на архитектуре Qwen2.5. Эксперименты показывают, что студенческая модель, дообученная всего на 100 тысячах этих адаптированных по сложности CoT-примеров, превосходит модель, дистиллированную на 800 тысячах оригинальных длинных CoT-примеров, при этом значительно снижая затраты на обучение и вывод. Наш метод также хорошо обобщается: на 11 различных бенчмарках более короткие CoT, адаптированные по сложности, достигают равной или лучшей точности по сравнению с длинными цепочками, используя гораздо меньше токенов. Например, на сложном экзамене AIME24 наш подход достигает 74.2% Pass@1, используя всего около 5 тысяч токенов для вывода, превосходя другие методы, которые потребляют значительно больше токенов. Наш код и данные доступны по адресу https://github.com/Evanwu1125/LiteCoT.
Мы представляем основанный на ключевых кадрах фреймворк для создания синхронизированных с музыкой видеороликов с танцующими животными, учитывающих хореографию. Начиная с нескольких ключевых кадров, представляющих различные позы животных — сгенерированных с помощью текстовых подсказок для создания изображений или GPT-4o — мы формулируем синтез танца как задачу оптимизации графа: найти оптимальную структуру ключевых кадров, которая удовлетворяет заданному хореографическому паттерну ритмов, который может быть автоматически оценен на основе эталонного танцевального видео. Мы также представляем подход для генерации зеркальных изображений поз, что важно для отражения симметрии в танце. Промежуточные кадры синтезируются с использованием видео-диффузионной модели. Всего с шестью входными ключевыми кадрами наш метод способен создавать танцевальные видео продолжительностью до 30 секунд для широкого спектра животных и музыкальных треков.
Прямопроходные модели 3D Gaussian Splatting (3DGS) недавно появились как перспективное решение для синтеза новых видов, позволяя выполнять однократный вывод без необходимости оптимизации 3DGS для каждой сцены. Однако их масштабируемость фундаментально ограничена ограниченной емкостью их кодировщиков, что приводит к ухудшению производительности или чрезмерному потреблению памяти с увеличением количества входных видов. В данной работе мы анализируем прямопроходные фреймворки 3DGS через призму принципа Информационного Бутылочного Горлышка и представляем ZPressor — легковесный модуль, независимый от архитектуры, который позволяет эффективно сжимать многовидовые входные данные в компактное латентное состояние Z, сохраняя при этом важную информацию о сцене и отбрасывая избыточность. Конкретно, ZPressor позволяет существующим прямопроходным моделям 3DGS масштабироваться до более чем 100 входных видов с разрешением 480P на GPU с 80 ГБ памяти, разделяя виды на опорные и вспомогательные наборы и используя кросс-внимание для сжатия информации из вспомогательных видов в опорные, формируя сжатое латентное состояние Z. Мы показываем, что интеграция ZPressor в несколько современных прямопроходных моделей 3DGS последовательно улучшает производительность при умеренном количестве входных видов и повышает устойчивость в условиях плотного набора видов на двух крупномасштабных бенчмарках DL3DV-10K и RealEstate10K. Видео результаты, код и обученные модели доступны на нашей странице проекта: https://lhmd.top/zpressor.
Разработка высокопроизводительного программного обеспечения — это сложная задача, требующая специализированных знаний. Мы представляем GSO — эталонный тест для оценки способностей языковых моделей в разработке высокопроизводительного ПО. Мы разработали автоматизированный конвейер, который генерирует и выполняет тесты производительности, анализируя историю коммитов репозиториев, чтобы выявить 102 сложные задачи оптимизации в 10 кодовых базах, охватывающих различные области и языки программирования. Агенту предоставляется кодовая база и тест производительности в качестве точной спецификации, и его задача — улучшить эффективность выполнения, которая измеряется в сравнении с оптимизацией, выполненной экспертом-разработчиком. Наше количественное исследование показывает, что ведущие SWE-агенты испытывают значительные трудности, достигая успеха менее чем в 5% случаев, с ограниченными улучшениями даже при масштабировании на этапе вывода. Качественный анализ выявляет ключевые причины неудач, включая сложности с низкоуровневыми языками, применение стратегий ленивой оптимизации и трудности в точной локализации узких мест. Мы публикуем код и артефакты нашего эталонного теста вместе с траекториями агентов, чтобы способствовать дальнейшим исследованиям.
Хотя предобученные мультимодальные представления (например, CLIP) демонстрируют впечатляющие возможности, они проявляют значительные уязвимости в композиционности, что приводит к неинтуитивным суждениям. Мы представляем Multimodal Adversarial Compositionality (MAC) — эталонный набор, который использует большие языковые модели (LLM) для генерации обманчивых текстовых примеров, чтобы эксплуатировать эти уязвимости в различных модальностях, и оценивает их как через показатель успешности атак на уровне отдельных примеров, так и через групповое разнообразие на основе энтропии. Для улучшения методов zero-shot мы предлагаем подход самообучения, который использует тонкую настройку с отбором по отклонению и фильтрацией, способствующей разнообразию, что повышает как успешность атак, так и разнообразие примеров. Используя меньшие языковые модели, такие как Llama-3.1-8B, наш подход демонстрирует превосходную производительность в выявлении композиционных уязвимостей в различных мультимодальных представлениях, включая изображения, видео и аудио.
В последние годы наблюдается стремительный прогресс в области генерации изображений с использованием искусственного интеллекта. Ранние диффузионные модели делали акцент на воспринимаемом качестве, тогда как новые мультимодальные модели, такие как GPT-4o-image, интегрируют высокоуровневое логическое мышление, улучшая семантическое понимание и структурную композицию. Генерация научных иллюстраций ярко демонстрирует эту эволюцию: в отличие от общей синтезации изображений, она требует точной интерпретации технического содержания и преобразования абстрактных идей в четкие, стандартизированные визуальные элементы. Эта задача значительно более требовательна к знаниям и трудоемка, часто требуя часов ручной работы и специализированных инструментов. Автоматизация этого процесса в контролируемом и интеллектуальном режиме имела бы существенную практическую ценность. Однако в настоящее время не существует бенчмарка для оценки ИИ в этой области. Чтобы восполнить этот пробел, мы представляем SridBench — первый бенчмарк для генерации научных иллюстраций. Он включает 1120 примеров, отобранных из ведущих научных статей по 13 дисциплинам естественных и компьютерных наук, собранных с участием экспертов и мультимодальных языковых моделей. Каждый образец оценивается по шести параметрам, включая семантическую точность и структурную корректность. Экспериментальные результаты показывают, что даже передовые модели, такие как GPT-4o-image, отстают от человеческого уровня, демонстрируя типичные проблемы с ясностью текста/визуализации и научной корректностью. Эти результаты подчеркивают необходимость развития более продвинутых возможностей визуальной генерации, основанных на логическом мышлении.
Рентгенологические заключения содержат детальные клинические наблюдения и отражают диагностические рассуждения, которые развиваются с течением времени. Однако существующие методы оценки ограничиваются анализом отдельных заключений и опираются на грубые метрики, которые не способны уловить тонкую клиническую семантику и временные зависимости. Мы представляем LUNGUAGE — эталонный набор данных для структурированной генерации рентгенологических заключений, который поддерживает как оценку отдельных отчетов, так и продольный анализ на уровне пациента с учетом множественных исследований. Набор включает 1 473 аннотированных рентгенологических заключения грудной клетки, каждое из которых проверено экспертами, причем 80 из них содержат продольные аннотации, отражающие прогрессирование заболевания и интервалы между исследованиями, также проверенные экспертами. Используя этот эталонный набор, мы разрабатываем двухэтапную структуру, которая преобразует сгенерированные отчеты в детализированные структурированные представления, согласованные со схемой, что позволяет проводить продольный анализ. Мы также предлагаем LUNGUAGESCORE — интерпретируемую метрику, которая сравнивает структурированные результаты на уровне сущностей, отношений и атрибутов, учитывая временную согласованность в рамках временных линий пациентов. Эти вклады формируют первый эталонный набор данных, структурирующую систему и метрику оценки для последовательного рентгенологического отчетности, причем эмпирические результаты демонстрируют, что LUNGUAGESCORE эффективно поддерживает оценку структурированных отчетов. Код доступен по адресу: https://github.com/SuperSupermoon/Lunguage.
Растущие возможности мультимодальных больших языковых моделей (MLLMs) способствуют прогрессу в таких задачах, как понимание графиков. Однако эти модели часто страдают от галлюцинаций, когда генерируемые текстовые последовательности противоречат предоставленным визуальным данным. Для решения этой проблемы мы представляем метод Post-Hoc Visual Attribution for Charts, который идентифицирует детализированные элементы графиков, подтверждающие заданный ответ, связанный с графиком. Мы предлагаем ChartLens — новый алгоритм атрибуции графиков, использующий методы сегментации для идентификации объектов на графиках и применяющий подход set-of-marks prompting с MLLMs для детализированной визуальной атрибуции. Кроме того, мы представляем ChartVA-Eval — эталонный набор данных, включающий синтетические и реальные графики из различных областей, таких как финансы, политика и экономика, с детализированными аннотациями атрибуции. Наши оценки показывают, что ChartLens улучшает детализированную атрибуцию на 26–66%.
Крупные языковые модели активно исследуются в качестве нейронных баз знаний благодаря их способности к доступу к знаниям, редактируемости, рассуждениям и объяснимости. Однако лишь немногие работы сосредоточены на структурных паттернах их знаний. Вдохновленные этим пробелом, мы исследуем эти структурные паттерны с точки зрения графов. Мы количественно оцениваем знания языковых моделей как на уровне триплетов, так и на уровне сущностей, и анализируем, как они связаны с такими свойствами структуры графа, как степень узла. Кроме того, мы выявляем гомофилию знаний, при которой топологически близкие сущности демонстрируют схожий уровень осведомленности, что вдохновляет нас на разработку графовых моделей машинного обучения для оценки знаний сущностей на основе их локальных соседей. Эта модель также позволяет проводить ценную проверку знаний, выбирая триплеты, которые менее известны языковым моделям. Эмпирические результаты показывают, что использование отобранных триплетов для тонкой настройки приводит к превосходной производительности.
Пространственный интеллект имеет ключевое значение для мультимодальных больших языковых моделей (MLLMs), функционирующих в сложном физическом мире. Однако существующие бенчмарки исследуют только отношения в рамках одного изображения и, таким образом, не способны оценить пространственное рассуждение на основе нескольких изображений, которое требуется в реальных условиях. Мы представляем MMSI-Bench — бенчмарк для вопросно-ответных задач, посвящённый пространственному интеллекту на основе нескольких изображений. Шесть исследователей в области 3D-зрения потратили более 300 часов на тщательную разработку 1 000 сложных и однозначных вопросов с множественным выбором, созданных из более чем 120 000 изображений, каждое из которых сопровождается тщательно продуманными дистракторами и пошаговым процессом рассуждения. Мы провели обширные эксперименты и всесторонне оценили 34 открытые и проприетарные MLLMs, обнаружив значительный разрыв: самая сильная открытая модель достигает точности около 30%, а модель o3 reasoning от OpenAI — 40%, в то время как люди показывают результат в 97%. Эти результаты подчеркивают сложность MMSI-Bench и значительный потенциал для будущих исследований. Используя аннотированные процессы рассуждения, мы также предоставляем автоматизированный конвейер анализа ошибок, который диагностирует четыре основные причины неудач, включая (1) ошибки привязки, (2) ошибки сопоставления перекрытий и реконструкции сцен, (3) ошибки рассуждения при трансформации ситуаций и (4) ошибки пространственной логики, что предлагает ценные инсайты для развития пространственного интеллекта на основе нескольких изображений. Страница проекта: https://runsenxu.com/projects/MMSI_Bench.
Оптимизация прямых предпочтений (Direct Preference Optimization, DPO) стала стандартной техникой для согласования языковых моделей с человеческими предпочтениями в контролируемом режиме. Несмотря на её эмпирический успех, теоретическое обоснование параметризации награды в виде логарифмического отношения остаётся неполным. В данной работе мы устраняем этот пробел, используя Дифференциальное распределение информации (Differential Information Distribution, DID) — распределение над последовательностями токенов, которое фиксирует информацию, полученную в процессе обновления политики. Во-первых, мы показываем, что когда метки предпочтений кодируют дифференциальную информацию, необходимую для преобразования референсной политики в целевую, логарифмическое отношение награды в DPO оказывается единственно оптимальной формой для обучения целевой политики через оптимизацию предпочтений. Этот результат естественным образом приводит к замкнутому выражению для оптимального распределения выборки над отвергнутыми ответами. Во-вторых, мы обнаруживаем, что условие кодирования дифференциальной информации в предпочтениях фундаментально связано с неявным предположением о логарифмически упорядоченных политиках — индуктивном смещении, широко используемом в оптимизации предпочтений, но ранее не распознанном. Наконец, анализируя энтропию DID, мы описываем, как изучение низкоэнтропийной дифференциальной информации усиливает распределение политики, в то время как высокоэнтропийная дифференциальная информация вызывает эффект сглаживания, что объясняет феномен смещения логарифмического правдоподобия. Мы подтверждаем наши теоретические выводы в синтетических экспериментах и расширяем их на реальные наборы данных для выполнения инструкций. Наши результаты показывают, что изучение высокоэнтропийной дифференциальной информации имеет ключевое значение для общего выполнения инструкций, тогда как изучение низкоэнтропийной дифференциальной информации полезно для ответов на вопросы, требующих глубоких знаний. В целом, наша работа предлагает унифицированную перспективу на цель DPO, структуру данных предпочтений и результирующие поведения политик через призму дифференциальной информации.
Хотя обучение с подкреплением (RL) на цепочках рассуждений значительно продвинуло языковые модели в задачах, таких как математика и программирование, визуальное рассуждение вносит дополнительную сложность, требуя от моделей управления визуальным вниманием, интерпретации перцептивных данных и привязки абстрактных рассуждений к пространственным доказательствам. Мы представляем ViGoRL (Visually Grounded Reinforcement Learning), модель обработки визуальной информации и языка, обученную с использованием RL для явной привязки каждого шага рассуждений к конкретным визуальным координатам. Вдохновленная человеческим визуальным принятием решений, ViGoRL учится создавать пространственно обоснованные траектории рассуждений, направляя визуальное внимание на релевантные для задачи области на каждом шаге. Когда требуется детальное исследование, наша новая многошаговая RL-структура позволяет модели динамически увеличивать масштаб в предсказанных координатах по мере развертывания рассуждений. На разнообразных наборах тестов для визуального рассуждения — включая SAT-2 и BLINK для пространственного рассуждения, V*bench для визуального поиска, а также ScreenSpot и VisualWebArena для веб-ориентированной привязки — ViGoRL стабильно превосходит как модели с контролируемой тонкой настройкой, так и традиционные RL-базовые подходы, лишенные явных механизмов привязки. Включение многошагового RL с увеличенным визуальным откликом значительно улучшает производительность ViGoRL в локализации мелких элементов графического интерфейса и визуальном поиске, достигая 86,4% на V*Bench. Кроме того, мы обнаруживаем, что привязка усиливает другие визуальные поведенческие аспекты, такие как исследование областей, установка обоснованных подцелей и визуальная проверка. Наконец, человеческие оценки показывают, что визуальные ссылки модели не только пространственно точны, но и полезны для понимания шагов рассуждений модели. Наши результаты демонстрируют, что визуально обоснованное RL является мощной парадигмой для наделения моделей универсальными способностями к визуальному рассуждению.
Основная цель посттренировочного квантования (PTQ) заключается в создании сжатой модели, распределение выходных данных которой максимально близко к распределению исходной модели. Для достижения этой цели практически все алгоритмы PTQ для крупных языковых моделей (LLM) квантуют линейные слои, независимо минимизируя ошибку активации на текущем слое. Однако этот локальный критерий игнорирует влияние последующих слоев, поэтому его уменьшение не обязательно приводит к более близкой модели. В данной работе мы представляем алгоритм YAQA (Yet Another Quantization Algorithm) — адаптивный алгоритм округления, который использует факторизованные по Кронекеру аппроксимации гессиана каждого линейного слоя относительно полной дивергенции Кульбака-Лейблера (KL) модели. YAQA состоит из двух компонентов: факторизованных по Кронекеру аппроксимаций полного гессиана на уровне слоев, которые могут быть эффективно вычислены для LLM с сотнями миллиардов параметров, и алгоритма округления, независимого от квантователя, который использует эти аппроксимации и сопровождается теоретическими гарантиями. На широком спектре моделей и квантователей YAQA эмпирически уменьшает дивергенцию KL до исходной модели примерно на 30%, одновременно достигая наилучших результатов на последующих задачах.
Оценка креативности остается сложной задачей для крупных языковых моделей (LLM). Современные методы оценки в значительной степени зависят от неэффективных и затратных человеческих суждений, что тормозит прогресс в повышении машинной креативности. Хотя существуют автоматизированные методы, начиная от психологического тестирования до эвристических или основанных на промптах подходов, они часто страдают от недостатка обобщаемости или соответствия человеческим суждениям. Для решения этих проблем в данной статье мы предлагаем новый фреймворк попарного сравнения для оценки текстовой креативности, используя общие контекстные инструкции для повышения согласованности оценки. Мы представляем CreataSet — масштабный набор данных, содержащий более 100 тысяч человеческих и более 1 миллиона синтетических пар "инструкция-ответ", охватывающих разнообразные задачи в открытых доменах. Обучившись на CreataSet, мы разработали LLM-оценщик под названием CrEval. CrEval демонстрирует значительное превосходство над существующими методами в плане соответствия человеческим суждениям. Экспериментальные результаты подчеркивают важность интеграции как человеческих, так и синтетических данных для обучения высоконадежных оценщиков, а также демонстрируют практическую полезность CrEval в повышении креативности LLM. В ближайшее время мы опубликуем все данные, код и модели для поддержки дальнейших исследований.
В данной работе мы раскрываем ограничения визуальных токенизаторов и вариационных автоэнкодеров (VAE) в сохранении мелкозернистых признаков и предлагаем эталонный тест для оценки качества реконструкции двух сложных типов визуального контента: текста и лиц. Визуальные токенизаторы и VAE значительно продвинули визуальную генерацию и мультимодальное моделирование, предоставив более эффективные сжатые или квантованные представления изображений. Однако, хотя они помогают производственным моделям снизить вычислительные затраты, потеря информации при сжатии изображений фундаментально ограничивает верхний предел качества визуальной генерации. Чтобы оценить этот предел, мы сосредоточились на анализе реконструированных текстовых и лицевых признаков, поскольку они обычно: 1) существуют в меньших масштабах, 2) содержат плотные и богатые текстуры, 3) склонны к коллапсу и 4) крайне чувствительны для человеческого зрения. Сначала мы собрали и подготовили разнообразный набор четких изображений текста и лиц из существующих наборов данных. В отличие от подходов, использующих модели VLM, мы применяем проверенные модели OCR и распознавания лиц для оценки, обеспечивая точность при сохранении исключительно легковесного процесса тестирования, <span style="font-weight: bold; color: rgb(214, 21, 21);">требующего всего 2 ГБ памяти и 4 минуты</span> для завершения. Используя наш эталонный тест, мы анализируем качество реконструкции текста и лиц на различных масштабах для разных токенизаторов изображений и VAE. Наши результаты показывают, что современные визуальные токенизаторы по-прежнему испытывают трудности с сохранением мелкозернистых признаков, особенно в меньших масштабах. Мы также расширяем эту оценочную структуру на видео, проводя всесторонний анализ видео токенизаторов. Кроме того, мы демонстрируем, что традиционные метрики не способны точно отразить качество реконструкции для лиц и текста, в то время как предложенные нами метрики служат эффективным дополнением.
Крупные языковые модели (LLMs) продемонстрировали значительный потенциал в научных дисциплинах, таких как биомедицина, особенно в генерации гипотез, где они могут анализировать обширную литературу, выявлять закономерности и предлагать направления исследований. Однако ключевая проблема заключается в оценке достоверности сгенерированных гипотез, поскольку проверка их точности часто требует значительных временных и ресурсных затрат. Кроме того, проблема галлюцинаций в LLMs может приводить к созданию гипотез, которые кажутся правдоподобными, но в конечном итоге оказываются ошибочными, что подрывает их надежность. Для систематического изучения этих проблем мы представляем TruthHypo — эталонный набор данных для оценки способностей LLMs генерировать достоверные биомедицинские гипотезы, а также KnowHD — детектор галлюцинаций на основе знаний, который оценивает, насколько гипотезы основаны на существующих данных. Наши результаты показывают, что LLMs испытывают трудности с генерацией достоверных гипотез. Анализируя галлюцинации в шагах рассуждений, мы демонстрируем, что оценки обоснованности, предоставляемые KnowHD, служат эффективным метрическим инструментом для фильтрации достоверных гипотез из разнообразных выходных данных LLMs. Человеческие оценки дополнительно подтверждают полезность KnowHD в идентификации достоверных гипотез и ускорении научных открытий. Наши данные и исходный код доступны по адресу https://github.com/Teddy-XiongGZ/TruthHypo.
Оценка качества на уровне слов (WQE) направлена на автоматическое выявление детализированных ошибок в машинно переведенных текстах и нашла широкое применение, включая помощь переводчикам в процессе пост-редактирования. Современные методы WQE часто являются затратными, включая запросы к крупным языковым моделям или специальное обучение на больших объемах данных, размеченных человеком. В данной работе мы исследуем эффективные альтернативы, используя последние достижения в области интерпретируемости языковых моделей и количественной оценки неопределенности для выявления ошибок перевода на основе внутренних механизмов моделей перевода. В нашей оценке, охватывающей 14 метрик по 12 направлениям перевода, мы количественно определяем влияние вариативности человеческой разметки на производительность метрик, используя несколько наборов человеческих аннотаций. Наши результаты подчеркивают нереализованный потенциал неконтролируемых метрик, недостатки контролируемых методов при работе с неопределенностью в разметке и хрупкость практик оценки с использованием одного аннотатора.
Classifier-Free Guidance (CFG) значительно повышает управляемость в генеративных моделях за счёт интерполяции условных и безусловных предсказаний. Однако стандартный CFG часто использует статический безусловный вход, что может быть неоптимальным для итеративных процессов генерации, где неопределённость модели изменяется динамически. Мы представляем Adaptive Classifier-Free Guidance (A-CFG) — новый метод, который адаптирует безусловный вход, используя мгновенную уверенность модели в предсказаниях. На каждом шаге итеративной (маскированной) диффузионной языковой модели A-CFG идентифицирует токены в текущей сгенерированной последовательности, для которых модель демонстрирует низкую уверенность. Эти токены временно повторно маскируются для создания динамического, локализованного безусловного входа. Это фокусирует корректирующее влияние CFG именно на области неоднозначности, что приводит к более эффективному управлению. Мы интегрируем A-CFG в современную маскированную диффузионную языковую модель и демонстрируем её эффективность. Эксперименты на различных бенчмарках генерации текста показывают, что A-CFG обеспечивает значительные улучшения по сравнению со стандартным CFG, например, достигая увеличения на 3,9 балла на GPQA. Наша работа подчёркивает преимущество динамической адаптации механизмов управления к неопределённости модели в итеративной генерации.
Крупные языковые модели (LLM) продемонстрировали выдающиеся результаты в задачах ответа на вопросы (QA) благодаря их превосходным способностям в понимании и генерации естественного языка. Однако LLM-подходы к QA сталкиваются с трудностями при решении сложных задач из-за ограниченных возможностей логического рассуждения, устаревших знаний и склонности к галлюцинациям. Несколько недавних работ объединяют LLM и графы знаний (KG) для решения QA, чтобы преодолеть указанные проблемы. В данном обзоре мы предлагаем новую структурированную таксономию, которая классифицирует методологии синтеза LLM и KG для QA в зависимости от категорий QA и роли KG при интеграции с LLM. Мы систематически рассматриваем современные достижения в области синтеза LLM и KG для QA, сравниваем и анализируем эти подходы с точки зрения их сильных сторон, ограничений и требований к KG. Затем мы сопоставляем подходы с задачами QA и обсуждаем, как эти подходы решают основные вызовы различных сложных QA. В заключение мы суммируем достижения, метрики оценки и эталонные наборы данных, а также выделяем открытые проблемы и перспективы.