HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

68 papers found

Таблица-R1: Масштабирование на этапе вывода для табличных рассуждений
Table-R1: Inference-Time Scaling for Table Reasoning

May 29

ByZheyuan Yang, Lyuhao Chen, Arman Cohan, Yilun Zhao

В данной работе мы представляем первое исследование, посвященное изучению масштабирования на этапе вывода для задач табличного рассуждения. Мы разрабатываем и оцениваем две стратегии пост-обучения, позволяющие реализовать масштабирование на этапе вывода: дистилляцию из трасс рассуждений передовой модели и обучение с подкреплением с проверяемыми наградами (RLVR). Для дистилляции мы представляем крупномасштабный набор данных трасс рассуждений, сгенерированных моделью DeepSeek-R1, который используется для тонкой настройки языковых моделей (LLM) в модель Table-R1-SFT. Для RLVR мы предлагаем специфичные для задач функции проверяемых наград и применяем алгоритм GRPO для получения модели Table-R1-Zero. Мы оцениваем наши модели серии Table-R1 на различных задачах табличного рассуждения, включая краткие вопросы и ответы, проверку фактов и свободные вопросы и ответы. Примечательно, что модель Table-R1-Zero демонстрирует сопоставимую или превосходящую производительность по сравнению с GPT-4.1 и DeepSeek-R1, используя при этом LLM всего с 7 миллиардами параметров. Она также показывает сильную способность к обобщению на данных из других областей. Обширные эксперименты и качественный анализ выявляют преимущества настройки на инструкции, выбора архитектуры модели и кросс-задачного обобщения, а также появление ключевых навыков табличного рассуждения в процессе обучения с подкреплением.

Spatial-MLLM: Усиление возможностей MLLM в визуально-ориентированном пространственном интеллекте
Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence

May 29

ByDiankun Wu, Fangfu Liu, Yi-Hsin Hung, Yueqi Duan

Последние достижения в области мультимодальных больших языковых моделей (MLLM) значительно улучшили производительность в задачах обработки 2D-изображений. Однако повышение их пространственного интеллекта остается сложной задачей. Существующие 3D MLLM всегда полагаются на дополнительные 3D или 2.5D данные для включения пространственного восприятия, что ограничивает их применимость в сценариях с использованием только 2D-входов, таких как изображения или видео. В данной статье мы представляем Spatial-MLLM — новый фреймворк для пространственного рассуждения на основе визуальных данных, использующий исключительно 2D-наблюдения. В отличие от традиционных видео MLLM, которые опираются на визуальные кодировщики на основе CLIP, оптимизированные для семантического понимания, наше ключевое наблюдение заключается в использовании сильного структурного априори из базовой модели визуальной геометрии с прямым распространением. В частности, мы предлагаем архитектуру с двумя кодировщиками: предобученный 2D визуальный кодировщик для извлечения семантических признаков и пространственный кодировщик, инициализированный на основе базовой модели визуальной геометрии, для извлечения признаков 3D-структуры. Затем соединитель интегрирует оба типа признаков в единые визуальные токены для улучшенного пространственного понимания. Кроме того, мы предлагаем стратегию выборки кадров с учетом пространства на этапе вывода, которая выбирает наиболее информативные для пространственного анализа кадры из видео, гарантируя, что даже при ограниченной длине токенов модель фокусируется на кадрах, критически важных для пространственного рассуждения. Помимо улучшений архитектуры, мы создаем набор данных Spatial-MLLM-120k и обучаем модель на нем с использованием контролируемой тонкой настройки и GRPO. Эксперименты на различных реальных наборах данных демонстрируют, что наша Spatial-MLLM достигает наилучших результатов в широком спектре задач визуального пространственного понимания и рассуждения. Страница проекта: https://diankun-wu.github.io/Spatial-MLLM/.

Подъем высекает мудрость глубже, чем вершина: о шумных наградах в обучении рассуждению
The Climb Carves Wisdom Deeper Than the Summit: On the Noisy Rewards in Learning to Reason

May 28

ByAng Lv, Ruobing Xie, Xingwu Sun, Zhanhui Kang, Rui Yan

Недавние исследования, посвященные посттренировке больших языковых моделей (LLM) для улучшения способности к рассуждению с использованием обучения с подкреплением (RL), обычно сосредоточены на задачах, которые могут быть точно проверены и вознаграждены, таких как решение математических задач. В отличие от этого, наше исследование изучает влияние шума в вознаграждениях — более практичный аспект для реальных сценариев, связанных с посттренировкой LLM с использованием моделей вознаграждения. Мы обнаружили, что LLM демонстрируют высокую устойчивость к значительному шуму в вознаграждениях. Например, ручное инвертирование 40% выходных данных функции вознаграждения в математических задачах всё же позволяет модели Qwen-2.5-7B достичь быстрой сходимости, улучшая её производительность с 5% до 72% по сравнению с 75% точностью модели, обученной с использованием безошибочных вознаграждений. Удивительно, что вознаграждение только за появление ключевых фраз рассуждения (так называемое вознаграждение за шаблон рассуждения, RPR), таких как «сначала мне нужно», — без проверки правильности ответов — позволило модели достичь пиковой производительности (более 70% точности для Qwen-2.5-7B), сравнимой с моделями, обученными с использованием строгой проверки правильности и точных вознаграждений. Осознавая важность процесса рассуждения по сравнению с конечными результатами, мы объединили RPR с моделями вознаграждения, содержащими шум. RPR помогло калибровать шумные модели вознаграждения, смягчая потенциальные ложные отрицательные результаты и улучшая производительность LLM на задачах с открытым концом. Эти результаты подчеркивают важность улучшения базовых способностей моделей на этапе предварительного обучения, а также предоставляют идеи для развития методов посттренировки. Наш код и скрипты доступны по адресу https://github.com/trestad/Noisy-Rewards-in-Learning-to-Reason.

VF-Eval: Оценка мультимодальных языковых моделей для генерации обратной связи на видео, созданные с помощью ИИ
VF-Eval: Evaluating Multimodal LLMs for Generating Feedback on AIGC Videos

May 29

ByTingyu Song, Tongyan Hu, Guo Gan, Yilun Zhao

Мультимодальные языковые модели (MLLMs) активно изучаются в контексте ответов на вопросы по видео в последнее время. Однако большинство существующих оценок сосредоточено на естественных видео, игнорируя синтетические видео, такие как контент, созданный искусственным интеллектом (AIGC). В то же время некоторые работы в области генерации видео полагаются на MLLMs для оценки качества созданных видео, но способности MLLMs интерпретировать видео AIGC остаются в значительной степени неисследованными. Чтобы устранить этот пробел, мы предлагаем новый бенчмарк, VF-Eval, который включает четыре задачи — проверку связности, осознание ошибок, определение типа ошибок и оценку рассуждений — для всесторонней оценки способностей MLLMs на видео AIGC. Мы оценили 13 передовых MLLMs на VF-Eval и обнаружили, что даже лучшая модель, GPT-4.1, с трудом достигает стабильно хороших результатов по всем задачам. Это подчеркивает сложность нашего бенчмарка. Кроме того, чтобы исследовать практическое применение VF-Eval в улучшении генерации видео, мы провели эксперимент RePrompt, демонстрируя, что более тесное согласование MLLMs с обратной связью от человека может быть полезным для генерации видео.

ZeroGUI: Автоматизация обучения онлайн-интерфейсов без участия человека
ZeroGUI: Automating Online GUI Learning at Zero Human Cost

May 29

ByChenyu Yang, Shiqian Su, Shi Liu, Xuan Dong, Yue Yu, Weijie Su, Xuehui Wang, Zhaoyang Liu, Jinguo Zhu, Hao Li, Wenhai Wang, Yu Qiao, Xizhou Zhu, Jifeng Dai

Быстрое развитие крупных визуально-языковых моделей (VLMs) стимулировало развитие чисто визуальных GUI-агентов, способных воспринимать и взаимодействовать с графическими пользовательскими интерфейсами (GUI) для автономного выполнения пользовательских инструкций. Однако существующие подходы обычно используют оффлайн-обучение, что сталкивается с двумя ключевыми ограничениями: (1) сильная зависимость от высококачественных ручных аннотаций для локализации элементов и контроля действий, и (2) ограниченная адаптивность к динамическим и интерактивным средам. Для устранения этих ограничений мы предлагаем ZeroGUI, масштабируемую онлайн-платформу для автоматизации обучения GUI-агентов с нулевыми затратами на человеческие ресурсы. В частности, ZeroGUI интегрирует (i) автоматическую генерацию задач на основе VLM для создания разнообразных учебных целей из текущего состояния среды, (ii) автоматическую оценку вознаграждений на основе VLM для оценки успешности задач без использования ручных функций оценки, и (iii) двухэтапное онлайн-обучение с подкреплением для непрерывного взаимодействия с GUI-средами и обучения на их основе. Эксперименты на двух продвинутых GUI-агентах (UI-TARS и Aguvis) демонстрируют, что ZeroGUI значительно повышает производительность в средах OSWorld и AndroidLab. Код доступен по адресу https://github.com/OpenGVLab/ZeroGUI.

Fast-dLLM: Бесплатное ускорение диффузионных языковых моделей за счет активации кэша ключей и значений и параллельного декодирования
Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding

May 28

ByChengyue Wu, Hao Zhang, Shuchen Xue, Zhijian Liu, Shizhe Diao, Ligeng Zhu, Ping Luo, Song Han, Enze Xie

Диффузионные языковые модели большого размера (Diffusion LLMs) продемонстрировали потенциал для неавторегрессивной генерации текста с возможностью параллельного декодирования. Однако практическая скорость вывода открытых Diffusion LLMs часто отстает от авторегрессивных моделей из-за отсутствия кэша ключей и значений (Key-Value Cache, KV Cache) и ухудшения качества при одновременном декодировании нескольких токенов. Чтобы устранить этот разрыв, мы представляем новый механизм блочного приближенного KV Cache, адаптированный для двунаправленных диффузионных моделей, который позволяет повторно использовать кэш с незначительным снижением производительности. Кроме того, мы выявляем коренную причину ухудшения качества генерации при параллельном декодировании как нарушение зависимостей токенов в условиях предположения об условной независимости. Для решения этой проблемы мы предлагаем стратегию уверенного параллельного декодирования, которая выборочно декодирует токены, превышающие порог уверенности, смягчая нарушения зависимостей и сохраняя качество генерации. Экспериментальные результаты на моделях LLaDA и Dream в рамках нескольких бенчмарков для LLM демонстрируют улучшение пропускной способности до 27,6 раз с минимальной потерей точности, сокращая разрыв в производительности с авторегрессивными моделями и открывая путь для практического внедрения Diffusion LLMs.

VideoReasonBench: Способны ли MLLM выполнять сложное видеосвязанное рассуждение?
VideoReasonBench: Can MLLMs Perform Vision-Centric Complex Video Reasoning?

May 29

ByYuanxin Liu, Kun Ouyang, Haoning Wu, Yi Liu, Lin Sui, Xinhao Li, Yan Zhong, Y. Charles, Xinyu Zhou, Xu Sun

Недавние исследования показали, что длинные цепочки рассуждений (Chain-of-Thought, CoT) могут значительно улучшить производительность крупных языковых моделей (LLMs) на сложных задачах. Однако это преимущество еще не было продемонстрировано в области понимания видео, поскольку большинство существующих тестовых наборов данных не обладают достаточной глубиной рассуждений, чтобы показать преимущества расширенных цепочек CoT. Хотя недавние усилия были направлены на создание тестовых наборов для видео-рассуждений, задачи в них часто основываются на знаниях и не сильно зависят от визуального контента. Чтобы устранить этот пробел, мы представляем VideoReasonBench — тестовый набор данных, разработанный для оценки визуально-ориентированных сложных видео-рассуждений. Чтобы обеспечить визуальное разнообразие и высокую сложность рассуждений, каждое видео в VideoReasonBench изображает последовательность детализированных операций над скрытым состоянием, которое видно только в части видео. Вопросы оценивают три возрастающих уровня навыков видео-рассуждений: воспроизведение наблюдаемой визуальной информации, вывод содержания скрытых состояний и предсказание информации за пределами видео. В такой постановке задачи модели должны точно воспроизводить множество операций в видео и выполнять пошаговые рассуждения, чтобы получить правильные ответы на эти вопросы. Используя VideoReasonBench, мы всесторонне оценили 18 современных мультимодальных LLMs (MLLMs) и обнаружили, что большинство из них плохо справляются со сложными видео-рассуждениями. Например, GPT-4o достигает точности всего 6,9%, в то время как улучшенная версия Gemini-2.5-Pro значительно превосходит другие модели с точностью 56,0%. Наши исследования "масштабирования во время тестирования" дополнительно показывают, что увеличение бюджета на рассуждения, хотя и не приносит или приносит минимальную пользу на существующих видео-тестах, является важным для улучшения производительности на VideoReasonBench.

cadrille: Многомодальная реконструкция CAD с использованием онлайн-обучения с подкреплением
cadrille: Multi-modal CAD Reconstruction with Online Reinforcement Learning

May 28

ByMaksim Kolodiazhnyi, Denis Tarasov, Dmitrii Zhemchuzhnikov, Alexander Nikulin, Ilya Zisman, Anna Vorontsova, Anton Konushin, Vladislav Kurenkov, Danila Rukhovich

Системы автоматизированного проектирования (САПР) играют ключевую роль в инженерии и производстве, позволяя создавать точные и редактируемые 3D-модели. Использование различных данных, полученных от сенсоров или предоставленных пользователем, в качестве входных данных для реконструкции САПР может сделать доступ к приложениям для проектирования более демократичным. Однако существующие методы обычно сосредоточены на одном типе входных данных, таких как облака точек, изображения или текст, что ограничивает их универсальность и надежность. Используя последние достижения в области моделей, объединяющих зрение и язык (Vision-Language Models, VLM), мы предлагаем многомодальную модель реконструкции САПР, которая одновременно обрабатывает все три типа входных данных. Вдохновленные подходами к обучению крупных языковых моделей (Large Language Models, LLM), мы применяем двухэтапный процесс: контролируемую тонкую настройку (Supervised Fine-Tuning, SFT) на данных, сгенерированных процедурно в большом масштабе, с последующей тонкой настройкой с использованием обучения с подкреплением (Reinforcement Learning, RL) на основе программно полученной обратной связи в реальном времени. Кроме того, мы впервые исследуем применение RL для тонкой настройки LLM в задачах САПР, демонстрируя, что онлайн-алгоритмы RL, такие как Group Relative Preference Optimization (GRPO), превосходят офлайн-альтернативы. На тестовом наборе данных DeepCAD наша модель после SFT превосходит существующие одномодальные подходы одновременно по всем трем типам входных данных. Что еще важнее, после RL-настройки cadrille устанавливает новый рекорд на трех сложных наборах данных, включая реальный.

D-AR: Диффузия через авторегрессионные модели
D-AR: Diffusion via Autoregressive Models

May 29

ByZiteng Gao, Mike Zheng Shou

В данной статье представлен метод Diffusion via Autoregressive models (D-AR), новый подход, который переосмысливает процесс диффузии изображений как стандартную авторегрессионную процедуру в формате предсказания следующего токена. Мы начинаем с разработки токенизатора, преобразующего изображения в последовательности дискретных токенов, где токены на разных позициях могут быть декодированы в различные шаги удаления шума в пространстве пикселей. Благодаря свойствам диффузии, эти токены естественным образом следуют порядку от грубого к детальному, что напрямую подходит для авторегрессионного моделирования. Таким образом, мы применяем стандартное предсказание следующего токена для этих токенов, не изменяя базовых принципов (ни масок причинности, ни стратегий обучения/вывода), и такая последовательная генерация токенов напрямую отражает процесс диффузии в пространстве изображений. То есть, как только авторегрессионная модель генерирует очередную порцию токенов, мы можем напрямую декодировать их в соответствующий шаг удаления шума в потоковом режиме. Наш подход естественным образом раскрывает несколько интересных свойств, например, поддерживает согласованные предварительные просмотры при генерации только части токенов и позволяет выполнять синтез с управлением композицией без дополнительного обучения. На стандартном бенчмарке ImageNet наш метод достигает показателя FID 2.09, используя модель Llama с 775 миллионами параметров и 256 дискретными токенами. Мы надеемся, что наша работа вдохновит будущие исследования на создание унифицированных авторегрессионных архитектур для визуального синтеза, особенно с использованием крупных языковых моделей. Код и модели будут доступны по адресу https://github.com/showlab/D-AR.

AnySplat: Прямое преобразование 3D-гауссовых сплатов из неограниченных ракурсов
AnySplat: Feed-forward 3D Gaussian Splatting from Unconstrained Views

May 29

ByLihan Jiang, Yucheng Mao, Linning Xu, Tao Lu, Kerui Ren, Yichen Jin, Xudong Xu, Mulin Yu, Jiangmiao Pang, Feng Zhao, Dahua Lin, Bo Dai

Мы представляем AnySplat — прямую нейронную сеть для синтеза новых видов из некалиброванных коллекций изображений. В отличие от традиционных конвейеров нейронного рендеринга, требующих известных поз камер и оптимизации для каждой сцены, или современных прямых методов, которые не справляются с вычислительной нагрузкой плотных видов, наша модель предсказывает всё за один проход. Один прямой проход позволяет получить набор 3D-гауссовых примитивов, кодирующих как геометрию сцены, так и её внешний вид, а также соответствующие внутренние и внешние параметры камеры для каждого входного изображения. Этот унифицированный подход легко масштабируется на случайно снятые многовидовые наборы данных без каких-либо аннотаций поз. В обширных оценках с нулевым обучением AnySplat соответствует качеству базовых методов, учитывающих позы, как в сценариях с разреженными, так и с плотными видами, превосходя существующие подходы, не требующие информации о позах. Кроме того, он значительно снижает задержку рендеринга по сравнению с оптимизационными нейронными полями, делая синтез новых видов в реальном времени доступным для неограниченных условий съёмки. Страница проекта: https://city-super.github.io/anysplat/

Эффективное обучение разреженных автокодировщиков с использованием корреляции признаков
Train Sparse Autoencoders Efficiently by Utilizing Features Correlation

May 28

ByVadim Kurochkin, Yaroslav Aksenov, Daniil Laptev, Daniil Gavrilov, Nikita Balagansky

Разреженные автокодировщики (SAE) продемонстрировали значительный потенциал в интерпретации скрытых состояний языковых моделей путем их декомпозиции на интерпретируемые латентные направления. Однако обучение SAE в масштабе остается сложной задачей, особенно при использовании больших размеров словарей. Хотя декодеры могут использовать специализированные ядра для повышения эффективности, кодировщики по-прежнему требуют вычислительно затратных линейных операций с большими выходными размерностями. Для решения этой проблемы мы предлагаем KronSAE — новую архитектуру, которая факторизует латентное представление с помощью декомпозиции Кронекера, значительно снижая затраты памяти и вычислений. Кроме того, мы представляем mAND — дифференцируемую функцию активации, аппроксимирующую бинарную операцию AND, что улучшает интерпретируемость и производительность в нашей факторизованной структуре.

Склонны ли модели рассуждений к галлюцинациям?
Are Reasoning Models More Prone to Hallucination?

May 29

ByZijun Yao, Yantao Liu, Yanxu Chen, Jianhui Chen, Junfeng Fang, Lei Hou, Juanzi Li, Tat-Seng Chua

Недавно разработанные крупные модели рассуждений (LRMs) демонстрируют мощную производительность в решении сложных задач благодаря способности к длинным цепочкам рассуждений (CoT). Поскольку эти LRMs в основном развиваются путем посттренинга на задачах формального рассуждения, остается неясным и обсуждаемым, обобщают ли они свои способности к рассуждению для снижения галлюцинаций в задачах поиска фактов. Например, DeepSeek-R1 сообщает о повышении производительности на бенчмарке SimpleQA, ориентированном на поиск фактов, в то время как OpenAI-o3 наблюдает даже более сильные галлюцинации. Это расхождение естественным образом поднимает следующий исследовательский вопрос: более ли склонны модели рассуждений к галлюцинациям? В данной статье этот вопрос рассматривается с трех точек зрения. (1) Сначала мы проводим комплексную оценку галлюцинаций в LRMs. Наш анализ показывает, что LRMs, прошедшие полный посттренинг с использованием контролируемой тонкой настройки (SFT) с "холодного старта" и подкрепляющего обучения (RL) с проверяемыми наградами, в целом снижают уровень галлюцинаций. В то же время как дистилляция в одиночку и RL-тренинг без начальной тонкой настройки вводят более тонкие галлюцинации. (2) Чтобы понять, почему различные посттренинговые подходы по-разному влияют на галлюцинации в LRMs, мы проводим анализ поведения. Мы выделяем два критических когнитивных поведения, которые напрямую влияют на фактологическую точность LRM: Повторение ошибок, когда поверхностные попытки рассуждений повторяют одну и ту же ошибочную логику, и Несоответствие между рассуждением и ответом, когда итоговый ответ не соответствует предыдущему процессу CoT. (3) Кроме того, мы исследуем механизм галлюцинаций в LRMs с точки зрения неопределенности модели. Мы обнаруживаем, что увеличение галлюцинаций в LRMs обычно связано с рассогласованием между неопределенностью модели и фактической точностью. Наша работа предоставляет начальное понимание галлюцинаций в LRMs.

Satori-SWE: Эволюционное масштабирование на этапе тестирования для эффективного использования данных в разработке программного обеспечения
Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering

May 29

ByGuangtao Zeng, Maohao Shen, Delin Chen, Zhenting Qi, Subhro Das, Dan Gutfreund, David Cox, Gregory Wornell, Wei Lu, Zhang-Wei Hong, Chuang Gan

Языковые модели (LMs) демонстрируют высокие результаты на стандартных тестах по программированию, но испытывают трудности с реальными задачами разработки программного обеспечения, такими как решение проблем на GitHub в рамках SWE-Bench, особенно когда количество параметров модели меньше 100 млрд. Хотя на практике предпочтение отдается меньшим моделям из-за их более низких вычислительных затрат, улучшение их производительности остается сложной задачей. Существующие подходы в основном полагаются на контролируемое тонкое обучение (SFT) с использованием высококачественных данных, которые дорого собирать в больших масштабах. Альтернативой является масштабирование на этапе тестирования: генерация нескольких выходных данных, их оценка с помощью верификатора и выбор наилучшего варианта. Хотя этот подход эффективен, он часто требует чрезмерного количества выборок и дорогостоящей оценки, что ограничивает его практическое применение. Мы предлагаем Evolutionary Test-Time Scaling (EvoScale) — метод, эффективный по количеству выборок, который рассматривает генерацию как эволюционный процесс. Путем итеративного улучшения выходных данных через отбор и мутацию EvoScale смещает распределение выходных данных в сторону областей с более высокой оценкой, сокращая количество выборок, необходимых для нахождения правильных решений. Чтобы снизить накладные расходы на повторную выборку и отбор, мы обучаем модель саморазвитию с использованием обучения с подкреплением (RL). Вместо того чтобы полагаться на внешние верификаторы на этапе вывода, модель учится самостоятельно улучшать оценки своих генераций на протяжении итераций. Протестированная на SWE-Bench-Verified, EvoScale позволяет нашей 32-миллиардной модели Satori-SWE-32B соответствовать или превосходить производительность моделей с более чем 100 млрд параметров, используя при этом небольшое количество выборок. Код, данные и модели будут полностью открыты для общественности.

LoRAShop: Бестренировочная генерация и редактирование изображений с несколькими концепциями с использованием трансформеров с исправленным потоком
LoRAShop: Training-Free Multi-Concept Image Generation and Editing with Rectified Flow Transformers

May 29

ByYusuf Dalva, Hidir Yesiltepe, Pinar Yanardag

Мы представляем LoRAShop — первую платформу для редактирования изображений с использованием нескольких концепций на основе моделей LoRA. LoRAShop основывается на ключевом наблюдении о паттернах взаимодействия признаков внутри трансформеров диффузии в стиле Flux: признаки трансформеров, специфичные для концепций, активируют пространственно согласованные области на ранних этапах процесса удаления шума. Мы используем это наблюдение для получения разъединённой латентной маски для каждой концепции в предварительном прямом проходе и смешиваем соответствующие веса LoRA только в областях, ограничивающих концепции, которые необходимо персонализировать. Полученные правки бесшовно интегрируют несколько объектов или стилей в исходную сцену, сохраняя глобальный контекст, освещение и мелкие детали. Наши эксперименты показывают, что LoRAShop обеспечивает лучшее сохранение идентичности по сравнению с базовыми методами. Устраняя необходимость в повторном обучении и внешних ограничениях, LoRAShop превращает персонализированные модели диффузии в практичный инструмент «фотошоп с LoRA» и открывает новые возможности для композиционного визуального повествования и быстрой творческой итерации.

UniRL: Самообучающиеся унифицированные мультимодальные модели через обучение с учителем и обучение с подкреплением
UniRL: Self-Improving Unified Multimodal Models via Supervised and Reinforcement Learning

May 29

ByWeijia Mao, Zhenheng Yang, Mike Zheng Shou

Унифицированные мультимодальные большие языковые модели, такие как Show-o и Janus, демонстрируют высокую производительность как в задачах генерации, так и в задачах понимания. Однако такие модели обычно требуют масштабных наборов данных и значительных вычислительных ресурсов на этапе предварительного обучения. Кроме того, было предложено несколько методов пост-обучения, но они часто зависят от внешних данных или ограничиваются специфической настройкой под конкретные задачи. В данной работе мы представляем UniRL — подход к пост-обучению с самосовершенствованием. Наш подход позволяет модели генерировать изображения на основе текстовых запросов и использовать их в качестве обучающих данных на каждой итерации, не полагаясь на внешние данные изображений. Более того, он позволяет двум задачам усиливать друг друга: сгенерированные изображения используются для понимания, а результаты понимания используются для контроля генерации. Мы исследуем методы контролируемого тонкого настройки (SFT) и оптимизации групповой относительной политики (GRPO) для оптимизации моделей. UniRL предлагает три ключевых преимущества: (1) он не требует внешних данных изображений, так как все обучающие выборки генерируются самой моделью в процессе обучения; (2) он не только улучшает производительность отдельных задач, но и снижает дисбаланс между генерацией и пониманием; (3) он требует лишь нескольких дополнительных шагов обучения на этапе пост-обучения. Мы оцениваем UniRL на основе моделей Show-o и Janus, достигая показателя GenEval 0.77 для Show-o и 0.65 для Janus. Код и модели будут доступны по адресу https://github.com/showlab/UniRL.

ATLAS: Обучение оптимальному запоминанию контекста во время тестирования
ATLAS: Learning to Optimally Memorize the Context at Test Time

May 29

ByAli Behrouz, Zeman Li, Praneeth Kacham, Majid Daliri, Yuan Deng, Peilin Zhong, Meisam Razaviyayn, Vahab Mirrokni

Трансформеры утвердились в качестве наиболее популярной архитектуры для моделирования последовательностей, главным образом благодаря их эффективности в задачах извлечения контекста и способности к масштабируемому обучению. Однако их квадратичная сложность по памяти и времени ограничивает применимость в более длинных последовательностях, что побудило исследователей изучить эффективные альтернативные архитектуры, такие как современные рекуррентные нейронные сети (также известные как модули долгосрочной рекуррентной памяти). Несмотря на их недавний успех в разнообразных задачах, они сталкиваются с трудностями в задачах, требующих понимания длинного контекста и экстраполяции на более длинные последовательности. Мы отмечаем, что эти недостатки обусловлены тремя разрозненными аспектами их дизайна: (1) ограниченная емкость памяти, обусловленная архитектурой памяти и отображением признаков входных данных; (2) онлайн-характер обновления, то есть оптимизация памяти только на основе последнего входного сигнала; и (3) менее выразительное управление их памятью фиксированного размера. Для улучшения всех трех аспектов мы представляем ATLAS — модуль долгосрочной памяти с высокой емкостью, который обучается запоминать контекст, оптимизируя память на основе текущих и прошлых токенов, преодолевая онлайн-характер моделей долгосрочной памяти. На основе этого подхода мы представляем новое семейство архитектур, подобных трансформерам, под названием DeepTransformers, которые являются строгими обобщениями оригинальной архитектуры трансформера. Наши экспериментальные результаты в задачах языкового моделирования, здравого смысла, интенсивного запоминания и понимания длинного контекста показывают, что ATLAS превосходит производительность трансформеров и современных линейных рекуррентных моделей. ATLAS также улучшает производительность Titans в задачах с длинным контекстом, достигая +80\% точности на 10 миллионах токенов в тесте BABILong.

SWE-bench Становится Доступным!
SWE-bench Goes Live!

May 29

ByLinghao Zhang, Shilin He, Chaoyun Zhang, Yu Kang, Bowen Li, Chengxing Xie, Junhao Wang, Maoquan Wang, Yufan Huang, Shengyu Fu, Elsie Nallipogu, Qingwei Lin, Yingnong Dang, Saravan Rajmohan, Dongmei Zhang

Задача исправления ошибок, где модель генерирует патчи для устранения реальных багов, стала важным эталоном для оценки возможностей больших языковых моделей (LLM). Хотя SWE-bench и его варианты стали стандартом в этой области, они имеют ключевые ограничения: они не обновлялись с момента первоначального выпуска, охватывают узкий набор репозиториев и сильно зависят от ручного труда при создании экземпляров и настройке окружения. Эти факторы препятствуют масштабируемости и создают риски переобучения и загрязнения данных. В данной работе мы представляем SWE-bench-Live, динамически обновляемый эталон, разработанный для преодоления этих проблем. Наш первоначальный выпуск включает 1 319 задач, полученных из реальных проблем GitHub, созданных с 2024 года, охватывающих 93 репозитория. Каждая задача сопровождается выделенным образом Docker для обеспечения воспроизводимости выполнения. Основой нашего эталона является \method, автоматизированный конвейер обработки, который упрощает весь процесс от создания экземпляров до настройки окружения, устраняя ручные узкие места и обеспечивая масштабируемость и непрерывные обновления. Мы оцениваем ряд современных фреймворков агентов и LLM на SWE-bench-Live, выявляя значительный разрыв в производительности по сравнению со статическими эталонами, такими как SWE-bench, даже в контролируемых условиях оценки. Чтобы лучше понять это расхождение, мы проводим детальный анализ по происхождению репозиториев, новизне проблем и сложности задач. Предоставляя свежий, разнообразный и исполняемый эталон, основанный на активности живых репозиториев, SWE-bench-Live способствует строгой, устойчивой к загрязнению оценке LLM и агентов в динамичных условиях реальной разработки программного обеспечения.

Многодоменная объяснимость предпочтений
Multi-Domain Explainability of Preferences

May 26

ByNitay Calderon, Liat Ein-Dor, Roi Reichart

Механизмы предпочтений, такие как человеческие предпочтения, LLM-как-судья (LaaJ) и модели вознаграждения, играют ключевую роль в согласовании и оценке больших языковых моделей (LLM). Однако базовые концепции, лежащие в основе этих предпочтений, остаются недостаточно изученными. В данной работе мы предлагаем полностью автоматизированный метод для генерации локальных и глобальных объяснений предпочтений, основанных на концепциях, в различных областях. Наш метод использует LLM для идентификации концепций, которые отличают выбранные ответы от отвергнутых, и для их представления с помощью векторов, основанных на концепциях. Для моделирования взаимосвязей между концепциями и предпочтениями мы предлагаем прозрачную иерархическую модель множественной регрессии, которая учитывает как общие, так и специфичные для конкретной области эффекты. Для оценки нашего метода мы создаем набор данных, охватывающий восемь сложных и разнообразных областей, и объясняем двенадцать механизмов. Наш метод демонстрирует высокую точность в прогнозировании предпочтений, превосходя базовые подходы, оставаясь при этом объяснимым. Кроме того, мы оцениваем объяснения в двух прикладных сценариях. Во-первых, использование концепций из объяснений LaaJ для управления выводами LLM приводит к ответам, которые судьи последовательно предпочитают. Во-вторых, использование концепций, объясняющих человеческие предпочтения, в запросах к LaaJ улучшает их прогнозы предпочтений. В совокупности наша работа устанавливает новую парадигму объяснимости в эпоху LLM.

VidText: К всесторонней оценке понимания текста в видео
VidText: Towards Comprehensive Evaluation for Video Text Understanding

May 28

ByZhoufaran Yang, Yan Shu, Zhifei Yang, Yan Zhang, Yu Li, Keyang Lu, Gangyan Zeng, Shaohui Liu, Yu Zhou, Nicu Sebe

Визуальные тексты, встроенные в видео, содержат богатую семантическую информацию, которая имеет ключевое значение как для целостного понимания видео, так и для детального анализа локальных действий человека. Однако существующие тестовые наборы для понимания видео в значительной степени игнорируют текстовую информацию, в то время как специализированные тесты для OCR ограничены статичными изображениями, что ограничивает их способность учитывать взаимодействие между текстом и динамическим визуальным контекстом. Чтобы устранить этот пробел, мы предлагаем VidText — новый тестовый набор, разработанный для всесторонней и глубокой оценки понимания текста в видео. VidText обладает следующими ключевыми особенностями: 1) Он охватывает широкий спектр реальных сценариев и поддерживает многоязычный контент, включая разнообразные ситуации, в которых текст естественным образом появляется в видео. 2) Он представляет иерархическую систему оценки с задачами на уровне видео, клипов и отдельных объектов, что позволяет оценивать как глобальное обобщение, так и локальное извлечение информации. 3) Тестовый набор также включает набор парных задач на восприятие и рассуждение, начиная от восприятия визуального текста и заканчивая кросс-модальными рассуждениями между текстовой и визуальной информацией. Эксперименты с 18 современными крупными мультимодальными моделями (LMM) показывают, что текущие модели испытывают трудности в большинстве задач, оставляя значительный простор для улучшений. Дополнительный анализ подчеркивает влияние как внутренних факторов модели, таких как разрешение входных данных и возможности OCR, так и внешних факторов, включая использование вспомогательной информации и стратегий рассуждения по цепочке мыслей (Chain-of-Thought). Мы надеемся, что VidText заполнит существующий пробел в тестовых наборах для понимания видео и станет основой для будущих исследований мультимодального рассуждения с текстом в динамических видео.

FAMA: Первая крупномасштабная открытая речевая фундаментальная модель для английского и итальянского языков
FAMA: The First Large-Scale Open-Science Speech Foundation Model for English and Italian

May 28

BySara Papi, Marco Gaido, Luisa Bentivogli, Alessio Brutti, Mauro Cettolo, Roberto Gretter, Marco Matassoni, Mohamed Nabih, Matteo Negri

Разработка базовых моделей обработки речи (Speech Foundation Models, SFMs), таких как Whisper и SeamlessM4T, значительно продвинула область обработки речи. Однако их закрытый характер — с недоступными обучающими данными и кодом — создает серьезные проблемы для воспроизводимости и объективной оценки. В то время как в других областях был достигнут существенный прогресс в направлении открытой науки благодаря созданию полностью прозрачных моделей, обученных на открытом исходном коде (Open Source, OS) и данных, аналогичные усилия в области обработки речи остаются ограниченными. Чтобы восполнить этот пробел, мы представляем FAMA — первое семейство SFM для открытой науки, поддерживающее английский и итальянский языки и обученное на более чем 150 тысячах часов открытых речевых данных. Кроме того, мы представляем новый набор данных, содержащий 16 тысяч часов очищенной и псевдоразмеченной речи для обоих языков. Результаты показывают, что FAMA демонстрирует конкурентоспособную производительность по сравнению с существующими SFM, при этом работая до 8 раз быстрее. Все артефакты, включая код, наборы данных и модели, выпущены под лицензиями, соответствующими принципам открытого исходного кода, что способствует открытости в исследованиях речевых технологий.

StressTest: Ваша языковая модель справится со стрессом?
StressTest: Can YOUR Speech LM Handle the Stress?

May 28

ByIddo Yosha, Gallil Maimon, Yossi Adi

Ударение в предложении относится к акцентированию определенных слов в устной речи для выделения или противопоставления идеи, либо для введения новой информации. Оно часто используется для подразумевания скрытого намерения, которое не выражено явно. Последние достижения в речевых языковых моделях (SLM) позволили напрямую обрабатывать аудио, что дает моделям возможность обходить транскрипцию и использовать всю полноту речевого сигнала для выполнения задач, таких как ответы на устные вопросы. Несмотря на ключевую роль ударения в формировании смысла и намерений говорящего, оно остается в значительной степени упущенным при оценке и разработке таких моделей. В данной работе мы устраняем этот пробел, представляя StressTest — эталонный тест, специально разработанный для оценки способности модели различать интерпретации устных предложений на основе паттерна ударения. Мы оцениваем производительность нескольких ведущих SLM и обнаруживаем, что, несмотря на их общие возможности, они плохо справляются с такими задачами. Чтобы преодолеть это ограничение, мы предлагаем новый подход к генерации синтетических данных и создаем Stress17k — обучающий набор, который моделирует изменение смысла, подразумеваемого вариациями ударения. Затем мы эмпирически показываем, что оптимизация моделей с использованием этого синтетического набора данных хорошо согласуется с реальными аудиозаписями и позволяет эффективно дообучать SLM. Результаты показывают, что наша дообученная модель, StresSLM, значительно превосходит существующие модели как в задачах анализа ударения в предложениях, так и в задачах его обнаружения. Код, модели, данные и аудиообразцы доступны по адресу: pages.cs.huji.ac.il/adiyoss-lab/stresstest.

К обеспечению безопасности в рассуждениях языковых моделей: агентно-ориентированное обсуждение для создания данных с встроенной политикой в цепочке рассуждений
Towards Safety Reasoning in LLMs: AI-agentic Deliberation for Policy-embedded CoT Data Creation

May 27

ByTharindu Kumarage, Ninareh Mehrabi, Anil Ramakrishna, Xinyan Zhao, Richard Zemel, Kai-Wei Chang, Aram Galstyan, Rahul Gupta, Charith Peris

Безопасное рассуждение — это новый подход, в котором большие языковые модели (LLM) анализируют политики безопасности перед генерацией ответов, что позволяет смягчить ограничения существующих мер безопасности, такие как чрезмерный отказ и уязвимости к взлому. Однако реализация этого подхода сопряжена с трудностями из-за ресурсоемкого процесса создания высококачественных наборов данных с встроенными цепочками рассуждений (CoT), которые соответствуют политикам, сохраняя при этом точность и избегая галлюцинаций или конфликтов политик. Для решения этой проблемы мы предлагаем AIDSAFE: Agentic Iterative Deliberation for Safety Reasoning — новый метод генерации данных, который использует многоагентное обсуждение для итеративного расширения рассуждений о политиках безопасности. Этап уточнения данных в AIDSAFE обеспечивает высокое качество выходных данных, устраняя повторяющиеся, избыточные и обманчивые мысли. CoT, сгенерированные с помощью AIDSAFE, предоставляют прочную основу для обучения безопасности на основе контролируемой тонкой настройки (SFT). Кроме того, для удовлетворения потребности в данных о предпочтениях на этапах согласования, таких как обучение DPO, мы предлагаем дополнительный метод, использующий усиление убеждений для создания четко различимых примеров выбранных и отклоненных CoT. Наши оценки показывают, что CoT, сгенерированные с помощью AIDSAFE, достигают превосходного соответствия политикам и качества рассуждений. В результате мы демонстрируем, что тонкая настройка открытых LLM на этих CoT может значительно улучшить обобщение безопасности и устойчивость к взлому, сохраняя при этом приемлемую полезность и точность в предотвращении чрезмерного отказа. Наборы данных CoT, созданные с помощью AIDSAFE, доступны здесь: https://huggingface.co/datasets/AmazonScience/AIDSAFE.

Переупорядочивание патчей улучшает модели компьютерного зрения
REOrdering Patches Improves Vision Models

May 29

ByDeclan Kutscher, David M. Chan, Yutong Bai, Trevor Darrell, Ritwik Gupta

Последовательные модели, такие как трансформеры, требуют, чтобы входные данные были представлены в виде одномерных последовательностей. В задачах компьютерного зрения это обычно включает преобразование изображений в одномерный формат с использованием фиксированного порядка построчного сканирования (растрового порядка). Хотя полное самовнимание является перестановочно-инвариантным, современные трансформеры для работы с длинными последовательностями всё чаще полагаются на архитектурные аппроксимации, которые нарушают эту инвариантность и вводят чувствительность к порядку патчей. Мы показываем, что порядок патчей существенно влияет на производительность модели в таких условиях, причём простые альтернативы, такие как порядок по столбцам или кривые Гильберта, приводят к заметным изменениям точности. Вдохновлённые этим, мы предлагаем REOrder — двухэтапную структуру для поиска оптимального порядка патчей для конкретной задачи. Сначала мы выводим информационно-теоретический априор, оценивая сжимаемость различных последовательностей патчей. Затем мы обучаем политику над перестановками, оптимизируя политику Плэккетта-Льюса с использованием алгоритма REINFORCE. Этот подход позволяет эффективно обучаться в комбинаторном пространстве перестановок. REOrder улучшает точность top-1 по сравнению с порядком построчного сканирования на ImageNet-1K до 3,01% и на Functional Map of the World на 13,35%.

DeepTheorem: Улучшение способности языковых моделей к рассуждению в доказательстве теорем с использованием естественного языка и обучения с подкреплением
DeepTheorem: Advancing LLM Reasoning for Theorem Proving Through Natural Language and Reinforcement Learning

May 29

ByZiyin Zhang, Jiahao Xu, Zhiwei He, Tian Liang, Qiuzhi Liu, Yansi Li, Linfeng Song, Zhengwen Liang, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, Dong Yu

Теоретическое доказательство служит важной площадкой для оценки сложных способностей к рассуждению в больших языковых моделях (LLM). Однако традиционные подходы к автоматизированному доказательству теорем (ATP) в значительной степени опираются на формальные системы доказательств, которые плохо согласуются с сильными сторонами LLM, основанными на неформальных знаниях, полученных в ходе предварительного обучения на естественном языке. В данной работе мы предлагаем DeepTheorem — всеобъемлющую неформальную систему доказательства теорем, использующую естественный язык для улучшения математического рассуждения в LLM. DeepTheorem включает в себя масштабный эталонный набор данных, состоящий из 121 тыс. высококачественных неформальных теорем и доказательств уровня Международной математической олимпиады (IMO), охватывающих различные математические области, тщательно аннотированных на предмет корректности, сложности и тематических категорий, а также сопровождаемых систематически сконструированными проверяемыми вариантами теорем. Мы разрабатываем новую стратегию обучения с подкреплением (RL-Zero), специально адаптированную для неформального доказательства теорем, которая использует проверенные варианты теорем для стимулирования устойчивого математического вывода. Кроме того, мы предлагаем всеобъемлющие метрики оценки результатов и процесса, анализирующие корректность доказательств и качество шагов рассуждения. Обширные экспериментальные анализы демонстрируют, что DeepTheorem значительно улучшает производительность LLM в доказательстве теорем по сравнению с существующими наборами данных и протоколами контролируемого тонкого настройки, достигая передовой точности и качества рассуждений. Наши результаты подчеркивают потенциал DeepTheorem для фундаментального продвижения автоматизированного неформального доказательства теорем и математических исследований.

Обучение с подкреплением на основе текущей политики с оптимальным базовым вознаграждением
On-Policy RL with Optimal Reward Baseline

May 29

ByYaru Hao, Li Dong, Xun Wu, Shaohan Huang, Zewen Chi, Furu Wei

Алгоритмы обучения с подкреплением играют ключевую роль в согласовании крупных языковых моделей с человеческими предпочтениями и в улучшении их способностей к рассуждению. Однако современные алгоритмы обучения с подкреплением часто страдают от нестабильности обучения из-за слабых ограничений на политику и низкой вычислительной эффективности, вызванной использованием вспомогательных моделей. В данной работе мы предлагаем On-Policy RL with Optimal reward baseline (OPO) — новый и упрощённый алгоритм обучения с подкреплением, разработанный для решения этих проблем. OPO подчеркивает важность точного обучения на основе текущей политики, что эмпирически стабилизирует процесс обучения и улучшает исследование. Кроме того, OPO вводит оптимальный базовый уровень вознаграждения, который теоретически минимизирует дисперсию градиента. Мы оцениваем OPO на задачах математического рассуждения. Результаты демонстрируют его превосходную производительность и стабильность обучения без использования дополнительных моделей или регуляризационных членов. Более того, OPO достигает меньших сдвигов политики и более высокой энтропии выходных данных, способствуя более разнообразным и менее повторяющимся ответам. Эти результаты подчеркивают OPO как перспективное направление для стабильного и эффективного обучения с подкреплением в задачах согласования и рассуждения крупных языковых моделей. Реализация доступна по адресу https://github.com/microsoft/LMOps/tree/main/opo.

Muddit: Расширение границ генерации за пределы текста в изображение с помощью унифицированной модели дискретной диффузии
Muddit: Liberating Generation Beyond Text-to-Image with a Unified Discrete Diffusion Model

May 29

ByQingyu Shi, Jinbin Bai, Zhuoran Zhao, Wenhao Chai, Kaidong Yu, Jianzong Wu, Shuangyong Song, Yunhai Tong, Xiangtai Li, Xuelong Li, Shuicheng Yan

Унифицированные модели генерации направлены на решение разнообразных задач в различных модальностях — таких как генерация текста, генерация изображений и рассуждения на основе визуально-языковых данных — в рамках единой архитектуры и парадигмы декодирования. Авторегрессивные унифицированные модели страдают от медленного вывода из-за последовательного декодирования, а неавторегрессивные унифицированные модели демонстрируют слабую обобщающую способность из-за ограниченных предобученных базовых моделей. Мы представляем Muddit — унифицированный трансформер с дискретным диффузионным процессом, который обеспечивает быструю и параллельную генерацию как для текстовой, так и для визуальной модальностей. В отличие от предыдущих унифицированных диффузионных моделей, обучаемых с нуля, Muddit интегрирует сильные визуальные априорные знания из предобученной модели для генерации изображений по тексту с легковесным текстовым декодером, что позволяет осуществлять гибкую и качественную мультимодальную генерацию в рамках единой архитектуры. Экспериментальные результаты показывают, что Muddit достигает конкурентоспособного или превосходящего качества и эффективности по сравнению с значительно более крупными авторегрессивными моделями. Данная работа подчеркивает потенциал чисто дискретного диффузионного подхода, оснащенного сильными визуальными априорными знаниями, в качестве масштабируемой и эффективной базовой модели для унифицированной генерации.

Поиск дифференцируемых решателей для ускорения сэмплирования в диффузионных моделях
Differentiable Solver Search for Fast Diffusion Sampling

May 27

ByShuai Wang, Zexian Li, Qipeng zhang, Tianhui Song, Xubin Li, Tiezheng Ge, Bo Zheng, Limin Wang

Диффузионные модели продемонстрировали выдающееся качество генерации, однако за счет значительного количества вычислений функций. Недавно были разработаны продвинутые решатели на основе обыкновенных дифференциальных уравнений (ODE), чтобы смягчить высокие вычислительные затраты, связанные с решением обратной диффузии при ограниченном количестве шагов выборки. Однако эти решатели, вдохновленные многошаговыми методами типа Адамса, полагаются исключительно на интерполяцию Лагранжа, связанную с временным параметром \( t \). Мы показываем, что такая интерполяция является неоптимальной для диффузионных моделей, и раскрываем компактное пространство поиска, состоящее из временных шагов и коэффициентов решателя. На основе нашего анализа мы предлагаем новый дифференцируемый алгоритм поиска решателя, который позволяет находить более оптимальные решения. Оснащенные найденным решателем, модели с исправленным потоком, такие как SiT-XL/2 и FlowDCN-XL/2, достигают показателей FID 2.40 и 2.35 соответственно на ImageNet256 всего за 10 шагов. В то же время модель DDPM, DiT-XL/2, достигает показателя FID 2.33 также за 10 шагов. Примечательно, что наш найденный решатель значительно превосходит традиционные решатели. Более того, он демонстрирует универсальность, работая с различными архитектурами моделей, разрешениями и размерами моделей.

Система-1.5: Рассуждения с использованием обхода в языковых и латентных пространствах через динамические сокращения
System-1.5 Reasoning: Traversal in Language and Latent Spaces with Dynamic Shortcuts

May 25

ByXiaoqiang Wang, Suyuchen Wang, Yun Zhu, Bang Liu

Цепочка рассуждений (Chain-of-Thought, CoT) позволяет большим языковым моделям (LLM) выходить за рамки быстрых ответов Системы-1 и включаться в более обдуманное рассуждение Системы-2. Однако это достигается за счет значительной неэффективности, вызванной многословными промежуточными выводами. Недавние методы рассуждений в латентном пространстве повышают эффективность, работая со скрытыми состояниями без декодирования в язык, но они рассматривают все шаги одинаково, не различая ключевые выводы от вспомогательных шагов, что приводит к неоптимальному использованию вычислительных ресурсов. В данной работе мы предлагаем рассуждения Системы-1.5 — адаптивную структуру рассуждений, которая динамически распределяет вычисления между шагами через сокращенные пути в латентном пространстве. В частности, рассуждения Системы-1.5 вводят два типа динамических сокращений. Сокращение по глубине модели (DS) адаптивно рассуждает по вертикальной глубине, позволяя некритичным токенам завершаться раньше через легковесные адаптерные ветви, в то время как критичные токены продолжают проходить через более глубокие слои трансформера. Сокращение по шагам (SS) повторно использует скрытые состояния между шагами декодирования, чтобы пропускать тривиальные шаги и рассуждать горизонтально в латентном пространстве. Обучение рассуждений Системы-1.5 включает двухэтапный процесс самодистилляции: сначала дистилляция естественноязыковой CoT в непрерывное рассуждение в латентном пространстве, а затем дистилляция полного пути рассуждений Системы-2 в адаптивные сокращенные пути (рассуждения Системы-1.5). Эксперименты на задачах рассуждения демонстрируют превосходную производительность нашего метода. Например, на GSM8K рассуждения Системы-1.5 достигают качества рассуждений, сопоставимого с традиционными методами тонкой настройки CoT, при этом ускоряя вывод более чем в 20 раз и сокращая генерацию токенов в среднем на 92,31%.

KVzip: Сжатие кэша ключ-значение, не зависящее от запросов, с восстановлением контекста
KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction

May 29

ByJang-Hyun Kim, Jinuk Kim, Sangwoo Kwon, Jae W. Lee, Sangdoo Yun, Hyun Oh Song

Крупные языковые модели (LLM), основанные на архитектуре Transformer, кэшируют контекст в виде пар ключ-значение (KV) во время вывода. По мере увеличения длины контекста размеры KV-кэша растут, что приводит к значительным накладным расходам по памяти и увеличению задержки внимания. В данной статье представлен метод KVzip, не зависящий от запросов способ вытеснения KV-кэша, который позволяет эффективно повторно использовать сжатые KV-кэши для различных запросов. KVzip оценивает важность пары KV с использованием базовой LLM для восстановления исходного контекста из кэшированных пар KV, после чего вытесняет пары с меньшей важностью. Обширные эмпирические оценки показывают, что KVzip сокращает размер KV-кэша в 3–4 раза и задержку декодирования FlashAttention примерно в 2 раза при незначительной потере производительности в задачах ответов на вопросы, поиска, рассуждений и понимания кода. Оценки включают различные модели, такие как LLaMA3.1-8B, Qwen2.5-14B и Gemma3-12B, с длиной контекста до 170 тысяч токенов. KVzip значительно превосходит существующие методы вытеснения KV, зависящие от запросов, которые демонстрируют снижение производительности даже при 90% бюджете кэша в сценариях с множественными запросами.

Разбор тестов для видео-языковых моделей: знания, пространственное восприятие или подлинное понимание временных зависимостей?
Breaking Down Video LLM Benchmarks: Knowledge, Spatial Perception, or True Temporal Understanding?

May 20

ByBo Feng, Zhengfeng Lai, Shiyu Li, Zizhen Wang, Simon Wang, Ping Huang, Meng Cao

Существующие тестовые наборы для оценки понимания видео часто смешивают вопросы, основанные на знаниях, и вопросы, основанные исключительно на изображениях, вместо того чтобы четко изолировать способность модели к временному рассуждению, что является ключевым аспектом, отличающим понимание видео от других модальностей. Мы выделяем два основных ограничения, которые затрудняют определение того, действительно ли более высокие баллы свидетельствуют о лучшем понимании динамического содержания видео: (1) сильные языковые априори, когда модели могут отвечать на вопросы без просмотра видео; и (2) инвариантность к перемешиванию, когда модели сохраняют схожую производительность на определенных вопросах даже при временном перемешивании кадров видео. Для устранения этих проблем мы предлагаем VBenchComp, автоматизированный процесс, который классифицирует вопросы на различные домены: LLM-Answerable (вопросы, на которые можно ответить без просмотра видео), Semantic (вопросы, на которые можно ответить даже при перемешивании кадров видео) и Temporal (вопросы, требующие понимания правильного временного порядка кадров). Остальные вопросы помечаются как Others. Это позволяет проводить детальную оценку различных способностей видео-LLM. Наш анализ выявляет скрытые слабости моделей, которые не проявляются в традиционных общих баллах, и мы предлагаем рекомендации для разработки будущих тестовых наборов, которые более точно оценивают видео-LLM.

SafeScientist: В направлении осознанных рисков научных открытий агентами на основе языковых моделей
SafeScientist: Toward Risk-Aware Scientific Discoveries by LLM Agents

May 29

ByKunlun Zhu, Jiaxun Zhang, Ziheng Qi, Nuoxing Shang, Zijia Liu, Peixuan Han, Yue Su, Haofei Yu, Jiaxuan You

Последние достижения в области агентов на основе больших языковых моделей (LLM) значительно ускорили автоматизацию научных открытий, но одновременно вызвали серьезные этические и вопросы безопасности. Для систематического решения этих проблем мы представляем SafeScientist — инновационную структуру AI-ученого, специально разработанную для повышения безопасности и этической ответственности в научных исследованиях, управляемых ИИ. SafeScientist активно отказывается от выполнения этически неприемлемых или высокорисковых задач и строго акцентирует внимание на безопасности на протяжении всего исследовательского процесса. Для обеспечения всестороннего контроля безопасности мы интегрируем несколько защитных механизмов, включая мониторинг запросов, мониторинг взаимодействия агентов, мониторинг использования инструментов и компонент этической оценки. В дополнение к SafeScientist мы предлагаем SciSafetyBench — новый эталонный тест, специально разработанный для оценки безопасности ИИ в научных контекстах, включающий 240 высокорисковых научных задач в 6 областях, а также 30 специально разработанных научных инструментов и 120 задач, связанных с рисками использования инструментов. Многочисленные эксперименты показывают, что SafeScientist значительно улучшает показатели безопасности на 35\% по сравнению с традиционными структурами AI-ученого, не снижая качества научных результатов. Кроме того, мы тщательно проверяем устойчивость нашей системы безопасности к различным методам атак, что дополнительно подтверждает эффективность нашего интегрированного подхода. Код и данные будут доступны по адресу https://github.com/ulab-uiuc/SafeScientist. red{Внимание: в данной статье содержатся примеры данных, которые могут быть оскорбительными или вредными.}

GeoDrive: 3D-геометрическая модель вождения с точным управлением действиями
GeoDrive: 3D Geometry-Informed Driving World Model with Precise Action Control

May 28

ByAnthony Chen, Wenzhao Zheng, Yida Wang, Xueyang Zhang, Kun Zhan, Peng Jia, Kurt Keutzer, Shanghang Zhang

Последние достижения в области мировых моделей произвели революцию в симуляции динамических сред, позволив системам предвидеть будущие состояния и оценивать потенциальные действия. В автономном вождении эти возможности помогают транспортным средствам предугадывать поведение других участников дорожного движения, осуществлять планирование с учетом рисков, ускорять обучение в симуляциях и адаптироваться к новым сценариям, тем самым повышая безопасность и надежность. Современные подходы демонстрируют недостатки в поддержании устойчивой 3D-геометрической согласованности или накоплении артефактов при обработке окклюзий, что критически важно для надежной оценки безопасности в задачах автономной навигации. Для решения этой проблемы мы представляем GeoDrive, который явно интегрирует устойчивые 3D-геометрические условия в модели мира для вождения, чтобы улучшить пространственное понимание и управляемость действий. В частности, мы сначала извлекаем 3D-представление из входного кадра, а затем получаем его 2D-рендеринг на основе заданной пользователем траектории эго-автомобиля. Для обеспечения динамического моделирования мы предлагаем модуль динамического редактирования во время обучения, который улучшает рендеринг путем изменения позиций транспортных средств. Многочисленные эксперименты показывают, что наш метод значительно превосходит существующие модели как по точности действий, так и по осознанию 3D-пространства, что приводит к более реалистичному, адаптивному и надежному моделированию сцен для более безопасного автономного вождения. Кроме того, наша модель способна обобщать новые траектории и предлагает возможности интерактивного редактирования сцен, такие как редактирование объектов и управление их траекториями.

PatientSim: Симулятор, основанный на персонах, для реалистичного моделирования взаимодействий врача и пациента
PatientSim: A Persona-Driven Simulator for Realistic Doctor-Patient Interactions

May 23

ByDaeun Kyung, Hyunseung Chung, Seongsu Bae, Jiho Kim, Jae Ho Sohn, Taerim Kim, Soo Kyung Kim, Edward Choi

Консультации между врачом и пациентом требуют многоэтапного, контекстно-зависимого общения, адаптированного к различным типам пациентов. Обучение или оценка языковых моделей (LLM) для врачей в таких условиях требует реалистичных систем взаимодействия с пациентами. Однако существующие симуляторы часто не отражают всего спектра типов пациентов, встречающихся в клинической практике. Для решения этой проблемы мы представляем PatientSim — симулятор пациента, который генерирует реалистичные и разнообразные типы пациентов для клинических сценариев, основываясь на медицинской экспертизе. PatientSim работает с использованием: 1) клинических профилей, включающих симптомы и медицинскую историю, полученных из реальных данных наборов MIMIC-ED и MIMIC-IV, и 2) типов пациентов, определяемых четырьмя параметрами: личность, уровень владения языком, уровень запоминания медицинской истории и уровень когнитивной спутанности, что приводит к 37 уникальным комбинациям. Мы оценили восемь LLM на предмет фактической точности и согласованности с типом пациента. Лучшая модель с открытым исходным кодом, Llama 3.3, была проверена четырьмя клиницистами для подтверждения надежности нашей системы. Как открытая и настраиваемая платформа, PatientSim предоставляет воспроизводимое и масштабируемое решение, которое может быть адаптировано для конкретных учебных задач. Предоставляя среду, соответствующую требованиям конфиденциальности, она служит надежным тестовым стендом для оценки медицинских диалоговых систем в различных клинических ситуациях и демонстрирует потенциал в качестве образовательного инструмента для здравоохранения.

MAGREF: Маскированное управление для генерации видео с произвольной опорой
MAGREF: Masked Guidance for Any-Reference Video Generation

May 29

ByYufan Deng, Xun Guo, Yuanyang Yin, Jacob Zhiyuan Fang, Yiding Yang, Yizhi Wang, Shenghai Yuan, Angtian Wang, Bo Liu, Haibin Huang, Chongyang Ma

Генерация видео достигла значительных успехов с появлением глубоких генеративных моделей, особенно подходов на основе диффузии. Однако генерация видео на основе нескольких референсных объектов по-прежнему сталкивается с серьезными проблемами в поддержании согласованности между несколькими объектами и обеспечении высокого качества генерации. В данной статье мы представляем MAGREF, унифицированную структуру для генерации видео с любыми референсами, которая вводит маскированное управление для создания согласованных видео с несколькими объектами, основанных на разнообразных референсных изображениях и текстовом запросе. В частности, мы предлагаем (1) механизм динамического маскирования с учетом регионов, который позволяет одной модели гибко обрабатывать различные объекты, включая людей, объекты и фоны, без изменения архитектуры, и (2) механизм поэлементной конкатенации каналов, работающий на уровне каналов для лучшего сохранения визуальных характеристик. Наша модель демонстрирует наивысшее качество генерации видео, обобщаясь от обучения на одном объекте до сложных сценариев с несколькими объектами, обеспечивая согласованную синтезацию и точный контроль над каждым объектом, превосходя существующие открытые и коммерческие базовые подходы. Для облегчения оценки мы также представляем комплексный бенчмарк для видео с несколькими объектами. Многочисленные эксперименты подтверждают эффективность нашего подхода, прокладывая путь к масштабируемой, управляемой и высококачественной синтезации видео с несколькими объектами. Код и модель доступны по адресу: https://github.com/MAGREF-Video/MAGREF.

CXReasonBench: Бенчмарк для оценки структурированного диагностического анализа рентгенограмм грудной клетки
CXReasonBench: A Benchmark for Evaluating Structured Diagnostic Reasoning in Chest X-rays

May 23

ByHyungyung Lee, Geon Choi, Jung-Oh Lee, Hangyul Yoon, Hyuk Gi Hong, Edward Choi

Последние достижения в области крупных визуально-языковых моделей (LVLMs) открыли перспективные возможности для применения в медицинских задачах, таких как генерация отчетов и визуальный вопросно-ответный анализ. Однако существующие бенчмарки в основном сосредоточены на итоговом диагностическом ответе, предоставляя ограниченное понимание того, используют ли модели клинически значимые рассуждения. Для решения этой проблемы мы представляем CheXStruct и CXReasonBench — структурированный конвейер и бенчмарк, созданные на основе общедоступного набора данных MIMIC-CXR-JPG. CheXStruct автоматически извлекает последовательность промежуточных шагов рассуждения непосредственно из рентгеновских снимков грудной клетки, таких как сегментация анатомических областей, определение анатомических ориентиров и диагностических измерений, вычисление диагностических индексов и применение клинических порогов. CXReasonBench использует этот конвейер для оценки того, могут ли модели выполнять клинически валидные шаги рассуждения и в какой степени они способны обучаться на основе структурированных указаний, что позволяет проводить детальную и прозрачную оценку диагностических рассуждений. Бенчмарк включает 18 988 пар вопросов и ответов по 12 диагностическим задачам и 1 200 случаев, каждый из которых сопровождается до 4 визуальных входных данных, и поддерживает многопутевую, многоэтапную оценку, включая визуальное закрепление через выбор анатомических областей и диагностические измерения. Даже самые мощные из 10 протестированных LVLMs испытывают трудности со структурированными рассуждениями и обобщением, часто не справляясь с соединением абстрактных знаний с анатомически обоснованной визуальной интерпретацией. Код доступен по адресу https://github.com/ttumyche/CXReasonBench.

Afterburner: Обучение с подкреплением способствует самооптимизации эффективности кода
Afterburner: Reinforcement Learning Facilitates Self-Improving Code Efficiency Optimization

May 29

ByMingzhe Du, Luu Tuan Tuan, Yue Liu, Yuhao Qing, Dong Huang, Xinyi He, Qian Liu, Zejun Ma, See-kiong Ng

Крупные языковые модели (LLM) генерируют функционально корректные решения, но часто уступают в эффективности кода, что является критическим узким местом для реального применения. В данной статье мы представляем новую структуру итеративной оптимизации на этапе тестирования, используя замкнутую систему, в которой LLM итеративно улучшают код на основе эмпирической обратной связи от исполнения в песочнице. Мы исследуем три стратегии обучения: тонкую настройку с учителем (SFT), оптимизацию прямых предпочтений (DPO) и групповую относительную оптимизацию политик (GRPO). Эксперименты на нашем наборе данных Venus и бенчмарке APPS показывают, что SFT и DPO быстро достигают предела в улучшении эффективности. В отличие от них, GRPO, использующая обучение с подкреплением (RL) с обратной связью от исполнения, непрерывно оптимизирует производительность кода, значительно повышая как показатель pass@1 (с 47% до 62%), так и вероятность превосходства по эффективности над решениями, созданными людьми (с 31% до 45%). Наша работа демонстрирует эффективное улучшение эффективности кода на этапе тестирования и подчеркивает мощь RL в обучении LLM действительно самостоятельно повышать эффективность кода.

ToMAP: Обучение LLM-убеждающих с учетом оппонента через теорию разума
ToMAP: Training Opponent-Aware LLM Persuaders with Theory of Mind

May 29

ByPeixuan Han, Zijia Liu, Jiaxuan You

Крупные языковые модели (LLMs) демонстрируют перспективный потенциал в убеждении, однако существующие работы по обучению LLM-убеждающих агентов остаются предварительными. В частности, хотя люди обладают навыками активного и динамичного моделирования мыслей и мнений оппонента, современные LLM испытывают трудности с таким рассуждением, основанным на теории сознания (Theory of Mind, ToM), что приводит к ограниченному разнообразию и осведомленности о позиции оппонента. Для устранения этого ограничения мы представляем подход Theory of Mind Augmented Persuader (ToMAP), который позволяет создавать более гибких убеждающих агентов за счет включения двух модулей теории сознания, повышающих осведомленность и анализ ментального состояния оппонента. В частности, мы начинаем с того, что побуждаем убеждающего агента рассмотреть возможные возражения против целевого основного утверждения, а затем используем текстовый кодировщик в сочетании с обученным классификатором на основе MLP для предсказания текущей позиции оппонента по этим контраргументам. Наша тщательно разработанная схема обучения с подкреплением позволяет агенту научиться анализировать информацию, связанную с оппонентом, и использовать ее для генерации более эффективных аргументов. Эксперименты показывают, что убеждающий агент ToMAP, содержащий всего 3 миллиарда параметров, превосходит значительно более крупные базовые модели, такие как GPT-4o, с относительным приростом в 39,4% на множестве моделей убеждаемых и различных корпусов. Важно отметить, что ToMAP демонстрирует сложные цепочки рассуждений и снижение повторений в процессе обучения, что приводит к более разнообразным и эффективным аргументам. Функция осведомленности об оппоненте также делает ToMAP подходящим для длительных диалогов и позволяет ему использовать более логичные и учитывающие позицию оппонента стратегии. Эти результаты подчеркивают эффективность нашего метода и выделяют его потенциал для разработки более убедительных языковых агентов. Код доступен по адресу: https://github.com/ulab-uiuc/ToMAP.

Uni-Instruct: Одношаговая диффузионная модель через унифицированную инструкцию расхождения диффузии
Uni-Instruct: One-step Diffusion Model through Unified Diffusion Divergence Instruction

May 27

ByYifei Wang, Weimin Bai, Colin Zhang, Debing Zhang, Weijian Luo, He Sun

В данной работе мы объединяем более 10 существующих подходов к одношаговой диффузионной дистилляции, таких как Diff-Instruct, DMD, SIM, SiD, f-distill и другие, в рамках теоретически обоснованной структуры, которую мы называем \emph{Uni-Instruct}. Uni-Instruct мотивирован предложенной нами теорией расширения диффузии для семейства f-дивергенций. Затем мы представляем ключевые теории, которые преодолевают проблему вычислительной сложности исходной расширенной f-дивергенции, что приводит к эквивалентной, но вычислительно эффективной функции потерь, которая успешно обучает одношаговые диффузионные модели за счет минимизации расширенного семейства f-дивергенций. Новое объединение, предложенное Uni-Instruct, не только вносит теоретический вклад, помогающий понять существующие подходы с более высокой точки зрения, но также приводит к передовым результатам в одношаговой диффузионной генерации. На эталонном тесте генерации CIFAR10 Uni-Instruct достигает рекордных значений Frechet Inception Distance (FID) \emph{1.46} для безусловной генерации и \emph{1.38} для условной генерации. На эталонном тесте генерации ImageNet-64×64 Uni-Instruct устанавливает новый рекорд одношаговой генерации с FID \emph{1.02}, что превосходит его 79-шаговую учительскую диффузию с значительным улучшением на 1.33 (1.02 против 2.35). Мы также применяем Uni-Instruct к более широким задачам, таким как генерация текста в 3D. Для генерации текста в 3D Uni-Instruct демонстрирует достойные результаты, слегка превосходя предыдущие методы, такие как SDS и VSD, как по качеству генерации, так и по разнообразию. Как теоретические, так и эмпирические достижения Uni-Instruct могут способствовать будущим исследованиям в области одношаговой диффузионной дистилляции и передачи знаний в диффузионных моделях.

ZeroSep: Разделение любых аудиоданных без предварительного обучения
ZeroSep: Separate Anything in Audio with Zero Training

May 29

ByChao Huang, Yuesheng Ma, Junxuan Huang, Susan Liang, Yunlong Tang, Jing Bi, Wenqiang Liu, Nima Mesgarani, Chenliang Xu

Разделение аудиоисточников является фундаментальной задачей для машин, стремящихся понимать сложные акустические среды, и лежит в основе множества аудиоприложений. Современные подходы с использованием контролируемого глубокого обучения, хотя и мощные, ограничены необходимостью в обширных, специфичных для задачи размеченных данных и испытывают трудности с обобщением на огромную изменчивость и открытый характер реальных акустических сцен. Вдохновленные успехами генеративных базовых моделей, мы исследуем, могут ли предобученные аудиодиффузионные модели с текстовым управлением преодолеть эти ограничения. Мы делаем удивительное открытие: разделение источников без предварительного обучения (zero-shot) может быть достигнуто исключительно с помощью предобученной аудиодиффузионной модели с текстовым управлением при правильной конфигурации. Наш метод, названный ZeroSep, работает путем инвертирования смешанного аудио в латентное пространство диффузионной модели, а затем использует текстовое управление для направления процесса удаления шума с целью восстановления отдельных источников. Без какого-либо специфичного для задачи обучения или дообучения ZeroSep перепрофилирует генеративную диффузионную модель для задачи дискриминативного разделения и изначально поддерживает открытые сценарии благодаря своим богатым текстовым априорным знаниям. ZeroSep совместим с различными предобученными аудиодиффузионными моделями с текстовым управлением и демонстрирует высокую производительность на множестве бенчмарков для разделения, превосходя даже контролируемые методы.

ATI: Универсальные Инструкции по Траекториям для Управляемой Генерации Видео
ATI: Any Trajectory Instruction for Controllable Video Generation

May 28

ByAngtian Wang, Haibin Huang, Jacob Zhiyuan Fang, Yiding Yang, Chongyang Ma

Мы предлагаем унифицированную систему управления движением в генерации видео, которая бесшовно интегрирует движение камеры, трансляцию на уровне объектов и мелкозернистое локальное движение с использованием входных данных на основе траекторий. В отличие от предыдущих методов, которые решают эти типы движения через отдельные модули или специализированные конструкции, наш подход предлагает целостное решение, проецируя пользовательские траектории в латентное пространство предварительно обученных моделей генерации видео из изображений с помощью легковесного инжектора движения. Пользователи могут задавать ключевые точки и их пути движения для управления локализованными деформациями, движением целых объектов, динамикой виртуальной камеры или их комбинациями. Введенные сигналы траектории направляют генеративный процесс для создания временно согласованных и семантически выровненных последовательностей движения. Наша система демонстрирует превосходную производительность в различных задачах управления движением в видео, включая стилизованные эффекты движения (например, "кисти движения"), динамические изменения точки обзора и точное манипулирование локальным движением. Эксперименты показывают, что наш метод обеспечивает значительно лучшую управляемость и визуальное качество по сравнению с предыдущими подходами и коммерческими решениями, оставаясь при этом широко совместимым с различными современными архитектурами генерации видео. Страница проекта: https://anytraj.github.io/.

Re-ttention: Ультраразреженная визуальная генерация через статистическую перестройку внимания
Re-ttention: Ultra Sparse Visual Generation via Attention Statistical Reshape

May 28

ByRuichen Chen, Keith G. Mills, Liyao Jiang, Chao Gao, Di Niu

Диффузионные Трансформеры (DiT) стали стандартной моделью для генерации высококачественного визуального контента, такого как видео и изображения. Основным узким местом является механизм внимания, сложность которого растет квадратично с увеличением разрешения и длины видео. Логичным способом снизить эту нагрузку является использование разреженного внимания, при котором в расчет включается только подмножество токенов или патчей. Однако существующие методы не сохраняют визуальное качество при крайне высоких уровнях разреженности и могут даже приводить к значительным вычислительным накладным расходам. % Для решения этой проблемы мы предлагаем Re-ttention, который реализует очень высокое разреженное внимание для моделей визуальной генерации, используя временную избыточность Диффузионных Моделей для преодоления сдвига вероятностной нормализации в механизме внимания. В частности, Re-ttention переформирует оценки внимания на основе истории предыдущих распределений softmax, чтобы сохранить визуальное качество полного квадратичного внимания при очень высоких уровнях разреженности. % Экспериментальные результаты на моделях T2V/T2I, таких как CogVideoX и PixArt DiTs, демонстрируют, что Re-ttention требует всего 3.1% токенов во время вывода, превосходя современные методы, такие как FastDiTAttn, Sparse VideoGen и MInference. Кроме того, мы измеряем задержку, чтобы показать, что наш метод может достичь более 45% сокращения сквозной задержки и более 92% сокращения задержки само-внимания на GPU H100 при незначительных накладных расходах. Код доступен онлайн здесь: https://github.com/cccrrrccc/Re-ttention{https://github.com/cccrrrccc/Re-ttention}

Однократная минимизация энтропии
One-shot Entropy Minimization

May 26

ByZitian Gao, Lynx Chen, Joey Zhou, Bryan Dai

Мы обучили 13 440 крупных языковых моделей и обнаружили, что минимизация энтропии требует всего одного неразмеченного примера данных и 10 шагов оптимизации для достижения улучшений в производительности, сопоставимых или даже превосходящих результаты, полученные с использованием тысяч примеров данных и тщательно разработанных наград в обучении с подкреплением на основе правил. Этот поразительный результат может побудить к пересмотру парадигм пост-обучения для крупных языковых моделей. Наш код доступен по адресу https://github.com/zitian-gao/one-shot-em.

Когда модели рассуждают на вашем языке: управление языком мыслительных процессов снижает точность
When Models Reason in Your Language: Controlling Thinking Trace Language Comes at the Cost of Accuracy

May 28

ByJirui Qi, Shan Chen, Zidi Xiong, Raquel Fernández, Danielle S. Bitterman, Arianna Bisazza

Недавние крупные модели рассуждений (LRMs) с трассировкой мышления продемонстрировали высокую производительность в задачах на рассуждение на английском языке. Однако их способность мыслить на других языках изучена в меньшей степени. Эта способность так же важна, как и точность ответов, для реальных приложений, поскольку пользователи могут находить трассировку рассуждений полезной для контроля только в том случае, если она выражена на их родном языке. Мы всесторонне оцениваем две ведущие семейства LRMs на нашем бенчмарке XReasoning и обнаруживаем, что даже самые передовые модели часто возвращаются к английскому языку или создают фрагментированные рассуждения на других языках, что указывает на существенный разрыв в многоязычных рассуждениях. Вмешательства на основе промтов, которые заставляют модели рассуждать на языке пользователя, улучшают читаемость и контроль, но снижают точность ответов, выявляя важный компромисс. Мы также показываем, что целевое пост-обучение всего на 100 примерах смягчает это несоответствие, хотя некоторая потеря точности сохраняется. Наши результаты подчеркивают ограниченные возможности многоязычных рассуждений современных LRMs и намечают направления для будущих исследований. Код и данные доступны по адресу https://github.com/Betswish/mCoT-XReasoning.

Озадачены головоломками: когда модели "зрение-язык" не могут уловить подсказку
Puzzled by Puzzles: When Vision-Language Models Can't Take a Hint

May 29

ByHeekyung Lee, Jiaxin Ge, Tsung-Han Wu, Minwoo Kang, Trevor Darrell, David M. Chan

Ребусы, визуальные головоломки, кодирующие язык через образы, пространственное расположение и символические замены, представляют уникальную задачу для современных моделей обработки зрения и языка (VLMs). В отличие от традиционных задач, таких как генерация подписей к изображениям или ответы на вопросы, решение ребусов требует многомодальной абстракции, символического мышления и понимания культурных, фонетических и лингвистических каламбуров. В данной статье мы исследуем способность современных VLMs интерпретировать и решать ребусы, создавая вручную аннотированный набор разнообразных англоязычных ребусов, начиная от простых пиктографических замен до пространственно-зависимых подсказок (например, "head" над "heels"). Мы анализируем, как различные VLMs справляются с этими задачами, и наши результаты показывают, что, хотя модели демонстрируют удивительные способности в расшифровке простых визуальных подсказок, они значительно затрудняются с задачами, требующими абстрактного мышления, нестандартного подхода и понимания визуальных метафор.

Пересмотр дебатов между агентами как масштабирования на этапе тестирования: систематическое исследование условной эффективности
Revisiting Multi-Agent Debate as Test-Time Scaling: A Systematic Study of Conditional Effectiveness

May 29

ByYongjin Yang, Euiin Yi, Jongwoo Ko, Kimin Lee, Zhijing Jin, Se-Young Yun

Заметный рост возможностей крупных языковых моделей (LLM) стимулировал исследования в области мультиагентных систем, при этом дебаты в рамках таких систем стали перспективным направлением для улучшения решения задач. Эти подходы, известные как мультиагентные дебаты (MAD), где агенты совместно представляют, критикуют и уточняют аргументы, потенциально предлагают улучшенные рассуждения, устойчивость и разнообразие перспектив по сравнению с монолитными моделями. Несмотря на предыдущие исследования, использующие MAD, систематическое понимание их эффективности по сравнению с методами, основанными на одном агенте, особенно в различных условиях, остается недостаточным. Данная работа стремится заполнить этот пробел, концептуализируя MAD как метод масштабирования вычислений на этапе тестирования, отличающийся возможностями совместного уточнения и разнообразного исследования. Мы проводим всестороннее эмпирическое исследование, сравнивая MAD с сильными базовыми методами масштабирования на этапе тестирования, основанными на одном агенте, в задачах математического рассуждения и безопасности. Наше исследование систематически изучает влияние сложности задачи, масштаба модели и разнообразия агентов на производительность MAD. Ключевые результаты показывают, что для математического рассуждения MAD предлагает ограниченные преимущества по сравнению с масштабированием на одном агенте, но становится более эффективным с увеличением сложности задачи и уменьшением возможностей модели, при этом разнообразие агентов не приносит значительной пользы. Напротив, для задач безопасности совместное уточнение в MAD может повысить уязвимость, но включение разнообразных конфигураций агентов способствует постепенному снижению успешности атак через процесс совместного уточнения. Мы считаем, что наши результаты предоставляют важные рекомендации для будущего развития более эффективных и стратегически развернутых систем MAD.

Доверять или не доверять предсказаниям вашей визуально-языковой модели
To Trust Or Not To Trust Your Vision-Language Model's Prediction

May 29

ByHao Dong, Moru Liu, Jian Liang, Eleni Chatzi, Olga Fink

Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), продемонстрировали высокие способности в согласовании визуальных и текстовых модальностей, что открывает широкие возможности для применения в задачах многомодального понимания и генерации. Несмотря на их эффективность в сценариях обучения с нуля и трансферного обучения, VLMs остаются уязвимыми к ошибкам классификации, часто выдавая уверенные, но некорректные предсказания. Это ограничение представляет значительный риск в критически важных для безопасности областях, где ошибочные предсказания могут привести к серьезным последствиям. В данной работе мы представляем TrustVLM — не требующий дополнительного обучения фреймворк, разработанный для решения ключевой задачи оценки надежности предсказаний VLMs. Вдохновленные наблюдаемым разрывом между модальностями в VLMs и инсайтом, что определенные концепции более четко представлены в пространстве изображений, мы предлагаем новую функцию оценки уверенности, которая использует это пространство для улучшения обнаружения ошибок классификации. Мы тщательно оцениваем наш подход на 17 разнообразных наборах данных, используя 4 архитектуры и 2 VLMs, и демонстрируем передовые результаты с улучшением до 51,87% в AURC, 9,14% в AUROC и 32,42% в FPR95 по сравнению с существующими базовыми методами. Улучшая надежность модели без необходимости переобучения, TrustVLM прокладывает путь для более безопасного внедрения VLMs в реальных приложениях. Код будет доступен по адресу https://github.com/EPFL-IMOS/TrustVLM.

CLIPGaussian: Универсальный и мультимодальный перенос стилей на основе гауссовского сплайсинга
CLIPGaussian: Universal and Multimodal Style Transfer Based on Gaussian Splatting

May 28

ByKornel Howil, Joanna Waczyńska, Piotr Borycki, Tadeusz Dziarmaga, Marcin Mazur, Przemysław Spurek

Гауссово разбиение (Gaussian Splatting, GS) недавно появилось как эффективное представление для рендеринга 3D-сцен из 2D-изображений и было расширено для работы с изображениями, видео и динамическим 4D-контентом. Однако применение переноса стиля к представлениям на основе GS, особенно за пределами простых изменений цвета, остается сложной задачей. В данной работе мы представляем CLIPGaussians — первую унифицированную структуру для переноса стиля, которая поддерживает стилизацию, управляемую текстом и изображениями, для множества модальностей: 2D-изображений, видео, 3D-объектов и 4D-сцен. Наш метод работает непосредственно с гауссовыми примитивами и интегрируется в существующие GS-конвейеры в качестве подключаемого модуля, не требуя использования крупных генеративных моделей или повторного обучения с нуля. Подход CLIPGaussians позволяет совместно оптимизировать цвет и геометрию в 3D и 4D-сценах, обеспечивает временную согласованность в видео, сохраняя при этом размер модели. Мы демонстрируем превосходную точность и согласованность стиля во всех задачах, подтверждая CLIPGaussians как универсальное и эффективное решение для мультимодального переноса стиля.

ZPressor: Сжатие с учетом узких мест для масштабируемой прямой передачи 3DGS
ZPressor: Bottleneck-Aware Compression for Scalable Feed-Forward 3DGS

May 29

ByWeijie Wang, Donny Y. Chen, Zeyu Zhang, Duochao Shi, Akide Liu, Bohan Zhuang

Прямопроходные модели 3D Gaussian Splatting (3DGS) недавно появились как перспективное решение для синтеза новых видов, позволяя выполнять однократный вывод без необходимости оптимизации 3DGS для каждой сцены. Однако их масштабируемость фундаментально ограничена ограниченной емкостью их кодировщиков, что приводит к ухудшению производительности или чрезмерному потреблению памяти с увеличением количества входных видов. В данной работе мы анализируем прямопроходные фреймворки 3DGS через призму принципа Информационного Бутылочного Горлышка и представляем ZPressor — легковесный модуль, независимый от архитектуры, который позволяет эффективно сжимать многовидовые входные данные в компактное латентное состояние Z, сохраняя при этом важную информацию о сцене и отбрасывая избыточность. Конкретно, ZPressor позволяет существующим прямопроходным моделям 3DGS масштабироваться до более чем 100 входных видов с разрешением 480P на GPU с 80 ГБ памяти, разделяя виды на опорные и вспомогательные наборы и используя кросс-внимание для сжатия информации из вспомогательных видов в опорные, формируя сжатое латентное состояние Z. Мы показываем, что интеграция ZPressor в несколько современных прямопроходных моделей 3DGS последовательно улучшает производительность при умеренном количестве входных видов и повышает устойчивость в условиях плотного набора видов на двух крупномасштабных бенчмарках DL3DV-10K и RealEstate10K. Видео результаты, код и обученные модели доступны на нашей странице проекта: https://lhmd.top/zpressor.

UniTEX: Универсальное генеративное текстурирование высокой точности для 3D-моделей
UniTEX: Universal High Fidelity Generative Texturing for 3D Shapes

May 29

ByYixun Liang, Kunming Luo, Xiao Chen, Rui Chen, Hongyu Yan, Weiyu Li, Jiarui Liu, Ping Tan

Мы представляем UniTEX — новый двухэтапный фреймворк для генерации 3D-текстур, позволяющий создавать высококачественные и согласованные текстуры для 3D-объектов. Существующие подходы в основном полагаются на UV-инпейнтинг для уточнения текстур после репроекции сгенерированных изображений с нескольких ракурсов на 3D-формы, что приводит к проблемам, связанным с топологической неоднозначностью. Чтобы решить эту задачу, мы предлагаем обойти ограничения UV-мэппинга, работая непосредственно в унифицированном 3D-функциональном пространстве. В частности, мы сначала предлагаем перенести генерацию текстур в 3D-пространство с помощью Текстурирующих Функций (Texture Functions, TFs) — непрерывного объемного представления, которое отображает любую 3D-точку в текстуру на основе близости к поверхности, независимо от топологии сетки. Затем мы предлагаем предсказывать эти TFs напрямую из изображений и геометрических данных с использованием трансформерной модели Large Texturing Model (LTM). Для дальнейшего повышения качества текстур и использования мощных 2D-приоров мы разработали продвинутую стратегию на основе LoRA, позволяющую эффективно адаптировать крупномасштабные Diffusion Transformers (DiTs) для высококачественного синтеза текстур с нескольких ракурсов на первом этапе. Многочисленные эксперименты демонстрируют, что UniTEX достигает превосходного визуального качества и целостности текстур по сравнению с существующими подходами, предлагая обобщаемое и масштабируемое решение для автоматической генерации 3D-текстур. Код будет доступен по адресу: https://github.com/YixunLiang/UniTEX.

Lunguage: Бенчмарк для структурированной и последовательной интерпретации рентгенограмм грудной клетки
Lunguage: A Benchmark for Structured and Sequential Chest X-ray Interpretation

May 27

ByJong Hak Moon, Geon Choi, Paloma Rabaey, Min Gwan Kim, Hyuk Gi Hong, Jung-Oh Lee, Hangyul Yoon, Eun Woo Doe, Jiyoun Kim, Harshita Sharma, Daniel C. Castro, Javier Alvarez-Valle, Edward Choi

Рентгенологические заключения содержат детальные клинические наблюдения и отражают диагностические рассуждения, которые развиваются с течением времени. Однако существующие методы оценки ограничиваются анализом отдельных заключений и опираются на грубые метрики, которые не способны уловить тонкую клиническую семантику и временные зависимости. Мы представляем LUNGUAGE — эталонный набор данных для структурированной генерации рентгенологических заключений, который поддерживает как оценку отдельных отчетов, так и продольный анализ на уровне пациента с учетом множественных исследований. Набор включает 1 473 аннотированных рентгенологических заключения грудной клетки, каждое из которых проверено экспертами, причем 80 из них содержат продольные аннотации, отражающие прогрессирование заболевания и интервалы между исследованиями, также проверенные экспертами. Используя этот эталонный набор, мы разрабатываем двухэтапную структуру, которая преобразует сгенерированные отчеты в детализированные структурированные представления, согласованные со схемой, что позволяет проводить продольный анализ. Мы также предлагаем LUNGUAGESCORE — интерпретируемую метрику, которая сравнивает структурированные результаты на уровне сущностей, отношений и атрибутов, учитывая временную согласованность в рамках временных линий пациентов. Эти вклады формируют первый эталонный набор данных, структурирующую систему и метрику оценки для последовательного рентгенологического отчетности, причем эмпирические результаты демонстрируют, что LUNGUAGESCORE эффективно поддерживает оценку структурированных отчетов. Код доступен по адресу: https://github.com/SuperSupermoon/Lunguage.

Краткие рассуждения, большие выгоды: сокращение длинных цепочек рассуждений с помощью сложно-ориентированных подсказок
Concise Reasoning, Big Gains: Pruning Long Reasoning Trace with Difficulty-Aware Prompting

May 26

ByYifan Wu, Jingze Shi, Bingheng Wu, Jiayi Zhang, Xiaotian Lin, Nan Tang, Yuyu Luo

Существующие методы дистилляции цепочки рассуждений (CoT) эффективно передают способности к рассуждению базовым моделям, но страдают от двух основных ограничений: чрезмерной многословности трассировок рассуждений и недостаточной адаптивности к сложности задачи. Длинные трассировки рассуждений значительно увеличивают затраты на вывод, а решения фиксированной длины не позволяют базовым моделям обучаться адаптивным стратегиям рассуждения. Для решения этих проблем мы предлагаем метод динамического сокращения трассировок рассуждений без потери производительности, основанный на осведомленности о сложности задачи (DAP). В нашем подходе большая учительская модель сначала оценивает сложность каждой задачи, а затем переписывает свои трассировки рассуждений до подходящей более короткой длины, создавая лаконичные, но полные трассировки. Используя конвейер DAP, мы создали дистиллированный набор данных под названием LiteCoT, состоящий из 100 тысяч лаконичных примеров рассуждений, где решения в среднем содержат всего 720 токенов (на порядок короче типичных CoT). На основе LiteCoT мы дистиллировали новое семейство моделей рассуждений под названием Liter (1.5B, 7B и 32B), основанных на архитектуре Qwen2.5. Эксперименты показывают, что студенческая модель, дообученная всего на 100 тысячах этих адаптированных по сложности CoT-примеров, превосходит модель, дистиллированную на 800 тысячах оригинальных длинных CoT-примеров, при этом значительно снижая затраты на обучение и вывод. Наш метод также хорошо обобщается: на 11 различных бенчмарках более короткие CoT, адаптированные по сложности, достигают равной или лучшей точности по сравнению с длинными цепочками, используя гораздо меньше токенов. Например, на сложном экзамене AIME24 наш подход достигает 74.2% Pass@1, используя всего около 5 тысяч токенов для вывода, превосходя другие методы, которые потребляют значительно больше токенов. Наш код и данные доступны по адресу https://github.com/Evanwu1125/LiteCoT.

Могут ли крупные языковые модели обмануть CLIP? Бенчмаркинг адверсарной композиционности предобученных мультимодальных представлений через обновления текста
Can LLMs Deceive CLIP? Benchmarking Adversarial Compositionality of Pre-trained Multimodal Representation via Text Updates

May 28

ByJaewoo Ahn, Heeseung Yun, Dayoon Ko, Gunhee Kim

Хотя предобученные мультимодальные представления (например, CLIP) демонстрируют впечатляющие возможности, они проявляют значительные уязвимости в композиционности, что приводит к неинтуитивным суждениям. Мы представляем Multimodal Adversarial Compositionality (MAC) — эталонный набор, который использует большие языковые модели (LLM) для генерации обманчивых текстовых примеров, чтобы эксплуатировать эти уязвимости в различных модальностях, и оценивает их как через показатель успешности атак на уровне отдельных примеров, так и через групповое разнообразие на основе энтропии. Для улучшения методов zero-shot мы предлагаем подход самообучения, который использует тонкую настройку с отбором по отклонению и фильтрацией, способствующей разнообразию, что повышает как успешность атак, так и разнообразие примеров. Используя меньшие языковые модели, такие как Llama-3.1-8B, наш подход демонстрирует превосходную производительность в выявлении композиционных уязвимостей в различных мультимодальных представлениях, включая изображения, видео и аудио.

SridBench: Бенчмарк для оценки генерации научных иллюстраций моделями создания изображений
SridBench: Benchmark of Scientific Research Illustration Drawing of Image Generation Model

May 28

ByYifan Chang, Yukang Feng, Jianwen Sun, Jiaxin Ai, Chuanhao Li, S. Kevin Zhou, Kaipeng Zhang

В последние годы наблюдается стремительный прогресс в области генерации изображений с использованием искусственного интеллекта. Ранние диффузионные модели делали акцент на воспринимаемом качестве, тогда как новые мультимодальные модели, такие как GPT-4o-image, интегрируют высокоуровневое логическое мышление, улучшая семантическое понимание и структурную композицию. Генерация научных иллюстраций ярко демонстрирует эту эволюцию: в отличие от общей синтезации изображений, она требует точной интерпретации технического содержания и преобразования абстрактных идей в четкие, стандартизированные визуальные элементы. Эта задача значительно более требовательна к знаниям и трудоемка, часто требуя часов ручной работы и специализированных инструментов. Автоматизация этого процесса в контролируемом и интеллектуальном режиме имела бы существенную практическую ценность. Однако в настоящее время не существует бенчмарка для оценки ИИ в этой области. Чтобы восполнить этот пробел, мы представляем SridBench — первый бенчмарк для генерации научных иллюстраций. Он включает 1120 примеров, отобранных из ведущих научных статей по 13 дисциплинам естественных и компьютерных наук, собранных с участием экспертов и мультимодальных языковых моделей. Каждый образец оценивается по шести параметрам, включая семантическую точность и структурную корректность. Экспериментальные результаты показывают, что даже передовые модели, такие как GPT-4o-image, отстают от человеческого уровня, демонстрируя типичные проблемы с ясностью текста/визуализации и научной корректностью. Эти результаты подчеркивают необходимость развития более продвинутых возможностей визуальной генерации, основанных на логическом мышлении.

ChartLens: Точная визуальная атрибуция в диаграммах
ChartLens: Fine-grained Visual Attribution in Charts

May 25

ByManan Suri, Puneet Mathur, Nedim Lipka, Franck Dernoncourt, Ryan A. Rossi, Dinesh Manocha

Растущие возможности мультимодальных больших языковых моделей (MLLMs) способствуют прогрессу в таких задачах, как понимание графиков. Однако эти модели часто страдают от галлюцинаций, когда генерируемые текстовые последовательности противоречат предоставленным визуальным данным. Для решения этой проблемы мы представляем метод Post-Hoc Visual Attribution for Charts, который идентифицирует детализированные элементы графиков, подтверждающие заданный ответ, связанный с графиком. Мы предлагаем ChartLens — новый алгоритм атрибуции графиков, использующий методы сегментации для идентификации объектов на графиках и применяющий подход set-of-marks prompting с MLLMs для детализированной визуальной атрибуции. Кроме того, мы представляем ChartVA-Eval — эталонный набор данных, включающий синтетические и реальные графики из различных областей, таких как финансы, политика и экономика, с детализированными аннотациями атрибуции. Наши оценки показывают, что ChartLens улучшает детализированную атрибуцию на 26–66%.

Графовый подход к исследованию структурных паттернов знаний в крупных языковых моделях
A Graph Perspective to Probe Structural Patterns of Knowledge in Large Language Models

May 25

ByUtkarsh Sahu, Zhisheng Qi, Yongjia Lei, Ryan A. Rossi, Franck Dernoncourt, Nesreen K. Ahmed, Mahantesh M Halappanavar, Yao Ma, Yu Wang

Крупные языковые модели активно исследуются в качестве нейронных баз знаний благодаря их способности к доступу к знаниям, редактируемости, рассуждениям и объяснимости. Однако лишь немногие работы сосредоточены на структурных паттернах их знаний. Вдохновленные этим пробелом, мы исследуем эти структурные паттерны с точки зрения графов. Мы количественно оцениваем знания языковых моделей как на уровне триплетов, так и на уровне сущностей, и анализируем, как они связаны с такими свойствами структуры графа, как степень узла. Кроме того, мы выявляем гомофилию знаний, при которой топологически близкие сущности демонстрируют схожий уровень осведомленности, что вдохновляет нас на разработку графовых моделей машинного обучения для оценки знаний сущностей на основе их локальных соседей. Эта модель также позволяет проводить ценную проверку знаний, выбирая триплеты, которые менее известны языковым моделям. Эмпирические результаты показывают, что использование отобранных триплетов для тонкой настройки приводит к превосходной производительности.

Оценка креативности текста в различных областях: набор данных и система оценки на основе больших языковых моделей
Evaluating Text Creativity across Diverse Domains: A Dataset and Large Language Model Evaluator

May 25

ByQian Cao, Xiting Wang, Yuzhuo Yuan, Yahui Liu, Fang Luo, Ruihua Song

Оценка креативности остается сложной задачей для крупных языковых моделей (LLM). Современные методы оценки в значительной степени зависят от неэффективных и затратных человеческих суждений, что тормозит прогресс в повышении машинной креативности. Хотя существуют автоматизированные методы, начиная от психологического тестирования до эвристических или основанных на промптах подходов, они часто страдают от недостатка обобщаемости или соответствия человеческим суждениям. Для решения этих проблем в данной статье мы предлагаем новый фреймворк попарного сравнения для оценки текстовой креативности, используя общие контекстные инструкции для повышения согласованности оценки. Мы представляем CreataSet — масштабный набор данных, содержащий более 100 тысяч человеческих и более 1 миллиона синтетических пар "инструкция-ответ", охватывающих разнообразные задачи в открытых доменах. Обучившись на CreataSet, мы разработали LLM-оценщик под названием CrEval. CrEval демонстрирует значительное превосходство над существующими методами в плане соответствия человеческим суждениям. Экспериментальные результаты подчеркивают важность интеграции как человеческих, так и синтетических данных для обучения высоконадежных оценщиков, а также демонстрируют практическую полезность CrEval в повышении креативности LLM. В ближайшее время мы опубликуем все данные, код и модели для поддержки дальнейших исследований.

Адаптивное округление с сохранением модели
Model-Preserving Adaptive Rounding

May 29

ByAlbert Tseng, Zhaofeng Sun, Christopher De Sa

Основная цель посттренировочного квантования (PTQ) заключается в создании сжатой модели, распределение выходных данных которой максимально близко к распределению исходной модели. Для достижения этой цели практически все алгоритмы PTQ для крупных языковых моделей (LLM) квантуют линейные слои, независимо минимизируя ошибку активации на текущем слое. Однако этот локальный критерий игнорирует влияние последующих слоев, поэтому его уменьшение не обязательно приводит к более близкой модели. В данной работе мы представляем алгоритм YAQA (Yet Another Quantization Algorithm) — адаптивный алгоритм округления, который использует факторизованные по Кронекеру аппроксимации гессиана каждого линейного слоя относительно полной дивергенции Кульбака-Лейблера (KL) модели. YAQA состоит из двух компонентов: факторизованных по Кронекеру аппроксимаций полного гессиана на уровне слоев, которые могут быть эффективно вычислены для LLM с сотнями миллиардов параметров, и алгоритма округления, независимого от квантователя, который использует эти аппроксимации и сопровождается теоретическими гарантиями. На широком спектре моделей и квантователей YAQA эмпирически уменьшает дивергенцию KL до исходной модели примерно на 30%, одновременно достигая наилучших результатов на последующих задачах.

GSO: Сложные задачи оптимизации программного обеспечения для оценки SWE-агентов
GSO: Challenging Software Optimization Tasks for Evaluating SWE-Agents

May 29

ByManish Shetty, Naman Jain, Jinjian Liu, Vijay Kethanaboyina, Koushik Sen, Ion Stoica

Разработка высокопроизводительного программного обеспечения — это сложная задача, требующая специализированных знаний. Мы представляем GSO — эталонный тест для оценки способностей языковых моделей в разработке высокопроизводительного ПО. Мы разработали автоматизированный конвейер, который генерирует и выполняет тесты производительности, анализируя историю коммитов репозиториев, чтобы выявить 102 сложные задачи оптимизации в 10 кодовых базах, охватывающих различные области и языки программирования. Агенту предоставляется кодовая база и тест производительности в качестве точной спецификации, и его задача — улучшить эффективность выполнения, которая измеряется в сравнении с оптимизацией, выполненной экспертом-разработчиком. Наше количественное исследование показывает, что ведущие SWE-агенты испытывают значительные трудности, достигая успеха менее чем в 5% случаев, с ограниченными улучшениями даже при масштабировании на этапе вывода. Качественный анализ выявляет ключевые причины неудач, включая сложности с низкоуровневыми языками, применение стратегий ленивой оптимизации и трудности в точной локализации узких мест. Мы публикуем код и артефакты нашего эталонного теста вместе с траекториями агентов, чтобы способствовать дальнейшим исследованиям.

Как танцуют животные (когда на них никто не смотрит)
How Animals Dance (When You're Not Looking)

May 29

ByXiaojuan Wang, Aleksander Holynski, Brian Curless, Ira Kemelmacher, Steve Seitz

Мы представляем основанный на ключевых кадрах фреймворк для создания синхронизированных с музыкой видеороликов с танцующими животными, учитывающих хореографию. Начиная с нескольких ключевых кадров, представляющих различные позы животных — сгенерированных с помощью текстовых подсказок для создания изображений или GPT-4o — мы формулируем синтез танца как задачу оптимизации графа: найти оптимальную структуру ключевых кадров, которая удовлетворяет заданному хореографическому паттерну ритмов, который может быть автоматически оценен на основе эталонного танцевального видео. Мы также представляем подход для генерации зеркальных изображений поз, что важно для отражения симметрии в танце. Промежуточные кадры синтезируются с использованием видео-диффузионной модели. Всего с шестью входными ключевыми кадрами наш метод способен создавать танцевальные видео продолжительностью до 30 секунд для широкого спектра животных и музыкальных треков.

MMSI-Bench: Бенчмарк для оценки пространственного интеллекта на основе множества изображений
MMSI-Bench: A Benchmark for Multi-Image Spatial Intelligence

May 29

BySihan Yang, Runsen Xu, Yiman Xie, Sizhe Yang, Mo Li, Jingli Lin, Chenming Zhu, Xiaochen Chen, Haodong Duan, Xiangyu Yue, Dahua Lin, Tai Wang, Jiangmiao Pang

Пространственный интеллект имеет ключевое значение для мультимодальных больших языковых моделей (MLLMs), функционирующих в сложном физическом мире. Однако существующие бенчмарки исследуют только отношения в рамках одного изображения и, таким образом, не способны оценить пространственное рассуждение на основе нескольких изображений, которое требуется в реальных условиях. Мы представляем MMSI-Bench — бенчмарк для вопросно-ответных задач, посвящённый пространственному интеллекту на основе нескольких изображений. Шесть исследователей в области 3D-зрения потратили более 300 часов на тщательную разработку 1 000 сложных и однозначных вопросов с множественным выбором, созданных из более чем 120 000 изображений, каждое из которых сопровождается тщательно продуманными дистракторами и пошаговым процессом рассуждения. Мы провели обширные эксперименты и всесторонне оценили 34 открытые и проприетарные MLLMs, обнаружив значительный разрыв: самая сильная открытая модель достигает точности около 30%, а модель o3 reasoning от OpenAI — 40%, в то время как люди показывают результат в 97%. Эти результаты подчеркивают сложность MMSI-Bench и значительный потенциал для будущих исследований. Используя аннотированные процессы рассуждения, мы также предоставляем автоматизированный конвейер анализа ошибок, который диагностирует четыре основные причины неудач, включая (1) ошибки привязки, (2) ошибки сопоставления перекрытий и реконструкции сцен, (3) ошибки рассуждения при трансформации ситуаций и (4) ошибки пространственной логики, что предлагает ценные инсайты для развития пространственного интеллекта на основе нескольких изображений. Страница проекта: https://runsenxu.com/projects/MMSI_Bench.

TokBench: Оценка визуального токенизатора перед визуальной генерацией
TokBench: Evaluating Your Visual Tokenizer before Visual Generation

May 23

ByJunfeng Wu, Dongliang Luo, Weizhi Zhao, Zhihao Xie, Yuanhao Wang, Junyi Li, Xudong Xie, Yuliang Liu, Xiang Bai

В данной работе мы раскрываем ограничения визуальных токенизаторов и вариационных автоэнкодеров (VAE) в сохранении мелкозернистых признаков и предлагаем эталонный тест для оценки качества реконструкции двух сложных типов визуального контента: текста и лиц. Визуальные токенизаторы и VAE значительно продвинули визуальную генерацию и мультимодальное моделирование, предоставив более эффективные сжатые или квантованные представления изображений. Однако, хотя они помогают производственным моделям снизить вычислительные затраты, потеря информации при сжатии изображений фундаментально ограничивает верхний предел качества визуальной генерации. Чтобы оценить этот предел, мы сосредоточились на анализе реконструированных текстовых и лицевых признаков, поскольку они обычно: 1) существуют в меньших масштабах, 2) содержат плотные и богатые текстуры, 3) склонны к коллапсу и 4) крайне чувствительны для человеческого зрения. Сначала мы собрали и подготовили разнообразный набор четких изображений текста и лиц из существующих наборов данных. В отличие от подходов, использующих модели VLM, мы применяем проверенные модели OCR и распознавания лиц для оценки, обеспечивая точность при сохранении исключительно легковесного процесса тестирования, <span style="font-weight: bold; color: rgb(214, 21, 21);">требующего всего 2 ГБ памяти и 4 минуты</span> для завершения. Используя наш эталонный тест, мы анализируем качество реконструкции текста и лиц на различных масштабах для разных токенизаторов изображений и VAE. Наши результаты показывают, что современные визуальные токенизаторы по-прежнему испытывают трудности с сохранением мелкозернистых признаков, особенно в меньших масштабах. Мы также расширяем эту оценочную структуру на видео, проводя всесторонний анализ видео токенизаторов. Кроме того, мы демонстрируем, что традиционные метрики не способны точно отразить качество реконструкции для лиц и текста, в то время как предложенные нами метрики служат эффективным дополнением.

К надежной генерации биомедицинских гипотез: оценка правдивости и галлюцинаций в крупных языковых моделях
Toward Reliable Biomedical Hypothesis Generation: Evaluating Truthfulness and Hallucination in Large Language Models

May 20

ByGuangzhi Xiong, Eric Xie, Corey Williams, Myles Kim, Amir Hassan Shariatmadari, Sikun Guo, Stefan Bekiranov, Aidong Zhang

Крупные языковые модели (LLMs) продемонстрировали значительный потенциал в научных дисциплинах, таких как биомедицина, особенно в генерации гипотез, где они могут анализировать обширную литературу, выявлять закономерности и предлагать направления исследований. Однако ключевая проблема заключается в оценке достоверности сгенерированных гипотез, поскольку проверка их точности часто требует значительных временных и ресурсных затрат. Кроме того, проблема галлюцинаций в LLMs может приводить к созданию гипотез, которые кажутся правдоподобными, но в конечном итоге оказываются ошибочными, что подрывает их надежность. Для систематического изучения этих проблем мы представляем TruthHypo — эталонный набор данных для оценки способностей LLMs генерировать достоверные биомедицинские гипотезы, а также KnowHD — детектор галлюцинаций на основе знаний, который оценивает, насколько гипотезы основаны на существующих данных. Наши результаты показывают, что LLMs испытывают трудности с генерацией достоверных гипотез. Анализируя галлюцинации в шагах рассуждений, мы демонстрируем, что оценки обоснованности, предоставляемые KnowHD, служат эффективным метрическим инструментом для фильтрации достоверных гипотез из разнообразных выходных данных LLMs. Человеческие оценки дополнительно подтверждают полезность KnowHD в идентификации достоверных гипотез и ускорении научных открытий. Наши данные и исходный код доступны по адресу https://github.com/Teddy-XiongGZ/TruthHypo.

Дифференциальная информация: информационно-теоретический взгляд на оптимизацию предпочтений
Differential Information: An Information-Theoretic Perspective on Preference Optimization

May 29

ByYunjae Won, Hyunji Lee, Hyeonbin Hwang, Minjoon Seo

Оптимизация прямых предпочтений (Direct Preference Optimization, DPO) стала стандартной техникой для согласования языковых моделей с человеческими предпочтениями в контролируемом режиме. Несмотря на её эмпирический успех, теоретическое обоснование параметризации награды в виде логарифмического отношения остаётся неполным. В данной работе мы устраняем этот пробел, используя Дифференциальное распределение информации (Differential Information Distribution, DID) — распределение над последовательностями токенов, которое фиксирует информацию, полученную в процессе обновления политики. Во-первых, мы показываем, что когда метки предпочтений кодируют дифференциальную информацию, необходимую для преобразования референсной политики в целевую, логарифмическое отношение награды в DPO оказывается единственно оптимальной формой для обучения целевой политики через оптимизацию предпочтений. Этот результат естественным образом приводит к замкнутому выражению для оптимального распределения выборки над отвергнутыми ответами. Во-вторых, мы обнаруживаем, что условие кодирования дифференциальной информации в предпочтениях фундаментально связано с неявным предположением о логарифмически упорядоченных политиках — индуктивном смещении, широко используемом в оптимизации предпочтений, но ранее не распознанном. Наконец, анализируя энтропию DID, мы описываем, как изучение низкоэнтропийной дифференциальной информации усиливает распределение политики, в то время как высокоэнтропийная дифференциальная информация вызывает эффект сглаживания, что объясняет феномен смещения логарифмического правдоподобия. Мы подтверждаем наши теоретические выводы в синтетических экспериментах и расширяем их на реальные наборы данных для выполнения инструкций. Наши результаты показывают, что изучение высокоэнтропийной дифференциальной информации имеет ключевое значение для общего выполнения инструкций, тогда как изучение низкоэнтропийной дифференциальной информации полезно для ответов на вопросы, требующих глубоких знаний. В целом, наша работа предлагает унифицированную перспективу на цель DPO, структуру данных предпочтений и результирующие поведения политик через призму дифференциальной информации.

Обоснованное обучение с подкреплением для визуального анализа
Grounded Reinforcement Learning for Visual Reasoning

May 29

ByGabriel Sarch, Snigdha Saha, Naitik Khandelwal, Ayush Jain, Michael J. Tarr, Aviral Kumar, Katerina Fragkiadaki

Хотя обучение с подкреплением (RL) на цепочках рассуждений значительно продвинуло языковые модели в задачах, таких как математика и программирование, визуальное рассуждение вносит дополнительную сложность, требуя от моделей управления визуальным вниманием, интерпретации перцептивных данных и привязки абстрактных рассуждений к пространственным доказательствам. Мы представляем ViGoRL (Visually Grounded Reinforcement Learning), модель обработки визуальной информации и языка, обученную с использованием RL для явной привязки каждого шага рассуждений к конкретным визуальным координатам. Вдохновленная человеческим визуальным принятием решений, ViGoRL учится создавать пространственно обоснованные траектории рассуждений, направляя визуальное внимание на релевантные для задачи области на каждом шаге. Когда требуется детальное исследование, наша новая многошаговая RL-структура позволяет модели динамически увеличивать масштаб в предсказанных координатах по мере развертывания рассуждений. На разнообразных наборах тестов для визуального рассуждения — включая SAT-2 и BLINK для пространственного рассуждения, V*bench для визуального поиска, а также ScreenSpot и VisualWebArena для веб-ориентированной привязки — ViGoRL стабильно превосходит как модели с контролируемой тонкой настройкой, так и традиционные RL-базовые подходы, лишенные явных механизмов привязки. Включение многошагового RL с увеличенным визуальным откликом значительно улучшает производительность ViGoRL в локализации мелких элементов графического интерфейса и визуальном поиске, достигая 86,4% на V*Bench. Кроме того, мы обнаруживаем, что привязка усиливает другие визуальные поведенческие аспекты, такие как исследование областей, установка обоснованных подцелей и визуальная проверка. Наконец, человеческие оценки показывают, что визуальные ссылки модели не только пространственно точны, но и полезны для понимания шагов рассуждений модели. Наши результаты демонстрируют, что визуально обоснованное RL является мощной парадигмой для наделения моделей универсальными способностями к визуальному рассуждению.

Крупные языковые модели и графы знаний для ответов на вопросы: Синтез и перспективы
Large Language Models Meet Knowledge Graphs for Question Answering: Synthesis and Opportunities

May 26

ByChuangtao Ma, Yongrui Chen, Tianxing Wu, Arijit Khan, Haofen Wang

Крупные языковые модели (LLM) продемонстрировали выдающиеся результаты в задачах ответа на вопросы (QA) благодаря их превосходным способностям в понимании и генерации естественного языка. Однако LLM-подходы к QA сталкиваются с трудностями при решении сложных задач из-за ограниченных возможностей логического рассуждения, устаревших знаний и склонности к галлюцинациям. Несколько недавних работ объединяют LLM и графы знаний (KG) для решения QA, чтобы преодолеть указанные проблемы. В данном обзоре мы предлагаем новую структурированную таксономию, которая классифицирует методологии синтеза LLM и KG для QA в зависимости от категорий QA и роли KG при интеграции с LLM. Мы систематически рассматриваем современные достижения в области синтеза LLM и KG для QA, сравниваем и анализируем эти подходы с точки зрения их сильных сторон, ограничений и требований к KG. Затем мы сопоставляем подходы с задачами QA и обсуждаем, как эти подходы решают основные вызовы различных сложных QA. В заключение мы суммируем достижения, метрики оценки и эталонные наборы данных, а также выделяем открытые проблемы и перспективы.

PixelThink: В направлении эффективного цепочечного рассуждения на уровне пикселей
PixelThink: Towards Efficient Chain-of-Pixel Reasoning

May 29

BySong Wang, Gongfan Fang, Lingdong Kong, Xiangtai Li, Jianyun Xu, Sheng Yang, Qiang Li, Jianke Zhu, Xinchao Wang

Существующие подходы к сегментации с использованием рассуждений обычно дообучают мультимодальные большие языковые модели (MLLMs) на парах изображение-текст с соответствующими масками. Однако они демонстрируют ограниченную обобщаемость к сценариям, выходящим за пределы распределения данных, без явного процесса рассуждений. Хотя недавние исследования используют обучение с подкреплением через оптимизацию политики на основе групповых относительных показателей (GRPO) для улучшения способности к рассуждениям, они часто страдают от "переобдумывания" — создания излишне подробных цепочек рассуждений независимо от сложности задачи. Это приводит к повышенным вычислительным затратам и ограниченному контролю над качеством рассуждений. Для решения этой проблемы мы предлагаем PixelThink — простую, но эффективную схему, которая интегрирует внешне оцениваемую сложность задачи и внутренне измеряемую неопределённость модели для регулирования генерации рассуждений в рамках парадигмы обучения с подкреплением. Модель учится сокращать длину рассуждений в соответствии со сложностью сцены и уверенностью в предсказании. Для поддержки всесторонней оценки мы представляем ReasonSeg-Diff — расширенный бенчмарк с аннотированными эталонными рассуждениями и оценками сложности, а также набор метрик, предназначенных для совместной оценки точности сегментации, качества рассуждений и эффективности. Экспериментальные результаты показывают, что предложенный подход улучшает как эффективность рассуждений, так и общую производительность сегментации. Наша работа вносит новые перспективы в область эффективного и интерпретируемого мультимодального понимания. Код и модель будут общедоступны.

Независимая оценка качества машинного перевода на уровне слов через призму (не)согласия аннотаторов
Unsupervised Word-level Quality Estimation for Machine Translation Through the Lens of Annotators (Dis)agreement

May 29

ByGabriele Sarti, Vilém Zouhar, Malvina Nissim, Arianna Bisazza

Оценка качества на уровне слов (WQE) направлена на автоматическое выявление детализированных ошибок в машинно переведенных текстах и нашла широкое применение, включая помощь переводчикам в процессе пост-редактирования. Современные методы WQE часто являются затратными, включая запросы к крупным языковым моделям или специальное обучение на больших объемах данных, размеченных человеком. В данной работе мы исследуем эффективные альтернативы, используя последние достижения в области интерпретируемости языковых моделей и количественной оценки неопределенности для выявления ошибок перевода на основе внутренних механизмов моделей перевода. В нашей оценке, охватывающей 14 метрик по 12 направлениям перевода, мы количественно определяем влияние вариативности человеческой разметки на производительность метрик, используя несколько наборов человеческих аннотаций. Наши результаты подчеркивают нереализованный потенциал неконтролируемых метрик, недостатки контролируемых методов при работе с неопределенностью в разметке и хрупкость практик оценки с использованием одного аннотатора.

Адаптивное управление без классификатора с использованием динамического маскирования низкой уверенности
Adaptive Classifier-Free Guidance via Dynamic Low-Confidence Masking

May 26

ByPengxiang Li, Shilin Yan, Joey Tsai, Renrui Zhang, Ruichuan An, Ziyu Guo, Xiaowei Gao

Classifier-Free Guidance (CFG) значительно повышает управляемость в генеративных моделях за счёт интерполяции условных и безусловных предсказаний. Однако стандартный CFG часто использует статический безусловный вход, что может быть неоптимальным для итеративных процессов генерации, где неопределённость модели изменяется динамически. Мы представляем Adaptive Classifier-Free Guidance (A-CFG) — новый метод, который адаптирует безусловный вход, используя мгновенную уверенность модели в предсказаниях. На каждом шаге итеративной (маскированной) диффузионной языковой модели A-CFG идентифицирует токены в текущей сгенерированной последовательности, для которых модель демонстрирует низкую уверенность. Эти токены временно повторно маскируются для создания динамического, локализованного безусловного входа. Это фокусирует корректирующее влияние CFG именно на области неоднозначности, что приводит к более эффективному управлению. Мы интегрируем A-CFG в современную маскированную диффузионную языковую модель и демонстрируем её эффективность. Эксперименты на различных бенчмарках генерации текста показывают, что A-CFG обеспечивает значительные улучшения по сравнению со стандартным CFG, например, достигая увеличения на 3,9 балла на GPQA. Наша работа подчёркивает преимущество динамической адаптации механизмов управления к неопределённости модели в итеративной генерации.