HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

42 papers found

ProRL: Пролонгированное обучение с подкреплением расширяет границы рассуждений в крупных языковых моделях
ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

May 30

ByMingjie Liu, Shizhe Diao, Ximing Lu, Jian Hu, Xin Dong, Yejin Choi, Jan Kautz, Yi Dong

138

Недавние достижения в языковых моделях, ориентированных на рассуждения, подчеркнули важность обучения с подкреплением (RL) как перспективного метода для согласования моделей с проверяемыми вознаграждениями. Однако остается спорным вопрос, действительно ли RL расширяет способности модели к рассуждениям или просто усиливает высокооцененные выходные данные, уже скрытые в распределении базовой модели, а также приводит ли постоянное увеличение вычислительных ресурсов для RL к надежному улучшению производительности в рассуждениях. В данной работе мы бросаем вызов устоявшимся предположениям, демонстрируя, что длительное обучение с подкреплением (ProRL) может раскрыть новые стратегии рассуждений, недоступные для базовых моделей, даже при интенсивной выборке. Мы представляем ProRL — новую методику обучения, которая включает контроль расхождения Кульбака-Лейблера (KL), сброс эталонной политики и разнообразный набор задач. Наш эмпирический анализ показывает, что модели, обученные с использованием RL, стабильно превосходят базовые модели в широком спектре оценок pass@k, включая сценарии, где базовые модели полностью терпят неудачу независимо от количества попыток. Мы также демонстрируем, что улучшение границ рассуждений сильно коррелирует с компетентностью базовой модели в задачах и продолжительностью обучения, что указывает на способность RL исследовать и заполнять новые области пространства решений с течением времени. Эти результаты предлагают новые инсайты о условиях, при которых RL значимо расширяет границы рассуждений в языковых моделях, и закладывают основу для будущих исследований долгосрочного RL для рассуждений. Мы публикуем веса модели для поддержки дальнейших исследований: https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B.

AlphaOne: Модели рассуждений, сочетающие медленное и быстрое мышление во время тестирования
AlphaOne: Reasoning Models Thinking Slow and Fast at Test Time

May 30

ByJunyu Zhang, Runpei Dong, Han Wang, Xuying Ning, Haoran Geng, Peihao Li, Xialin He, Yutong Bai, Jitendra Malik, Saurabh Gupta, Huan Zhang

В данной статье представлен AlphaOne (alpha1) — универсальный фреймворк для модуляции прогресса рассуждений в крупных моделях рассуждений (LRMs) во время тестирования. Alpha1 вводит понятие альфа-момента, который представляет масштабированную фазу мышления с использованием универсального параметра alpha. В рамках этой масштабированной фазы, предшествующей альфа-моменту, он динамически планирует переходы к медленному мышлению, моделируя вставку токенов переходов рассуждений как стохастический процесс Бернулли. После альфа-момента Alpha1 детерминированно завершает медленное мышление с помощью токена окончания мышления, тем самым способствуя быстрому рассуждению и эффективной генерации ответов. Этот подход объединяет и обобщает существующие методы монотонного масштабирования, обеспечивая гибкую и плотную модуляцию перехода от медленного к быстрому рассуждению. Обширные эмпирические исследования на различных сложных бенчмарках в математической, кодировочной и научной областях демонстрируют превосходные способности Alpha1 к рассуждениям и его эффективность. Страница проекта: https://alphaone-project.github.io/

Временная слепота: почему видеоязыковые модели не видят то, что видят люди?
Time Blindness: Why Video-Language Models Can't See What Humans Can?

May 30

ByUjjwal Upadhyay, Mukul Ranjan, Zhiqiang Shen, Mohamed Elhoseiny

Последние достижения в области моделей, объединяющих зрение и язык (Vision-Language Models, VLMs), позволили добиться впечатляющих успехов в понимании пространственно-временных отношений в видео. Однако, когда пространственная информация скрыта, эти модели испытывают трудности с распознаванием чисто временных паттернов. Мы представляем SpookyBench — эталонный набор данных, в котором информация закодирована исключительно во временных последовательностях шумоподобных кадров, имитирующих природные явления, от биологической сигнализации до скрытой коммуникации. Интересно, что, хотя люди способны распознавать формы, текст и паттерны в этих последовательностях с точностью свыше 98%, современные VLMs демонстрируют 0% точности. Этот разрыв в производительности подчеркивает критическое ограничение: чрезмерную зависимость от пространственных признаков на уровне кадров и неспособность извлекать смысл из временных сигналов. Более того, при обучении на наборах данных с низким отношением сигнал-шум (SNR) в пространственной области, временное понимание моделей ухудшается быстрее, чем у человека, особенно в задачах, требующих детального временного анализа. Преодоление этого ограничения потребует новых архитектур или подходов к обучению, которые разделяют пространственные зависимости и временную обработку. Наш систематический анализ показывает, что эта проблема сохраняется для моделей различных масштабов и архитектур. Мы публикуем SpookyBench, чтобы стимулировать исследования в области распознавания временных паттернов и сократить разрыв между пониманием видео человеком и машиной. Набор данных и код доступны на нашем проектом сайте: https://timeblindness.github.io/.

Крупные языковые модели для синтеза данных
Large Language Models for Data Synthesis

May 20

ByYihong Tang, Menglin Kong, Lijun Sun

Генерация синтетических данных, которые точно отражают статистическую структуру реальных распределений, является фундаментальной задачей в моделировании данных. Классические подходы часто зависят от строгих параметрических предположений или ручного проектирования структуры и сталкиваются с трудностями в высокоразмерных или гетерогенных областях. Недавние достижения в области больших языковых моделей (LLM) демонстрируют их потенциал в качестве гибких, высокоразмерных априорных распределений для реальных данных. Однако при применении к синтезу данных стандартный сэмплинг на основе LLM оказывается неэффективным, ограничивается фиксированными пределами контекста и не обеспечивает статистического соответствия. В связи с этим мы представляем LLMSynthor — общий фреймворк для синтеза данных, который преобразует LLM в структурированные симуляторы, управляемые распределенными обратными связями. LLMSynthor рассматривает LLM как непараметрический симулятор копулы для моделирования зависимостей высокого порядка и вводит LLM Proposal Sampling для генерации обоснованных предложений распределений, повышающих эффективность сэмплинга без необходимости в отбраковке. Минимизируя расхождения в пространстве сводных статистик, итеративный цикл синтеза выравнивает реальные и синтетические данные, постепенно раскрывая и уточняя скрытую генеративную структуру. Мы оцениваем LLMSynthor в контролируемых и реальных условиях, используя гетерогенные наборы данных в областях, чувствительных к конфиденциальности (например, электронная коммерция, население и мобильность), которые охватывают как структурированные, так и неструктурированные форматы. Синтетические данные, созданные LLMSynthor, демонстрируют высокую статистическую достоверность, практическую полезность и адаптируемость к различным данным, что делает их ценным инструментом в экономике, социальных науках, урбанистике и других областях.

HardTests: Синтез высококачественных тестовых случаев для кодирования на языковых моделях (LLM)
HardTests: Synthesizing High-Quality Test Cases for LLM Coding

May 30

ByZhongmou He, Yee Man Choi, Kexun Zhang, Jiabao Ji, Junting Zhou, Dejia Xu, Ivan Bercovich, Aidan Zhang, Lei Li

Верификаторы играют ключевую роль в рассуждениях больших языковых моделей (LLM), необходимых для посттренировочных методов, таких как обучение с подкреплением. Однако надежные верификаторы сложно получить для трудных задач программирования, поскольку хорошо замаскированное ошибочное решение может быть обнаружено только с помощью тщательно написанных человеком граничных случаев, которые сложно синтезировать. Чтобы решить эту проблему, мы предлагаем HARDTESTGEN — конвейер для синтеза высококачественных тестов с использованием LLM. С помощью этого конвейера мы создали всеобъемлющий набор данных для соревновательного программирования HARDTESTS, содержащий 47 тысяч задач и синтетические высококачественные тесты. По сравнению с существующими тестами, тесты HARDTESTGEN демонстрируют точность, которая на 11,3 процентных пункта выше, и полноту, которая на 17,5 процентных пункта выше при оценке кода, сгенерированного LLM. Для более сложных задач улучшение точности может достигать 40 пунктов. HARDTESTS также оказывается более эффективным для обучения моделей, что измеряется производительностью генерации кода на последующих этапах. Мы опубликуем наш набор данных и конвейер синтеза по адресу https://leililab.github.io/HardTests/.

Не смотри только один раз: к мультимодальному интерактивному рассуждению с избирательным визуальным возвращением
Don't Look Only Once: Towards Multimodal Interactive Reasoning with Selective Visual Revisitation

May 24

ByJiwan Chung, Junhyeok Kim, Siyeol Kim, Jaeyoung Lee, Min Soo Kim, Youngjae Yu

Мы представляем v1, легковесное расширение для мультимодальных больших языковых моделей (MLLMs), которое позволяет выборочно возвращаться к визуальным данным в процессе вывода. В то время как современные MLLMs обычно обрабатывают визуальные входные данные только один раз и рассуждают исключительно на основе внутренней памяти, v1 вводит простой механизм "укажи и скопируй", позволяющий модели динамически извлекать релевантные области изображения на протяжении всего процесса рассуждения. Этот механизм дополняет существующие архитектуры с минимальными изменениями, обеспечивая контекстный доступ к визуальным токенам на основе развивающихся гипотез модели. Для обучения этой способности мы создали v1g — набор данных из 300 тысяч мультимодальных трасс рассуждений с аннотациями визуального заземления, переплетенными между собой. Эксперименты на трех мультимодальных математических бенчмарках — MathVista, MathVision и MathVerse — демонстрируют, что v1 стабильно улучшает производительность по сравнению с аналогичными базовыми моделями, особенно на задачах, требующих детального визуального анализа и многошагового рассуждения. Наши результаты показывают, что динамический доступ к визуальным данным является перспективным направлением для улучшения заземленного мультимодального рассуждения. Код, модели и данные будут опубликованы для поддержки будущих исследований.

ViStoryBench: Комплексный набор тестов для визуализации историй
ViStoryBench: Comprehensive Benchmark Suite for Story Visualization

May 30

ByCailin Zhuang, Ailin Huang, Wei Cheng, Jingwei Wu, Yaoqi Hu, Jiaqi Liao, Zhewei Huang, Hongyuan Wang, Xinyao Liao, Weiwei Cai, Hengyuan Xu, Xuanyang Zhang, Xianfang Zeng, Gang Yu, Chi Zhang

Визуализация историй, направленная на создание последовательности визуально согласованных изображений, соответствующих заданному повествованию и референсным изображениям, достигла значительного прогресса благодаря последним достижениям в области генеративных моделей. Для дальнейшего повышения производительности фреймворков визуализации историй в реальных сценариях мы представляем комплексный эталонный тест ViStoryBench. Мы собрали разнообразный набор данных, охватывающий различные типы историй и художественные стили, что позволяет оценивать модели по множеству аспектов, таких как различные сюжеты (например, комедия, ужасы) и визуальная эстетика (например, аниме, 3D-рендеринг). ViStoryBench тщательно разработан для баланса между повествовательными структурами и визуальными элементами, включая истории с одним и несколькими главными героями, чтобы проверить способность моделей поддерживать согласованность персонажей. Кроме того, он включает сложные сюжеты и детализированное построение миров, чтобы бросить вызов моделям в генерации точных визуальных элементов. Для обеспечения всестороннего сравнения наш эталонный тест включает широкий спектр метрик оценки, охватывающих ключевые аспекты. Этот структурированный и многогранный фреймворк позволяет исследователям тщательно выявлять как сильные, так и слабые стороны различных моделей, способствуя целенаправленным улучшениям.

DINO-R1: Стимулирование способности к логическому рассуждению в базовых моделях компьютерного зрения
DINO-R1: Incentivizing Reasoning Capability in Vision Foundation Models

May 29

ByChenbin Pan, Wenbin He, Zhengzhong Tu, Liu Ren

Недавний взрывной интерес к способностям крупных языковых моделей к рассуждению, таких как DeepSeek-R1, продемонстрировал впечатляющие успехи благодаря методам тонкой настройки на основе обучения с подкреплением, примером которых является метод Group Relative Policy Optimization (GRPO). Однако такие способности к рассуждению остаются недостаточно изученными и практически отсутствуют в базовых моделях для обработки изображений, включая модели представления, такие как серия DINO. В данной работе мы предлагаем DINO-R1 — первую попытку стимулировать способности к визуальному контекстному рассуждению в базовых моделях для обработки изображений с использованием обучения с подкреплением. В частности, DINO-R1 представляет Group Relative Query Optimization (GRQO) — новую стратегию обучения в стиле обучения с подкреплением, специально разработанную для моделей представления на основе запросов, которая вычисляет вознаграждения на уровне запросов на основе качества выравнивания, нормализованного по группам. Мы также применяем KL-регуляризацию для стабилизации распределения объектности, чтобы снизить нестабильность обучения. Совместная оптимизация позволяет обеспечить плотный и выразительный контроль над запросами, одновременно смягчая проблемы переобучения и смещения распределения. На основе Grounding-DINO мы обучаем серию моделей семейства DINO-R1, которые интегрируют визуальный кодировщик подсказок и механизм выбора запросов, управляемый визуальными данными. Многочисленные эксперименты на наборах данных COCO, LVIS и ODinW демонстрируют, что DINO-R1 значительно превосходит базовые методы контролируемой тонкой настройки, достигая высокой обобщающей способности как в сценариях открытого словаря, так и в закрытых наборах визуальных подсказок.

EXP-Bench: Способен ли ИИ проводить эксперименты в области исследований ИИ?
EXP-Bench: Can AI Conduct AI Research Experiments?

May 30

ByPatrick Tser Jern Kon, Jiachen Liu, Xinyi Zhu, Qiuyi Ding, Jingjia Peng, Jiarong Xing, Yibo Huang, Yiming Qiu, Jayanth Srinivasa, Myungjin Lee, Mosharaf Chowdhury, Matei Zaharia, Ang Chen

Автоматизация исследований в области ИИ обладает огромным потенциалом для ускорения научного прогресса, однако современные ИИ-агенты сталкиваются с трудностями при работе со сложностями строгих, сквозных экспериментов. Мы представляем EXP-Bench — новый эталонный тест, разработанный для систематической оценки ИИ-агентов на основе полных исследовательских экспериментов, взятых из влиятельных публикаций в области ИИ. Имея исследовательский вопрос и неполный стартовый код, EXP-Bench ставит перед ИИ-агентами задачу формулировать гипотезы, разрабатывать и реализовывать экспериментальные процедуры, выполнять их и анализировать результаты. Для создания таких сложных и аутентичных задач с высокой точностью мы разработали полуавтономный процесс извлечения и структурирования ключевых экспериментальных деталей из этих научных статей и связанного с ними открытого исходного кода. С помощью этого процесса EXP-Bench собрал 461 задачу из 51 ведущей научной статьи в области ИИ. Оценка ведущих ИИ-агентов на основе языковых моделей, таких как OpenHands и IterativeAgent, на EXP-Bench показала частичные возможности: хотя оценки за отдельные аспекты экспериментов, такие как корректность дизайна или реализации, иногда достигают 20–35%, успешность выполнения полных, исполняемых экспериментов составила всего 0,5%. Выявляя эти узкие места и предоставляя реалистичные пошаговые процедуры экспериментов, EXP-Bench служит важным инструментом для будущих ИИ-агентов, чтобы улучшить их способность проводить исследования в области ИИ. EXP-Bench доступен в открытом доступе по адресу: https://github.com/Just-Curieous/Curie/tree/main/benchmark/exp_bench.

Модели обработки зрения и языка обладают предвзятостью.
Vision Language Models are Biased

May 29

ByAn Vo, Khai-Nguyen Nguyen, Mohammad Reza Taesiri, Vy Tuong Dang, Anh Totti Nguyen, Daeyoung Kim

Крупные языковые модели (LLM) запоминают огромный объем предварительных знаний из Интернета, которые помогают им в решении последующих задач, но также могут печально известным образом склонять их выводы к ошибочным или предвзятым ответам. В данной работе мы исследуем, как знания о популярных темах снижают точность визуально-языковых моделей (VLM) в стандартных, объективных визуальных задачах, таких как подсчет и идентификация. Мы обнаруживаем, что современные VLM сильно предвзяты (например, не могут распознать добавление четвертой полосы к логотипу Adidas с тремя полосами), показывая среднюю точность 17,05% в задачах подсчета (например, подсчет полос в логотипе, похожем на Adidas) в 7 различных областях, включая животных, логотипы, шахматы, настольные игры, оптические иллюзии и узорчатые сетки. Добавление текста (например, "Adidas"), описывающего название объекта, в контрфактическое изображение еще больше снижает точность VLM. Предвзятость в VLM настолько сильна, что указание им перепроверить свои результаты или полагаться исключительно на детали изображения для ответа улучшает точность подсчета в среднем всего на +2 пункта. Наша работа демонстрирует интересный сбой в работе VLM и автоматизированную структуру для тестирования предвзятости VLM. Код и данные доступны по адресу: vlmsarebiased.github.io.

Open CaptchaWorld: Комплексная веб-платформа для тестирования и бенчмаркинга мультимодальных агентов на основе больших языковых моделей
Open CaptchaWorld: A Comprehensive Web-based Platform for Testing and Benchmarking Multimodal LLM Agents

May 30

ByYaxin Luo, Zhaoyi Li, Jiacheng Liu, Jiacheng Cui, Xiaohan Zhao, Zhiqiang Shen

CAPTCHA представляют собой критическое препятствие для развертывания веб-агентов в реальных приложениях, часто блокируя их выполнение сквозных задач автоматизации. Хотя современные мультимодальные агенты на основе LLM продемонстрировали впечатляющие результаты в статических задачах восприятия, их способность справляться с интерактивными, многошаговыми задачами, такими как CAPTCHA, остается в значительной степени неисследованной. Чтобы устранить этот пробел, мы представляем Open CaptchaWorld — первый веб-ориентированный бенчмарк и платформу, специально разработанные для оценки визуального мышления и интерактивных способностей агентов на основе MLLM с помощью разнообразных и динамичных CAPTCHA-головоломок. Наш бенчмарк охватывает 20 современных типов CAPTCHA, включая 225 задач, аннотированных с использованием нового метрического показателя, который мы предлагаем: CAPTCHA Reasoning Depth (Глубина рассуждений CAPTCHA), который количественно определяет количество когнитивных и моторных шагов, необходимых для решения каждой головоломки. Экспериментальные результаты показывают, что люди стабильно достигают почти идеальных показателей, тогда как передовые агенты на основе MLLM испытывают значительные трудности, с показателями успеха не более 40,0% у Browser-Use Openai-o3, что значительно ниже человеческого уровня в 93,3%. Это подчеркивает Open CaptchaWorld как важный бенчмарк для диагностики ограничений современных мультимодальных агентов и направления разработки более устойчивых систем мультимодального мышления. Код и данные доступны по ссылке: [указанный URL].

MoDoMoDo: Смеси данных из множества доменов для обучения с подкреплением мультимодальных языковых моделей
MoDoMoDo: Multi-Domain Data Mixtures for Multimodal LLM Reinforcement Learning

May 30

ByYiqing Liang, Jielin Qiu, Wenhao Ding, Zuxin Liu, James Tompkin, Mengdi Xu, Mengzhou Xia, Zhengzhong Tu, Laixi Shi, Jiacheng Zhu

Обучение с подкреплением с верифицируемыми наградами (RLVR) недавно стало мощной парадигмой для пост-обучения больших языковых моделей (LLM), демонстрируя передовые результаты в задачах со структурированными, верифицируемыми ответами. Применение RLVR к мультимодальным языковым моделям (MLLM) открывает значительные возможности, но осложняется более широким и разнородным характером задач, связанных с обработкой визуальной и текстовой информации, которые требуют тонких визуальных, логических и пространственных способностей. Таким образом, обучение MLLM с использованием RLVR на нескольких наборах данных может быть полезным, но создает проблемы из-за конфликтующих целей, возникающих при взаимодействии разнородных наборов данных, что подчеркивает необходимость оптимальных стратегий смешивания данных для улучшения обобщения и рассуждений. Мы представляем систематическую пост-обучающую структуру для мультимодальных MLLM с RLVR, включающую строгую формулировку задачи смешивания данных и эталонную реализацию. В частности: (1) Мы разработали мультимодальную RLVR-структуру для пост-обучения на нескольких наборах данных, создав набор данных, содержащий различные верифицируемые задачи на стыке визуальной и текстовой информации, и обеспечив многодоменное онлайн-обучение с подкреплением с различными верифицируемыми наградами; (2) Мы предложили стратегию смешивания данных, которая учится предсказывать результат тонкой настройки RL на основе распределения смешивания данных и, следовательно, оптимизирует наилучшее смешение. Комплексные эксперименты показывают, что многодоменное обучение RLVR в сочетании со стратегиями предсказания смешивания может значительно улучшить общие способности MLLM к рассуждениям. Наше лучшее смешение повышает точность пост-обученной модели на тестах вне распределения в среднем на 5,24% по сравнению с той же моделью, пост-обученной с равномерным смешиванием данных, и на 20,74% в целом по сравнению с базовой моделью до тонкой настройки.

CoDA: Оптимизация согласованного диффузионного шума для манипуляций с сочлененными объектами всем телом
CoDA: Coordinated Diffusion Noise Optimization for Whole-Body Manipulation of Articulated Objects

May 27

ByHuaijin Pi, Zhi Cen, Zhiyang Dou, Taku Komura

Синтез манипуляций с сочленёнными объектами, включая движение тела, рук и самого объекта, является важной, но сложной задачей с широким спектром приложений в области виртуальных людей и робототехники. Основные проблемы заключаются в следующем. Во-первых, достижение реалистичного движения всего тела требует тесной координации между руками и остальными частями тела, так как их движения взаимозависимы в процессе манипуляции. Во-вторых, манипуляция сочленёнными объектами обычно предполагает высокую степень свободы и требует большей точности, часто включая размещение пальцев в определённых областях для активации подвижных частей. Для решения этих задач мы предлагаем новый фреймворк оптимизации скоординированного диффузионного шума. В частности, мы выполняем оптимизацию в пространстве шума для трёх специализированных диффузионных моделей, отвечающих за тело, левую и правую руки, каждая из которых обучена на своём наборе данных для улучшения обобщаемости. Координация естественным образом возникает благодаря градиентному потоку вдоль кинематической цепи человека, что позволяет глобальной позе тела адаптироваться к целям движения рук с высокой точностью. Для повышения точности взаимодействия рук с объектом мы используем унифицированное представление на основе наборов базовых точек (BPS), где позиции конечных эффекторов кодируются как расстояния до того же BPS, что используется для геометрии объекта. Это унифицированное представление фиксирует детализированные пространственные отношения между рукой и частями сочленённого объекта, а полученные траектории служат целями для оптимизации диффузионного шума, создавая высокоточное движение взаимодействия. Мы проводим обширные эксперименты, демонстрирующие, что наш метод превосходит существующие подходы по качеству движения и физической правдоподобности, а также позволяет реализовать различные возможности, такие как управление позой объекта, одновременная ходьба и манипуляция, и генерация движения всего тела на основе данных только о руках.

MetaFaith: Достоверное выражение неопределенности на естественном языке в больших языковых моделях
MetaFaith: Faithful Natural Language Uncertainty Expression in LLMs

May 30

ByGabrielle Kaili-May Liu, Gal Yona, Avi Caciularu, Idan Szpektor, Tim G. J. Rudner, Arman Cohan

Ключевым компонентом надежности крупных языковых моделей (LLM) является достоверная передача неопределенности, однако LLM часто используют уверенные формулировки при изложении ложных утверждений, что приводит к излишнему доверию и подрыву доверия. Мы представляем первое систематическое исследование точной калибровки уверенности LLM, оценивая способность моделей использовать языковые выражения неопределенности, которые достоверно отражают их внутреннюю неопределенность, на основе широкого спектра моделей, наборов данных и стратегий запросов. Наши результаты показывают, что LLM в основном не справляются с этой задачей, а существующие методы вмешательства недостаточны: стандартные подходы к запросам дают лишь незначительные улучшения, а существующие методы калибровки, основанные на фактической точности, могут даже ухудшать достоверность калибровки. Для устранения этого критического пробела мы представляем MetaFaith — новый подход к калибровке на основе запросов, вдохновленный человеческой метакогницией. Мы демонстрируем, что MetaFaith значительно улучшает достоверность калибровки в различных моделях и задачах, обеспечивая улучшение достоверности до 61% и достигая 83% успешности по сравнению с исходными генерациями по оценке людей.

EmergentTTS-Eval: Оценка моделей синтеза речи на сложные задачи в области просодии, выразительности и лингвистики с использованием подхода "Модель как судья"
EmergentTTS-Eval: Evaluating TTS Models on Complex Prosodic, Expressiveness, and Linguistic Challenges Using Model-as-a-Judge

May 29

ByRuskin Raj Manku, Yuzhi Tang, Xingjian Shi, Mu Li, Alex Smola

Бенчмарки для систем синтеза речи (Text-to-Speech, TTS) часто не учитывают, насколько хорошо модели справляются с нюансированными и семантически сложными текстами. Развивая подход EmergentTTS, мы представляем EmergentTTS-Eval — комплексный бенчмарк, охватывающий шесть сложных сценариев TTS: эмоции, паралингвистику, иностранные слова, синтаксическую сложность, сложное произношение (например, URL-адреса, формулы) и вопросы. Ключевым аспектом нашей системы является автоматизация как генерации тестовых случаев, так и их оценки, что делает бенчмарк легко расширяемым. Начиная с небольшого набора начальных запросов, написанных людьми, мы итеративно расширяем их с использованием языковых моделей (LLM), чтобы охватить специфические структурные, фонетические и просодические задачи, в результате чего получаем 1 645 разнообразных тестовых случаев. Кроме того, мы применяем подход «модель как судья», используя крупную аудиоязыковую модель (Large Audio Language Model, LALM) для оценки речи по нескольким параметрам, таким как выражение эмоций, просодия, интонация и точность произношения. Мы тестируем современные открытые и проприетарные системы TTS, такие как 11Labs, Deepgram и OpenAI 4o-mini-TTS, на EmergentTTS-Eval, демонстрируя его способность выявлять тонкие различия в производительности. Результаты показывают, что подход «модель как судья» обеспечивает надежную оценку TTS и высокую корреляцию с предпочтениями людей. Мы открываем исходный код оценки https://github.com/boson-ai/EmergentTTS-Eval-public{код} и набор данных https://huggingface.co/datasets/bosonai/EmergentTTS-Eval{датасет}.

UniGeo: Управление видеодиффузией для унифицированной оценки согласованной геометрии
UniGeo: Taming Video Diffusion for Unified Consistent Geometry Estimation

May 30

ByYang-Tian Sun, Xin Yu, Zehuan Huang, Yi-Hua Huang, Yuan-Chen Guo, Ziyi Yang, Yan-Pei Cao, Xiaojuan Qi

В последнее время методы, использующие априорные знания диффузионных моделей для помощи в моноокулярной геометрической оценке (например, глубины и нормалей), привлекают значительное внимание благодаря своей высокой способности к обобщению. Однако большинство существующих работ сосредоточено на оценке геометрических свойств в системе координат камеры отдельных кадров видео, игнорируя присущую диффузионным моделям способность определять соответствие между кадрами. В данной работе мы демонстрируем, что при соответствующем проектировании и тонкой настройке внутренняя согласованность моделей генерации видео может быть эффективно использована для согласованной геометрической оценки. В частности, мы 1) выбираем геометрические атрибуты в глобальной системе координат, которые имеют такое же соответствие с кадрами видео, как и целевые прогнозы, 2) вводим новый и эффективный метод кондиционирования путем повторного использования позиционных кодировок и 3) повышаем производительность за счет совместного обучения на нескольких геометрических атрибутах, которые имеют одинаковое соответствие. Наши результаты демонстрируют превосходную производительность в прогнозировании глобальных геометрических атрибутов в видео и могут быть непосредственно применены к задачам реконструкции. Даже при обучении исключительно на статических видеоданных наш подход демонстрирует потенциал для обобщения на динамические видеосцены.

Крупные языковые модели представляют собой локально линейные отображения.
Large Language Models are Locally Linear Mappings

May 30

ByJames R. Golden

Мы демонстрируем, что операции вывода нескольких открытых крупных языковых моделей (LLM) могут быть отображены на точно эквивалентную линейную систему для входной последовательности без изменения весов модели или искажения выходных предсказаний. Расширяя методы, применяемые в моделях диффузии изображений, которые проявляют локальную или кусочно-линейную природу, мы стратегически изменяем вычисление градиента относительно заданной входной последовательности для предсказания следующего токена таким образом, что якобиан модели почти точно воспроизводит прямое предсказание с помощью линейной системы. Мы демонстрируем этот подход на различных моделях (Llama 3, Gemma 3, Qwen 3, Phi 4, Mistral Ministral и OLMo 2, вплоть до Llama 3.3 70B Q4) и показываем через сингулярное разложение отделенного якобиана, что эти LLM работают в крайне низкоразмерных подпространствах, где многие из крупнейших сингулярных векторов декодируются в концепции, связанные с наиболее вероятным выходным токеном. Этот подход также позволяет нам исследовать работу каждого последующего слоя (и его компонентов внимания и MLP) как почти точных линейных систем и наблюдать возникновение семантических концепций. Несмотря на их выразительную мощность и глобальную нелинейность, современные LLM могут быть интерпретированы через почти точные локально линейные декомпозиции, которые предоставляют понимание их внутренних представлений и раскрывают интерпретируемые семантические структуры в процессе предсказания следующего токена.

Больше размышлений, меньше визуализации? Оценка усиленных галлюцинаций в мультимодальных моделях рассуждений
More Thinking, Less Seeing? Assessing Amplified Hallucination in Multimodal Reasoning Models

May 23

ByChengzhi Liu, Zhongxing Xu, Qingyue Wei, Juncheng Wu, James Zou, Xin Eric Wang, Yuyin Zhou, Sheng Liu

Вычислительные ресурсы, используемые во время тестирования, позволили мультимодальным большим языковым моделям генерировать расширенные цепочки рассуждений, что привело к высоким результатам в таких задачах, как мультимодальное математическое рассуждение. Однако это улучшение способности к рассуждению часто сопровождается увеличением числа галлюцинаций: по мере увеличения длины генерируемых текстов модели склонны отходить от контента, основанного на изображениях, и больше полагаться на языковые априорные знания. Анализ внимания показывает, что более длинные цепочки рассуждений приводят к снижению фокуса на визуальных данных, что способствует возникновению галлюцинаций. Для систематического изучения этого явления мы вводим метрику RH-AUC, которая количественно оценивает, как точность восприятия модели изменяется с увеличением длины рассуждений, что позволяет нам оценить, сохраняет ли модель визуальную привязку в процессе рассуждений. Мы также представляем RH-Bench, диагностический набор данных, охватывающий различные мультимодальные задачи, предназначенный для оценки компромисса между способностью к рассуждению и галлюцинациями. Наш анализ показывает, что (i) более крупные модели обычно достигают лучшего баланса между рассуждением и восприятием, и (ii) этот баланс больше зависит от типов и областей обучающих данных, чем от их общего объема. Эти результаты подчеркивают важность оценочных подходов, которые совместно учитывают как качество рассуждений, так и точность восприятия.

EasyText: Управляемый диффузионный трансформер для многоязычного рендеринга текста
EasyText: Controllable Diffusion Transformer for Multilingual Text Rendering

May 30

ByRunnan Lu, Yuxuan Zhang, Jailing Liu, Haifa Wang, Yiren Song

Создание точного многоязычного текста с использованием диффузионных моделей долгое время оставалось желаемой, но сложной задачей. Современные методы добились прогресса в генерации текста на одном языке, однако рендеринг произвольных языков по-прежнему остается малоизученной областью. В данной статье представлен EasyText — фреймворк для рендеринга текста, основанный на DiT (Diffusion Transformer), который связывает шумоподавляющие латентные переменные с многоязычными символами, закодированными как токены символов. Мы предлагаем методы позиционного кодирования символов и интерполяции позиционного кодирования для достижения контролируемого и точного рендеринга текста. Кроме того, мы создаем крупномасштабный синтетический набор данных текстовых изображений, содержащий 1 миллион аннотаций изображений и текста на различных языках, а также высококачественный набор данных из 20 тысяч аннотированных изображений, которые используются для предварительного обучения и тонкой настройки соответственно. Многочисленные эксперименты и оценки демонстрируют эффективность и прогрессивность нашего подхода в рендеринге многоязычного текста, визуальном качестве и интеграции текста с учетом макета.

CLaSp: Пропуск слоев в контексте для самоспецифического декодирования
CLaSp: In-Context Layer Skip for Self-Speculative Decoding

May 30

ByLongze Chen, Renke Shan, Huiming Wang, Lu Wang, Ziqiang Liu, Run Luo, Jiawei Wang, Hamid Alinejad-Rokny, Min Yang

Спекулятивное декодирование (SD) представляет собой перспективный метод ускорения процесса декодирования больших языковых моделей (LLM). Эффективность SD в первую очередь зависит от согласованности между черновой моделью и проверяющей моделью. Однако существующие подходы к созданию черновых моделей обычно требуют обучения дополнительных модулей, что может быть сложно реализовать и обеспечить их совместимость с различными LLM. В данной статье мы предлагаем CLaSp — стратегию пропуска слоев в контексте для самоспекулятивного декодирования. В отличие от предыдущих методов, CLaSp не требует дополнительных модулей для создания черновых моделей или дополнительного обучения. Вместо этого она использует механизм "подключи и работай", пропуская промежуточные слои проверяющей модели для создания сжатой черновой модели. В частности, мы разработали алгоритм динамического программирования, который оптимизирует процесс пропуска слоев, используя полные скрытые состояния из последнего этапа проверки в качестве цели. Это позволяет CLaSp динамически корректировать стратегию пропуска слоев после каждого этапа проверки, не полагаясь на предварительно оптимизированные наборы пропущенных слоев. Результаты экспериментов на различных задачах демонстрируют, что CLaSp обеспечивает ускорение в 1,3–1,7 раза на моделях серии LLaMA3 без изменения исходного распределения генерируемого текста.

ReasonGen-R1: CoT для авторегрессионных моделей генерации изображений через SFT и RL
ReasonGen-R1: CoT for Autoregressive Image generation models through SFT and RL

May 30

ByYu Zhang, Yunqi Li, Yifan Yang, Rui Wang, Yuqing Yang, Dai Qi, Jianmin Bao, Dongdong Chen, Chong Luo, Lili Qiu

Хотя цепочка рассуждений (chain-of-thought reasoning) и обучение с подкреплением (RL) привели к прорывам в области обработки естественного языка (NLP), их интеграция в генеративные модели для работы с изображениями остается недостаточно изученной. Мы представляем ReasonGen-R1 — двухэтапную структуру, которая сначала наделяет авторегрессионный генератор изображений явными навыками "мышления" на основе текста с помощью контролируемой тонкой настройки на новом наборе данных, содержащем письменные обоснования, а затем улучшает его выходные данные с использованием оптимизации групповой относительной политики (Group Relative Policy Optimization). Чтобы модель могла рассуждать через текст перед генерацией изображений, мы автоматически создаем и публикуем корпус обоснований, сгенерированных моделью, в паре с визуальными подсказками, что позволяет контролировать планирование расположения объектов, стилей и композиции сцен. Наш алгоритм GRPO использует сигналы вознаграждения от предварительно обученной модели, работающей с визуальным и текстовым контентом, для оценки общей визуальной качества, оптимизируя политику на каждом этапе обновления. Оценки на наборах данных GenEval, DPG и бенчмарке T2I демонстрируют, что ReasonGen-R1 стабильно превосходит сильные базовые модели и предыдущие передовые решения. Подробнее: aka.ms/reasongen.

Fork-Merge Decoding: Улучшение мультимодального понимания в аудиовизуальных больших языковых моделях
Fork-Merge Decoding: Enhancing Multimodal Understanding in Audio-Visual Large Language Models

May 27

ByChaeyoung Jung, Youngjoon Jang, Jongmin Choi, Joon Son Chung

Цель данной работы — улучшить сбалансированное мультимодальное понимание в аудиовизуальных больших языковых моделях (AV-LLMs), устраняя смещение модальностей без необходимости дополнительного обучения. В современных AV-LLMs аудио- и видеоданные обычно обрабатываются совместно в декодере. Хотя такой подход способствует унифицированному мультимодальному пониманию, он может привести к смещению модальностей, когда модель чрезмерно полагается на одну из них из-за несбалансированных обучающих сигналов. Для устранения этой проблемы мы предлагаем стратегию Fork-Merge Decoding (FMD), простой, но эффективный метод, применяемый на этапе вывода, который не требует дополнительного обучения или изменений архитектуры. FMD сначала выполняет модально-специфическое рассуждение, обрабатывая только аудио- и только видеоданные через начальные слои декодера (фаза "fork"), а затем объединяет полученные скрытые состояния для совместного рассуждения в оставшихся слоях (фаза "merge"). Такой подход способствует сбалансированному вкладу модальностей и использованию дополнительной информации между ними. Мы оцениваем наш метод на двух репрезентативных AV-LLMs, VideoLLaMA2 и video-SALMONN, используя три эталонных набора данных. Экспериментальные результаты демонстрируют устойчивое улучшение производительности на задачах, связанных с аудио-, видео- и комбинированным аудиовизуальным рассуждением, подтверждая эффективность вмешательств на этапе вывода для обеспечения надежного мультимодального понимания.

DexUMI: Использование человеческой руки в качестве универсального интерфейса для манипуляций в задачах ловкого управления
DexUMI: Using Human Hand as the Universal Manipulation Interface for Dexterous Manipulation

May 28

ByMengda Xu, Han Zhang, Yifan Hou, Zhenjia Xu, Linxi Fan, Manuela Veloso, Shuran Song

Мы представляем DexUMI — фреймворк для сбора данных и обучения стратегий, который использует человеческую руку в качестве естественного интерфейса для передачи навыков точного манипулирования различным роботизированным рукам. DexUMI включает аппаратные и программные адаптации для минимизации разрыва в воплощении между человеческой рукой и различными роботизированными руками. Аппаратная адаптация устраняет кинематический разрыв с помощью носимого экзоскелета руки. Это позволяет обеспечить прямую тактильную обратную связь при сборе данных о манипулировании и адаптировать движения человека к выполнимым движениям роботизированной руки. Программная адаптация устраняет визуальный разрыв, заменяя человеческую руку в видеоданных на высококачественное восстановление изображения роботизированной руки. Мы демонстрируем возможности DexUMI в ходе комплексных экспериментов в реальных условиях на двух различных аппаратных платформах для точных роботизированных рук, достигая среднего уровня успешного выполнения задач в 86%.

Оценка и управление предпочтениями модальностей в мультимодальных больших языковых моделях
Evaluating and Steering Modality Preferences in Multimodal Large Language Model

May 27

ByYu Zhang, Jinlong Ma, Yongshuai Hou, Xuefeng Bai, Kehai Chen, Yang Xiang, Jun Yu, Min Zhang

Мультимодальные крупные языковые модели (MLLM) демонстрируют выдающиеся результаты в решении сложных задач с использованием мультимодального контекста. Однако до сих пор недостаточно изучено, проявляют ли они предпочтение к определённой модальности при обработке мультимодальных данных. Для исследования этого вопроса мы сначала создали бенчмарк MC\textsuperscript{2} в условиях контролируемого конфликта данных, чтобы систематически оценить предпочтение модальности — тенденцию отдавать предпочтение одной модальности перед другой при принятии решений на основе противоречивых мультимодальных данных. Наши обширные эксперименты показывают, что все 18 протестированных MLLM в целом демонстрируют явное смещение в сторону определённой модальности, и это предпочтение может быть изменено с помощью внешних вмешательств. Глубокий анализ показывает, что направление предпочтения может быть выявлено в латентных представлениях MLLM. На основе этого мы предлагаем метод зондирования и управления, основанный на инженерии представлений, для явного контроля предпочтения модальности без дополнительного тонкого настраивания или тщательно разработанных промптов. Наш метод эффективно усиливает предпочтение модальности в желаемом направлении и применим к таким задачам, как снижение галлюцинаций и мультимодальный машинный перевод, демонстрируя многообещающие улучшения.

Использование негативных сигналов: дистилляция с подкреплением на основе данных учителя для рассуждений в больших языковых моделях
Harnessing Negative Signals: Reinforcement Distillation from Teacher Data for LLM Reasoning

May 30

ByShuyao Xu, Cheng Peng, Jiangxuan Long, Weidi Xu, Wei Chu, Yuan Qi

Последние достижения в области дистилляции моделей демонстрируют, что данные от продвинутых моделей рассуждений (например, DeepSeek-R1, OpenAI's o1) могут эффективно передавать сложные способности к рассуждениям более компактным и эффективным студенческим моделям. Однако стандартные подходы используют метод отбраковки, исключая примеры с некорректными рассуждениями — ценные, но часто недооцененные данные. В данной статье рассматривается ключевой вопрос: как можно эффективно использовать как положительные, так и отрицательные дистиллированные траектории рассуждений для максимизации производительности языковых моделей (LLM) в оффлайн-режиме? Для этого мы предлагаем Reinforcement Distillation (REDI), двухэтапный фреймворк. На первом этапе модель обучается на положительных траекториях с помощью Supervised Fine-Tuning (SFT). На втором этапе модель дополнительно улучшается с использованием как положительных, так и отрицательных траекторий через предложенный нами REDI-объектив. Этот новый объектив представляет собой простую, не требующую эталонных данных функцию потерь, которая превосходит устоявшиеся методы, такие как DPO и SimPO, в контексте дистилляции. Наши эмпирические оценки демонстрируют превосходство REDI над базовыми подходами, такими как Rejection Sampling SFT или SFT в сочетании с DPO/SimPO, в задачах математического рассуждения. Примечательно, что модель Qwen-REDI-1.5B, дообученная всего на 131 тысяче положительных и отрицательных примеров из открытого набора данных Open-R1, достигает результата 83,1% на тесте MATH-500 (pass@1). Её производительность соответствует или превосходит показатели модели DeepSeek-R1-Distill-Qwen-1.5B (дообученной на 800 тысячах проприетарных данных) на различных тестах математического рассуждения, устанавливая новый эталон для 1,5-миллиардных моделей, дообученных оффлайн с использованием открыто доступных данных.

ChARM: Моделирование адаптивного к действиям вознаграждения на основе символов для продвинутых языковых агентов ролевых игр
ChARM: Character-based Act-adaptive Reward Modeling for Advanced Role-Playing Language Agents

May 29

ByFeiteng Fang, Ting-En Lin, Yuchuan Wu, Xiong Liu, Xiang Huang, Dingwei Chen, Jing Ye, Haonan Zhang, Liang Zhu, Hamid Alinejad-Rokny, Min Yang, Fei Huang, Yongbin Li

Ролевые языковые агенты (RPLAs) направлены на моделирование персонажей для реалистичного и увлекательного взаимодействия человека с компьютером. Однако традиционные модели вознаграждения часто сталкиваются с проблемами масштабируемости и адаптации к субъективным предпочтениям в диалогах. Мы предлагаем ChARM, модель вознаграждения на основе персонажей с адаптацией к действиям, которая решает эти проблемы благодаря двум инновациям: (1) адаптивный порог, значительно повышающий эффективность обучения и обобщаемость, и (2) механизм саморазвития, использующий большие объемы немаркированных данных для улучшения охвата обучения. Кроме того, мы представляем RoleplayPref, первый крупномасштабный набор данных предпочтений, специально разработанный для RPLAs, включающий 1108 персонажей, 13 подкатегорий и 16 888 двуязычных диалогов, а также RoleplayEval, специализированный эталонный тест для оценки. Экспериментальные результаты показывают улучшение на 13% по сравнению с традиционной моделью Брэдли-Терри в ранжировании предпочтений. Более того, применение вознаграждений, сгенерированных ChARM, в методах обучения на основе предпочтений (например, оптимизация прямых предпочтений) позволяет достичь передовых результатов на тестах CharacterEval и RoleplayEval. Код и набор данных доступны по адресу https://github.com/calubkk/ChARM.

Ролевая оценка для крупных языковых моделей
Role-Playing Evaluation for Large Language Models

May 19

ByYassine El Boudouri, Walter Nuninger, Julian Alvarez, Yvan Peter

Крупные языковые модели (LLMs) демонстрируют заметную способность принимать персонажей и участвовать в ролевых играх. Однако оценка этой способности представляет значительные трудности, так как человеческие оценки требуют больших ресурсов, а автоматизированные оценки могут быть предвзятыми. Для решения этой проблемы мы представляем Role-Playing Eval (RPEval) — новый эталонный тест, разработанный для оценки способностей LLM к ролевым играм по четырём ключевым аспектам: эмоциональное понимание, принятие решений, моральная согласованность и последовательность в рамках персонажа. В данной статье подробно описывается создание RPEval и приводятся базовые оценки. Наш код и набор данных доступны по адресу https://github.com/yelboudouri/RPEval.

Тонкая настройка малой языковой модели или использование подсказок для большой языковой модели? Пример генерации низкокодовых рабочих процессов
Fine-Tune an SLM or Prompt an LLM? The Case of Generating Low-Code Workflows

May 30

ByOrlando Marquez Ayala, Patrice Bechard, Emily Chen, Maggie Baird, Jingfei Chen

Крупные языковые модели (LLM), такие как GPT-4o, способны справляться с широким спектром сложных задач при правильной формулировке запроса. По мере снижения стоимости обработки токенов преимущества тонкой настройки малых языковых моделей (SLM) для реальных приложений — таких как более быстрый вывод и снижение затрат — могут перестать быть очевидными. В данной работе мы представляем доказательства того, что для задач, специфичных для определённой предметной области и требующих структурированных выходных данных, SLM всё ещё сохраняют преимущество в качестве. Мы сравниваем тонкую настройку SLM с использованием запросов к LLM на задаче генерации низкокодовых рабочих процессов в формате JSON. Мы наблюдаем, что, хотя хороший запрос может дать приемлемые результаты, тонкая настройка повышает качество в среднем на 10%. Мы также проводим систематический анализ ошибок, чтобы выявить ограничения моделей.

Point-MoE: К кросс-доменной обобщаемости в 3D семантической сегментации через подход "Смесь экспертов"
Point-MoE: Towards Cross-Domain Generalization in 3D Semantic Segmentation via Mixture-of-Experts

May 29

ByXuweiyi Chen, Wentao Zhou, Aruni RoyChowdhury, Zezhou Cheng

Хотя законы масштабирования произвели революцию в обработке естественного языка и компьютерном зрении, понимание 3D-облаков точек ещё не достигло этого уровня. Это можно объяснить как сравнительно меньшим масштабом 3D-датасетов, так и разнородными источниками самих данных. Облака точек захватываются различными сенсорами (например, камерами глубины, LiDAR) в разных областях (например, в помещении, на открытом воздухе), каждый из которых вносит уникальные паттерны сканирования, плотности выборки и семантические смещения. Такая гетерогенность доменов создаёт серьёзное препятствие для обучения унифицированных моделей в масштабе, особенно при реалистичном ограничении, что метки доменов обычно недоступны во время вывода. В данной работе мы предлагаем Point-MoE — архитектуру "Смеси экспертов", предназначенную для обеспечения крупномасштабной кросс-доменной обобщаемости в 3D-восприятии. Мы показываем, что стандартные базовые модели для облаков точек значительно теряют в производительности при обучении на смешанных доменных данных, тогда как Point-MoE с простой стратегией маршрутизации top-k может автоматически специализировать экспертов даже без доступа к меткам доменов. Наши эксперименты демонстрируют, что Point-MoE не только превосходит сильные базовые модели для многодоменных задач, но и лучше обобщается на неизвестные домены. Эта работа указывает на масштабируемый путь для понимания 3D: позволить модели самостоятельно обнаруживать структуру в разнообразных 3D-данных, а не навязывать её через ручную обработку или доменное управление.

Использование больших языковых моделей для обнаружения научной новизны
Harnessing Large Language Models for Scientific Novelty Detection

May 30

ByYan Liu, Zonglin Yang, Soujanya Poria, Thanh-Son Nguyen, Erik Cambria

В эпоху экспоненциального роста научных знаний выявление новых исследовательских идей является важной, но сложной задачей в академической среде. Несмотря на потенциал, отсутствие подходящего эталонного набора данных затрудняет исследования в области обнаружения новизны. Более того, простое применение существующих технологий обработки естественного языка (NLP), таких как поиск и последующая перекрестная проверка, не является универсальным решением из-за разрыва между текстовым сходством и концепцией идей. В данной статье мы предлагаем использовать крупные языковые модели (LLM) для обнаружения научной новизны (ND), сопровождая это двумя новыми наборами данных в областях маркетинга и NLP. Для создания тщательно продуманных наборов данных для ND мы предлагаем извлекать замкнутые множества статей на основе их взаимосвязей, а затем суммировать их основные идеи с помощью LLM. Чтобы уловить концепцию идей, мы предлагаем обучить легковесный поисковый механизм, дистиллируя знания на уровне идей из LLM, чтобы согласовать идеи с похожими концепциями, что позволяет эффективно и точно извлекать идеи для обнаружения новизны с помощью LLM. Эксперименты показывают, что наш метод стабильно превосходит другие на предложенных эталонных наборах данных для задач поиска идей и ND. Коды и данные доступны по адресу https://anonymous.4open.science/r/NoveltyDetection-10FB/.

SiLVR: Простая структура для рассуждений на основе языка в видео
SiLVR: A Simple Language-based Video Reasoning Framework

May 30

ByCe Zhang, Yan-Bo Lin, Ziyang Wang, Mohit Bansal, Gedas Bertasius

Последние достижения в области оптимизации на этапе тестирования привели к значительному улучшению способностей к рассуждению у крупных языковых моделей (LLM), что позволяет им решать сложные задачи в математике и программировании. Однако способности к рассуждению у мультимодальных языковых моделей (MLLM) всё ещё значительно отстают, особенно в задачах, связанных с видео и языком. Для решения этой проблемы мы представляем SiLVR — простую языковую структуру для рассуждений на основе видео, которая разбивает сложное понимание видео на два этапа. На первом этапе SiLVR преобразует исходное видео в языковые представления с использованием мультисенсорных входных данных, таких как краткие описания клипов и субтитры для аудио/речи. На втором этапе языковые описания передаются в мощную языковую модель для решения сложных задач понимания видео и языка. Для обработки длинных мультисенсорных входных данных мы используем адаптивную схему сокращения токенов, которая динамически определяет временную гранулярность для выборки токенов. Наша простая, модульная и не требующая обучения структура для рассуждений на основе видео демонстрирует наилучшие результаты на тестах Video-MME (длинные), Video-MMMU (понимание), Video-MMLU, CGBench и EgoLife. Кроме того, наше эмпирическое исследование, посвящённое способностям к рассуждению на основе видео, показывает, что, несмотря на отсутствие явного обучения на видео, сильные языковые модели могут эффективно агрегировать мультисенсорную информацию из видео, речи и аудио для выполнения сложных задач временного, причинного, длинно-контекстного и связанного с приобретением знаний рассуждений на основе видео. Код доступен по адресу https://github.com/CeeZh/SILVR.

un^2CLIP: Улучшение способности CLIP к захвату визуальных деталей через инвертирование unCLIP
un^2CLIP: Improving CLIP's Visual Detail Capturing Ability via Inverting unCLIP

May 30

ByYinqi Li, Jiahe Zhao, Hong Chang, Ruibing Hou, Shiguang Shan, Xilin Chen

Контрастивное предварительное обучение "Язык-Изображение" (CLIP) стало базовой моделью и нашло применение в различных задачах компьютерного зрения и мультимодальных задачах. Однако последние исследования показывают, что CLIP недостаточно эффективен в распознавании мелких деталей изображений и демонстрирует неоптимальную производительность в задачах плотного предсказания и визуально-центрированных мультимодальных задачах. В связи с этим данная работа сосредоточена на улучшении существующих моделей CLIP с целью максимального захвата визуальных деталей в изображениях. Мы обнаружили, что определенный тип генеративных моделей, unCLIP, предоставляет подходящую основу для достижения нашей цели. В частности, unCLIP обучает генератор изображений, учитывая эмбеддинг изображения CLIP. Другими словами, он инвертирует кодировщик изображений CLIP. По сравнению с дискриминативными моделями, такими как CLIP, генеративные модели лучше справляются с захватом деталей изображений, поскольку они обучаются на изучении распределения данных изображений. Кроме того, условное входное пространство unCLIP согласуется с оригинальным пространством эмбеддингов "текст-изображение" CLIP. Поэтому мы предлагаем инвертировать unCLIP (названный un^2CLIP) для улучшения модели CLIP. Таким образом, улучшенный кодировщик изображений может приобрести способность unCLIP захватывать визуальные детали, сохраняя при этом согласованность с оригинальным текстовым кодировщиком. Мы оцениваем наш улучшенный CLIP на различных задачах, к которым применялся CLIP, включая сложный бенчмарк MMVP-VLM, задачу открытого словарного сегментирования с плотным предсказанием и задачи мультимодальных больших языковых моделей. Эксперименты показывают, что un^2CLIP значительно улучшает оригинальный CLIP и предыдущие методы улучшения CLIP. Код и модели будут доступны по адресу https://github.com/LiYinqi/un2CLIP.

Переосмысление билинейных переходов состояний в рекуррентных нейронных сетях
Revisiting Bi-Linear State Transitions in Recurrent Neural Networks

May 27

ByM. Reza Ebrahimi, Roland Memisevic

Роль скрытых единиц в рекуррентных нейронных сетях традиционно рассматривается как моделирование памяти, при этом исследования сосредоточены на улучшении удержания информации с помощью механизмов управления (гейтов). Менее изученная перспектива рассматривает скрытые единицы как активных участников вычислений, выполняемых сетью, а не как пассивные хранилища памяти. В данной работе мы возвращаемся к билинейным операциям, которые включают мультипликативные взаимодействия между скрытыми единицами и входными эмбеддингами. Мы теоретически и эмпирически демонстрируем, что они представляют собой естественную индуктивную предвзятость для представления эволюции скрытых состояний в задачах отслеживания состояний. Это простейший тип задач, который требует активного вклада скрытых единиц в поведение сети. Мы также показываем, что билинейные обновления состояний образуют естественную иерархию, соответствующую задачам отслеживания состояний возрастающей сложности, при этом популярные линейные рекуррентные сети, такие как Mamba, находятся в центре этой иерархии с наименьшей сложностью.

Обеспечение гибкой интеграции нескольких языковых моделей для масштабируемой агрегации знаний
Enabling Flexible Multi-LLM Integration for Scalable Knowledge Aggregation

May 28

ByZhenglun Kong, Zheng Zhan, Shiyue Hou, Yifan Gong, Xin Meng, Pengwei Sui, Peiyan Dong, Xuan Shen, Zifeng Wang, Pu Zhao, Hao Tang, Stratis Ioannidis, Yanzhi Wang

Крупные языковые модели (LLM) демонстрируют впечатляющие результаты, однако их постоянное улучшение с помощью традиционного тонкого настройки остается сложной задачей, особенно при интеграции возможностей из других специализированных LLM. Популярные методы, такие как ансамблирование и объединение весов, требуют значительных объемов памяти и плохо адаптируются к изменяющимся данным. Недавние попытки передачи знаний из нескольких LLM в одну целевую модель сталкиваются с проблемами интерференции и снижения производительности между задачами, что во многом связано с ограниченной гибкостью в выборе кандидатов и процессах обучения. Для решения этих проблем мы предлагаем фреймворк, который адаптивно выбирает и агрегирует знания из различных LLM для создания единой, более мощной модели, избегая высоких затрат памяти при ансамблировании и негибкости объединения весов. В частности, мы разрабатываем адаптивную сеть выбора, которая идентифицирует наиболее релевантные исходные LLM на основе их оценок, тем самым снижая интерференцию знаний. Мы также предлагаем стратегию динамического взвешенного слияния, учитывающую внутренние сильные стороны кандидатов LLM, а также функцию потерь, управляемую обратной связью, которая предотвращает сходимость селектора на одном подмножестве источников. Экспериментальные результаты показывают, что наш метод обеспечивает более стабильный и масштабируемый процесс агрегации знаний, снижая интерференцию знаний до 50% по сравнению с существующими подходами. Код доступен по адресу https://github.com/ZLKong/LLM_Integration.

Грамматики формальной неопределенности: когда доверять большим языковым моделям в задачах автоматизированного рассуждения
Grammars of Formal Uncertainty: When to Trust LLMs in Automated Reasoning Tasks

May 26

ByDebargha Ganguly, Vikash Singh, Sreehari Sankar, Biyao Zhang, Xuecen Zhang, Srinivasan Iyengar, Xiaotian Han, Amit Sharma, Shivkumar Kalyanaraman, Vipin Chaudhary

Крупные языковые модели (LLM) демонстрируют значительный потенциал для демократизации автоматизированного рассуждения за счет генерации формальных спецификаций. Однако существует фундаментальное противоречие: LLM являются вероятностными, в то время как формальная верификация требует детерминированных гарантий. В данной статье рассматривается этот эпистемологический разрыв путем всестороннего исследования режимов сбоев и количественной оценки неопределенности (UQ) в формальных артефактах, созданных LLM. Наше систематическое исследование пяти передовых LLM выявляет влияние автоматизации на основе теории удовлетворяемости модулей (SMT) на точность в зависимости от предметной области (от +34,8% в логических задачах до -44,5% в фактологических), при этом известные методы UQ, такие как энтропия вероятностей токенов, не способны выявить эти ошибки. Мы представляем вероятностную контекстно-свободную грамматику (PCFG) для моделирования выходных данных LLM, что позволяет уточнить таксономию неопределенности. Мы обнаруживаем, что сигналы неопределенности зависят от задачи (например, энтропия грамматики для логики, AUROC>0,93). Наконец, легковесное объединение этих сигналов позволяет реализовать выборочную верификацию, значительно сокращая количество ошибок (14-100%) при минимальном воздержании, превращая формализацию на основе LLM в надежную инженерную дисциплину.

TRIDENT: Повышение безопасности крупных языковых моделей с помощью трехмерного синтеза диверсифицированных данных для тестирования на уязвимости
TRIDENT: Enhancing Large Language Model Safety with Tri-Dimensional Diversified Red-Teaming Data Synthesis

May 30

ByXiaorui Wu, Xiaofeng Mao, Fei Li, Xin Zhang, Xuanhong Li, Chong Teng, Donghong Ji, Zhuang Li

Крупные языковые модели (LLM) демонстрируют высокие результаты в различных задачах обработки естественного языка, однако остаются уязвимыми к генерации вредоносного контента или использованию в злонамеренных целях. Хотя для снижения таких рисков были введены наборы данных для обеспечения безопасности через контролируемую тонкую настройку (SFT), эти наборы данных часто не обеспечивают всестороннего охвата рисков. Большинство существующих наборов данных сосредоточены в основном на лексическом разнообразии, пренебрегая другими критически важными аспектами. Для устранения этого ограничения мы предлагаем новый аналитический фреймворк, позволяющий систематически измерять охват рисков в наборах данных для обеспечения безопасности по трем ключевым измерениям: лексическое разнообразие, злонамеренные намерения и тактики обхода ограничений (jailbreak). Мы также представляем TRIDENT — автоматизированный конвейер, который использует генерацию на основе персонажей с нулевым обучением (zero-shot) для создания разнообразных и всеобъемлющих инструкций, охватывающих эти измерения. Каждая вредоносная инструкция сопровождается этически выровненным ответом, что приводит к формированию двух наборов данных: TRIDENT-Core, содержащего 26 311 примеров, и TRIDENT-Edge, включающего 18 773 примера. Тонкая настройка модели Llama 3.1-8B на TRIDENT-Edge демонстрирует значительные улучшения, достигая в среднем снижения показателя Harm Score на 14,29% и уменьшения уровня успешности атак (Attack Success Rate) на 20% по сравнению с наилучшей базовой моделью, настроенной на наборе данных WildBreak.

OMNIGUARD: Эффективный подход к обеспечению безопасности ИИ при модерации в различных модальностях
OMNIGUARD: An Efficient Approach for AI Safety Moderation Across Modalities

May 29

BySahil Verma, Keegan Hines, Jeff Bilmes, Charlotte Siska, Luke Zettlemoyer, Hila Gonen, Chandan Singh

Возникающие возможности крупных языковых моделей (LLM) вызывают опасения относительно их потенциального вредоносного использования. Основной подход для смягчения этих опасений заключается в обнаружении вредоносных запросов к модели. Современные методы обнаружения несовершенны и особенно уязвимы к атакам, которые эксплуатируют несоответствие в обобщении возможностей модели (например, запросы на малоресурсных языках или запросы, представленные в нетекстовых модальностях, таких как изображения и аудио). Для решения этой проблемы мы предлагаем OMNIGUARD — подход для обнаружения вредоносных запросов на разных языках и в различных модальностях. Наш подход (i) идентифицирует внутренние представления LLM/MLLM, которые согласованы между языками или модальностями, и затем (ii) использует их для построения языково-независимого или модальностно-независимого классификатора для обнаружения вредоносных запросов. OMNIGUARD улучшает точность классификации вредоносных запросов на 11,57% по сравнению с самым сильным базовым методом в многоязычной среде, на 20,44% для запросов на основе изображений и устанавливает новый рекорд (SOTA) для запросов на основе аудио. Благодаря повторному использованию эмбеддингов, вычисленных в процессе генерации, OMNIGUARD также является очень эффективным (примерно в 120 раз быстрее, чем следующий самый быстрый базовый метод). Код и данные доступны по адресу: https://github.com/vsahil/OmniGuard.

Автоматизированная, но рискованная игра: моделирование переговоров и сделок между агентами на потребительских рынках
The Automated but Risky Game: Modeling Agent-to-Agent Negotiations and Transactions in Consumer Markets

May 29

ByShenzhe Zhu, Jiao Sun, Yi Nian, Tobin South, Alex Pentland, Jiaxin Pei

Искусственные интеллектуальные агенты всё чаще используются в приложениях, ориентированных на потребителей, для помощи в таких задачах, как поиск товаров, переговоры и выполнение транзакций. В данной статье мы исследуем сценарий будущего, в котором как потребители, так и продавцы делегируют ИИ-агентам полную автоматизацию переговоров и сделок. Мы стремимся ответить на два ключевых вопроса: (1) Различаются ли различные агенты на основе больших языковых моделей (LLM) в своей способности обеспечивать выгодные условия для пользователей? (2) Какие риски возникают при полной автоматизации заключения сделок с использованием ИИ-агентов на потребительских рынках? Чтобы ответить на эти вопросы, мы разработали экспериментальную платформу, которая оценивает производительность различных LLM-агентов в реальных условиях переговоров и транзакций. Наши результаты показывают, что заключение сделок с участием ИИ является изначально несбалансированной игрой — разные агенты достигают значительно отличающихся результатов для своих пользователей. Более того, поведенческие аномалии в LLM могут приводить к финансовым потерям как для потребителей, так и для продавцов, например, к чрезмерным тратам или принятию неразумных условий сделок. Эти результаты подчеркивают, что, хотя автоматизация может повысить эффективность, она также вносит существенные риски. Пользователям следует проявлять осторожность при делегировании бизнес-решений ИИ-агентам.

GATE: Универсальное векторное представление арабских текстов для улучшенной семантической текстовой схожести с использованием обучения матрёшечных представлений и гибридной функции потерь
GATE: General Arabic Text Embedding for Enhanced Semantic Textual Similarity with Matryoshka Representation Learning and Hybrid Loss Training

May 30

ByOmer Nacar, Anis Koubaa, Serry Sibaee, Yasser Al-Habashi, Adel Ammar, Wadii Boulila

Семантическое текстовое сходство (STS) является важной задачей в области обработки естественного языка (NLP), обеспечивая приложения в поиске, кластеризации и понимании семантических связей между текстами. Однако исследования в этой области для арабского языка остаются ограниченными из-за отсутствия высококачественных наборов данных и предобученных моделей. Этот дефицит ресурсов сдерживает точную оценку и развитие семантического сходства в арабских текстах. В данной статье представлены модели General Arabic Text Embedding (GATE), которые демонстрируют наилучшие результаты в задаче семантического текстового сходства в рамках бенчмарка MTEB. GATE использует обучение представлений по принципу матрёшки и гибридный подход к обучению с использованием функции потерь на основе арабских триплетных наборов данных для логического вывода в естественном языке, что крайне важно для повышения производительности моделей в задачах, требующих тонкого семантического понимания. GATE превосходит более крупные модели, включая OpenAI, с улучшением производительности на 20-25% в бенчмарках STS, эффективно улавливая уникальные семантические нюансы арабского языка.

Контекст — это золото для поиска золотого фрагмента: оценка и обучение контекстуальных векторных представлений документов
Context is Gold to find the Gold Passage: Evaluating and Training Contextual Document Embeddings

May 30

ByMax Conti, Manuel Faysse, Gautier Viaud, Antoine Bosselut, Céline Hudelot, Pierre Colombo

Одним из ограничений современных методов получения векторных представлений для поиска документов является то, что они обычно кодируют фрагменты (чанки) из одних и тех же документов независимо, часто упуская важную контекстную информацию из остальной части документа, которая могла бы значительно улучшить представление отдельных фрагментов. В данной работе мы представляем ConTEB (Context-aware Text Embedding Benchmark) — эталонный набор данных, предназначенный для оценки моделей поиска на их способность учитывать контекст всего документа. Наши результаты показывают, что современные модели векторных представлений испытывают трудности в сценариях поиска, где требуется учет контекста. Чтобы устранить это ограничение, мы предлагаем InSeNT (In-sequence Negative Training) — новый контрастивный метод пост-обучения, который в сочетании с пулингом на уровне фрагментов улучшает обучение контекстных представлений, сохраняя при этом вычислительную эффективность. Наш метод значительно повышает качество поиска на ConTEB без ухудшения базовой производительности модели. Кроме того, мы обнаруживаем, что фрагменты, представленные с помощью нашего метода, более устойчивы к неоптимальным стратегиям разбиения на чанки и большим размерам корпусов для поиска. Все материалы доступны в открытом доступе по адресу https://github.com/illuin-tech/contextual-embeddings.

LegalSearchLM: Переосмысление поиска юридических прецедентов как генерации юридических элементов
LegalSearchLM: Rethinking Legal Case Retrieval as Legal Elements Generation

May 28

ByChaeeun Kim, Jinu Lee, Wonseok Hwang

Поиск юридических прецедентов (Legal Case Retrieval, LCR), который заключается в извлечении релевантных дел на основе запроса, является фундаментальной задачей для юридических специалистов в исследованиях и принятии решений. Однако существующие исследования в области LCR сталкиваются с двумя основными ограничениями. Во-первых, они оцениваются на относительно небольших корпусах для поиска (например, 100–55 тыс. дел) и используют узкий спектр типов уголовных запросов, что не позволяет в полной мере отразить сложность реальных сценариев юридического поиска. Во-вторых, их зависимость от методов, основанных на векторных представлениях или лексическом сопоставлении, часто приводит к ограниченным представлениям и юридически нерелевантным совпадениям. Для решения этих проблем мы представляем: (1) LEGAR BENCH — первый крупномасштабный корейский бенчмарк для LCR, охватывающий 411 разнообразных типов преступлений в запросах на основе более 1,2 млн юридических дел; и (2) LegalSearchLM — модель поиска, которая выполняет анализ юридических элементов в запросе и напрямую генерирует контент, основанный на целевых делах, с использованием ограниченного декодирования. Результаты экспериментов показывают, что LegalSearchLM превосходит базовые модели на 6–20% на LEGAR BENCH, достигая наилучших результатов. Кроме того, модель демонстрирует сильную способность к обобщению на случаи, выходящие за пределы домена, превосходя наивные генеративные модели, обученные на данных из домена, на 15%.

Состояние исследований безопасности многоязычных LLM: от измерения языкового разрыва к его устранению
The State of Multilingual LLM Safety Research: From Measuring the Language Gap to Mitigating It

May 30

ByZheng-Xin Yong, Beyza Ermis, Marzieh Fadaee, Stephen H. Bach, Julia Kreutzer

В данной статье представлен всесторонний анализ языкового разнообразия в исследованиях безопасности крупных языковых моделей (LLM), подчеркивающий англоцентричный характер этой области. На основе систематического обзора почти 300 публикаций за период с 2020 по 2024 год, представленных на крупных конференциях и воркшопах по обработке естественного языка (NLP) в рамках *ACL, мы выявили значительный и растущий языковой разрыв в исследованиях безопасности LLM. Даже высокоресурсные неанглийские языки получают минимальное внимание. Мы также отмечаем, что неанглийские языки редко изучаются как самостоятельные, а исследования безопасности на английском языке демонстрируют слабую практику документирования языковых данных. Для стимулирования будущих исследований в области многоязычной безопасности мы предлагаем несколько рекомендаций на основе нашего обзора, а также формулируем три конкретных направления для будущих исследований: оценка безопасности, генерация обучающих данных и кросс-лингвальное обобщение безопасности. На основе нашего обзора и предложенных направлений область может разработать более устойчивые и инклюзивные практики обеспечения безопасности ИИ для разнообразных глобальных сообществ.