HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

20 papers found

OmniWorld: Мультидоменный и мультимодальный набор данных для 4D-моделирования мира
OmniWorld: A Multi-Domain and Multi-Modal Dataset for 4D World Modeling

Sep 15

ByYang Zhou, Yifan Wang, Jianjun Zhou, Wenzheng Chang, Haoyu Guo, Zizun Li, Kaijing Ma, Xinyue Li, Yating Wang, Haoyi Zhu, Mingyu Liu, Dingning Liu, Jiange Yang, Zhoujie Fu, Junyi Chen, Chunhua Shen, Jiangmiao Pang, Kaipeng Zhang, Tong He

Область моделирования 4D-мира, направленная на совместное захват пространственной геометрии и временной динамики, за последние годы достигла значительного прогресса благодаря развитию крупномасштабных генеративных моделей и мультимодального обучения. Однако создание действительно универсальных моделей 4D-мира остается фундаментально ограниченным из-за недостатка высококачественных данных. Существующие наборы данных и бенчмарки часто не обладают необходимой динамической сложностью, мультидоменным разнообразием и пространственно-временными аннотациями, которые требуются для поддержки ключевых задач, таких как 4D-геометрическая реконструкция, прогнозирование будущего и генерация видео с управлением камерой. Чтобы устранить этот пробел, мы представляем OmniWorld — крупномасштабный мультидоменный мультимодальный набор данных, специально разработанный для моделирования 4D-мира. OmniWorld включает в себя новый набор данных OmniWorld-Game и несколько тщательно отобранных публичных наборов данных, охватывающих различные области. По сравнению с существующими синтетическими наборами данных, OmniWorld-Game предлагает более широкое покрытие модальностей, больший масштаб и более реалистичные динамические взаимодействия. На основе этого набора данных мы создаем сложный бенчмарк, который выявляет ограничения современных передовых (SOTA) подходов в моделировании сложных 4D-сред. Более того, тонкая настройка существующих SOTA-методов на OmniWorld приводит к значительному улучшению производительности в задачах 4D-реконструкции и генерации видео, что убедительно подтверждает OmniWorld как мощный ресурс для обучения и оценки. Мы видим OmniWorld как катализатор для ускорения разработки универсальных моделей 4D-мира, что в конечном итоге продвинет целостное понимание машинами физического мира.

UI-S1: Развитие автоматизации графического интерфейса с помощью полуонлайнового обучения с подкреплением
UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning

Sep 15

ByZhengxi Lu, Jiabo Ye, Fei Tang, Yongliang Shen, Haiyang Xu, Ziwei Zheng, Weiming Lu, Ming Yan, Fei Huang, Jun Xiao, Yueting Zhuang

Агенты с графическим пользовательским интерфейсом (GUI) продемонстрировали значительный прогресс в автоматизации сложных взаимодействий с интерфейсом с использованием обучения с подкреплением. Однако современные подходы сталкиваются с фундаментальной дилеммой: оффлайн-обучение с подкреплением (RL) позволяет стабильно обучаться на предварительно собранных траекториях, но испытывает трудности с выполнением многошаговых задач из-за отсутствия сигналов вознаграждения на уровне траекторий; онлайн-RL захватывает эти сигналы через взаимодействие со средой, но страдает от редких вознаграждений и непомерных затрат на развертывание. Для решения этой проблемы мы представляем полуонлайновое обучение с подкреплением — новый подход, который симулирует онлайн-RL на оффлайновых траекториях. В процессе каждого развертывания мы сохраняем исходный вывод модели в рамках многошагового диалога, где адаптивный модуль Patch восстанавливает расхождения между развертываемыми и экспертно заданными траекториями. Для захвата долгосрочных сигналов обучения полуонлайновое RL вводит дисконтированные будущие вознаграждения в расчет наград и оптимизирует политику с использованием взвешенных преимуществ на уровне шагов и эпизодов. Мы также вводим метрику Semi-Online Performance (SOP), которая лучше соответствует реальной онлайн-производительности, служа практичным и эффективным прокси для оценки в реальных условиях. Эксперименты показывают, что наш полуонлайновый RL достигает наилучших результатов среди моделей с 7 миллиардами параметров на четырех динамических бенчмарках, значительно превосходя базовую модель (например, +12,0% на AndroidWorld, +23,8% на AITW), демонстрируя значительный прогресс в сокращении разрыва между эффективностью оффлайнового обучения и многошаговым рассуждением в онлайн-режиме. Код доступен по адресу https://github.com/X-PLUG/MobileAgent/tree/main/UI-S1.

InternScenes: Масштабный набор данных симулируемых внутренних сцен с реалистичной планировкой
InternScenes: A Large-scale Simulatable Indoor Scene Dataset with Realistic Layouts

Sep 13

ByWeipeng Zhong, Peizhou Cao, Yichen Jin, Li Luo, Wenzhe Cai, Jingli Lin, Hanqing Wang, Zhaoyang Lyu, Tai Wang, Bo Dai, Xudong Xu, Jiangmiao Pang

Развитие воплощённого искусственного интеллекта (Embodied AI) в значительной степени зависит от крупномасштабных, симулируемых наборов данных 3D-сцен, характеризующихся разнообразием сцен и реалистичными компоновками. Однако существующие наборы данных обычно страдают от ограничений в масштабе или разнообразии данных, стерилизованных компоновок, лишённых мелких объектов, и серьёзных столкновений объектов. Чтобы устранить эти недостатки, мы представляем InternScenes — новый крупномасштабный симулируемый набор данных для внутренних сцен, включающий около 40 000 разнообразных сцен, созданных путём интеграции трёх различных источников сцен: сканирований реального мира, процедурно сгенерированных сцен и сцен, созданных дизайнерами. Набор данных содержит 1,96 млн 3D-объектов и охватывает 15 распространённых типов сцен и 288 классов объектов. Мы особенно уделили внимание сохранению множества мелких объектов в сценах, что привело к реалистичным и сложным компоновкам со средним количеством 41,5 объектов на регион. Наш комплексный конвейер обработки данных обеспечивает симулируемость, создавая реплики "реальное-в-симуляции" для сканирований реального мира, повышает интерактивность за счёт включения интерактивных объектов в эти сцены и устраняет столкновения объектов с помощью физических симуляций. Мы демонстрируем ценность InternScenes на двух эталонных задачах: генерации компоновки сцен и навигации к целевой точке. Обе задачи показывают новые вызовы, связанные с сложными и реалистичными компоновками. Более того, InternScenes прокладывает путь для масштабирования обучения моделей для обеих задач, делая возможными генерацию и навигацию в таких сложных сценах. Мы обязуемся открыть исходный код данных, моделей и эталонных тестов для пользы всего сообщества.

Потеря в эмбеддингах: утрата информации в моделях "визуальный язык"
Lost in Embeddings: Information Loss in Vision-Language Models

Sep 15

ByWenyan Li, Raphael Tang, Chengzu Li, Caiqi Zhang, Ivan Vulić, Anders Søgaard

Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), часто обрабатывают визуальные входные данные с помощью предварительно обученного визуального энкодера, за которым следует проекция в пространство встраиваний языковой модели через соединительный компонент. Хотя этот шаг имеет решающее значение для слияния модальностей, потенциальная потеря информации, вызванная этой проекцией, и её прямое влияние на возможности модели остаются недостаточно изученными. Мы предлагаем два взаимодополняющих подхода для анализа и количественной оценки этой потери путём изучения латентного пространства представлений. Во-первых, мы оцениваем сохранение семантической информации, анализируя изменения в отношениях k-ближайших соседей между представлениями изображений до и после проекции. Во-вторых, мы напрямую измеряем потерю информации, восстанавливая визуальные встраивания из спроецированного представления, локализуя потерю на уровне фрагментов изображения. Эксперименты показывают, что соединительные компоненты существенно искажают локальную геометрию визуальных представлений, при этом k-ближайшие соседи расходятся на 40–60% после проекции, что коррелирует с ухудшением производительности при поиске. Восстановление встраиваний на уровне фрагментов предоставляет интерпретируемые инсайты о поведении модели в задачах визуально обоснованного ответа на вопросы, показывая, что области с высокой потерей информации надёжно предсказывают случаи, когда модель испытывает трудности.

LazyDrag: Обеспечение стабильного редактирования на основе перетаскивания в мультимодальных диффузионных трансформерах через явное соответствие
LazyDrag: Enabling Stable Drag-Based Editing on Multi-Modal Diffusion Transformers via Explicit Correspondence

Sep 15

ByZixin Yin, Xili Dai, Duomin Wang, Xianfang Zeng, Lionel M. Ni, Gang Yu, Heung-Yeung Shum

Зависимость от неявного сопоставления точек через механизм внимания стала ключевым ограничением в редактировании на основе перетаскивания, что приводит к фундаментальному компромиссу между ослабленной силой инверсии и дорогостоящей оптимизацией на этапе тестирования (TTO). Этот компромисс серьезно ограничивает генеративные возможности диффузионных моделей, подавляя высококачественное восстановление изображений и создание на основе текстовых указаний. В данной работе мы представляем LazyDrag — первый метод редактирования изображений на основе перетаскивания для мультимодальных диффузионных трансформеров, который полностью устраняет зависимость от неявного сопоставления точек. Конкретно, наш метод генерирует явную карту соответствий на основе пользовательских входных данных перетаскивания, которая служит надежной опорой для усиления контроля внимания. Эта надежная опора открывает возможность для стабильного процесса инверсии с полной силой, что является первым в задачах редактирования на основе перетаскивания. Это устраняет необходимость в TTO и раскрывает генеративные возможности моделей. Таким образом, LazyDrag естественным образом объединяет точный геометрический контроль с текстовыми указаниями, позволяя выполнять сложные правки, которые ранее были недоступны: открывать пасть собаки и восстанавливать её внутреннюю часть, генерировать новые объекты, такие как «теннисный мяч», или для неоднозначных перетаскиваний вносить контекстно-зависимые изменения, например, перемещать руку в карман. Кроме того, LazyDrag поддерживает многоэтапные рабочие процессы с одновременными операциями перемещения и масштабирования. Оцененный на DragBench, наш метод превосходит базовые подходы по точности перетаскивания и воспринимаемому качеству, что подтверждается метрикой VIEScore и оценкой людьми. LazyDrag не только устанавливает новый уровень производительности, но и прокладывает новый путь в парадигмах редактирования.

SearchInstruct: Улучшение адаптации к домену через создание наборов инструкций на основе поиска
SearchInstruct: Enhancing Domain Adaptation via Retrieval-Based Instruction Dataset Creation

Sep 12

ByIman Barati, Mostafa Amiri, Heshaam Faili

Контролируемая тонкая настройка (Supervised Fine-Tuning, SFT) играет ключевую роль в обучении крупных языковых моделей (LLMs), значительно улучшая их важные способности, такие как следование инструкциям и обучение в контексте. Однако создание подходящих обучающих наборов данных, адаптированных для конкретных областей, остается сложной задачей из-за уникальных ограничений доменов и недостатка данных. В данной статье мы предлагаем SearchInstruct — инновационный метод, специально разработанный для построения высококачественных наборов инструкций для SFT. Наш подход начинается с ограниченного набора доменно-специфичных вопросов, созданных человеком, которые систематически расширяются с использованием крупной языковой модели. Затем динамически извлекаются релевантные доменные ресурсы для генерации точных и контекстуально подходящих ответов на каждый расширенный вопрос. Экспериментальная оценка показывает, что SearchInstruct повышает как разнообразие, так и качество наборов данных для SFT, что приводит к измеримым улучшениям производительности LLM в специализированных областях. Кроме того, мы демонстрируем, что помимо генерации наборов данных, предложенный метод также эффективно способствует выполнению задач, таких как редактирование моделей, позволяя эффективно обновлять существующие модели. Для обеспечения воспроизводимости и внедрения сообществом мы предоставляем полные детали реализации, полный набор сгенерированных пар "инструкция-ответ" и исходный код в общедоступном Git-репозитории: [https://github.com/mostafaamiri/SearchInstruct](https://github.com/mostafaamiri/SearchInstruct).

Локальность в моделях диффузии изображений возникает из статистики данных
Locality in Image Diffusion Models Emerges from Data Statistics

Sep 11

ByArtem Lukoianov, Chenyang Yuan, Justin Solomon, Vincent Sitzmann

Среди генеративных моделей диффузионные модели представляют особый интерес благодаря существованию замкнутой формы оптимального минимизатора их целевой функции обучения, часто называемого оптимальным денойзером. Однако использование этого оптимального денойзера в процессе диффузии лишь воспроизводит изображения из обучающего набора и, следовательно, не позволяет уловить поведение глубоких диффузионных моделей. Недавние исследования предприняли попытки охарактеризовать этот разрыв между оптимальным денойзером и глубокими диффузионными моделями, предложив аналитические модели, не требующие обучения, которые способны генерировать изображения, похожие на те, что создаются обученной UNet. Наиболее эффективный метод предполагает, что сдвиговая эквивариантность и локальные индуктивные предубеждения сверточных нейронных сетей являются причиной разрыва в производительности, и, следовательно, включает эти предположения в свою аналитическую модель. В данной работе мы представляем доказательства того, что локальность в глубоких диффузионных моделях возникает как статистическое свойство набора изображений, а не из-за индуктивного предубеждения сверточных нейронных сетей. В частности, мы демонстрируем, что оптимальный параметрический линейный денойзер проявляет схожие свойства локальности с глубокими нейронными денойзерами. Мы также показываем, как теоретически, так и экспериментально, что эта локальность напрямую возникает из корреляций пикселей, присутствующих в наборах данных естественных изображений. Наконец, используя эти инсайты, мы создаем аналитический денойзер, который лучше соответствует оценкам, предсказанным глубокой диффузионной моделью, чем ранее предложенный экспертами альтернативный вариант.

Обучение оптимизации многокритериального согласования через динамическое взвешивание вознаграждений
Learning to Optimize Multi-Objective Alignment Through Dynamic Reward Weighting

Sep 14

ByYining Lu, Zilong Wang, Shiyang Li, Xin Liu, Changlong Yu, Qingyu Yin, Zhan Shi, Zixuan Zhang, Meng Jiang

Предыдущие работы в области многокритериального обучения с подкреплением обычно используют линейную скаляризацию вознаграждений с фиксированными весами, что, как доказано, не позволяет охватить невыпуклые фронты Парето и, следовательно, приводит к субоптимальным результатам. Это ограничение становится особенно критичным при онлайн-согласовании предпочтений для больших языковых моделей. Здесь стохастические траектории, генерируемые параметризованными политиками, создают высоко нелинейные и невыпуклые отображения параметров на целевые функции, для которых ни одна статическая схема взвешивания не может найти оптимальные компромиссы. Мы устраняем это ограничение, вводя динамическое взвешивание вознаграждений, которое адаптивно корректирует веса в процессе онлайн-обучения с подкреплением. В отличие от существующих подходов, основанных на интерполяции с фиксированными весами, наше динамическое взвешивание непрерывно балансирует и расставляет приоритеты между целями в процессе обучения, способствуя эффективному исследованию фронтов Парето в пространстве целевых функций. Мы представляем два подхода, возрастающих по сложности и обобщаемости: (1) адаптацию весов на основе гиперобъема и (2) оптимизацию весов на основе градиентов, предлагая универсальный инструментарий для онлайн-согласования многокритериальных задач. Наши обширные эксперименты демонстрируют их совместимость с широко используемыми алгоритмами онлайн-обучения с подкреплением (включая GRPO, REINFORCE и RLOO), эффективность на множестве наборов данных для математических рассуждений и применимость к различным семействам моделей, стабильно достигая доминирующих решений Парето с меньшим количеством шагов обучения по сравнению с базовыми методами линейной скаляризации с фиксированными весами.

Измерение эпистемической скромности в мультимодальных больших языковых моделях
Measuring Epistemic Humility in Multimodal Large Language Models

Sep 11

ByBingkui Tong, Jiaer Xia, Sifeng Shang, Kaiyang Zhou

Галлюцинации в мультимодальных больших языковых моделях (MLLMs) — когда модель генерирует контент, не соответствующий входному изображению — представляют значительные риски в реальных приложениях, начиная от дезинформации в визуальных вопросах и ответах и заканчивая опасными ошибками в принятии решений. Существующие бенчмарки в основном тестируют точность распознавания, то есть оценивают, могут ли модели выбрать правильный ответ среди отвлекающих вариантов. Это упускает из виду не менее важную способность для доверенного ИИ: распознавать, когда ни один из предложенных вариантов не является правильным, что отражает эпистемическую скромность. Мы представляем HumbleBench, новый бенчмарк для оценки галлюцинаций, предназначенный для проверки способности MLLMs отвергать правдоподобные, но неверные ответы в трех типах галлюцинаций: объекты, отношения и атрибуты. Используя набор данных панорамных графов сцен, мы применяем детализированные аннотации графов сцен для извлечения истинных сущностей и отношений, а затем используем GPT-4-Turbo для генерации вопросов с множественным выбором, за которыми следует строгий процесс ручной фильтрации. Каждый вопрос включает вариант "Ни один из вышеперечисленных", что требует от моделей не только распознавать правильную визуальную информацию, но и определять, когда ни один из предложенных ответов не является верным. Мы оцениваем различные современные MLLMs — как универсальные, так и специализированные модели для рассуждений — на HumbleBench и делимся ценными выводами и инсайтами с сообществом. Включая явное отвержение ложных вариантов, HumbleBench заполняет ключевой пробел в текущих наборах для оценки, предоставляя более реалистичную меру надежности MLLMs в критически важных для безопасности условиях. Наш код и набор данных публично доступны по адресу https://github.com/maifoundations/HumbleBench.

Взгляни снова, подумай не спеша: улучшение визуальной рефлексии в моделях "зрение-язык"
Look Again, Think Slowly: Enhancing Visual Reflection in Vision-Language Models

Sep 15

ByPu Jian, Junhong Wu, Wei Sun, Chen Wang, Shuo Ren, Jiajun Zhang

Недавние достижения в области "медленного мышления" на основе текста стимулировали попытки перенести эту способность на модели, работающие с визуальными и языковыми данными (VLMs), для обучения моделей визуального мышления (VRMs). Однако такой перенос сталкивается с серьёзными трудностями: эффективное "медленное мышление" в VRMs требует визуальной рефлексии — способности проверять процесс рассуждений на основе визуальной информации. С помощью количественного анализа мы наблюдаем, что современные VRMs демонстрируют ограниченную визуальную рефлексию, так как их внимание к визуальной информации быстро снижается с увеличением длины генерируемых ответов. Для решения этой проблемы мы предлагаем новую модель VRM Reflection-V, которая улучшает визуальную рефлексию за счёт построения данных для рассуждений на этапе "холодного старта" и разработки системы вознаграждений для обучения с подкреплением (RL). Во-первых, мы создаём данные для рассуждений с акцентом на визуальную информацию, используя агента, который взаимодействует между VLMs и моделями рассуждений (LLMs), что позволяет начать обучение паттернов визуальной рефлексии с нуля. Во-вторых, в процессе RL применяется модель вознаграждения, основанная на визуальном внимании, чтобы стимулировать рассуждения на основе визуальной информации. В результате Reflection-V демонстрирует значительные улучшения на множестве тестов визуального мышления. Более того, Reflection-V сохраняет более сильную и последовательную зависимость от визуальной информации в процессе визуального мышления, что указывает на эффективное улучшение способностей к визуальной рефлексии.

Nav-R1: Рассуждение и навигация в воплощённых сценах
Nav-R1: Reasoning and Navigation in Embodied Scenes

Sep 13

ByQingxiang Liu, Ting Huang, Zeyu Zhang, Hao Tang

Навигация в физическом мире требует от агентов интеграции восприятия, рассуждений и действий для устойчивого взаимодействия в сложных трехмерных средах. Существующие подходы часто страдают от несогласованных и нестабильных трасс рассуждений, что затрудняет обобщение в разнообразных средах, а также от сложности балансирования между долгосрочным семантическим рассуждением и низколатентным управлением для навигации в реальном времени. Для решения этих проблем мы предлагаем Nav-R1, базовую модель для физического мира, которая унифицирует рассуждения в таких средах. Сначала мы создаем Nav-CoT-110K, крупномасштабный набор данных пошаговых цепочек рассуждений (Chains-of-Thought, CoT) для задач физического мира, что позволяет инициализировать модель с нуля с использованием структурированных рассуждений. На основе этого мы разрабатываем фреймворк обучения с подкреплением на основе GRPO с тремя взаимодополняющими наградами: за формат, понимание и навигацию, чтобы улучшить структурную согласованность, семантическую обоснованность и точность пути. Кроме того, мы вводим парадигму "Быстрое в медленном" (Fast-in-Slow), разделяя обдуманное семантическое рассуждение от низколатентного реактивного управления для эффективной, но согласованной навигации. Обширные оценки на тестах для физического ИИ показывают, что Nav-R1 стабильно превосходит сильные базовые модели, с улучшением в среднем более чем на 8% в показателях рассуждений и навигации. Реальное развертывание на мобильном роботе дополнительно подтверждает его устойчивость при ограниченных ресурсах на борту. Код: https://github.com/AIGeeksGroup/Nav-R1. Сайт: https://aigeeksgroup.github.io/Nav-R1.

CognitiveSky: Масштабируемый анализ настроений и нарративов для децентрализованных социальных медиа
CognitiveSky: Scalable Sentiment and Narrative Analysis for Decentralized Social Media

Sep 14

ByGaurab Chhetri, Anandi Dutta, Subasish Das

Появление децентрализованных платформ социальных сетей открывает новые возможности и вызовы для анализа общественного дискурса в реальном времени. В данном исследовании представлен CognitiveSky — открытый и масштабируемый фреймворк, предназначенный для анализа настроений, эмоций и нарративов на платформе Bluesky, федеративной альтернативе Twitter или X.com. Получая данные через API Bluesky, CognitiveSky применяет модели на основе трансформеров для аннотирования крупномасштабного пользовательского контента и генерирует структурированные и анализируемые результаты. Эти сводки используются для создания динамической панели управления, которая визуализирует изменяющиеся паттерны эмоций, активности и тем обсуждений. Разработанный полностью на базе бесплатной инфраструктуры, CognitiveSky сочетает низкую стоимость эксплуатации с высокой доступностью. Хотя в данной работе он демонстрируется для мониторинга дискурса о психическом здоровье, его модульная архитектура позволяет применять его в таких областях, как обнаружение дезинформации, реагирование на кризисы и анализ гражданских настроений. Соединяя крупные языковые модели с децентрализованными сетями, CognitiveSky предлагает прозрачный и расширяемый инструмент для вычислительной социальной науки в эпоху меняющихся цифровых экосистем.

PersonaX: Мультимодальные наборы данных с поведенческими характеристиками, выведенными с помощью языковых моделей
PersonaX: Multimodal Datasets with LLM-Inferred Behavior Traits

Sep 14

ByLoka Li, Wong Yu Kang, Minghao Fu, Guangyi Chen, Zhenhao Chen, Gongxu Luo, Yuewen Sun, Salman Khan, Peter Spirtes, Kun Zhang

Понимание черт человеческого поведения является ключевым для приложений в области взаимодействия человека с компьютером, вычислительной социальной науки и персонализированных систем искусственного интеллекта. Такое понимание часто требует интеграции нескольких модальностей для выявления тонких паттернов и взаимосвязей. Однако существующие ресурсы редко предоставляют наборы данных, сочетающие поведенческие описания с дополнительными модальностями, такими как атрибуты лица и биографическая информация. Чтобы восполнить этот пробел, мы представляем PersonaX — тщательно отобранную коллекцию мультимодальных наборов данных, предназначенных для всестороннего анализа публичных черт личности. PersonaX состоит из (1) CelebPersona, включающей 9444 публичных фигур из различных профессий, и (2) AthlePersona, охватывающей 4181 профессионального спортсмена из 7 крупных спортивных лиг. Каждый набор данных содержит оценки поведенческих черт, выведенные тремя высокопроизводительными большими языковыми моделями, а также изображения лиц и структурированные биографические характеристики. Мы анализируем PersonaX на двух взаимодополняющих уровнях. Во-первых, мы абстрагируем высокоуровневые оценки черт из текстовых описаний и применяем пять статистических тестов независимости для изучения их взаимосвязей с другими модальностями. Во-вторых, мы представляем новый фреймворк для обучения причинных представлений (CRL), адаптированный для мультимодальных и многомерных данных, с теоретическими гарантиями идентифицируемости. Эксперименты на синтетических и реальных данных демонстрируют эффективность нашего подхода. Объединяя структурированный и неструктурированный анализ, PersonaX закладывает основу для изучения поведенческих черт, выведенных большими языковыми моделями, в сочетании с визуальными и биографическими атрибутами, продвигая мультимодальный анализ черт и причинные рассуждения.

FuseCodec: Семантико-контекстное слияние и управление для нейронных кодеков
FuseCodec: Semantic-Contextual Fusion and Supervision for Neural Codecs

Sep 14

ByMd Mubtasim Ahasan, Rafat Hasan Khan, Tasnim Mohiuddin, Aman Chadha, Tariq Iqbal, M Ashraful Amin, Amin Ahsan Ali, Md Mofijul Islam, A K M Mahbubur Rahman

Токенизация речи позволяет получить дискретное представление и облегчает моделирование языка речи. Однако существующие нейронные кодекы захватывают низкоуровневые акустические характеристики, упуская семантические и контекстные аспекты, присущие человеческой речи. Хотя недавние исследования представили семантические представления из моделей речи с самоконтролем или включили контекстные представления из предварительно обученных языковых моделей, проблемы остаются в согласовании и объединении семантических и контекстных представлений. Мы представляем FuseCodec, который объединяет акустические, семантические и контекстные представления через сильное кросс-модальное согласование и глобально информированный контроль. Мы предлагаем три взаимодополняющие техники: (i) Слияние латентных представлений, интегрирующее семантические и контекстные признаки непосредственно в латентное пространство кодера для устойчивого и унифицированного обучения представлений; (ii) Глобальный семантико-контекстный контроль, управляющий дискретными токенами с помощью глобально объединенных и транслируемых представлений для улучшения временной согласованности и кросс-модального выравнивания; и (iii) Временно согласованный контекстный контроль, усиливающий выравнивание путем динамического сопоставления контекстных и речевых токенов в пределах локального окна для детального контроля на уровне токенов. Мы также представляем FuseCodec-TTS, демонстрируя применимость нашей методологии к синтезу речи с нулевым обучением. Эмпирически FuseCodec достигает наилучших результатов на LibriSpeech, превосходя EnCodec, SpeechTokenizer и DAC по точности транскрипции, перцептивному качеству, разборчивости и сходству с голосом. Результаты подчеркивают эффективность контекстно и семантически направленной токенизации для задач токенизации речи и последующих применений. Код и предварительно обученные модели доступны по адресу https://github.com/mubtasimahasan/FuseCodec.

Dr.V: Иерархическая система восприятия-времени-познания для диагностики видеогаллюцинаций через детализированное пространственно-временное заземление
Dr.V: A Hierarchical Perception-Temporal-Cognition Framework to Diagnose Video Hallucination by Fine-grained Spatial-Temporal Grounding

Sep 15

ByMeng Luo, Shengqiong Wu, Liqiang Jing, Tianjie Ju, Li Zheng, Jinxiang Lai, Tianlong Wu, Xinya Du, Jian Li, Siyuan Yan, Jiebo Luo, William Yang Wang, Hao Fei, Mong-Li Lee, Wynne Hsu

Последние достижения в области крупных видео-моделей (LVMs) значительно улучшили понимание видео. Однако эти модели по-прежнему страдают от галлюцинаций, создавая контент, который противоречит входным видео. Для решения этой проблемы мы предлагаем Dr.V — иерархическую структуру, охватывающую перцептивный, временной и когнитивный уровни, для диагностики видео-галлюцинаций с помощью детального пространственно-временного анализа. Dr.V состоит из двух ключевых компонентов: эталонного набора данных Dr.V-Bench и спутникового видео-агента Dr.V-Agent. Dr.V-Bench включает 10 тысяч примеров, извлеченных из 4 974 видео, охватывающих разнообразные задачи, каждый из которых обогащен детальными пространственно-временными аннотациями. Dr.V-Agent обнаруживает галлюцинации в LVMs, систематически применяя детальный пространственно-временной анализ на перцептивном и временном уровнях, за которым следует когнитивное рассуждение. Этот пошаговый процесс имитирует человеческое понимание видео и эффективно выявляет галлюцинации. Многочисленные эксперименты демонстрируют, что Dr.V-Agent эффективен в диагностике галлюцинаций, повышая интерпретируемость и надежность, предлагая практический подход для устойчивого понимания видео в реальных сценариях. Все наши данные и код доступны по адресу https://github.com/Eurekaleo/Dr.V.

EthicsMH: Пилотный эталонный тест для оценки этического мышления в ИИ для психического здоровья
EthicsMH: A Pilot Benchmark for Ethical Reasoning in Mental Health AI

Sep 15

BySai Kartheek Reddy Kasu

Применение крупных языковых моделей (LLM) в области психического здоровья и других чувствительных сферах поднимает насущные вопросы, связанные с этическим рассуждением, справедливостью и ответственным согласованием. Однако существующие тесты для оценки моральных и клинических решений недостаточно охватывают уникальные этические дилеммы, возникающие в практике психического здоровья, где пересекаются конфиденциальность, автономия, благодеяние и предвзятость. Чтобы устранить этот пробел, мы представляем "Этическое рассуждение в психическом здоровье" (EthicsMH) — пилотный набор данных из 125 сценариев, разработанных для оценки того, как системы искусственного интеллекта справляются с этически сложными ситуациями в терапевтических и психиатрических контекстах. Каждый сценарий дополнен структурированными полями, включая несколько вариантов решений, экспертно согласованные рассуждения, ожидаемое поведение модели, реальное влияние и мнения различных заинтересованных сторон. Такая структура позволяет оценивать не только точность решений, но и качество объяснений, а также соответствие профессиональным нормам. Хотя EthicsMH имеет скромный масштаб и был разработан с использованием генерации с помощью моделей, он устанавливает основу для задач, связывающих этику ИИ и принятие решений в области психического здоровья. Публикуя этот набор данных, мы стремимся предоставить начальный ресурс, который может быть расширен благодаря вкладам сообщества и экспертов, способствуя разработке ИИ-систем, способных ответственно справляться с одними из самых деликатных решений в обществе.

ClaimIQ на CheckThat! 2025: Сравнение языковых моделей с использованием промптов и тонкой настройки для проверки числовых утверждений
ClaimIQ at CheckThat! 2025: Comparing Prompted and Fine-Tuned Language Models for Verifying Numerical Claims

Sep 15

ByAnirban Saha Anik, Md Fahimul Kabir Chowdhury, Andrew Wyckoff, Sagnik Ray Choudhury

В данной статье представлена наша система для задачи 3 лаборатории CLEF 2025 CheckThat!, которая посвящена проверке числовых и временных утверждений с использованием извлеченных доказательств. Мы исследуем два взаимодополняющих подхода: zero-shot prompting с использованием крупных языковых моделей (LLM), настроенных на инструкции, и контролируемое тонкое обучение с использованием параметрически эффективного метода LoRA. Для повышения качества доказательств мы изучаем несколько стратегий отбора, включая ввод полного документа и фильтрацию топ-k предложений с использованием BM25 и MiniLM. Наша лучшая модель LLaMA, дообученная с помощью LoRA, демонстрирует высокую производительность на английском валидационном наборе данных. Однако значительное снижение производительности на тестовом наборе подчеркивает проблему обобщения. Эти результаты подчеркивают важность гранулярности доказательств и адаптации моделей для надежной проверки числовых фактов.

GAPrune: Градиентно-выравнивающее прореживание для доменно-ориентированных эмбеддингов
GAPrune: Gradient-Alignment Pruning for Domain-Aware Embeddings

Sep 13

ByYixuan Tang, Yi Yang

Специализированные модели эмбеддингов показали свою эффективность в приложениях, требующих глубокого семантического понимания, таких как агенты для написания кода и системы финансового поиска, часто достигая более высоких показателей производительности по сравнению с универсальными моделями. Однако современные модели эмбеддингов обычно основаны на крупных языковых моделях (LLM), содержащих миллиарды параметров, что затрудняет их развертывание в условиях ограниченных ресурсов. Сжатие моделей через обрезку предлагает перспективное решение, но существующие методы обрезки обрабатывают все параметры одинаково, не различая общие семантические представления и специфические для домена паттерны, что приводит к неоптимальным решениям. Таким образом, мы предлагаем GAPrune — фреймворк для обрезки, который решает эту проблему, учитывая как важность для домена, так и сохранение общей лингвистической основы. Наш метод использует информацию Фишера для измерения важности и выравнивание градиентов в общем домене для оценки поведения параметров, а затем объединяет эти сигналы с помощью нашей метрики Domain Alignment Importance (DAI). Низкие значения DAI указывают на то, что параметр либо менее важен для задачи домена, либо создает конфликты между доменными и общими целями. Эксперименты на двух доменных бенчмарках, FinMTEB и ChemTEB, показывают, что GAPrune сохраняет производительность в пределах 2,5% от плотных моделей при одноэтапной обрезке с 50% разреженностью, превосходя все базовые методы. При повторном обучении за 100 шагов GAPrune достигает улучшения на +4,51% на FinMTEB и +1,73% на ChemTEB, демонстрируя, что наша стратегия обрезки не только сохраняет, но и усиливает доменную специализацию. Наши результаты показывают, что принципиальные стратегии обрезки могут достигать сжатия моделей и улучшения доменной специализации, предлагая исследовательскому сообществу новый подход для разработки.

ToolRM: Модели вознаграждения результатов для крупных языковых моделей с функцией вызова инструментов
ToolRM: Outcome Reward Models for Tool-Calling Large Language Models

Sep 15

ByMayank Agarwal, Ibrahim Abdelaziz, Kinjal Basu, Merve Unuvar, Luis A. Lastras, Yara Rizk, Pavan Kapanipathi

По мере того как крупные языковые модели (LLM) всё чаще взаимодействуют с внешними инструментами, моделирование вознаграждений за использование инструментов становится важной, но недостаточно изученной областью. Существующие модели вознаграждений, обученные преимущественно на естественно-языковых данных, испытывают трудности с оценкой рассуждений и выполнения, связанных с использованием инструментов. Чтобы количественно оценить этот разрыв, мы представляем FC-RewardBench — первый бенчмарк, разработанный для систематической оценки производительности моделей вознаграждений в сценариях вызова инструментов. Наш анализ показывает, что текущие модели вознаграждений часто упускают ключевые сигналы эффективного использования инструментов, подчеркивая необходимость специализированного моделирования. Для решения этой проблемы мы предлагаем фреймворк обучения моделей вознаграждений, основанных на результатах, с использованием данных, синтезированных из LLM с открытыми весами и разрешительными лицензиями. Мы обучаем модели с числом параметров от 1,7 млрд до 14 млрд и оцениваем их на семи внешних бенчмарках. Эти модели стабильно превосходят универсальные базовые подходы, достигая до 25\% среднего улучшения в производительности на последующих задачах и обеспечивая эффективную тонкую настройку с помощью фильтрации, управляемой вознаграждениями.

LongEmotion: Измерение эмоционального интеллекта крупных языковых моделей в контексте длительного взаимодействия
LongEmotion: Measuring Emotional Intelligence of Large Language Models in Long-Context Interaction

Sep 9

ByWeichu Liu, Jing Xiong, Yuxuan Hu, Zixuan Li, Minghuan Tan, Ningning Mao, Chenyang Zhao, Zhongwei Wan, Chaofan Tao, Wendong Xu, Hui Shen, Chengming Li, Lingpeng Kong, Ngai Wong

Крупные языковые модели (LLM) демонстрируют значительный прогресс в области эмоционального интеллекта (EI) и понимания длинных контекстов. Однако существующие бенчмарки часто упускают из виду определенные аспекты EI в сценариях с длинными контекстами, особенно в реалистичных практических условиях, где взаимодействия продолжительны, разнообразны и зачастую содержат шум. Для продвижения к таким реалистичным условиям мы представляем LongEmotion — бенчмарк, специально разработанный для задач EI в длинных контекстах. Он охватывает разнообразные задачи, включая классификацию эмоций, обнаружение эмоций, вопросы и ответы на основе эмоций, эмоциональные диалоги, резюмирование эмоций и выражение эмоций. В среднем длина входных данных для этих задач достигает 8 777 токенов, а для задачи выражения эмоций требуется генерация длинных текстов. Для повышения производительности в реалистичных условиях мы внедряем методы генерации с использованием поиска (Retrieval-Augmented Generation, RAG) и совместного эмоционального моделирования (Collaborative Emotional Modeling, CoEM), сравнивая их со стандартными методами на основе промптов. В отличие от традиционных подходов, наш метод RAG использует как контекст диалога, так и саму языковую модель в качестве источников для поиска, избегая зависимости от внешних баз знаний. Метод CoEM дополнительно улучшает производительность, разбивая задачу на пять этапов, интегрируя как поисковое усиление, так и ограниченное внедрение знаний. Экспериментальные результаты показывают, что как RAG, так и CoEM последовательно улучшают производительность, связанную с EI, в большинстве задач с длинными контекстами, продвигая LLM к более практическим и применимым в реальном мире задачам EI. Кроме того, мы провели сравнительное исследование на моделях серии GPT, чтобы продемонстрировать различия между различными моделями в контексте EI. Код доступен на GitHub по адресу https://github.com/LongEmotion/LongEmotion, а страница проекта находится по адресу https://longemotion.github.io/.