Ежедневно отобранные исследовательские статьи по ИИ с переводами
Агенты с Большими Языковыми Моделями (LLMs) становятся все более важными для решения сложных задач в интерактивных средах. Существующие работы в основном сосредотачиваются на улучшении производительности путем клонирования поведения у более сильных экспертов, однако такие подходы часто терпят неудачу в реальных приложениях, в основном из-за неспособности восстановления после ошибок. Однако данные критики на уровне шага сложно и дорого собирать. Автоматизация и динамическое создание наборов данных для самокритики являются ключевыми для наделения моделей интеллектуальными агентскими способностями. В данной работе мы предлагаем итеративную рамку самообучения, Agent-R, которая позволяет языковому агенту отражаться на лету. В отличие от традиционных методов, которые вознаграждают или наказывают действия на основе правильности, Agent-R использует MCTS для создания обучающих данных, которые восстанавливают правильные траектории из ошибочных. Одним из ключевых вызовов самоотражения агента является необходимость своевременной коррекции, а не ожидания до конца выполнения. Для решения этой проблемы мы предлагаем механизм создания модельно-управляемой критики: модель актера идентифицирует первый шаг ошибки (в пределах своих текущих возможностей) в неудачной траектории. Начиная с него, мы сплетаем его с смежным правильным путем, который имеет общий родительский узел в дереве. Эта стратегия позволяет модели учиться отражению на основе ее текущей политики, что в конечном итоге обеспечивает более эффективное обучение. Для дальнейшего изучения масштабируемости этого парадигмы самосовершенствования мы исследуем итеративное совершенствование как возможностей исправления ошибок, так и создания набора данных. Наши результаты показывают, что Agent-R непрерывно улучшает способность модели восстанавливаться после ошибок и обеспечивает своевременную коррекцию ошибок. Эксперименты в трех интерактивных средах показывают, что Agent-R эффективно оснащает агентов для исправления ошибочных действий, избегая зацикливания, достигая более высокой производительности по сравнению с базовыми методами (+5.59%).
Мы представляем MMVU - комплексный бенчмарк на уровне эксперта, мультидисциплинарный для оценки базовых моделей в понимании видео. MMVU включает 3 000 вопросов с экспертной разметкой, охватывающих 27 предметов из четырех основных дисциплин: Наука, Здравоохранение, Гуманитарные и Социальные науки, и Инженерия. По сравнению с предыдущими бенчмарками, MMVU имеет три ключевых преимущества. Во-первых, он вызывает модели применять знания, специфичные для области, и выполнять экспертное рассуждение для анализа видео в специализированных областях, выходя за пределы базового визуального восприятия, обычно оцениваемого в текущих видео-бенчмарках. Во-вторых, каждый пример размечен экспертами с нуля. Мы реализуем строгие контроли качества данных, чтобы обеспечить высокое качество набора данных. Наконец, каждый пример обогащен экспертными размышлениями и соответствующими знаниями в области, облегчающими глубокий анализ. Мы проводим обширную оценку 32 фронтовых мультимодальных базовых моделей на MMVU. Последние модели, способные к системе-2, o1 и Gemini 2.0 Flash Thinking, достигают наивысшей производительности среди протестированных моделей. Однако они все еще не дотягивают до уровня человеческой экспертизы. Через глубокий анализ ошибок и кейс-стади мы предлагаем действенные идеи для будущих усовершенствований в понимании видео на уровне эксперта, требующем большого объема знаний, для специализированных областей.
Эта статья пересматривает реализацию балансировки нагрузки (Load-balancing Loss, LBL) при обучении моделей смеси экспертов (Mixture-of-Experts, MoEs). Конкретно, LBL для MoEs определяется как сумма N_E sum_{i=1}^{N_E} f_i p_i, где N_E - общее количество экспертов, f_i представляет собой частоту выбора эксперта i, а p_i обозначает средний балл шлюза эксперта i. Существующие рамки обучения MoE обычно используют стратегию параллельного обучения, чтобы f_i и LBL были рассчитаны в пределах микро-пакета, а затем усреднены по параллельным группам. По сути, микро-пакет для обучения миллиардных LLM обычно содержит очень немного последовательностей. Поэтому микро-пакет LBL практически на уровне последовательности, и маршрутизатор вынужден равномерно распределять токены в каждой последовательности. При таком строгом ограничении даже токены из последовательности, специфичной для определенной области (например, код), равномерно направляются ко всем экспертам, тем самым препятствуя специализации экспертов. В данной работе мы предлагаем рассчитывать LBL с использованием глобального пакета, чтобы снять это ограничение. Поскольку глобальный пакет содержит намного более разнообразные последовательности, чем микро-пакет, это будет способствовать балансировке нагрузки на уровне корпуса. Конкретно, мы вводим дополнительный шаг коммуникации для синхронизации f_i между микро-пакетами, а затем используем его для расчета LBL. Через эксперименты по обучению LLM на основе MoEs (до 42,8 млрд общего количества параметров и 400 млрд токенов) мы удивительно обнаруживаем, что стратегия глобального пакета LBL приводит к отличному улучшению производительности как в предварительной перплексии, так и в задачах на следующем этапе. Наш анализ показывает, что глобальный пакет LBL также значительно улучшает специализацию области экспертов MoE.
Эта статья представляет UI-TARS, модель агента с нативным графическим пользовательским интерфейсом, которая воспринимает только скриншоты в качестве входных данных и выполняет взаимодействия, подобные человеческим (например, операции с клавиатурой и мышью). В отличие от преобладающих агентских фреймворков, зависящих от сильно обернутых коммерческих моделей (например, GPT-4o) с экспертно разработанными подсказками и рабочими процессами, UI-TARS является моделью end-to-end, превосходящей эти сложные фреймворки. Эксперименты демонстрируют его превосходную производительность: UI-TARS достигает SOTA-производительности в 10+ бенчмарках для GUI-агентов, оценивающих восприятие, опору и выполнение задач GUI. Заметно, что в бенчмарке OSWorld UI-TARS достигает результатов 24.6 за 50 шагов и 22.7 за 15 шагов, превосходя Claude (соответственно 22.0 и 14.9). В AndroidWorld UI-TARS достигает 46.6, опережая GPT-4o (34.5). UI-TARS включает несколько ключевых инноваций: (1) Улучшенное восприятие: использование крупномасштабного набора данных скриншотов GUI для контекстно-осознанного понимания элементов пользовательского интерфейса и точного описания; (2) Унифицированное моделирование действий, стандартизующее действия в единое пространство на различных платформах и достигающее точной опоры и взаимодействия через крупномасштабные следы действий; (3) Рассуждение системы-2, включающее обдуманное рассуждение в принятие решений на несколько шагов, включая несколько видов рассуждений, таких как декомпозиция задач, рефлексивное мышление, распознавание вех и т. д.; (4) Итеративное обучение с рефлексивными онлайн-следами, решающее проблему данных путем автоматического сбора, фильтрации и рефлексивного улучшения новых следов взаимодействия на сотнях виртуальных машин. Через итеративное обучение и настройку рефлексии UI-TARS непрерывно учится на своих ошибках и адаптируется к непредвиденным ситуациям с минимальным вмешательством человека. Мы также анализируем путь эволюции GUI-агентов для направления дальнейшего развития этой области.
Мы представляем TokenVerse - метод для многоконцептуальной персонализации, использующий предварительно обученную модель диффузии текста в изображение. Наша структура способна разделять сложные визуальные элементы и атрибуты даже по одному изображению, обеспечивая легкую генерацию комбинаций концепций, извлеченных из нескольких изображений. В отличие от существующих работ, TokenVerse может обрабатывать несколько изображений с несколькими концепциями каждое и поддерживает широкий спектр концепций, включая объекты, аксессуары, материалы, позу и освещение. Наша работа использует модель текста в изображение на основе DiT, в которой входной текст влияет на генерацию через внимание и модуляцию (сдвиг и масштаб). Мы замечаем, что пространство модуляции является семантическим и обеспечивает локализованное управление над сложными концепциями. Основываясь на этом наблюдении, мы разрабатываем оптимизационную структуру, которая принимает на вход изображение и текстовое описание, и находит для каждого слова отдельное направление в пространстве модуляции. Эти направления могут быть использованы для генерации новых изображений, объединяющих изученные концепции в желаемой конфигурации. Мы демонстрируем эффективность TokenVerse в сложных настройках персонализации и показываем его преимущества по сравнению с существующими методами. Веб-страница проекта: https://token-verse.github.io/
Несмотря на многообещающую производительность больших моделей языка и зрения (LVLM) в визуальном понимании, иногда они генерируют неверные результаты. В то время как модели вознаграждения (RMs) с обучением с подкреплением или масштабированием на этапе тестирования предлагают потенциал для улучшения качества генерации, остается критическая пробел: общедоступные мультимодальные RMs для LVLMs редки, и детали реализации собственных моделей часто неясны. Мы заполняем этот разрыв с помощью InternLM-XComposer2.5-Reward (IXC-2.5-Reward), простой, но эффективной мультимодальной моделью вознаграждения, которая выравнивает LVLMs с предпочтениями человека. Для обеспечения надежности и универсальности IXC-2.5-Reward мы создали высококачественный мультимодальный корпус предпочтений, охватывающий текстовые, изображения и видео в различных областях, таких как следование за инструкциями, общее понимание, документы с текстом, математическое рассуждение и понимание видео. IXC-2.5-Reward достигает отличных результатов на последнем бенчмарке мультимодальных моделей вознаграждения и показывает конкурентоспособную производительность на бенчмарках моделей вознаграждения только для текста. Мы также демонстрируем три ключевых применения IXC-2.5-Reward: (1) Предоставление надзорного сигнала для обучения с подкреплением. Мы интегрируем IXC-2.5-Reward с методом оптимизации ближайшей политики (PPO), что приводит к IXC-2.5-Chat, который показывает последовательные улучшения в следовании за инструкциями и мультимодальном диалоге без конкретного завершения; (2) Выбор лучшего ответа из кандидатов для масштабирования на этапе тестирования; и (3) Фильтрация выбросов или шумных образцов из существующих данных обучения настройке изображений и видео по инструкциям. Для обеспечения воспроизводимости и содействия дальнейшим исследованиям мы открыли все веса моделей и рецепты обучения на https://github.com/InternLM/InternLM-XComposer.
Мы представляем Hunyuan3D 2.0, передовую систему синтеза трехмерных объектов большого масштаба для создания трехмерных ресурсов высокого разрешения с текстурами. Эта система включает два основных компонента: модель генерации формы большого масштаба - Hunyuan3D-DiT, и модель синтеза текстуры большого масштаба - Hunyuan3D-Paint. Модель генерации формы, основанная на масштабируемом трансформере на основе потока диффузии, направлена на создание геометрии, которая правильно выравнивается с заданным изображением условий, заложив прочный фундамент для последующих приложений. Модель синтеза текстуры, благодаря сильным геометрическим и диффузионным априорным знаниям, производит текстурные карты высокого разрешения и яркие для сгенерированных или ручных сеток. Кроме того, мы создали Hunyuan3D-Studio - универсальную, удобную для пользователя платформу производства, которая упрощает процесс повторного создания трехмерных ресурсов. Она позволяет как профессиональным, так и любителям эффективно манипулировать или даже анимировать свои сетки. Мы систематически оценили наши модели, показав, что Hunyuan3D 2.0 превосходит предыдущие передовые модели, включая модели с открытым и закрытым исходным кодом, в деталях геометрии, выравнивании условий, качестве текстуры и т. д. Hunyuan3D 2.0 была общедоступно выпущена, чтобы заполнить пробелы в сообществе с открытым исходным кодом трехмерных объектов для моделей генерации фундамента большого масштаба. Код и предварительно обученные веса наших моделей доступны по ссылке: https://github.com/Tencent/Hunyuan3D-2
Языковые модели рассуждений (RLM), также известные как Большие модели рассуждений (LRM), такие как o1 и o3 от OpenAI, DeepSeek-V3 и QwQ от Alibaba, переопределили возможности решения проблем в области искусственного интеллекта, расширяя большие языковые модели (LLM) передовыми механизмами рассуждений. Однако их высокие затраты, закрытый характер и сложные архитектуры - уникальное сочетание обучения с подкреплением (RL), эвристик поиска и LLM - представляют вызовы доступности и масштабируемости. Для решения этих проблем мы предлагаем комплексный план, который организует компоненты RLM в модульную структуру на основе обзора и анализа всех работ по RLM. Этот план включает разнообразные структуры рассуждений (цепочки, деревья, графы и вложенные формы), стратегии рассуждений (например, Монте-Карло поиск по дереву, Поиск лучших вариантов), концепции RL (модели политики, модели ценности и другие) и схемы надзора (надзор на основе вывода и процесса). Мы также предоставляем подробные математические формулировки и алгоритмические спецификации для упрощения реализации RLM. Показывая, как схемы, такие как LLaMA-Berry, QwQ, Journey Learning и Graph of Thoughts подходят как специальные случаи, мы демонстрируем гибкость и объединяющий потенциал данного плана. Для иллюстрации его полезности мы представляем x1, модульную реализацию для быстрого прототипирования и экспериментирования с RLM. Используя x1 и обзор литературы, мы предоставляем ключевые идеи, такие как многофазовое обучение для моделей политики и ценности, и важность знакомых распределений обучения. Наконец, мы обрисовываем, как RLM могут интегрироваться в более широкую экосистему LLM, включая инструменты и базы данных. Наша работа развенчивает построение RLM, демократизирует передовые возможности рассуждений и способствует инновациям, нацеленным на снижение разрыва между "богатым ИИ" и "бедным ИИ" путем снижения барьеров для разработки и экспериментирования с RLM.
Смартфоны стали неотъемлемой частью современной жизни, однако выполнение сложных задач на мобильных устройствах часто остается источником раздражения. Недавние достижения в области мобильных агентов на основе крупных мультимодальных моделей (LMM) продемонстрировали способность воспринимать и действовать в мобильных средах. Однако текущие подходы сталкиваются с существенными ограничениями: они не справляются с реальными потребностями людей, испытывают затруднения с рассудительными и долгосрочными задачами, а также лишены механизмов обучения и улучшения на основе предыдущего опыта. Для преодоления этих проблем мы представляем Mobile-Agent-E, иерархическую мультиагентную структуру, способную к самоэволюции на основе прошлого опыта. Под иерархической структурой мы понимаем явное разделение планирования на высоком уровне и выполнения действий на низком уровне. Структура включает в себя Менеджера, ответственного за разработку общих планов путем разбиения сложных задач на подцели, и четыре подчиненных агента - Восприниматель, Оператор, Действующий Отражатель и Записывающий - которые обрабатывают детализированное визуальное восприятие, мгновенное выполнение действий, проверку ошибок и агрегацию информации соответственно. Mobile-Agent-E также включает новый модуль самоэволюции, который поддерживает постоянную долгосрочную память, включающую Советы и Ярлыки. Советы представляют собой общие рекомендации и уроки, извлеченные из предыдущих задач о том, как эффективно взаимодействовать с окружающей средой. Ярлыки - это многоразовые, исполнимые последовательности атомарных операций, настроенные для конкретных подпрограмм. Включение Советов и Ярлыков способствует непрерывному совершенствованию в производительности и эффективности. Вместе с этой структурой мы представляем Mobile-Eval-E, новый бенчмарк, включающий сложные мобильные задачи, требующие долгосрочного взаимодействия с несколькими приложениями. Эмпирические результаты показывают, что Mobile-Agent-E достигает абсолютного улучшения на 22% по сравнению с предыдущими передовыми подходами на трех основных модельных основах. Страница проекта: https://x-plug.github.io/MobileAgent.
Автономные агенты, работающие на основе больших языковых моделей (БЯМ), имеют потенциал улучшить человеческие возможности, помогая в цифровых задачах, начиная от отправки электронных писем до выполнения анализа данных. Возможности существующих БЯМ в таких задачах часто ограничены отсутствием качественных данных агента из соответствующих сред, с которыми они взаимодействуют. Мы предлагаем метод обучения через взаимодействие, центрированный на данных, для адаптации агентов БЯМ к любым данным средам без участия человека. Метод обучения через взаимодействие синтезирует траектории взаимодействия агента со средой на основе документации и создает инструкции, суммируя или абстрагируя историю взаимодействия, процесс, называемый обратным построением. Мы оцениваем качество наших синтетических данных, используя их как в сценариях обучения, так и в обучении в контексте без обучения (ICL), где мы разрабатываем инновационные подходы к извлечению, оптимизированные для агентов. Обширные эксперименты на SWE-bench, WebArena, OSWorld и Spider2-V, охватывающие реалистичные среды кодирования, веб-среды и рабочие столы, показывают эффективность метода обучения через взаимодействие в различных последующих задачах агентов - базовые результаты улучшаются до 12,2\% для ICL с Claude-3.5 и до 19,5\% для обучения с Codestral-22B. Мы также демонстрируем критическую роль обратного построения, которое обеспечивает улучшение до 14,0\% для обучения. Наши исследования абляции показывают эффективность, обеспечиваемую нашими синтетическими данными в ICL, и превосходство нашего процесса извлечения над альтернативными подходами, такими как обычное извлечение с генерацией (RAG). Мы ожидаем, что метод обучения через взаимодействие станет основой для синтеза данных агента, поскольку БЯМ все чаще развертываются в реальных средах.
Depth Anything достиг впечатляющего успеха в оценке глубины по одному изображению с сильной обобщающей способностью. Однако он страдает от временной несогласованности в видео, что затрудняет его практическое применение. Были предложены различные методы для смягчения этой проблемы путем использования моделей генерации видео или введения априорных знаний из оптического потока и поз камеры. Тем не менее, эти методы применимы только к коротким видео (< 10 секунд) и требуют компромисса между качеством и вычислительной эффективностью. Мы предлагаем Video Depth Anything для высококачественной, последовательной оценки глубины в сверхдлинных видео (длительностью несколько минут) без ущерба эффективности. Мы основываем нашу модель на Depth Anything V2 и заменяем его голову на эффективную пространственно-временную голову. Мы разрабатываем простую, но эффективную потерю временной согласованности, ограничивая временной градиент глубины и устраняя необходимость в дополнительных геометрических априорных знаниях. Модель обучается на совместном наборе данных видео глубины и неразмеченных изображений, аналогично Depth Anything V2. Более того, разработана новая стратегия на основе ключевых кадров для вывода длинных видео. Эксперименты показывают, что нашу модель можно применять к произвольно длинным видео без ущерба качеству, последовательности или обобщающей способности. Комплексные оценки на нескольких видео бенчмарках демонстрируют, что наш подход устанавливает новый уровень качества в оценке глубины видео без обучения. Мы предлагаем модели различных масштабов для поддержки широкого спектра сценариев, наша самая маленькая модель способна к реальному времени с производительностью 30 кадров в секунду.
Генеративное моделирование направлено на преобразование случайного шума в структурированные выходные данные. В данной работе мы улучшаем модели диффузии видео, позволяя управлять движением с помощью выборки структурированного скрытого шума. Это достигается лишь изменением данных: мы предварительно обрабатываем обучающие видео для получения структурированного шума. Следовательно, наш метод независим от дизайна модели диффузии, не требуя изменений в архитектуре модели или процесса обучения. В частности, мы предлагаем новый алгоритм искажения шума, достаточно быстрый для работы в реальном времени, который заменяет случайную временную гауссовость на коррелированный искаженный шум, полученный из полей оптического потока, сохраняя при этом пространственную гауссовость. Эффективность нашего алгоритма позволяет настраивать современные базовые модели диффузии видео, используя искаженный шум с минимальными накладными расходами, и предоставлять удобное решение для широкого спектра управления движением: управление локальным движением объектов, глобальное управление движением камеры и передача движения. Гармония между временной согласованностью и пространственной гауссовостью в нашем искаженном шуме приводит к эффективному управлению движением, сохраняя качество пикселей на каждом кадре. Обширные эксперименты и пользовательские исследования демонстрируют преимущества нашего метода, делая его надежным и масштабируемым подходом для управления движением в моделях диффузии видео. Видеорезультаты доступны на нашем веб-сайте: https://vgenai-netflix-eyeline-research.github.io/Go-with-the-Flow. Исходный код и контрольные точки модели доступны на GitHub: https://github.com/VGenAI-Netflix-Eyeline-Research/Go-with-the-Flow.
Мы показываем, что метаданные фотографий, содержащие теги GPS, предоставляют полезный контрольный сигнал для генерации изображений. Мы обучаем модели преобразования GPS в изображения и используем их для задач, требующих детального понимания того, как изображения изменяются в пределах города. В частности, мы обучаем модель диффузии для генерации изображений, зависящих как от GPS, так и от текста. Обученная модель генерирует изображения, захватывающие характерный облик различных районов, парков и достопримечательностей. Мы также извлекаем 3D модели из 2D моделей преобразования GPS в изображения с помощью выборочного дистилляционного оценивания, используя GPS для ограничения внешнего вида реконструкции с каждой точки зрения. Наши оценки свидетельствуют о том, что наши модели, зависящие от GPS, успешно учатся генерировать изображения, изменяющиеся в зависимости от местоположения, и что использование GPS улучшает оценку 3D структуры.
Качество данных для Обучения с Учителем с Тонкой Настройкой (SFT) играет критическую роль в улучшении разговорных возможностей Больших Языковых Моделей (LLM). Однако по мере усовершенствования LLM доступность высококачественных данных SFT, аннотированных людьми, становится значительным узким местом, требуя большей зависимости от синтетических данных для обучения. В данной работе мы представляем Condor, новую двухэтапную структуру генерации синтетических данных, которая включает в себя Древо Мировых Знаний и Саморефлексионное Усовершенствование для создания высококачественных данных SFT в масштабе. Наши экспериментальные результаты показывают, что базовая модель, настроенная только на 20 тыс. образцов, сгенерированных Condor, достигает более высокой производительности по сравнению с аналогами. Дополнительный этап усовершенствования в Condor дополнительно обеспечивает итеративное самосовершенствование для LLM на различных масштабах (до 72 млрд), подтверждая эффективность нашего подхода. Более того, наше исследование масштабирования для синтетических данных после обучения раскрывает значительный неисследованный потенциал для улучшения производительности, открывая перспективные пути для будущих исследований.
В данной статье мы предлагаем новый метод создания анимированных говорящих голов, способный одновременно генерировать выразительные мимику лица и жестикуляцию рук. В отличие от существующих методов, сосредотачивающихся на генерации поз полного или половинного тела, мы исследуем вызовы генерации жестов во время речи и выявляем слабую соответственность между аудио-признаками и позами полного тела как ключевое ограничение. Для решения этой проблемы мы переопределяем задачу как двухэтапный процесс. На первом этапе мы генерируем позы рук непосредственно из аудио-входа, используя сильную корреляцию между аудио-сигналами и движениями рук. На втором этапе мы применяем модель диффузии для синтеза видеокадров, интегрируя сгенерированные позы рук с первого этапа для создания реалистичной мимики лица и движений тела. Наши экспериментальные результаты демонстрируют, что предложенный метод превосходит современные подходы, такие как CyberHost и Vlogger, как по качеству изображения, так и по точности синхронизации. Эта работа предлагает новую перспективу на генерацию жестов по аудио и надежную структуру для создания выразительных и естественных анимаций говорящих голов.
Мы представляем MAGI, гибридную структуру генерации видео, которая объединяет маскированное моделирование для генерации внутри кадра с причинным моделированием для генерации следующего кадра. Наш ключевой инновационный подход, Полное Принуждение Учителя (CTF), условия маскированных кадров на полные наблюдаемые кадры, а не на маскированные (то есть Маскированное Принуждение Учителя, MTF), обеспечивает плавный переход от уровня токена (уровня патча) к уровню кадра в авторегрессивной генерации. CTF значительно превосходит MTF, достигая улучшения показателей FVD на +23% при предсказании видео, условия которого - первый кадр. Для решения проблем, таких как предвзятость экспозиции, мы используем целенаправленные стратегии обучения, устанавливая новый стандарт в авторегрессивной генерации видео. Эксперименты показывают, что MAGI способен генерировать длинные, последовательные видеофрагменты, превышающие 100 кадров, даже при обучении на всего 16 кадрах, что подчеркивает его потенциал для масштабируемой генерации видео высокого качества.
Мы исследуем взаимосвязь между геометрией вложений токенов и их ролью в предсказании следующего токена в моделях трансформера. Важным аспектом этой связи является использование понятия эмпирической меры, которая кодирует распределение облаков точек токенов по слоям трансформера и управляет эволюцией представлений токенов в картине взаимодействия в среднем поле. Мы используем метрики, такие как внутреннее измерение, перекрытие соседей и косинусное сходство, чтобы наблюдательно исследовать эти эмпирические меры по слоям. Для проверки нашего подхода мы сравниваем эти метрики с набором данных, в котором токены перемешаны, что нарушает синтаксическую и семантическую структуру. Наши результаты показывают корреляцию между геометрическими свойствами вложений токенов и потерей перекрестной энтропии при предсказании следующего токена, что подразумевает, что подсказки с более высокими значениями потерь имеют токены, представленные в пространствах более высокой размерности.
Модели видео-языка (VLM), которые обрабатывают изображения и текстовые входы, все чаще интегрируются в чат-ассистенты и другие приложения искусственного интеллекта для потребителей. Однако без должных мер предосторожности VLM могут давать вредные советы (например, как нанести вред себе) или поощрять небезопасное поведение (например, употребление наркотиков). Несмотря на эти очевидные опасности, до сих пор мало работ, которые оценивают безопасность VLM и новые риски, создаваемые мультимодальными входами. Для заполнения этого пробела мы представляем MSTS, набор тестов на безопасность для VLM, работающих в мультимодальном режиме. MSTS включает в себя 400 тестовых запросов по 40 категориям тонких опасностей. Каждый тестовый запрос состоит из текста и изображения, которые только в сочетании раскрывают свой полный небезопасный смысл. С помощью MSTS мы обнаруживаем явные проблемы безопасности в нескольких открытых VLM. Мы также обнаруживаем, что некоторые VLM оказываются безопасными случайно, то есть они безопасны, потому что не могут понять даже простейшие тестовые запросы. Мы переводим MSTS на десять языков, представляя запросы не на английском, чтобы увеличить количество небезопасных ответов модели. Мы также показываем, что модели оказываются безопаснее при тестировании только с текстом, а не с мультимодальными запросами. Наконец, мы исследуем автоматизацию оценки безопасности VLM, обнаруживая, что даже лучшие классификаторы безопасности оставляют желать лучшего.
Генерация персонализированных заголовков новостей направлена на предоставление пользователям привлекательных заголовков, адаптированных к их предпочтениям. Существующие методы сосредотачиваются на предпочтениях пользователей в контенте, но большинство из них не учитывают тот факт, что разнообразные стилистические предпочтения являются неотъемлемой частью панорамных интересов пользователей, что приводит к недостаточной персонализации. В этой связи мы предлагаем новую концепцию фреймворка Stylistic-Content Aware Personalized Headline Generation (SCAPE). SCAPE извлекает как контентные, так и стилистические особенности из заголовков с помощью сотрудничества с крупной языковой моделью (LLM). Он дополнительно адаптивно интегрирует долгосрочные и краткосрочные интересы пользователей через иерархическую сеть слияния на основе контрастного обучения. Включая панорамные интересы в генератор заголовков, SCAPE отражает предпочтения пользователей в стиле и контенте во время процесса генерации. Обширные эксперименты на реальном наборе данных PENS демонстрируют превосходство SCAPE над базовыми моделями.
Большие модели языкового видения (LVLM) продемонстрировали замечательные способности в понимании и описании визуального контента, достигая передовых результатов в различных задачах визуального языка. Однако эти модели часто проявляют поведение галлюцинаций, при котором они генерируют описания, содержащие объекты или детали, отсутствующие на входном изображении. Наша работа исследует этот феномен путем анализа образцов внимания на различных слоях трансформера, выявляя, что галлюцинации часто возникают из-за постепенного ухудшения визуальной привязки на более глубоких слоях. Мы предлагаем новый подход к модификации внимания, который объединяет выборочное усиление токенов и модуляцию, специфичную для головок, для поддержания визуальной привязки на протяжении процесса генерации. Наш метод включает два ключевых компонента: (1) механизм выбора токенов с двойным потоком, который идентифицирует и приоритизирует как локально информативные, так и пространственно значимые визуальные токены, и (2) стратегию модуляции, специфичную для головок внимания, которая дифференциально усиливает обработку визуальной информации на основе измеренной визуальной чувствительности отдельных головок внимания. Через обширные эксперименты на наборе данных MSCOCO мы демонстрируем, что наш подход снижает уровень галлюцинаций до 62.3\% по сравнению с базовыми моделями, сохраняя при этом сопоставимую производительность по задачам. Наш анализ показывает, что селективное модулирование токенов по головкам внимания с различными уровнями визуальной чувствительности может значительно улучшить визуальную привязку без необходимости повторного обучения модели.