Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем rStar2-Agent, 14-миллиардную модель для математических рассуждений, обученную с использованием агентного обучения с подкреплением для достижения передового уровня производительности. В отличие от современных длинных цепочек рассуждений (CoT), модель демонстрирует продвинутые когнитивные способности, такие как тщательное обдумывание перед использованием инструментов Python-кодирования и анализ обратной связи от выполнения кода для автономного исследования, проверки и уточнения промежуточных шагов в решении сложных задач. Эта возможность реализована благодаря трем ключевым инновациям, которые делают агентное обучение с подкреплением эффективным в масштабе: (i) эффективная инфраструктура обучения с подкреплением с надежной средой выполнения Python-кода, которая поддерживает высокую пропускную способность и снижает высокие затраты на прогоны, что позволяет обучать модель на ограниченных ресурсах GPU (64 MI300X GPU); (ii) GRPO-RoC, алгоритм агентного обучения с подкреплением с стратегией повторной выборки при правильных ответах (Resample-on-Correct), который устраняет внутренние шумы среды, связанные с инструментами кодирования, позволяя модели более эффективно рассуждать в кодовой среде; (iii) эффективный рецепт обучения агентов, который начинается с обучения без рассуждений (SFT) и переходит к многоэтапному обучению с подкреплением, развивая продвинутые когнитивные способности при минимальных вычислительных затратах. В результате rStar2-Agent повышает производительность предварительно обученной 14-миллиардной модели до уровня state of the art всего за 510 шагов обучения с подкреплением в течение одной недели, достигая средних показателей pass@1 80,6% на AIME24 и 69,8% на AIME25, превосходя DeepSeek-R1 (671B) с значительно более короткими ответами. Помимо математики, rStar2-Agent-14B также демонстрирует сильную обобщаемость в задачах согласования, научных рассуждений и использования инструментов агентами. Код и рецепты обучения доступны по адресу https://github.com/microsoft/rStar.
Последние достижения подчеркивают важность методов обучения с подкреплением на основе GRPO и бенчмаркинга для улучшения генерации изображений из текста (T2I). Однако современные методы, использующие точечные модели вознаграждения (RM) для оценки сгенерированных изображений, подвержены проблеме "взлома вознаграждения". Мы показываем, что это происходит, когда минимальные различия в оценках между изображениями усиливаются после нормализации, создавая иллюзорные преимущества, которые заставляют модель чрезмерно оптимизироваться для незначительных улучшений, что в конечном итоге дестабилизирует процесс генерации изображений. Для решения этой проблемы мы предлагаем Pref-GRPO — метод GRPO, основанный на парных предпочтениях, который смещает цель оптимизации с максимизации оценок на соответствие предпочтениям, обеспечивая более стабильное обучение. В Pref-GRPO изображения попарно сравниваются внутри каждой группы с использованием модели предпочтений RM, а частота выигрышей используется как сигнал вознаграждения. Многочисленные эксперименты демонстрируют, что Pref-GRPO лучше различает тонкие различия в качестве изображений, обеспечивая более стабильные преимущества и смягчая проблему взлома вознаграждения. Кроме того, существующие бенчмарки T2I ограничены грубыми критериями оценки, что затрудняет всестороннюю оценку моделей. Для решения этой проблемы мы представляем UniGenBench — унифицированный бенчмарк T2I, включающий 600 запросов по 5 основным темам и 20 подтемам. Он оценивает семантическую согласованность через 10 основных и 27 дополнительных критериев, используя MLLM для построения и оценки бенчмарка. Наши бенчмарки выявляют сильные и слабые стороны как открытых, так и закрытых моделей T2I и подтверждают эффективность Pref-GRPO.
Мы представляем MCP-Bench — эталонный набор для оценки больших языковых моделей (LLM) на реалистичных многошаговых задачах, требующих использования инструментов, координации между ними, точного управления параметрами, а также планирования и рассуждений для решения задач. Основанный на Model Context Protocol (MCP), MCP-Bench подключает LLM к 28 репрезентативным активным MCP-серверам, охватывающим 250 инструментов в таких областях, как финансы, путешествия, научные вычисления и академический поиск. В отличие от предыдущих API-ориентированных эталонных наборов, каждый MCP-сервер предоставляет набор взаимодополняющих инструментов, предназначенных для совместной работы, что позволяет создавать аутентичные многошаговые задачи с богатой связью между входными и выходными данными. Задачи в MCP-Bench проверяют способность агентов извлекать релевантные инструменты из нечетких инструкций без явного указания их названий, планировать многошаговые траектории выполнения для сложных целей, основывать ответы на промежуточных выходах инструментов и координировать междоменные рабочие процессы — возможности, которые недостаточно оцениваются существующими эталонными наборами, полагающимися на явные спецификации инструментов, простые малошаговые рабочие процессы и изолированные операции в рамках одной области. Мы предлагаем многогранную систему оценки, охватывающую понимание и использование схем инструментов, планирование на уровне траекторий и выполнение задач. Эксперименты с 20 передовыми LLM выявили устойчивые трудности в MCP-Bench. Код и данные: https://github.com/Accenture/mcp-bench.
Существующая литература обычно рассматривает генерацию, управляемую стилем, и генерацию, управляемую объектом, как две независимые задачи: первая делает акцент на стилистическом сходстве, тогда как вторая настаивает на согласованности объекта, что приводит к явному антагонизму. Мы утверждаем, что обе цели могут быть объединены в рамках единой системы, поскольку они в конечном итоге касаются разделения и повторной композиции содержания и стиля, что является давней темой в исследованиях, связанных со стилем. Для этого мы представляем USO, унифицированную модель кастомизации, оптимизированную для стиля и объекта. Во-первых, мы создаем крупномасштабный набор данных в виде триплетов, состоящих из изображений содержания, изображений стиля и соответствующих им стилизованных изображений содержания. Во-вторых, мы вводим схему разделенного обучения, которая одновременно выравнивает стилевые признаки и разделяет содержание и стиль с помощью двух взаимодополняющих задач: обучения на выравнивание стиля и обучения на разделение содержания и стиля. В-третьих, мы включаем парадигму обучения с подкреплением стиля, обозначенную как SRL, чтобы дополнительно повысить производительность модели. Наконец, мы выпускаем USO-Bench, первый эталонный тест, который совместно оценивает сходство стиля и точность объекта по нескольким метрикам. Многочисленные эксперименты демонстрируют, что USO достигает наилучших результатов среди моделей с открытым исходным кодом по обоим параметрам: согласованности объекта и сходству стиля. Код и модель: https://github.com/bytedance/USO.
Парадигма обучения на практике имеет решающее значение для разработки эффективных агентных систем ИИ, однако она серьезно ограничивается неэффективным процессом генерации опыта, что особенно заметно в сложных тестах, таких как GAIA. Для решения этой проблемы мы представляем AWorld — открытую систему, разработанную для масштабируемого взаимодействия агента со средой. Распределяя задачи по кластеру, AWorld ускоряет сбор опыта в 14,6 раз по сравнению с традиционным последовательным выполнением на одном узле. Это критическое ускорение делает масштабное обучение с подкреплением практичным и масштабируемым. Используя эту возможность, мы обучили агента на основе модели Qwen3-32B, который значительно превосходит базовую модель, увеличив общую точность на GAIA с 21,59% до 32,23%. На наиболее сложных уровнях теста наш агент достигает результата 16,33%, превосходя производительность ведущих проприетарных моделей. Наша открытая система и полученный агент предоставляют практическую основу для полного конвейера обучения агентных систем ИИ — от эффективного взаимодействия до демонстрируемого улучшения модели.
Генерация длинных видео по своей сути является проблемой долговременной памяти: модели должны сохранять и извлекать ключевые события на протяжении длительного времени без коллапса или дрейфа. Однако масштабирование диффузионных трансформеров для генерации видео с длинным контекстом фундаментально ограничено квадратичной стоимостью self-attention, что делает память и вычисления неразрешимыми и сложными для оптимизации в случае длинных последовательностей. Мы переосмысливаем генерацию видео с длинным контекстом как задачу внутреннего поиска информации и предлагаем простой, обучаемый модуль разреженного маршрутизированного внимания, Mixture of Contexts (MoC), в качестве эффективного механизма долговременного извлечения памяти. В MoC каждый запрос динамически выбирает несколько информативных фрагментов вместе с обязательными якорями (описания, локальные окна) для внимания, используя причинную маршрутизацию, которая предотвращает замыкание циклов. По мере масштабирования данных и постепенного разрежения маршрутизации модель распределяет вычисления на важные моменты истории, сохраняя идентичности, действия и сцены на протяжении минут контента. Эффективность становится побочным продуктом извлечения (почти линейное масштабирование), что делает возможным практическое обучение и синтез, а также появление памяти и согласованности на уровне минут.
Разнообразные данные инструкций имеют решающее значение для эффективной настройки больших языковых моделей на выполнение инструкций, так как это позволяет модели обобщать различные типы входных данных. Создание такого диверсифицированного набора данных инструкций является важным шагом в этом процессе. Существующие подходы часто используют большие языковые модели для автоматического исследования и генерации разнообразных инструкций, обеспечивая как разнообразие данных, так и их качество. Однако они склонны упускать из виду важный фактор в реальных приложениях: релевантность конкретной задаче. На практике лишь немногие реальные приложения требуют по-настоящему универсальной модели; большинство из них выигрывают от знаний, специфичных для конкретной задачи, адаптированных под их конкретный случай использования. Поэтому крайне важно разработать методы расширения инструкций, которые не только сохраняют разнообразие, но и оптимизированы для конкретных реальных сценариев. Мы представляем Task Centric Instruction Augmentation (TCIA) — фреймворк, который систематически расширяет инструкции, сохраняя как разнообразие, так и соответствие задаче. Представляя инструкции в дискретном пространстве запросов и ограничений, TCIA создает богатый набор релевантных задаче инструкций и позволяет моделям обобщать эти специфичные для задачи инструкции без ущерба для общей производительности. Эксперименты показывают, что TCIA улучшает производительность открытых языковых моделей в среднем на 8,7% в четырех реальных приложениях, ориентированных на конкретные задачи, а в некоторых случаях превосходит ведущие закрытые модели. Эти улучшения не компрометируют общую способность следовать инструкциям, что делает TCIA масштабируемым и эффективным решением для адаптации языковых моделей к реальным, ориентированным на задачи приложениям.
Мы представляем первый основанный на данных трекер трехмерных точек для многокамерных систем, предназначенный для отслеживания произвольных точек в динамических сценах с использованием нескольких камер. В отличие от существующих монокулярных трекеров, которые сталкиваются с проблемами неоднозначности глубины и окклюзии, или предыдущих многокамерных методов, требующих более 20 камер и трудоемкой оптимизации для каждой последовательности, наша модель с прямым распространением напрямую предсказывает трехмерные соответствия с использованием практичного числа камер (например, четырех), обеспечивая надежное и точное онлайн-отслеживание. При известных положениях камер и глубине, полученной с помощью сенсоров или оцененной по многокамерным данным, наш трекер объединяет признаки из нескольких камер в единое облако точек и применяет корреляцию по k ближайшим соседям вместе с обновлением на основе трансформера для надежного определения долгосрочных трехмерных соответствий, даже в условиях окклюзии. Мы обучаем модель на 5 тысячах синтетических многокамерных последовательностей Kubric и оцениваем на двух реальных наборах данных: Panoptic Studio и DexYCB, достигая медианных ошибок траекторий 3,1 см и 2,0 см соответственно. Наш метод хорошо обобщается на различные конфигурации камер с 1-8 видами с разными углами обзора и длинами видео от 24 до 150 кадров. Выпуская наш трекер вместе с наборами данных для обучения и оценки, мы стремимся установить новый стандарт для исследований в области многокамерного трехмерного отслеживания и предоставить практичный инструмент для реальных приложений. Страница проекта доступна по адресу https://ethz-vlg.github.io/mvtracker.
Безопасное согласование в больших языковых моделях (LLM) часто предполагает управление внутренними представлениями для отклонения вредоносных запросов. Недавние исследования показали, что эти механизмы безопасности могут быть обойдены путем удаления или абляции определенных направлений представлений внутри модели. В данной статье мы предлагаем противоположный подход: Rank-One Safety Injection (ROSI) — метод "белого ящика", который усиливает безопасное согласование модели, постоянно направляя её активации в подпространство, опосредующее отказ. ROSI работает как простое, не требующее тонкой настройки изменение весов ранга один, применяемое ко всем матрицам записи в остаточном потоке. Необходимое направление безопасности может быть вычислено на основе небольшого набора пар вредоносных и безвредных инструкций. Мы показываем, что ROSI последовательно увеличивает частоту отказов по соображениям безопасности — по оценке Llama Guard 3 — при этом сохраняя полезность модели на стандартных тестах, таких как MMLU, HellaSwag и Arc. Кроме того, мы демонстрируем, что ROSI также может повторно согласовывать "нецензурированные" модели, усиливая их собственные латентные направления безопасности, что подтверждает её полезность как эффективной процедуры безопасности на последнем этапе. Наши результаты свидетельствуют о том, что целенаправленное и интерпретируемое управление весами является дешёвым и мощным механизмом для повышения безопасности LLM, дополняя более ресурсоёмкие парадигмы тонкой настройки.
В данной статье мы представляем OneReward — унифицированную структуру обучения с подкреплением, которая улучшает генеративные способности модели для множества задач в рамках различных критериев оценки, используя только одну модель вознаграждения. Применяя единую модель, объединяющую зрение и язык (VLM), в качестве генеративной модели вознаграждения, которая способна определить победителя и проигравшего для конкретной задачи и критерия оценки, она может эффективно использоваться в многозадачных генеративных моделях, особенно в контекстах с разнородными данными и различными целями задач. Мы применяем OneReward для маски-ориентированной генерации изображений, которая может быть разделена на несколько подзадач, таких как заполнение изображения, расширение изображения, удаление объектов и визуализация текста, где бинарная маска определяет область редактирования. Хотя эти задачи в рамках одной области используют одинаковую парадигму кондиционирования, они значительно различаются по распределению данных и метрикам оценки. Существующие методы часто полагаются на специфичное для задачи контролируемое тонкое обучение (SFT), что ограничивает обобщение и эффективность обучения. На основе OneReward мы разработали Seedream 3.0 Fill — модель маски-ориентированной генерации, обученную с помощью многозадачного обучения с подкреплением непосредственно на предварительно обученной базовой модели, что устраняет необходимость в специфичном для задачи SFT. Экспериментальные результаты показывают, что наша унифицированная модель редактирования стабильно превосходит как коммерческие, так и открытые конкурирующие решения, такие как Ideogram, Adobe Photoshop и FLUX Fill [Pro], по множеству оценочных параметров. Код и модель доступны по адресу: https://one-reward.github.io.
Языковые модели, дополненные инструментами, такими как поиск, память или внешние API, трансформируют область ИИ, однако их теоретические преимущества остаются недостаточно изученными. В данной работе мы исследуем этот вопрос, демонстрируя преимущества обучения с использованием инструментов (внешний поиск) перед обучением с запоминанием (внутренние веса) для воспроизведения фактов. Мы показываем, что количество фактов, которые модель может запомнить исключительно в своих весах, принципиально ограничено количеством параметров. В то же время мы доказываем, что использование инструментов позволяет достичь неограниченного воспроизведения фактов благодаря простой и эффективной схеме. Эти результаты подтверждаются в контролируемых экспериментах, где модели, использующие инструменты, стабильно превосходят модели, полагающиеся на запоминание. Мы также показываем, что для предобученных крупных языковых моделей обучение использованию инструментов и общим правилам более эффективно, чем дообучение фактов в память. Наша работа закладывает как теоретическую, так и эмпирическую основу, объясняя, почему рабочие процессы с использованием инструментов не только практичны, но и доказательно более масштабируемы.
Недавние модели Vision-Language-Action (VLA), построенные на предварительно обученных Vision-Language Models (VLMs), требуют обширного пост-обучения, что приводит к высоким вычислительным затратам, ограничивающим масштабируемость и внедрение. Мы предлагаем CogVLA, когнитивно-согласованную структуру Vision-Language-Action, которая использует маршрутизацию на основе инструкций и разрежение для повышения как эффективности, так и производительности. CogVLA вдохновляется мультимодальной координацией человека и представляет трехэтапную прогрессивную архитектуру. 1) Маршрутизация на основе агрегации Encoder-FiLM (EFA-Routing) внедряет информацию об инструкциях в визуальный кодировщик для избирательной агрегации и сжатия двухпотоковых визуальных токенов, формируя латентное представление, учитывающее инструкции. 2) На основе этого компактного визуального кодирования маршрутизация на основе обрезки LLM-FiLM (LFP-Routing) вводит намерение действия в языковую модель, удаляя визуально закрепленные токены, не относящиеся к инструкциям, тем самым достигая разрежения на уровне токенов. 3) Чтобы гарантировать, что сжатые входные данные восприятия все еще могут поддерживать точное и согласованное генерацию действий, мы вводим V-L-A Coupled Attention (CAtten), который объединяет причинно-следственное внимание vision-language с двунаправленным параллельным декодированием действий. Экстенсивные эксперименты на бенчмарке LIBERO и реальных роботизированных задачах демонстрируют, что CogVLA достигает наилучших результатов с показателями успеха 97.4% и 70.0% соответственно, при этом снижая затраты на обучение в 2.5 раза и уменьшая задержку вывода в 2.8 раза по сравнению с OpenVLA. CogVLA является открытым исходным кодом и доступен по адресу https://github.com/JiuTian-VL/CogVLA.
Крупные языковые модели (LLM) могут испытывать трудности с балансированием между доверчивостью к дезинформации и устойчивостью к обоснованным исправлениям в убедительных диалогах, что представляет собой критическую проблему для их надежного применения. Мы представляем DuET-PD (Dual Evaluation for Trust in Persuasive Dialogues) — фреймворк для оценки динамики изменения позиции в многоходовых диалогах по двум измерениям: тип убеждения (корректирующий/вводящий в заблуждение) и область (знания через MMLU-Pro и безопасность через SALAD-Bench). Мы обнаружили, что даже передовая модель, такая как GPT-4o, достигает точности всего 27,32% в MMLU-Pro при постоянном воздействии вводящих в заблуждение убеждений. Более того, результаты выявили тревожную тенденцию роста угодливости в новых моделях с открытым исходным кодом. Для решения этой проблемы мы предлагаем Holistic DPO — подход к обучению, который балансирует примеры положительного и отрицательного убеждения. В отличие от подсказок или обучения только на сопротивлении, Holistic DPO повышает как устойчивость к дезинформации, так и восприимчивость к исправлениям, улучшая точность модели Llama-3.1-8B-Instruct в контекстах безопасности при вводящих в заблуждение убеждениях с 4,21% до 76,54%. Эти разработки открывают путь к созданию более надежных и адаптируемых LLM для многоходовых диалогов. Код доступен по адресу https://github.com/Social-AI-Studio/DuET-PD.
Мы представляем FakeParts — новый класс дипфейков, характеризующихся тонкими, локализованными манипуляциями с определёнными пространственными областями или временными отрезками в иначе подлинных видео. В отличие от полностью синтетического контента, эти частичные манипуляции, варьирующиеся от изменённых выражений лица до замены объектов и модификаций фона, гармонично сочетаются с реальными элементами, что делает их особенно обманчивыми и трудными для обнаружения. Чтобы устранить критический пробел в возможностях обнаружения, мы представляем FakePartsBench — первый крупномасштабный эталонный набор данных, специально разработанный для охвата всего спектра частичных дипфейков. Наш набор данных, включающий более 25 тысяч видео с аннотациями манипуляций на уровне пикселей и кадров, позволяет проводить всестороннюю оценку методов обнаружения. Наши пользовательские исследования показывают, что FakeParts снижает точность обнаружения человеком более чем на 30% по сравнению с традиционными дипфейками, причём аналогичное ухудшение производительности наблюдается и в современных моделях обнаружения. Эта работа выявляет серьёзную уязвимость в современных подходах к обнаружению дипфейков и предоставляет необходимые ресурсы для разработки более устойчивых методов выявления частичных манипуляций с видео.
Удаление объектов из видео достигло высокого уровня производительности благодаря недавним успехам генеративных моделей для видео. Однако при устранении побочных эффектов объектов, таких как их тени и отражения, существующие методы сталкиваются с трудностями из-за недостатка парных видеоданных для обучения. В данной статье представлен ROSE (Remove Objects with Side Effects) — фреймворк, который систематически изучает влияние объектов на окружающую среду, которое можно разделить на пять основных случаев: тени, отражения, освещение, прозрачность и зеркала. Учитывая сложности с созданием парных видео, демонстрирующих указанные эффекты, мы используем 3D-движок для генерации синтетических данных. Мы тщательно разработали полностью автоматизированный конвейер подготовки данных, который моделирует масштабный набор парных данных с разнообразными сценами, объектами, углами съемки и траекториями камеры. ROSE реализован как модель восстановления видео, основанная на диффузионных трансформерах. Для локализации всех областей, связанных с объектом, весь видеофайл подается в модель для удаления на основе эталонных данных. Кроме того, вводится дополнительное обучение для явного прогнозирования областей, затронутых побочными эффектами, которые можно выявить через дифференциальную маску между парными видео. Для всестороннего исследования производительности модели в устранении различных побочных эффектов мы представляем новый бенчмарк под названием ROSE-Bench, включающий как стандартные сценарии, так и пять специальных побочных эффектов для комплексной оценки. Экспериментальные результаты показывают, что ROSE демонстрирует превосходную производительность по сравнению с существующими моделями удаления объектов из видео и хорошо обобщается на реальные видеосценарии. Страница проекта доступна по адресу: https://rose2025-inpaint.github.io/.
Мы представляем Dress&Dance — фреймворк на основе видео-диффузии, который генерирует высококачественные 5-секундные видео виртуальной примерки с частотой 24 кадра в секунду и разрешением 1152x720. Наш подход позволяет показать, как пользователь, одетый в выбранные предметы одежды, двигается в соответствии с заданным эталонным видео. Для работы требуется всего одно изображение пользователя, а система поддерживает широкий спектр верхней, нижней одежды и платьев, а также одновременную примерку верха и низа за один проход. Ключевым элементом нашего фреймворка является CondNet — новая сеть для кондиционирования, которая использует механизмы внимания для объединения мультимодальных входных данных (текста, изображений и видео), что улучшает точность регистрации одежды и реалистичность движений. CondNet обучается на разнородных данных, сочетая ограниченный набор видео и более доступный набор изображений, с использованием многоэтапного прогрессивного подхода. Dress&Dance превосходит существующие открытые и коммерческие решения, обеспечивая высококачественный и гибкий опыт виртуальной примерки.
3D-контент по своей природе обладает мультимодальными характеристиками и может быть проецирован в различные модальности (например, RGB-изображения, RGBD и облака точек). Каждая модальность демонстрирует свои уникальные преимущества в моделировании 3D-активов: RGB-изображения содержат яркие 3D-текстуры, тогда как облака точек определяют детализированные 3D-геометрии. Однако большинство существующих 3D-ориентированных генеративных архитектур либо работают преимущественно в рамках одноканальных парадигм, упуская из виду дополнительные преимущества мультимодальных данных, либо ограничиваются 3D-структурами, тем самым сужая доступный объем обучающих данных. Чтобы комплексно использовать мультимодальность для 3D-моделирования, мы представляем TriMM — первую прямую 3D-ориентированную генеративную модель, которая обучается на базовых мультимодальных данных (например, RGB, RGBD и облака точек). В частности: 1) TriMM впервые вводит совместное мультимодальное кодирование, которое интегрирует специфические для каждой модальности признаки, сохраняя их уникальные репрезентативные преимущества. 2) Кроме того, вводятся вспомогательные 2D и 3D-метки для повышения устойчивости и производительности мультимодального кодирования. 3) На основе встроенного мультимодального кода TriMM использует триплоскостную модель латентной диффузии для генерации 3D-активов высочайшего качества, улучшая как текстуры, так и геометрические детали. Многочисленные эксперименты на нескольких известных наборах данных демонстрируют, что TriMM, эффективно используя мультимодальность, достигает конкурентоспособных результатов с моделями, обученными на крупномасштабных данных, несмотря на использование небольшого объема обучающих данных. Кроме того, мы проводим дополнительные эксперименты на современных RGB-D наборах данных, подтверждая возможность интеграции других мультимодальных данных в процесс 3D-генерации.
По мере того как многоходовые диалоги с большими языковыми моделями (LLM) становятся длиннее и сложнее, как пользователи могут лучше оценивать и отслеживать прогресс в достижении своих целей? Мы представляем OnGoal — интерфейс чата с LLM, который помогает пользователям более эффективно управлять прогрессом в достижении целей. OnGoal предоставляет обратную связь в реальном времени о соответствии целям с помощью оценки, осуществляемой LLM, объясняет результаты оценки с примерами и предлагает обзор прогресса в достижении целей с течением времени, что позволяет пользователям более эффективно ориентироваться в сложных диалогах. В ходе исследования с участием 20 человек, выполнявших задачу по написанию текста, мы сравнили OnGoal с базовым интерфейсом чата без отслеживания целей. Используя OnGoal, участники тратили меньше времени и усилий для достижения своих целей, одновременно исследуя новые стратегии запросов для преодоления недопонимания, что свидетельствует о том, что отслеживание и визуализация целей могут повысить вовлеченность и устойчивость в диалогах с LLM. Наши результаты вдохновили на разработку рекомендаций для будущих интерфейсов чатов с LLM, которые улучшают коммуникацию целей, снижают когнитивную нагрузку, повышают интерактивность и позволяют получать обратную связь для улучшения производительности LLM.
Социальное поведение человека по своей природе является мультимодальным, что требует разработки мощных аудиовизуальных моделей для его восприятия. В данной статье мы представляем Social-MAE, нашу предварительно обученную аудиовизуальную модель Masked Autoencoder, основанную на расширенной версии Contrastive Audio-Visual Masked Auto-Encoder (CAV-MAE), которая предварительно обучается на аудиовизуальных социальных данных. В частности, мы модифицируем CAV-MAE для обработки большего количества кадров в качестве входных данных и предварительно обучаем её на большом наборе данных о социальном взаимодействии людей (VoxCeleb2) в самообучаемом режиме. Мы демонстрируем эффективность этой модели путем дообучения и оценки на различных социальных и аффективных задачах, а именно: распознавание эмоций, обнаружение смеха и оценка видимой личности. Модель достигает современных результатов в мультимодальном распознавании эмоций и распознавании смеха, а также конкурентоспособных результатов в оценке видимой личности, что подтверждает эффективность предварительного обучения в предметной области с использованием самообучения. Код и веса модели доступны по ссылке: https://github.com/HuBohy/SocialMAE.