Ежедневно отобранные исследовательские статьи по ИИ с переводами
Последние достижения в области больших языковых моделей (LLM) и мультиагентных систем продемонстрировали впечатляющие возможности в решении сложных задач, таких как глубокие исследования, вибро-кодирование и математические рассуждения. Однако большинство существующих мультиагентных систем построены на основе ручной разработки промптов/рабочих процессов с использованием сложных агентских фреймворков, что делает их вычислительно неэффективными, менее способными и неспособными извлекать выгоду из обучения, ориентированного на данные. В данной работе мы представляем Chain-of-Agents (CoA), новую парадигму рассуждений LLM, которая позволяет решать сложные задачи в нативном end-to-end режиме, аналогично мультиагентной системе (т.е. многошаговое решение задач с использованием множества инструментов и агентов) в рамках одной модели. В процессе решения задач по цепочке агентов модель динамически активирует различных инструментальных агентов и агентов, играющих роли, чтобы симулировать мультиагентное сотрудничество в end-to-end режиме. Для развития способностей LLM к end-to-end решению задач по цепочке агентов мы представляем фреймворк дистилляции мультиагентных систем, который преобразует передовые мультиагентные системы в траектории цепочки агентов для агентского контролируемого тонкого обучения. Затем мы используем агентское обучение с подкреплением на проверяемых агентских задачах, чтобы дополнительно улучшить способности моделей к решению задач по цепочке агентов. Полученные модели мы называем Agent Foundation Models (AFMs). Наши эмпирические исследования показывают, что AFM устанавливает новые рекорды производительности на различных бенчмарках как в веб-агентских, так и в кодовых агентских сценариях. Мы полностью открываем исходный код всего исследования, включая веса моделей, код для обучения и оценки, а также обучающие данные, что предоставляет прочную основу для будущих исследований агентских моделей и агентского обучения с подкреплением.
LongSplat решает ключевые задачи в синтезе новых видов (NVS) из случайно снятых длинных видео, характеризующихся нерегулярным движением камеры, неизвестными позициями камеры и обширными сценами. Современные методы часто сталкиваются с проблемами дрейфа позиций, неточной инициализации геометрии и серьезными ограничениями памяти. Для решения этих проблем мы представляем LongSplat — надежный фреймворк для 3D Gaussian Splatting без заданных позиций, который включает: (1) Инкрементальную совместную оптимизацию, которая одновременно оптимизирует позиции камеры и 3D гауссовы распределения, чтобы избежать локальных минимумов и обеспечить глобальную согласованность; (2) надежный модуль оценки позиций, использующий обученные 3D априорные данные; и (3) эффективный механизм формирования якорей на основе октодерева, который преобразует плотные облака точек в якоря на основе пространственной плотности. Многочисленные эксперименты на сложных бенчмарках показывают, что LongSplat достигает наилучших результатов, значительно улучшая качество рендеринга, точность позиций и вычислительную эффективность по сравнению с предыдущими подходами. Страница проекта: https://linjohnss.github.io/longsplat/
Крупные языковые модели (LLM) требуют сложного управления запросами, однако текущие подходы сталкиваются с проблемами в структуре, интеграции данных, чувствительности к форматам и инструментарии. Существующие методы не предлагают комплексных решений для организации сложных запросов, включающих разнообразные типы данных (документы, таблицы, изображения), или систематического управления вариациями представления. Для устранения этих пробелов мы представляем POML (Prompt Orchestration Markup Language). POML использует компонентную разметку для логической структуры (роли, задачи, примеры), специализированные теги для бесшовной интеграции данных и систему стилей, подобную CSS, чтобы отделить содержание от представления, снижая чувствительность к форматированию. Он включает шаблонизацию для динамических запросов и комплексный набор инструментов для разработчиков (поддержка IDE, SDK) для улучшения контроля версий и совместной работы. Мы проверяем POML на двух кейс-стадиях, демонстрирующих его влияние на интеграцию сложных приложений (PomLink) и производительность в задачах точности (TableQA), а также на пользовательском исследовании, оценивающем его эффективность в реальных сценариях разработки.
Визуальные дизайнеры естественным образом черпают вдохновение из множества визуальных источников, комбинируя разнообразные элементы и эстетические принципы для создания произведений искусства. Однако современные фреймворки для генерации изображений в основном полагаются на единичные входные данные — текстовые запросы или отдельные эталонные изображения. В данной статье мы сосредотачиваемся на задаче управляемой генерации изображений с использованием нескольких визуальных источников. Мы представляем MultiRef-bench, строгую систему оценки, включающую 990 синтетических и 1000 реальных примеров, которые требуют интеграции визуального контента из нескольких эталонных изображений. Синтетические примеры создаются с помощью нашего механизма данных RefBlend, который включает 10 типов эталонов и 33 их комбинации. На основе RefBlend мы также создаем набор данных MultiRef, содержащий 38 тысяч высококачественных изображений, чтобы способствовать дальнейшим исследованиям. Наши эксперименты с тремя моделями, объединяющими изображения и текст (OmniGen, ACE и Show-o), и шестью агентными фреймворками (например, ChatDiT и LLM + SD) показывают, что даже передовые системы испытывают трудности с условиями на основе нескольких эталонов: лучшая модель OmniGen достигает лишь 66,6% для синтетических примеров и 79,0% для реальных случаев в среднем по сравнению с эталонным ответом. Эти результаты дают ценные направления для разработки более гибких и человеко-подобных творческих инструментов, способных эффективно интегрировать множество источников визуального вдохновения. Набор данных доступен по адресу: https://multiref.github.io/.
Оценка персонализированных рекомендаций остается ключевой задачей, особенно в длинных аудиоформатах, таких как подкасты, где традиционные оффлайн-метрики страдают от смещения, связанного с экспозицией, а онлайн-методы, такие как A/B-тестирование, являются дорогостоящими и операционно ограниченными. В данной статье мы предлагаем новый фреймворк, который использует большие языковые модели (LLM) в качестве оффлайн-судей для оценки качества рекомендаций подкастов масштабируемым и интерпретируемым способом. Наш двухэтапный подход, учитывающий профили пользователей, сначала создает естественно-языковые профили, извлеченные из 90 дней истории прослушивания. Эти профили суммируют как тематические интересы, так и поведенческие паттерны, выступая в качестве компактных и интерпретируемых представлений предпочтений пользователей. Вместо использования сырых данных для запроса к LLM, мы используем эти профили для предоставления высокоуровневого, семантически насыщенного контекста, что позволяет LLM более эффективно анализировать соответствие между интересами пользователя и рекомендованными эпизодами. Это снижает сложность входных данных и повышает интерпретируемость. Затем LLM запрашивается для вынесения детализированных поточечных и попарных суждений на основе соответствия профиля и эпизода. В контролируемом исследовании с участием 47 человек наш подход, учитывающий профили, с высокой точностью соответствовал человеческим суждениям и превзошел или сравнялся с вариантом, использующим сырые данные истории прослушивания. Этот фреймворк позволяет проводить эффективную, учитывающую профили оценку для итеративного тестирования и выбора моделей в рекомендательных системах.
Обобщение в воплощённом ИИ ограничено "разрывом между восприятием и действием", который возникает из-за недостатка данных и неоднородности воплощений. Чтобы решить эту проблему, мы предлагаем "указание" как унифицированное, независимое от воплощения промежуточное представление, определяя четыре ключевые способности воплощённого указания, которые связывают высокоуровневое понимание визуально-языковых данных с низкоуровневыми примитивами действий. Мы представляем Embodied-R1, 3B Vision-Language Model (VLM), специально разработанную для воплощённого рассуждения и указания. Мы используем широкий спектр наборов данных для воплощённого и общего визуального рассуждения, чтобы создать крупномасштабный набор данных Embodied-Points-200K, который поддерживает ключевые способности воплощённого указания. Затем мы обучаем Embodied-R1 с использованием двухэтапного учебного плана Reinforced Fine-tuning (RFT) с специализированным многозадачным дизайном вознаграждения. Embodied-R1 достигает наилучших результатов на 11 бенчмарках для воплощённого пространственного анализа и указания. Важно отметить, что модель демонстрирует устойчивое обобщение с нулевым обучением, достигая успешности 56,2% в среде SIMPLEREnv и 87,5% на 8 реальных задачах XArm без какого-либо специфического для задачи тонкого настройки, что представляет собой улучшение на 62% по сравнению с сильными базовыми моделями. Кроме того, модель проявляет высокую устойчивость к различным визуальным помехам. Наша работа показывает, что представление, ориентированное на указание, в сочетании с парадигмой обучения RFT, предлагает эффективный и обобщаемый путь для преодоления разрыва между восприятием и действием в робототехнике.
Хотя крупные языковые модели (LLMs) демонстрируют впечатляющие результаты в решении разнообразных задач, они принципиально лишены самосознания и часто проявляют излишнюю уверенность, присваивая высокие оценки достоверности ошибочным предсказаниям. Точная оценка уверенности, таким образом, крайне важна для повышения доверия и надежности результатов, генерируемых LLM. Однако существующие подходы страдают от грубых механизмов оценки, которые не способны предоставить детализированные и непрерывные оценки уверенности в процессе генерации. Для устранения этих ограничений мы представляем FineCE — новый метод оценки уверенности, который обеспечивает точные и детализированные оценки уверенности в ходе генерации текста. В частности, мы сначала разрабатываем комплексный конвейер для создания обучающих данных, который эффективно отражает лежащее в основе вероятностное распределение ответов LLM, а затем обучаем модель предсказывать оценки уверенности для произвольных текстовых последовательностей в контролируемом режиме. Кроме того, мы предлагаем стратегию обратной интеграции уверенности (Backward Confidence Integration, BCI), которая использует информацию из последующего текста для улучшения оценки уверенности текущей последовательности на этапе вывода. Мы также вводим три стратегии для определения оптимальных позиций выполнения оценки уверенности в процессе генерации. Многочисленные эксперименты на нескольких эталонных наборах данных показывают, что FineCE стабильно превосходит существующие классические методы оценки уверенности. Наш код и все базовые методы, использованные в статье, доступны на GitHub.
Редактирование цвета в изображениях и видео на основе текстовых инструкций является фундаментальной, но до сих пор не решенной задачей, требующей тонкого управления цветовыми атрибутами, включая альбедо, цвет источника света и окружающее освещение, при сохранении физической согласованности в геометрии, свойствах материалов и взаимодействии света с материей. Существующие методы, не требующие обучения, предлагают широкую применимость для различных задач редактирования, но сталкиваются с трудностями в точном управлении цветом и часто приводят к визуальной несогласованности как в редактируемых, так и в нередактируемых областях. В данной работе мы представляем ColorCtrl — метод редактирования цвета без обучения, который использует механизмы внимания современных мультимодальных диффузионных трансформеров (MM-DiT). Разделяя структуру и цвет через целенаправленное управление картами внимания и токенами значений, наш метод обеспечивает точное и согласованное редактирование цвета, а также контроль интенсивности атрибутов на уровне слов. Наш метод изменяет только те области, которые указаны в запросе, оставляя несвязанные области нетронутыми. Многочисленные эксперименты на моделях SD3 и FLUX.1-dev демонстрируют, что ColorCtrl превосходит существующие подходы без обучения и достигает наилучших результатов как по качеству редактирования, так и по согласованности. Более того, наш метод превосходит сильные коммерческие модели, такие как FLUX.1 Kontext Max и GPT-4o Image Generation, с точки зрения согласованности. При применении к видео-моделям, таким как CogVideoX, наш подход демонстрирует еще большие преимущества, особенно в поддержании временной согласованности и стабильности редактирования. Наконец, наш метод также обобщается на диффузионные модели редактирования на основе инструкций, такие как Step1X-Edit и FLUX.1 Kontext dev, что дополнительно подтверждает его универсальность.
Виртуальная примерка (VTON) — это практическая и широко применяемая задача, для которой большинство существующих работ сосредоточено на одежде. В данной статье представлен OmniTry — унифицированный фреймворк, который расширяет VTON за пределы одежды, охватывая любые носимые объекты, такие как украшения и аксессуары, с использованием настройки без масок для более практического применения. При расширении на различные типы объектов сбор данных становится сложной задачей для получения парных изображений, то есть изображения объекта и соответствующего результата примерки. Чтобы решить эту проблему, мы предлагаем двухэтапный процесс: на первом этапе мы используем крупномасштабные непарные изображения, такие как портреты с любыми носимые предметами, для обучения модели локализации без масок. В частности, мы перепрофилируем модель восстановления изображений для автоматического рисования объектов в подходящих позициях при заданной пустой маске. На втором этапе модель дополнительно дообучается на парных изображениях для передачи согласованности внешнего вида объекта. Мы заметили, что модель после первого этапа демонстрирует быстрое сходимость даже при небольшом количестве парных образцов. OmniTry оценивается на комплексном бенчмарке, состоящем из 12 распространенных классов носимых объектов, с использованием как магазинных, так и реальных изображений. Результаты экспериментов показывают, что OmniTry демонстрирует лучшую производительность как в локализации объектов, так и в сохранении идентичности по сравнению с существующими методами. Код, веса модели и бенчмарк для оценки OmniTry будут общедоступны по адресу https://omnitry.github.io/.
Последние достижения в области самоусовершенствования продемонстрировали значительный потенциал для улучшения результатов работы крупных языковых моделей (LLM) за счет итеративного уточнения. Однако большинство существующих методов самоусовершенствования полагаются на реактивный процесс с фиксированным количеством итераций, что затрудняет определение оптимального времени и содержания уточнения на основе изменяющегося контекста генерации. Вдохновленные тем, как люди динамически уточняют свои мысли в процессе выполнения задач, мы предлагаем метод ProActive Self-Refinement (PASR) — новый подход, который позволяет LLM уточнять свои выходные данные в процессе генерации. В отличие от методов, которые перегенерируют ответы целиком, PASR активно решает, нужно ли, когда и как уточнять, основываясь на внутреннем состоянии модели и изменяющемся контексте. Мы провели обширные эксперименты на разнообразном наборе из 10 задач, чтобы оценить эффективность PASR. Результаты экспериментов показывают, что PASR значительно улучшает производительность в решении задач. В частности, на модели Qwen3-8B PASR сокращает среднее потребление токенов на 41,6% по сравнению со стандартной генерацией, одновременно повышая точность на 8,2%. Наш код и все базовые методы, использованные в статье, доступны на GitHub.
Область разделения речи, решающая "проблему коктейльной вечеринки", претерпела революционные изменения с появлением глубоких нейронных сетей (DNN). Разделение речи улучшает четкость в сложных акустических условиях и служит важным этапом предварительной обработки для распознавания речи и идентификации говорящих. Однако современная литература сосредоточена на узких аспектах, таких как конкретные архитектуры или изолированные подходы, что создает фрагментированное понимание. Данный обзор восполняет этот пробел, предлагая систематическое исследование методов разделения речи на основе DNN. Наша работа выделяется следующими аспектами: (I) Комплексный подход: Мы систематически исследуем парадигмы обучения, сценарии разделения с известными/неизвестными говорящими, сравнительный анализ контролируемых, самообучаемых и неконтролируемых подходов, а также архитектурные компоненты от кодировщиков до стратегий оценки. (II) Актуальность: Охват последних достижений обеспечивает доступ к текущим инновациям и эталонным тестам. (III) Уникальные инсайты: Помимо обобщения, мы оцениваем технологические траектории, выявляем новые тенденции и выделяем перспективные направления, включая устойчивые к домену архитектуры, эффективные структуры, мультимодальную интеграцию и новые самообучаемые парадигмы. (IV) Объективная оценка: Мы предоставляем количественные оценки на стандартных наборах данных, раскрывая реальные возможности и ограничения различных методов. Этот всесторонний обзор служит доступным справочником как для опытных исследователей, так и для новичков, осваивающих сложный ландшафт разделения речи.
В данном исследовании изучается использование больших языковых моделей (LLMs) для прогнозирования оценок человеческого восприятия страданий на основе естественно-языковых описаний реальных сценариев. Задача формулируется как проблема регрессии, где модель присваивает каждому входному утверждению скалярное значение от 0 до 100. Мы оцениваем несколько стратегий промптинга, включая zero-shot, few-shot с фиксированным контекстом и промптинг на основе извлечения с использованием эмбеддингов предложений BERT. Подходы few-shot стабильно превосходят базовые методы zero-shot, подчеркивая важность контекстных примеров для аффективного прогнозирования. Чтобы выйти за рамки статической оценки, мы представляем "Шоу страданий" — новый геймифицированный фреймворк, вдохновленный телевизионным форматом. Он тестирует LLMs через структурированные раунды, включающие порядковое сравнение, бинарную классификацию, скалярную оценку и рассуждения на основе обратной связи. Этот подход позволяет оценить не только точность прогнозирования, но и способность модели адаптироваться на основе корректирующей обратной связи. Геймифицированная оценка подчеркивает более широкий потенциал LLMs в задачах динамического эмоционального рассуждения, выходящих за рамки стандартной регрессии. Ссылка на код и данные: https://github.com/abhi1nandy2/Misery_Data_Exps_GitHub
Недавние модели сопоставления потоков для генерации изображений по тексту достигли впечатляющего качества, однако их интеграция с обучением с подкреплением для согласования с человеческими предпочтениями остается неоптимальной, что затрудняет тонкую оптимизацию на основе вознаграждений. Мы наблюдаем, что ключевым препятствием для эффективного обучения GRPO (градиентной оптимизации на основе вознаграждений) моделей потоков является предположение о временной однородности в существующих подходах: редкие терминальные вознаграждения с равномерным распределением заслуг не учитывают различную критичность решений на разных этапах генерации, что приводит к неэффективному исследованию и субоптимальной сходимости. Чтобы устранить этот недостаток, мы представляем TempFlow-GRPO (Временной поток GRPO), принципиальную структуру GRPO, которая учитывает и использует временную структуру, присущую генерации на основе потоков. TempFlow-GRPO вводит два ключевых новшества: (i) механизм ветвления траекторий, который предоставляет процессные вознаграждения, концентрируя стохастичность в заданных точках ветвления, что позволяет точно распределять заслуги без необходимости в специализированных моделях промежуточных вознаграждений; и (ii) схему взвешивания, учитывающую шум, которая модулирует оптимизацию политики в соответствии с внутренним потенциалом исследования каждого временного шага, уделяя приоритет обучению на высокоэффективных ранних этапах, обеспечивая при этом стабильное уточнение на поздних фазах. Эти инновации наделяют модель временно-осознанной оптимизацией, которая учитывает базовые динамики генерации, что приводит к передовым результатам в согласовании с человеческими предпочтениями и стандартных тестах генерации изображений по тексту.
Многопользовательственное обучение с подкреплением (MARL) представляет собой мощную парадигму для решения задач совместного и конкурентного принятия решений. Хотя было предложено множество тестовых сред для MARL, лишь немногие из них сочетают непрерывные пространства состояний и действий с задачами, требующими сложной координации и планирования. Мы представляем CAMAR — новую тестовую среду для MARL, специально разработанную для многопользовательственного поиска пути в средах с непрерывными действиями. CAMAR поддерживает как кооперативные, так и конкурентные взаимодействия между агентами и эффективно работает на скорости до 100 000 шагов среды в секунду. Мы также предлагаем трехэтапный протокол оценки, который позволяет лучше отслеживать прогресс алгоритмов и проводить более глубокий анализ их производительности. Кроме того, CAMAR позволяет интегрировать классические методы планирования, такие как RRT и RRT*, в конвейеры MARL. Мы используем их в качестве самостоятельных базовых подходов и комбинируем RRT* с популярными алгоритмами MARL для создания гибридных методов. Мы предоставляем набор тестовых сценариев и инструментов для бенчмаркинга, чтобы обеспечить воспроизводимость и справедливое сравнение. Эксперименты показывают, что CAMAR представляет собой сложную и реалистичную тестовую среду для сообщества MARL.
Защита авторских прав для больших языковых моделей имеет критически важное значение, учитывая их значительные затраты на разработку, коммерческую ценность и потенциал для злоупотреблений. Существующие обзоры в основном сосредоточены на методах отслеживания контента, созданного языковыми моделями, а именно на текстовом водяном знаке, в то время как систематическое исследование методов защиты самих моделей (например, водяных знаков моделей и отпечатков моделей) остается недостаточным. Более того, взаимосвязи и различия между текстовыми водяными знаками, водяными знаками моделей и отпечатками моделей не были всесторонне прояснены. Данная работа представляет собой всеобъемлющий обзор текущего состояния технологий защиты авторских прав для больших языковых моделей, с акцентом на отпечатки моделей, охватывая следующие аспекты: (1) прояснение концептуальной связи от текстовых водяных знаков к водяным знакам моделей и отпечаткам моделей, а также принятие единой терминологии, которая включает водяные знаки моделей в более широкую концепцию отпечатков; (2) обзор и сравнение различных методов текстовых водяных знаков, с выделением случаев, когда такие методы могут выступать в качестве отпечатков моделей; (3) систематическая классификация и сравнение существующих подходов к отпечаткам моделей для защиты авторских прав языковых моделей; (4) впервые представлены методы передачи и удаления отпечатков; (5) обобщение метрик оценки отпечатков моделей, включая эффективность, безвредность, устойчивость, скрытность и надежность; и (6) обсуждение открытых проблем и будущих направлений исследований. Этот обзор призван предоставить исследователям глубокое понимание как технологий текстовых водяных знаков, так и отпечатков моделей в эпоху больших языковых моделей, способствуя дальнейшему прогрессу в защите их интеллектуальной собственности.
Искусственные интеллектуальные агенты с продвинутыми возможностями рассуждения и использования инструментов продемонстрировали впечатляющие результаты в веб-поиске для глубокого анализа. Хотя существующие тесты, такие как BrowseComp, оценивают эти способности к поиску, они в основном сосредоточены на текстовой информации, игнорируя распространённость мультимодального контента. Чтобы устранить этот пробел, мы представляем MM-BrowseComp — новый тест, состоящий из 224 сложных, тщательно разработанных вопросов, специально предназначенных для оценки способностей агентов к мультимодальному поиску и рассуждению. Эти вопросы часто включают изображения в формулировках, а ключевая информация, встречающаяся в процессе поиска и рассуждения, также может быть встроена в изображения или видео на веб-страницах. Следовательно, методы, полагающиеся исключительно на текст, оказываются недостаточными для нашего теста. Дополнительно мы предоставляем проверенный контрольный список для каждого вопроса, позволяющий проводить детальный анализ мультимодальных зависимостей и путей рассуждения. Наше всестороннее тестирование современных моделей на MM-BrowseComp показывает, что даже лучшие модели, такие как OpenAI o3 с инструментами, достигают точности лишь 29,02%, что подчеркивает неоптимальные мультимодальные возможности и отсутствие встроенного мультимодального рассуждения в текущих моделях.
Понимание аудио, включая речь, неречевые звуки и музыку, является важным компонентом для достижения человеческого уровня интеллекта. Следовательно, ИИ-агенты должны демонстрировать целостное понимание аудио, чтобы считаться обладающими общим интеллектом. Однако всесторонняя оценка слухового интеллекта остается сложной задачей. Чтобы устранить этот пробел, мы представляем MMAU-Pro — наиболее полный и тщательно разработанный бенчмарк для оценки аудиоинтеллекта в ИИ-системах. MMAU-Pro содержит 5 305 примеров, где каждый пример включает один или несколько аудиофайлов, сопряженных с вопросами и ответами, созданными экспертами-людьми, охватывающими речь, звуки, музыку и их комбинации. В отличие от существующих бенчмарков, MMAU-Pro оценивает слуховой интеллект по 49 уникальным навыкам и нескольким сложным измерениям, включая понимание длинных аудиозаписей, пространственное аудио-рассуждение, понимание нескольких аудиофайлов и другие. Все вопросы тщательно разработаны для того, чтобы требовать многошагового рассуждения, включая как вопросы с множественным выбором, так и открытые форматы ответов. Важно отметить, что аудиоданные взяты непосредственно «из реального мира», а не из существующих наборов данных с известными распределениями. Мы оценили 22 ведущие открытые и проприетарные мультимодальные ИИ-модели, выявив значительные ограничения: даже передовые модели, такие как Gemini 2.5 Flash и Audio Flamingo 3, достигают точности всего 59,2% и 51,7% соответственно, приближаясь к случайному угадыванию в нескольких категориях. Наш подробный анализ выявляет конкретные недостатки и предоставляет новые инсайты, предлагая практические перспективы для сообщества, чтобы улучшить прогресс будущих ИИ-систем в направлении общего аудиоинтеллекта. Бенчмарк и код доступны по адресу https://sonalkum.github.io/mmau-pro.
Данная работа исследует задачу переноса анимаций между персонажами, скелетные топологии которых существенно различаются. Хотя за последние десятилетия многие методы продвинули технологии ретаргетинга, перенос движений между различными топологиями остается малоизученным. Основное препятствие заключается в изначальной топологической несовместимости между исходным и целевым скелетами, что ограничивает возможность установления прямых однозначных соответствий между костями. Кроме того, текущее отсутствие крупномасштабных парных наборов данных о движениях, охватывающих различные топологические структуры, серьезно ограничивает развитие подходов, основанных на данных. Для преодоления этих ограничений мы представляем Motion2Motion — новый, не требующий обучения фреймворк. Просто, но эффективно, Motion2Motion работает всего с одним или несколькими примерами движений на целевом скелете, используя разреженный набор соответствий между костями исходного и целевого скелетов. Благодаря всесторонним качественным и количественным оценкам мы демонстрируем, что Motion2Motion достигает эффективной и надежной производительности как в сценариях переноса между схожими скелетами, так и в межвидовых сценариях. Практическая полезность нашего подхода дополнительно подтверждается его успешной интеграцией в приложения и пользовательские интерфейсы, подчеркивая его потенциал для промышленного применения. Код и данные доступны по адресу https://lhchen.top/Motion2Motion.
Разреженные автокодировщики (SAE) способны извлекать интерпретируемые признаки из крупных языковых моделей (LLM) без обучения с учителем. Однако их эффективность в задачах управления на последующих этапах ограничена необходимостью использования контрастных наборов данных или хранения больших объемов активаций. Чтобы устранить эти ограничения, мы предлагаем метод CorrSteer, который выбирает признаки путем корреляции правильности выборок с активациями SAE на сгенерированных токенах во время вывода. Этот подход использует только активации на этапе вывода для извлечения более релевантных признаков, тем самым избегая ложных корреляций. Он также автоматически получает коэффициенты управления из средних активаций, автоматизируя весь процесс. Наш метод демонстрирует улучшение производительности на задачах вопросно-ответных систем, снижения предвзятости, предотвращения взлома и тестах на логическое мышление для моделей Gemma 2 2B и LLaMA 3.1 8B, достигая улучшения на +4,1% в тесте MMLU и на +22,9% в HarmBench при использовании всего 4000 образцов. Выбранные признаки демонстрируют семантически значимые паттерны, соответствующие требованиям каждой задачи, раскрывая базовые возможности, которые обеспечивают производительность. Наша работа устанавливает корреляционный отбор как эффективный и масштабируемый подход для автоматизированного управления SAE в различных приложениях языковых моделей.
Универсальные модели для сегментации медицинских изображений стали перспективной парадигмой благодаря их высокой способности к обобщению в разнообразных задачах, демонстрируя значительный потенциал для широкого спектра клинических применений. Этот потенциал частично обусловлен успехом универсальных моделей компьютерного зрения, таких как Segment Anything Model (SAM), которые вдохновили разработку различных адаптированных версий для задач медицинской сегментации. Однако адаптированные версии, такие как MedSAM, обучаются на относительно ограниченных медицинских данных, которые часто страдают от неоднородности, недостатка аннотаций и сдвигов распределения. Эти ограничения снижают их способность к обобщению в широком диапазоне задач медицинской сегментации. В связи с этим мы предлагаем MedSAMix — метод объединения моделей, не требующий дополнительного обучения, который интегрирует преимущества как универсальных моделей (например, SAM), так и специализированных моделей (например, MedSAM) для сегментации медицинских изображений. В отличие от традиционных подходов к объединению моделей, которые зависят от ручной настройки и часто приводят к неоптимальным результатам, мы предлагаем метод оптимизации нулевого порядка для автоматического поиска оптимальных решений по слоям. Кроме того, для клинических применений мы разработали два режима, которые удовлетворяют требованиям специфичности домена и способности к обобщению в различных сценариях, используя оптимизацию для одной задачи и многокритериальную оптимизацию соответственно. Обширные оценки на 25 задачах медицинской сегментации показывают, что MedSAMix эффективно снижает смещение моделей и последовательно улучшает производительность как в точности для конкретных доменов, так и в обобщении, достигая улучшений на 6,67% в специализированных задачах и на 4,37% в многозадачных оценках.
Генеративные модели, основанные на крупных языковых моделях (LLM), становятся универсальным решением для задач рекомендаций и поиска. Ключевым аспектом в проектировании таких моделей является выбор способа представления элементов: традиционно через уникальные идентификаторы (ID) и, в последнее время, с использованием семантических идентификаторов (Semantic IDs), состоящих из дискретных кодов, полученных из эмбеддингов. Хотя специализированные модели эмбеддингов могут улучшать производительность для отдельных задач, они могут плохо обобщаться в совместных сценариях. В данной работе мы исследуем, как создавать семантические идентификаторы, которые эффективно работают как в поиске, так и в рекомендациях при использовании унифицированной модели. Мы сравниваем различные стратегии построения семантических идентификаторов, рассматривая как специализированные, так и кросс-задачные подходы, а также вопрос о том, должна ли каждая задача иметь свои собственные токены семантических идентификаторов в рамках совместной генеративной модели для поиска и рекомендаций. Наши результаты показывают, что использование би-энкодерной модели, дообученной на задачах поиска и рекомендаций для получения эмбеддингов элементов, с последующим созданием унифицированного пространства семантических идентификаторов, обеспечивает эффективный компромисс, позволяющий достичь высокой производительности в обеих задачах. Мы надеемся, что эти результаты вдохновят дальнейшие исследования в области обобщаемых, семантически обоснованных схем идентификации и помогут в разработке следующего поколения унифицированных генеративных архитектур для рекомендательных систем.
Существующие системы рекомендаций видео в основном полагаются на метаданные, заданные пользователем, или на низкоуровневые визуальные и акустические сигналы, извлеченные специализированными кодировщиками. Эти низкоуровневые признаки описывают то, что появляется на экране, но упускают более глубокую семантику, такую как намерение, юмор и знания о мире, которые делают ролики значимыми для зрителей. Например, является ли 30-секундный ролик просто певцом на крыше или ироничной пародией, снятой среди каменных столбов Каппадокии в Турции? Такие различия критически важны для персонализированных рекомендаций, но остаются невидимыми для традиционных процессов кодирования. В данной статье мы представляем простую, независимую от системы рекомендаций структуру без тонкой настройки, которая внедряет высокоуровневую семантику в процесс рекомендаций, используя готовую Мультимодальную Большую Языковую Модель (MLLM) для создания богатого описания каждого ролика на естественном языке (например, "пародия на супергероя с комедийными драками и оркестровыми акцентами"), устраняя разрыв между исходным контентом и намерениями пользователя. Мы используем выходные данные MLLM с современным текстовым кодировщиком и передаем их в стандартные коллаборативные, контентно-ориентированные и генеративные рекомендательные системы. На наборе данных MicroLens-100K, который имитирует взаимодействия пользователей с видео в стиле TikTok, наша структура стабильно превосходит традиционные видео-, аудио- и метаданные признаки в пяти репрезентативных моделях. Наши результаты подчеркивают перспективность использования MLLM в качестве динамических экстракторов знаний для создания более осведомленных о намерениях рекомендательных систем для видео.
Разработка полей излучения (RF), таких как 3D Gaussian Splatting (3DGS) и Neural Radiance Fields (NeRF), произвела революцию в интерактивном фотореалистичном синтезе изображений и открыла огромные возможности для исследований и приложений в области расширенной реальности (XR). Однако, несмотря на экспоненциальный рост исследований в области RF, вклад, связанный с RF, в сообщество XR остается ограниченным. Чтобы лучше понять этот исследовательский пробел, мы провели систематический обзор текущей литературы по RF, чтобы проанализировать (i) как RF рассматривается для приложений XR, (ii) как они уже реализованы, и (iii) оставшиеся пробелы в исследованиях. Мы собрали 365 работ, связанных с RF и XR, из сообществ компьютерного зрения, компьютерной графики, робототехники, мультимедиа, взаимодействия человека с компьютером и XR, стремясь ответить на вышеуказанные исследовательские вопросы. Среди 365 работ мы провели анализ 66 статей, которые уже затрагивали конкретные аспекты исследований RF для XR. С помощью этого обзора мы расширили и позиционировали темы исследований RF, специфичные для XR, в более широкой области исследований RF, а также предоставили полезный ресурс для сообщества XR, чтобы ориентироваться в стремительном развитии исследований RF.
Временные ряды данных с датчиков движения играют ключевую роль в распознавании человеческой активности (HAR), находя применение в здравоохранении, спорте и умных устройствах. Однако существующие методы обучаются на фиксированных наборах активностей и требуют дорогостоящего переобучения при появлении новых поведенческих паттернов или конфигураций датчиков. Недавние попытки использования крупных языковых моделей (LLM) для HAR, обычно путем преобразования сигналов в текст или изображения, страдают от ограниченной точности и отсутствия проверяемой интерпретируемости. Мы предлагаем ZARA — первую агентно-ориентированную платформу для объяснимого HAR с нулевым обучением, работающую непосредственно с сырыми временными рядами движения. ZARA интегрирует автоматически создаваемую базу знаний о парных признаках, которая фиксирует различительные статистики для каждой пары активностей, модуль извлечения данных с нескольких датчиков, который предоставляет релевантные доказательства, и иерархический агентный конвейер, который направляет LLM для итеративного выбора признаков, использования этих доказательств и генерации как предсказаний активности, так и объяснений на естественном языке. ZARA обеспечивает гибкое и интерпретируемое HAR без необходимости тонкой настройки или специфичных для задачи классификаторов. Экстенсивные эксперименты на 8 бенчмарках HAR показывают, что ZARA достигает наилучших результатов с нулевым обучением, предоставляя четкие обоснования и превосходя сильнейшие базовые методы в 2.53 раза по макро F1. Абляционные исследования дополнительно подтверждают необходимость каждого модуля, что делает ZARA перспективным шагом к надежному и готовому к использованию анализу временных рядов движения. Наши коды доступны по адресу https://github.com/zechenli03/ZARA.
Как крупные языковые модели понимают моральные аспекты по сравнению с людьми? Это первое крупномасштабное байесовское исследование ведущих языковых моделей на рынке дает ответ. В отличие от предыдущих работ, использующих детерминированную истину (правила большинства или включения), мы моделируем разногласия аннотаторов, чтобы учесть как алеаторную неопределенность (внутренние разногласия людей), так и эпистемическую неопределенность (чувствительность модели к предметной области). Мы оцениваем лучшие языковые модели (Claude Sonnet 4, DeepSeek-V3, Llama 4 Maverick) на основе более 250 тысяч аннотаций от примерно 700 аннотаторов для более чем 100 тысяч текстов, охватывающих социальные сети, новости и форумы. Наша оптимизированная для GPU байесовская система обработала более 1 миллиона запросов к моделям, показав, что модели ИИ обычно входят в топ-25% среди аннотаторов-людей, демонстрируя значительно выше среднего сбалансированную точность. Важно отметить, что ИИ генерирует гораздо меньше ложных отрицательных результатов, чем люди, что подчеркивает их более чувствительные способности к обнаружению моральных аспектов.
Мы рассматриваем задачу обнаружения синтезированной речи в условиях сдвигов распределения — возникающих из-за неизвестных методов синтеза, дикторов, языков или аудиоусловий — по сравнению с обучающими данными. Методы обучения с малым количеством примеров (few-shot learning) представляют собой перспективный подход для решения проблемы сдвигов распределения за счет быстрой адаптации на основе нескольких примеров из целевого распределения. Мы предлагаем использовать сеть с самовниманием (self-attentive prototypical network) для обеспечения более устойчивой адаптации с малым количеством примеров. Для оценки нашего подхода мы систематически сравниваем производительность традиционных детекторов, работающих в режиме нулевого обучения (zero-shot), и предложенных детекторов с малым количеством примеров, тщательно контролируя условия обучения, чтобы ввести сдвиги распределения на этапе оценки. В условиях, когда сдвиги распределения ухудшают производительность zero-shot детекторов, наш метод адаптации с малым количеством примеров позволяет быстро адаптироваться, используя всего 10 примеров из целевого распределения, — достигая снижения относительной EER на 32% для глубоких подделок (deepfakes) на японском языке и на 20% для набора данных ASVspoof 2021 Deepfake.
Крупные языковые модели (LLM) демонстрируют впечатляющие способности к решению задач, но сталкиваются с трудностями при выполнении сложных заданий из-за статичности внутренних знаний. Метод Retrieval-Augmented Generation (RAG) улучшает доступ к внешней информации, однако остается ограниченным в многошаговом рассуждении и стратегическом поиске из-за жестких рабочих процессов. Последние достижения в области агентного глубокого исследования позволяют LLM автономно рассуждать, искать и синтезировать информацию. Однако современные подходы, основанные на обучении с подкреплением (RL) по результатам, сталкиваются с критическими проблемами, такими как конфликтующие градиенты и разреженность вознаграждений, что ограничивает прирост производительности и эффективность обучения. Для решения этих проблем мы предлагаем Atomic Thought — новую парадигму мышления LLM, которая разбивает рассуждение на мелкозернистые функциональные единицы. Эти единицы контролируются моделями вознаграждения за рассуждение (RRM), которые предоставляют Atomic Thought Rewards (ATR) для детализированного руководства. На основе этого мы предлагаем Atom-Searcher — новый RL-фреймворк для агентного глубокого исследования, который интегрирует Atomic Thought и ATR. Atom-Searcher использует расписание вознаграждений, вдохновленное учебным планом, уделяя приоритетное внимание процессуальным ATR на ранних этапах и переходя к вознаграждениям за результат, что ускоряет сходимость на эффективные пути рассуждения. Эксперименты на семи бенчмарках показывают устойчивое улучшение по сравнению с современными методами. Ключевые преимущества включают: (1) Atom-Searcher масштабирует вычисления во время тестирования. (2) Atomic Thought предоставляет якоря для контроля RRM, связывая задачи глубокого исследования и RRM. (3) Atom-Searcher демонстрирует более интерпретируемые, человекообразные паттерны рассуждения.