Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы мечтаем о будущем, в котором облака точек из всех областей смогут объединиться для создания единой модели, приносящей пользу всем. В рамках движения к этой цели мы представляем Utonia — первый шаг к обучению единого самообучающегося трансформер-энкодера для работы с разнородными данными: дистанционным зондированием, уличными лидарами, помещениями с RGB-D последовательностями, объектно-ориентированными CAD-моделями и облаками точек, полученными из RGB-видео. Несмотря на различия в геометрии съемки, плотности и априорных предположениях, Utonia изучает единое пространство представлений, которое обобщается across domains. Такая унификация повышает возможности восприятия и выявляет intriguing emergent behaviors, возникающие только при совместном обучении на разнородных данных. Помимо восприятия, мы наблюдаем, что представления Utonia также могут улучшать embodied и мультимодальные рассуждения: conditioning политик vision-language-action на features Utonia улучшает роботизированный manipulation, а их интеграция в vision-language модели дает прирост в spatial reasoning. Мы надеемся, что Utonia станет шагом к созданию foundation models для разреженных 3D данных и поддержит downstream applications в AR/VR, робототехнике и автономном вождении.
Визуальный мир представляет собой ключевое направление для развития базовых моделей за пределы языковых возможностей. Несмотря на растущий интерес к этому направлению, пространство проектирования изначально мультимодальных моделей остается неясным. Мы предоставляем эмпирическую ясность посредством контролируемых экспериментов по предварительному обучению с нуля, изолируя факторы, управляющие мультимодальным предварительным обучением, без влияния языкового предобучения. Мы используем фреймворк Transfusion, применяя предсказание следующего токена для языка и диффузию для зрения, для обучения на разнообразных данных, включающих текст, видео, пары "изображение-текст" и даже видео с условиями действий. Наши эксперименты выявляют четыре ключевых вывода: (i) Автокодировщик представлений (RAE) обеспечивает оптимальное унифицированное визуальное представление, превосходя как в понимании, так и в генерации изображений; (ii) визуальные и языковые данные дополняют друг друга и создают синергию для формирования последующих способностей; (iii) унифицированное мультимодальное предварительное обучение естественным образом приводит к моделированию мира, при котором способности возникают из общего обучения; и (iv) смесь экспертов (MoE) позволяет эффективно и результативно масштабировать мультимодальные модели, естественным образом вызывая специализацию по модальностям. С помощью анализа IsoFLOP мы вычисляем законы масштабирования для обеих модальностей и обнаруживаем асимметрию масштабирования: зрение требует значительно больше данных, чем язык. Мы демонстрируем, что архитектура MoE гармонизирует эту асимметрию масштабирования, предоставляя высокую емкость модели, требуемую языком, и одновременно удовлетворяя требовательность зрения к данным, прокладывая путь к созданию truly унифицированных мультимодальных моделей.
Унифицированные мультимодальные модели недавно продемонстрировали мощные генеративные способности, однако вопрос о том, улучшает ли генерация понимание и в каких случаях, остается неясным. Существующие бенчмарки не предусматривают систематического исследования конкретных задач, в которых генерация способствует пониманию. Для решения этой проблемы мы представляем UniG2U-Bench — комплексный бенчмарк, который категоризирует оценку «от генерации к пониманию» (G2U) по 7 режимам и 30 подзадачам, требующим различной степени неявных или явных визуальных преобразований. Масштабная оценка более 30 моделей выявила три ключевых результата: 1) Унифицированные модели в целом уступают своим базовым визуально-языковым моделям (VLM), а стратегия «сгенерировать, затем ответить» (GtA) обычно ухудшает производительность по сравнению с прямым выводом. 2) Устойчивые улучшения наблюдаются в подзадачах на пространственный интеллект, зрительные иллюзии или многошаговые рассуждения, где полезными оказываются усиленное восприятие пространства и формы, а также промежуточные состояния изображения в multi-step процессах. 3) Задачи со схожими структурами рассуждений и модели с общей архитектурой демонстрируют коррелированное поведение, что позволяет предположить, что связь «генерация-понимание» индуцирует класс-согласованные индуктивные смещения для задач, данных предобучения и архитектур моделей. Эти результаты подчеркивают необходимость в более разнообразных данных для обучения и новых парадигмах для полного раскрытия потенциала унифицированного мультимодального моделирования.
Мы представляем Qwen3-Coder-Next — модель с открытыми весами, специализированную для кодирующих агентов. Qwen3-Coder-Next представляет собой 80-миллиардную модель, которая активирует только 3 миллиарда параметров во время вывода, что обеспечивает высокую способность к программированию при эффективном выводе. В данной работе мы исследуем, насколько далеко могут продвинуть пределы возможностей моделей с малым числом параметров мощные рецепты обучения. Для достижения этой цели мы проводим агентное обучение посредством крупномасштабного синтеза верифицируемых задач по программированию в паре с исполняемыми средами, что позволяет обучаться непосредственно на основе обратной связи от среды через обучение в процессе и обучение с подкреплением. По результатам агентно-ориентированных бенчмарков, включая SWE-Bench и Terminal-Bench, Qwen3-Coder-Next демонстрирует конкурентоспособную производительность относительно количества активных параметров. Мы выпускаем обе версии с открытыми весами — базовую и настроенную на инструкции — для поддержки исследований и разработки реальных кодирующих агентов.
Современные бенчмарки для код-агентов в основном оценивают узкие, специфичные для репозитория исправления, упуская из виду ключевые проблемы реального мира, такие как кросс-репозиторный анализ, решение специализированных предметных задач, миграция, управляемая зависимостями, и генерация полных репозиториев. Для устранения этого пробела мы представляем BeyondSWE — комплексный бенчмарк, расширяющий существующие оценки по двум осям: область разрешения и область знаний, используя 500 реальных примеров в четырёх различных сценариях. Результаты экспериментов выявляют значительный разрыв в возможностях: даже передовые модели выходят на плато ниже 45% успеха, и ни одна модель не демонстрирует стабильной производительности across типами задач. Для систематического исследования роли внешних знаний мы разрабатываем SearchSWE — фреймворк, интегрирующий глубокий поиск с кодированием. Наши эксперименты показывают, что расширение возможностей поиском даёт нестабильный прирост и в некоторых случаях может ухудшить производительность, что подчёркивает сложность воспроизведения рабочих процессов, подобных разработческим, где поиск и логические рассуждения чередуются в ходе задач по программированию. Данная работа предлагает как реалистичный, сложный оценочный бенчмарк, так и гибкий фреймворк для продвижения исследований в направлении создания более совершенных код-агентов.
Последние достижения в области генеративных моделей вознаграждения (Generative Reward Models, GRMs) показали, что масштабирование длины рассуждений по цепочке мыслей (Chain-of-Thought, CoT) существенно повышает надежность оценки. Однако современные работы в основном опираются на неструктурированное масштабирование длины, игнорируя различную эффективность разных механизмов рассуждения: CoT по ширине (B-CoT, т.е. охват многомерных принципов) и CoT по глубине (D-CoT, т.е. обоснованность содержательных суждений). Чтобы решить эту проблему, мы представляем Mix-GRM — фреймворк, который преобразует исходные обоснования в структурированные B-CoT и D-CoT с помощью модульного конвейера синтеза, а затем использует контролируемое тонкое настройку (Supervised Fine-Tuning, SFT) и обучение с подкреплением с верифицируемыми вознаграждениями (Reinforcement Learning with Verifiable Rewards, RLVR) для усвоения и оптимизации этих механизмов. Всесторонние эксперименты демонстрируют, что Mix-GRM устанавливает новое состояние искусства на пяти бенчмарках, превосходя ведущие модели с открытым исходным кодом в среднем на 8.2%. Наши результаты выявляют четкое различие в рассуждениях: B-CoT полезен для задач субъективных предпочтений, тогда как D-CoT превосходит в задачах объективной правильности. Следовательно, несоответствие механизма рассуждения задаче напрямую снижает производительность. Кроме того, мы показываем, что RLVR действует как переключающий усилитель, вызывая emergent-поляризацию, при которой модель спонтанно распределяет свой стиль рассуждения в соответствии с требованиями задачи. Синтезированные данные и модели опубликованы по адресу https://huggingface.co/collections/DonJoey/mix-grm, а код доступен по адресу https://github.com/Don-Joey/Mix-GRM.
Анимация персонажей ставит целью создание реалистичных видеороликов путем переноса динамики движений из исходного видео на эталонное изображение. Последние достижения в области генеративных моделей открыли путь к созданию высококачественной анимации персонажей. В данной работе мы представляем Kling-MotionControl — унифицированную систему на основе архитектуры DiT, специально разработанную для надежной, точной и выразительной целостной анимации персонажей. Используя стратегию «разделяй и властвуй» в рамках единой системы, модель управляет гетерогенными представлениями движений, адаптированными к особенностям тела, лица и рук, эффективно совмещая крупномасштабную структурную стабильность с мелкозернистой артикуляционной выразительностью. Для обеспечения надежной межобъектной обобщающей способности мы применяем адаптивное обучение, не зависящее от идентичности, что способствует естественному переназначению движений для различных персонажей — от реалистичных людей до стилизованных мультфильмов. Одновременно мы гарантируем точное сохранение внешнего вида за счет тщательно продуманных механизмов инъекции и слияния идентичности, дополнительно поддерживаемых механизмом библиотеки субъектов, использующим расширенные референсные контексты. Для обеспечения практической полезности мы реализуем усовершенствованную систему ускорения с использованием многоступенчатой дистилляции, повышающую скорость вывода более чем в 10 раз. Kling-MotionControl выделяется за счет интеллектуального семантического понимания движений и точной реакции на текстовые запросы, обеспечивая гибкое управление, выходящее за рамки визуальных входных данных. Оценки по методу человеческих предпочтений демонстрируют, что Kling-MotionControl превосходит ведущие коммерческие и открытые решения, достигая исключительной точности в целостном управлении движением, обобщении на открытые домены, а также в визуальном качестве и согласованности. Эти результаты утверждают Kling-MotionControl в качестве надежного решения для создания высококачественной, управляемой и реалистичной анимации персонажей.
Крупные языковые модели (LLM) все чаще применяются в социально значимых областях, однако их непредсказуемое поведение — от несоответствия намерениям до несогласованной личности — создает серьезные риски. Мы представляем SteerEval, иерархический бенчмарк для оценки управляемости LLM в трех областях: языковые особенности, тональность и личность. Каждая область структурирована на три уровня спецификации: L1 (что выражать), L2 (как выражать) и L3 (как реализовывать), что связывает поведенческие намерения высокого уровня с конкретным текстовым выводом. Используя SteerEval, мы систематически оцениваем современные методы управления, выявляя, что контроль часто ухудшается на более детальных уровнях. Наш бенчмарк предлагает принципиальный и интерпретируемый фреймворк для обеспечения безопасного и управляемого поведения LLM, служа основой для будущих исследований.
Редактирование видео на основе инструкций демонстрирует быстрый прогресс, однако современные методы часто сталкиваются с трудностями в обеспечении точного визуального контроля, поскольку естественный язык по своей природе ограничен в описании сложных визуальных нюансов. Хотя редактирование с использованием референсных изображений предлагает надежное решение, его потенциал в настоящее время ограничен нехваткой высококачественных парных данных для обучения. Чтобы устранить этот разрыв, мы представляем масштабируемый конвейер генерации данных, который преобразует существующие пары для редактирования видео в высококачественные обучающие четверки, используя генеративные модели изображений для создания синтезированных референсных каркасов. С помощью этого конвейера мы создали RefVIE — масштабируемый набор данных, предназначенный для задач следования инструкциям и референсам, и разработали RefVIE-Bench для всесторонней оценки. Кроме того, мы предлагаем унифицированную архитектуру редактирования Kiwi-Edit, которая объединяет обучаемые запросы и латентные визуальные признаки для семантического руководства по референсу. Наша модель достигает значительного прогресса в следовании инструкциям и точности воспроизведения референса благодаря прогрессивной многоэтапной учебной программе. Многочисленные эксперименты демонстрируют, что наши данные и архитектура устанавливают новое состояние искусства в контролируемом редактировании видео. Все наборы данных, модели и код доступны по адресу https://github.com/showlab/Kiwi-Edit.
Учет временных зависимостей критически важен для модельного обучения с подкреплением (МОП) в частично наблюдаемых областях с высокой размерностью. Мы представляем NE-Dreamer — декодер-фри агент МОП, который использует временной трансформер для предсказания эмбеддингов энкодера следующего шага из последовательностей латентных состояний, напрямую оптимизируя временное прогностическое выравнивание в пространстве представлений. Этот подход позволяет NE-Dreamer изучать согласованные прогностические представления состояний без потерь реконструкции или вспомогательного супервизирования. На DeepMind Control Suite NE-Dreamer демонстрирует производительность на уровне или выше DreamerV3 и ведущих декодер-фри агентов. На сложном подмножестве задач DMLab, требующих памяти и пространственного мышления, NE-Dreamer показывает существенное преимущество. Эти результаты утверждают предсказание следующих эмбеддингов с помощью временных трансформеров как эффективную и масштабируемую основу для МОП в сложных частично наблюдаемых средах.
Методы DEEPTHINK улучшают рассуждение за счет генерации, уточнения и агрегации популяций кандидатных решений, что обеспечивает высокую производительность при решении сложных математических и научных задач. Однако существующие фреймворки часто не имеют надежных сигналов корректности на этапе вывода, что создает узкое место в улучшении популяции: более глубокое обдумывание усиливает ошибки, подавляет корректные решения, находящиеся в меньшинстве, и приводит к слабой отдаче от дополнительных вычислительных ресурсов. В данной статье мы вводим функциональную декомпозицию систем DEEPTHINK и предлагаем PRISM — алгоритм вывода, управляемый моделью вознаграждения процессов (Process Reward Model, PRM), который использует пошаговую верификацию для управления как уточнением популяции, так и агрегацией решений. На этапе уточнения PRISM рассматривает кандидатные решения как частицы в энергетическом ландшафте, определяемом PRM, и преобразует популяцию с помощью ресемплинга на основе оценок и стохастического уточнения, концентрируя вероятностную массу на рассуждениях более высокого качества при сохранении разнообразия. На математических и научных бенчмарках PRISM демонстрирует конкурентоспособность или превосходит существующие методы DEEPTHINK, достигая 90,0%, 75,4% и 71,4% с моделью gpt-oss-20b на AIME25, HMMT25 и GPQA Diamond соответственно, при этом соответствуя или превосходя результаты gpt-oss-120b. Кроме того, наш анализ показывает, что PRISM обеспечивает последовательную чистую направленную коррекцию на этапе уточнения, остается надежным, когда исходная популяция содержит мало корректных кандидатов, и часто находится на Парето-фронте точности и вычислительных затрат.
По мере того как большие языковые модели (LLМ) приближают свои математические способности к уровню Международной математической олимпиады (ММО), дефицит сложных, качественных задач для обучения и оценки становится серьезным ограничением. В то же время современные код-агенты демонстрируют развитые навыки агентного программирования и рассуждений, что позволяет предположить, что выполнение кода может служить масштабируемой средой для математических экспериментов. В данной статье мы исследуем потенциал код-агентов для автономной эволюции существующих математических задач в более сложные вариации. Мы представляем многоагентную систему, предназначенную для выполнения эволюции задач с одновременной проверкой разрешимости и возросшей сложности генерируемых проблем. Наши эксперименты показывают, что при достаточном исследовании во время тестирования код-агенты способны синтезировать новые, разрешимые задачи, которые структурно отличаются от исходных и являются более сложными. Эта работа предоставляет эмпирические доказательства того, что код-ориентированные агенты могут служить жизнеспособным механизмом для синтеза задач на математические рассуждения высокой сложности в рамках масштабируемых вычислительных сред. Наши данные доступны по адресу https://github.com/TarferSoul/Code2Math.
Человеческое рассуждение часто предполагает работу с ограниченной информацией для получения вероятностных выводов. В своей простейшей форме это включает в себя построение умозаключения, которое не следует строго из посылки, а лишь является вероятным при данной посылке. Хотя рассуждающие большие языковые модели (LLM) продемонстрировали высокую производительность на логических и математических задачах, их поведение в таких открытых, недетерминированных умозаключениях остается в значительной степени неисследованным. Мы представляем ProbCOPA — набор данных из 210 тщательно разработанных вероятностных умозаключений на английском языке, каждое из которых аннотировано с точки зрения вероятности вывода 25–30 участниками-людьми. Мы обнаруживаем, что человеческие ответы являются градуированными и разнообразными, раскрывая вероятностные оценки умозаключений в нашем наборе данных. Сравнивая эти оценки с ответами восьми передовых рассуждающих LLM, мы показываем, что модели последовательно не способны воспроизводить распределения, подобные человеческим. Наконец, анализируя цепочки рассуждений LLM, мы находим свидетельства общего шаблона рассуждений, используемого для оценки таких умозаключений. Наши результаты выявляют устойчивые различия между людьми и LLM и подчеркивают необходимость оценивать рассуждения за пределами детерминированных условий.
Агентные языковые модели функционируют в принципиально ином режиме безопасности по сравнению с чат-моделями: они должны планировать, вызывать инструменты и выполнять долгосрочные действия, где единственная ошибка, такая как доступ к файлам или ввод учетных данных, может привести к необратимому ущербу. Существующие методы согласования, в основном оптимизированные для статической генерации и выполнения задач, не работают в этих условиях из-за последовательного принятия решений, враждебной обратной связи от инструментов и излишне уверенных промежуточных рассуждений. Мы представляем MOSAIC — посттренировочный фреймворк, который согласовывает агентов для безопасного использования инструментов в несколько шагов, делая решения по безопасности явными и обучаемыми. MOSAIC структурирует вывод как цикл «планируй, проверяй, затем действуй или отказывайся», с явными рассуждениями о безопасности и отказом как действиями первого класса. Для обучения без меток на уровне траекторий мы используем обучение с подкреплением на основе предпочтений с попарным сравнением траекторий, что позволяет улавливать различия в безопасности, часто упускаемые скалярными вознаграждениями. Мы оцениваем MOSAIC в режиме zero-shot на трех семействах моделей — Qwen2.5-7B, Qwen3-4B-Thinking и Phi-4 — и на различных бенчмарках, включающих вредоносные задачи, инъекции в промпты, добросовестное использование инструментов и междоменную утечку конфиденциальности. MOSAIC снижает вредоносное поведение до 50%, увеличивает отказ от вредоносных задач более чем на 20% при инъекционных атаках, сокращает утечку конфиденциальности и сохраняет или улучшает производительность на добросовестных задачах, демонстрируя robustную обобщающую способность across моделями, доменами и агентными сценариями.
Оценка трехмерной траектории каждого пикселя из моноскопического видео является ключевой и перспективной задачей для всестороннего понимания 3D-динамики видеопоследовательностей. Современные методы моноскопического 3D-трекинга демонстрируют впечатляющие результаты, но ограничены либо отслеживанием разреженных точек на первом кадре, либо медленными оптимизационными подходами для плотного трекинга. В данной статье мы предлагаем прямую модель под названием Track4World, которая обеспечивает эффективный целостный 3D-трекинг каждого пикселя в мировой системе координат. Построенная на основе глобального 3D-представления сцены, закодированного с помощью ViT в стиле VGGT, модель Track4World применяет новую схему 3D-корреляции для одновременной оценки плотного пиксельного 2D и 3D потока между произвольными парами кадров. Рассчитанный поток сцены вместе с реконструированной 3D-геометрией позволяет осуществлять последующее эффективное отслеживание в 3D-пространстве каждого пикселя видео. Многочисленные эксперименты на различных наборах данных показывают, что наш подход стабильно превосходит существующие методы в оценке 2D/3D потоков и 3D-трекинге, что подтверждает его надежность и масштабируемость для задач 4D-реконструкции в реальных условиях.
Мы переосмысливаем финальный softmax-классификатор большой языковой модели (LLM) как энергетическую модель (EBM), разлагая цепь вероятностей «последовательность-к-последовательности» на несколько взаимодействующих EBM на этапе вывода. Этот принципиальный подход позволяет отслеживать «утечки энергии» во время декодирования, которые, как мы эмпирически показываем, коррелируют с фактическими ошибками, смещениями и сбоями. Подобно Orgad et al. (2025), наш метод локализует точный токен ответа и затем проверяет его на галлюцинации. Однако ключевое отличие в том, что мы достигаем этого без необходимости в обученных пробных классификаторах или абляциях активаций. Вместо этого мы вводим две полностью свободные от обучения метрики, получаемые непосредственно из выходных логитов: *утечка энергии* (spilled energy), которая фиксирует расхождение между значениями энергии на последовательных шагах генерации, которые теоретически должны совпадать, и *маргинализованная энергия* (marginalized energy), измеримая на одном шаге. Протестированная на девяти бенчмарках для передовых LLM (включая LLaMA, Mistral и Gemma) и на синтетических алгебраических операциях (Qwen3), наша методика демонстрирует надежное и конкурентоспособное обнаружение галлюцинаций и кросс-задачную обобщаемость. Примечательно, что эти результаты справедливы как для предобученных моделей, так и для инструктивно-тонко настроенных вариантов, без введения какого-либо дополнительного обучения. Код доступен по адресу: github.com/OmnAI-Lab/spilled-energy
Повышение способностей к логическим рассуждениям у больших языковых моделей (LLMs) с помощью пост-обучения часто ограничено компромиссом между эффективностью и катастрофическим забыванием. В то время как предыдущие исследования подчеркивают роль данных on-policy в смягчении забывания, мы обнаружили — и подтвердили как теоретически, так и эмпирически — упускаемый из виду, но критически важный механизм: неявную регуляризацию, присущую оценке вознаграждения в оптимизации прямых предпочтений (DPO). Это мотивировало создание нашей методики Surgical Post-Training (SPoT) — новой парадигмы, разработанной для эффективной оптимизации логических рассуждений при сохранении ранее усвоенных знаний. SPoT состоит из: (1) конвейера коррекции данных, который использует Оракул для точечного исправления ошибочных шагов с помощью минимальных правок, генерируя данные, близкие к распределению модели; и (2) целевой функции бинарной перекрестной энтропии на основе вознаграждения. В отличие от относительного ранжирования в DPO, этот подход рассматривает корректность рассуждений как задачу бинарной классификации, обеспечивая раздельные сигналы обучения. Экспериментально, всего на 4 тыс. исправленных пар математических данных, SPoT повышает точность модели Qwen3-8B в среднем на 6.2% на внутри- и внеобластных задачах, требуя всего 28 минут обучения на 8 GPU H800. Код: https://github.com/Visual-AI/SPoT
Модели текст-изображение быстро развиваются в плане реалистичности и управляемости, при этом современные подходы используют длинные, детализированные описания для поддержки детализированной генерации. Однако сохраняется фундаментальный параметрический разрыв: существующие модели опираются на описательный язык, тогда как профессиональные рабочие процессы требуют точного численного контроля над местоположением, размером и цветом объекта. В данной работе мы представляем BBQ — крупномасштабную модель текст-изображение, которая напрямую использует числовые ограничивающие рамки и RGB-триплеты в рамках единой структурированной текстовой системы. Мы достигаем точного пространственного и цветового контроля путем обучения на описаниях, обогащенных параметрическими аннотациями, без модификаций архитектуры или оптимизации на этапе вывода. Это также позволяет реализовать интуитивно понятные пользовательские интерфейсы, такие как перетаскивание объектов и выбор цветов, заменяя неоднозначное итеративное prompting точными и привычными элементами управления. По результатам всесторонних оценок, BBQ демонстрирует высокую точность соответствия ограничивающим рамкам и улучшает достоверность RGB-цветов по сравнению с передовыми базовыми методами. В более широком смысле, наши результаты подтверждают новую парадигму, в которой пользовательский замысел преобразуется в промежуточный структурированный язык, обрабатываемый трансформером на основе потоков, выступающим в роли рендерера и естественным образом accommodating числовые параметры.
Запросы реальных пользователей к агентам на основе больших языковых моделей часто недостаточно специфицированы. Агенты должны взаимодействовать, чтобы получить недостающую информацию и принимать корректные последующие решения. Однако современные методы, основанные на многошаговом GRPO, часто опираются на вычисление вознаграждения на уровне траектории, что приводит к проблемам распределения заслуг и недостаточным сигналам преимущества внутри групп rollout. Перспективный подход заключается в идентификации ценных шагов взаимодействия на более детальном уровне для обеспечения более целенаправленного обучения. Для решения этой проблемы мы представляем InfoPO (Информационно-ориентированная оптимизация политики), которая рассматривает многошаговое взаимодействие как процесс активного снижения неопределенности и вычисляет вознаграждение на основе информационного прироста. Это вознаграждение присваивает заслуги тем шагам, обратная связь которых заметно изменяет последующее распределение действий агента по сравнению с контрфактическим сценарием с маскированной обратной связью. Затем этот сигнал комбинируется с результатами задачи посредством адаптивного дисперсионно-управляемого слияния, чтобы определять важность информации, сохраняя при этом ориентацию на целевую задачу. В различных задачах, включая уточнение намерений, совместное программирование и принятие решений с использованием инструментов, InfoPO стабильно превосходит базовые методы prompting и многошагового обучения с подкреплением. Также метод демонстрирует устойчивость к изменениям в симуляторе пользователя и эффективно обобщается на задачи взаимодействия со средой. В целом, InfoPO предоставляет принципиальный и масштабируемый механизм для оптимизации сложного взаимодействия агента и пользователя. Код доступен по адресу https://github.com/kfq20/InfoPO.
Современные модели редактирования видео демонстрируют впечатляющие результаты, однако большинство из них по-прежнему требуют крупномасштабных парных наборов данных. Сбор таких естественно выровненных пар в больших масштабах остается крайне сложной задачей и представляет собой ключевое узкое место, особенно для данных локального редактирования видео. Существующие обходные пути переносят редактирование изображений на видео через глобальный контроль движения для редактирования без пар, но такие подходы страдают от проблем с согласованностью фона и временной целостностью. В данной статье мы предлагаем NOVA: Sparse Control \& Dense Synthesis — новую архитектуру для непарного редактирования видео. В частности, разреженная ветвь обеспечивает семантическое руководство через отредактированные пользователем ключевые кадры, распределенные по всему видео, а плотная ветвь непрерывно интегрирует информацию о движении и текстуре из исходного видео для сохранения высокой точности и связности. Кроме того, мы представляем стратегию обучения с имитацией деградации, которая позволяет модели обучаться реконструкции движения и временной согласованности на искусственно ухудшенных видео, тем самым устраняя необходимость в парных данных. Наши расширенные эксперименты демонстрируют, что NOVA превосходит существующие подходы по точности редактирования, сохранению движения и временной связности.
Модели Vision-Language-Action (VLA) являются перспективным путем к воплощенному интеллекту, однако они часто упускают из виду предсказательную и временно-причинную структуру, лежащую в основе визуальной динамики. VLA с моделями мира решают эту проблему путем предсказания будущих кадров, но тратят ресурсы на реконструкцию избыточного фона. VLA с латентными действиями компактно кодируют переходы между кадрами, но им не хватает временно-непрерывного моделирования динамики и знаний о мире. Чтобы преодолеть эти ограничения, мы представляем CoWVLA (Chain-of-World VLA) — новую парадигму «Цепочки Мира», которая объединяет временные рассуждения модели мира с разъединенным латентным представлением движения. Во-первых, предварительно обученный VAE для видео служит экстрактором латентного движения, явно факторизуя видеофрагменты на латентные переменные структуры и движения. Затем, на этапе предварительного обучения, VLA учится на основе инструкции и начального кадра выводить непрерывную цепочку латентного движения и предсказывать конечный кадр фрагмента. Наконец, в процессе совместного тонкого обучения (co-fine-tuning) эта латентная динамика согласуется с прогнозированием дискретных действий за счет совместного моделирования разреженных ключевых кадров и последовательностей действий в едином авторегрессионном декодере. Такая конструкция сохраняет преимущества временных рассуждений и знаний о мире, присущие моделям мира, одновременно сохраняя компактность и интерпретируемость латентных действий, что обеспечивает эффективное визомоторное обучение. Многочисленные эксперименты на бенчмарках роботизированного моделирования показывают, что CoWVLA превосходит существующие подходы на основе моделей мира и латентных действий и демонстрирует умеренную вычислительную эффективность, подчеркивая его потенциал в качестве более эффективной парадигмы предварительного обучения VLA. Сайт проекта доступен по адресу https://fx-hit.github.io/cowvla-io.
Переход больших языковых моделей (БЯМ) от исследовательских инструментов к активным «кремниевым субъектам» в социальных науках требует более тщательной проверки операционной валидности. В данном исследовании представлена задача прогнозирования обусловленных комментариев (Conditioned Comment Prediction, CCP), в рамках которой модель предсказывает, как пользователь прокомментирует заданный стимул, путем сравнения сгенерированных результатов с аутентичными цифровыми следами. Этот подход позволяет провести строгую оценку текущих возможностей БЯМ в отношении симуляции поведения пользователей социальных сетей. Мы оценили открытые 8B-модели (Llama3.1, Qwen3, Ministral) в сценариях на английском, немецком и люксембургском языках. Систематически сравнивая стратегии prompting (явные и неявные) и влияние контролируемого тонкого настроя (SFT), мы выявили критическое расхождение формы и содержания в условиях ограниченных ресурсов: хотя SFT выравнивает поверхностную структуру текстового вывода (длину и синтаксис), оно ухудшает семантическую обоснованность. Кроме того, мы показываем, что явное обусловливание (сгенерированные биографии) становится избыточным при тонкой настройке, поскольку модели успешно выполняют латентный вывод непосредственно из историй поведения. Наши результаты ставят под сомнение текущие парадигмы «наивного промптинга» и предлагают операционные рекомендации, отдающие приоритет аутентичным поведенческим следам над описательными персонами для высокоточной симуляции.
Объединение обучения визуальных представлений и генерации изображений по тексту (T2I) в рамках единой модели остается ключевой задачей многомодального обучения. Мы представляем DREAM — унифицированную архитектуру, которая совместно оптимизирует дискриминативные и генеративные цели, одновременно обучая качественные визуальные представления. DREAM основана на двух ключевых методах: во время обучения **Masking Warmup**, прогрессивный график маскирования, начинается с минимального маскирования для установления контрастивного выравнивания, необходимого для обучения представлений, а затем постепенно переходит к полному маскированию для стабильного генеративного обучения. На этапе вывода DREAM использует **Semantically Aligned Decoding** для согласования частично замаскированных кандидатов изображений с целевым текстом и выбора наилучшего варианта для дальнейшего декодирования, что повышает соответствие текста и изображения (+6,3%) без внешних реранкеров. Обученная исключительно на CC12M, модель DREAM достигает точности 72,7% при линейном probe-тестировании на ImageNet (+1,1% относительно CLIP) и FID 4,25 (+6,2% относительно FLUID), с устойчивым улучшением в few-shot классификации, семантической сегментации и оценке глубины. Эти результаты демонстрируют, что дискриминативные и генеративные цели могут быть синергетическими, позволяя создавать унифицированные многомодальные модели, превосходящие как в визуальном понимании, так и в генерации.
Автоматизированное научное открытие с помощью больших языковых моделей трансформирует жизненный цикл исследований от генерации идей до проведения экспериментов, однако существующие агенты не способны автономно обрабатывать необработанные данные, собранные в ходе научных экспериментов. Мы представляем SciDER, ориентированную на данные сквозную систему, автоматизирующую жизненный цикл исследований. В отличие от традиционных фреймворков, наши специализированные агенты совместно анализируют и интерпретируют необработанные научные данные, генерируют гипотезы и планы экспериментов, основанные на специфических характеристиках данных, а также пишут и исполняют соответствующий код. Оценка на трех тестовых наборах показывает, что SciDER превосходит в специализированном data-driven научном открытии, обходя агенты общего назначения и передовые модели благодаря саморазвивающейся памяти и циклу обратной связи под управлением критикующего модуля. Распространяемая в виде модульного пакета Python, система также включает удобные пакеты PyPI с облегченным веб-интерфейсом для ускорения автономных data-driven исследований и нацелена на доступность для всех исследователей и разработчиков.
Метод Classifier-Free Guidance (CFG) стал ключевым подходом для улучшения семантического соответствия в потоковых диффузионных моделях. В данной статье мы исследуем унифицированный фреймворк CFG-Ctrl, который переосмысливает CFG как управление, применяемое к генеративному потоку первого порядка в непрерывном времени, используя расхождение между условным и безусловным случаями в качестве сигнала ошибки для коррекции поля скоростей. С этой точки зрения мы обобщаем классический CFG как пропорциональный регулятор (P-регулятор) с фиксированным коэффициентом усиления, а типичные последующие варианты развивают расширенные законы управления, производные от него. Однако существующие методы в основном опираются на линейное управление, что по своей природе приводит к неустойчивости, перерегулированию и снижению семантической точности, особенно при больших коэффициентах guidance. Для решения этой проблемы мы представляем CFG на основе скользящего режима (SMC-CFG), который направляет генеративный поток к быстро сходящемуся скользящему многообразию. В частности, мы определяем экспоненциальную поверхность скользящего режима на основе ошибки семантического прогноза и вводим переключающее управляющее слагаемое для создания нелинейной коррекции с обратной связью. Кроме того, мы проводим анализ устойчивости по Ляпунову для теоретического обоснования сходимости за конечное время. Эксперименты на моделях генерации изображений по тексту, включая Stable Diffusion 3.5, Flux и Qwen-Image, демонстрируют, что SMC-CFG превосходит стандартный CFG по семантическому соответствию и повышает устойчивость в широком диапазоне коэффициентов guidance. Страница проекта: https://hanyang-21.github.io/CFG-Ctrl
По мере того как большие языковые модели (LLM) достигают потолка производительности на базовых бенчмарках, исследовательский фронтир сместился от генерации к надежности автоматической оценки. Мы демонстрируем, что стандартные протоколы «LLM-как-судья» страдают от систематического разрыва согласованности при применении к математическим задачам уровня старших курсов бакалавриата и начала магистратуры. Для количественной оценки этого явления мы представляем QEDBench — первый крупномасштабный бенчмарк двойной критериальной оценки, который систематически измеряет согласованность с экспертами-людьми на университетских математических доказательствах, сопоставляя предметно-специфичные критерии с общими экспертными стандартами. Развернув матрицу двойной оценки (7 судей × 5 решателей) против 1000+ часов человеческого оценивания, мы выявили, что некоторые передовые модели-оценщики, такие как Claude Opus 4.5, DeepSeek-V3, Qwen 2.5 Max и Llama 4 Maverick, демонстрируют значительную положительную систематическую ошибку (завышение среднего балла до +0.18, +0.20, +0.30 и +0.36 соответственно). Кроме того, мы обнаружили критический разрыв в логических рассуждениях в дискретной области: в то время как Gemini 3.0 Pro демонстрирует наилучшую производительность (средний балл по человеческой оценке 0.91), другие модели логического вывода, такие как GPT-5 Pro и Claude Sonnet 4.5, показывают значительное ухудшение результатов в дискретных областях. В частности, их средние баллы по человеческой оценке падают до 0.72 и 0.63 в дискретной математике и до 0.74 и 0.50 в теории графов. Помимо этих исследовательских результатов, мы также публикуем QEDBench в качестве открытого бенчмарка для оценки и улучшения AI-судей. Наш бенчмарк публично доступен по адресу https://github.com/qqliu/Yale-QEDBench.
Многоагентные системы (MAS), управляемые большими языковыми моделями (LLM), координируют специализированных агентов через предопределенные топологии взаимодействия и показали перспективность для решения сложных задач, таких как генерация кода уровня соревнований. Недавние исследования демонстрируют, что тщательно разработанные рабочие процессы и графы коммуникации между агентами могут значительно улучшить производительность генерации кода за счет совместного рассуждения. Однако существующие методы не адаптируют плотность топологии к сложности задачи и не уточняют топологию итеративно в рамках одного экземпляра с использованием обратной связи от выполнения, что приводит к избыточной коммуникации и узким местам в производительности. Для решения этих проблем мы предлагаем AgentConductor: оптимизированную с помощью обучения с подкреплением MAS, ядром которой является агент-оркестратор на основе LLM, что позволяет осуществлять сквозное динамическое формирование топологий взаимодействия, управляемое обратной связью. Для каждого запроса AgentConductor выводит роли агентов и сложность задачи, а затем строит адаптированную к задаче, учитывающую плотность слоистую направленную ациклическую графовую (DAG) топологию, основанную на двух ключевых инновациях. Во-первых, мы разрабатываем новую функцию топологической плотности, которая отражает математические характеристики многоагентных взаимодействий с учетом коммуникации. Во-вторых, мы используем разделение на интервалы сложности, чтобы избежать чрезмерного упрощения для точного измерения верхней границы топологической плотности на каждом уровне сложности и более детального управления. Экспериментально, на трех наборах данных для кода уровня соревнований и двух базовых наборах данных, AgentConductor достигает наилучшей точности, превосходя самый сильный базовый метод до 14.6% по метрике pass@1, на 13% по снижению плотности и на 68% по сокращению токенных затрат.
Крупные языковые модели демонстрируют сложные возможности, однако понимание их внутренних механизмов остаётся ключевой проблемой. Фундаментальное препятствие заключается в том, что обучение отбирает поведение, а не схему связей, поэтому множество конфигураций весов могут реализовывать одну и ту же функцию. Какие внутренние структуры отражают вычисления, а какие являются артефактами конкретного запуска обучения? В данной работе извлекаются алгоритмические ядра: компактные подпространства, необходимые и достаточные для выполнения задачи. Независимо обученные трансформеры изучают разные веса, но сходятся к одним и тем же ядрам. Трансформеры с марковскими цепями внедряют трёхмерные ядра в почти ортогональные подпространства, но восстанавливают идентичные спектры переходов. Трансформеры для модульного сложения обнаруживают компактные циклические операторы на этапе "озарения" (grokking), которые впоследствии расширяются, что позволяет построить прогностическую модель перехода от запоминания к обобщению. Языковые модели GPT-2 управляют согласованием подлежащего и сказуемого через единственную ось, при инверсии которой грамматическое число инвертируется во всей генерируемой последовательности на всех масштабах. Эти результаты выявляют низкоразмерные инварианты, сохраняющиеся across различных запусков обучения и масштабов, что позволяет предположить, что вычисления трансформеров организованы вокруг компактных, общих алгоритмических структур. Механистическая интерпретируемость может выиграть от фокусировки на таких инвариантах — вычислительной сущности — а не на деталях конкретной реализации.
Переход от последовательных к параллельным вычислениям критически важен для современных высокопроизводительных приложений, однако затруднен из-за сложности освоения параллельного программирования. Эта проблема усугубляется для нерегулярных структур данных (таких как разреженные графы, несбалансированные деревья и неоднородные сетки), где статическое планирование неэффективно, а зависимости по данным непредсказуемы. Современные большие языковые модели (LLM) часто демонстрируют катастрофические сбои на таких задачах, генерируя код, подверженный скрытым состояниям гонки, взаимным блокировкам и неоптимальному масштабированию. Мы преодолеваем этот разрыв с помощью ParEVO — фреймворка, предназначенного для синтеза высокопроизводительных параллельных алгоритмов для нерегулярных данных. Наш вклад включает: (1) Корпус Parlay-Instruct, содержащий 13 820 задач, синтезированных по конвейеру «Критик-Уточнение», который явно отбирает эмпирически производительные алгоритмы, эффективно использующие параллельные примитивы Work-Span; (2) специализированные модели DeepSeek, Qwen и Gemini, дообученные для согласования вероятностной генерации со строгой семантикой библиотеки ParlayLib; и (3) Эволюционного агента кодирования (ECA), который улучшает «последнюю милю» корректности путем итеративного исправления кода с использованием обратной связи от компиляторов, динамических детекторов гонки и профилировщиков производительности. На бенчмарке ParEval фреймворк ParEVO демонстрирует среднее ускорение в 106 раз (с максимумом в 1103 раза) для всего набора тестов и устойчивое ускорение в 13,6 раз специально на сложных задачах с нерегулярными графами, превосходя современные коммерческие модели. Более того, наш эволюционный подход соответствует уровню лучших экспертных разработок, достигая до 4,1-кратного ускорения на отдельных сильно нерегулярных ядрах. Исходный код и наборы данных доступны по адресу https://github.com/WildAlg/ParEVO.
Подход RLVR (обучение с подкреплением с верифицируемыми вознаграждениями) показал значительный успех в улучшении авторегрессионных моделей, особенно в областях, требующих высокой точности, таких как математические рассуждения и генерация кода. Однако прямое применение таких парадигм к диффузионным большим языковым моделям (dLLM) принципиально ограничено вычислительной неразрешимостью точного вычисления правдоподобия, что вынуждает существующие методы полагаться на приближения с высокой дисперсией. Для преодоления этого разрыва мы предлагаем LFPO (бесправдоподобную оптимизацию политики) — нативную архитектуру, которая проецирует концепцию согласования векторных полей на дискретное пространство токенов. В частности, LFPO формулирует согласование как геометрическую коррекцию скорости, напрямую оптимизируя логиты денойзинга с помощью контрастных обновлений. Данная конструкция эффективно обходит ошибки, присущие аппроксимации правдоподобия, обеспечивая точную оценку градиента. Кроме того, LFPO обеспечивает согласованность, прогнозируя конечные решения из промежуточных шагов, эффективно выпрямляя поток вероятностей для генерации высококачественных результатов при значительно меньшем числе итераций. Многочисленные эксперименты демонстрируют, что LFPO не только превосходит современные базовые методы на тестах по коду и логическим рассуждениям, но и ускоряет вывод примерно на 20% за счёт сокращения шагов диффузии.
Архитектуры типа «смесь экспертов» (MoE) стали мощной парадигмой для масштабирования нейронных сетей при сохранении вычислительной эффективности. Однако стандартные реализации MoE опираются на два жестких проектных допущения: (1) фиксированную маршрутизацию Top-K, при которой на каждый токен активируется ровно K экспертов, и (2) равномерное распределение экспертов по всем слоям. В данной статье представлена DynaMoE — новая MoE-архитектура, которая смягчает оба ограничения за счет динамической активации экспертов на уровне токенов и адаптивного распределения ресурсов экспертов по слоям. DynaMoE вводит принципиальный механизм маршрутизации, в котором количество активных экспертов на токен варьируется в зависимости от сложности входных данных. Одновременно с этим фреймворк реализует шесть различных стратегий планирования для распределения емкости экспертов по глубине сети, включая нисходящий, восходящий, пирамидальный и волнообразный паттерны. Мы проводим теоретический анализ выигрыша в выразительной силе от динамической маршрутизации и выводим границы вычислительной эффективности. В ходе обширных экспериментов на наборах данных MNIST, Fashion-MNIST, CIFAR-10 (классификация изображений) и Recycling-the-Web (языковое моделирование) для моделей различного масштаба мы демонстрируем, что DynaMoE достигает превосходной параметрической эффективности по сравнению со статическими базовыми методами. Наш ключевой вывод заключается в том, что оптимальные стратегии распределения экспертов зависят от задачи и масштаба модели: нисходящие стратегии (концентрация ресурсов в начальных слоях) превосходят равномерное распределение в задачах классификации изображений. Для языкового моделирования оптимальные стратегии варьируются в зависимости от размера модели: нисходящая для Tiny, восходящая для Small и равномерная для Medium. Кроме того, динамическая маршрутизация снижает дисперсию градиента в процессе обучения, что приводит к повышению стабильности сходимости. DynaMoE устанавливает новую основу для адаптивных вычислений в нейронных сетях, предлагая принципиальные рекомендации для проектирования MoE-архитектур.
Научные открытия должны быть четко донесены, чтобы реализовать свой полный потенциал. Без эффективной коммуникации даже самые передовые достижения рискуют быть недооцененными или неправильно понятыми. Основным способом, с помощью которого ученые сообщают о своей работе и получают обратную связь от сообщества, является рецензирование. Однако текущая система часто обеспечивает противоречивые отзывы между рецензентами, что в конечном итоге препятствует улучшению рукописи и ограничивает ее потенциальное влияние. В данной статье мы представляем новый метод APRES, основанный на больших языковых моделях (LLM), для обновления текста научной статьи на основе оценочной рубрики. Наш автоматизированный метод обнаруживает рубрику, которая с высокой точностью предсказывает будущее количество цитирований, и интегрирует ее с APRES в автоматизированную систему, которая пересматривает статьи для повышения их качества и влияния. Ключевым моментом является то, что эта цель должна достигаться без изменения основного научного содержания. Мы демонстрируем успех APRES, который улучшает прогнозирование будущих цитирований на 19,6% по средней абсолютной ошибке по сравнению с лучшим базовым методом, и показываем, что в процессе нашего рецензирования статьи, доработанные системой, в 79% случаев предпочитаются экспертами-людьми по сравнению с оригиналами. Наши результаты предоставляют убедительное эмпирическое обоснование использования LLM в качестве инструмента, помогающего авторам провести стресс-тестирование своих рукописей перед подачей. В конечном счете, наша работа направлена на усиление, а не замену, ключевой роли экспертов-рецензентов, поскольку именно люди должны определять, какие открытия действительно важны, направляя науку к расширению знаний и улучшению жизни.
Машинное «разучивание» (machine unlearning), позволяющее модели забывать определенные данные, играет ключевую роль в обеспечении конфиденциальности данных и надежности моделей. Однако его эффективность может быть серьезно подорвана в реальных сценариях, когда модели усваивают непреднамеренные смещения из-за ложных корреляций в данных. В данной статье исследуются уникальные проблемы, связанные с «разучиванием» таких смещенных моделей. Мы выявляем новое явление, названное нами «разучиванием по кратчайшему пути» (shortcut unlearning), при котором модели демонстрируют тенденцию «легко научиться, но трудно забыть». В частности, модели с трудом забывают легко усваиваемые примеры, согласованные со смещением; вместо того чтобы забывать атрибут класса, они «разучивают» атрибут смещения, что парадоксальным образом может повысить точность на классе, который предполагалось забыть. Для решения этой проблемы мы предлагаем CUPID — новую структуру для «разучивания», основанную на наблюдении, что примеры с разными смещениями демонстрируют различную остроту ландшафта потерь. Наш метод сначала разделяет набор на забывание на причинно-обусловленное и приближенно-смещенное подмножества на основе остроты примеров, затем разделяет параметры модели на причинный и смещенный пути и, наконец, выполняет целевое обновление, направляя уточненные причинные и смещенные градиенты по соответствующим путям. Многочисленные эксперименты на смещенных наборах данных, включая Waterbirds, BAR и Biased NICO++, демонстрируют, что наш метод достигает передовых показателей забывания и эффективно смягчает проблему «разучивания по кратчайшему пути».
Пространственно-вариативная динамическая свертка предлагает принципиальный подход к интеграции пространственной адаптивности в глубокие нейронные сети. Однако в основных подходах, применяемых в медицинской сегментации, динамические ядра обычно генерируются с помощью усредняющего пулинга, что неявно приводит к схлопыванию высокочастотных пространственных деталей в грубое, пространственно-сжатое представление. Это, в свою очередь, ведет к излишне сглаженным прогнозам, снижающим точность воспроизведения мелкозернистых клинических структур. Для преодоления этого ограничения мы предлагаем новый механизм Структурно-направленной динамической свертки (Structure-Guided Dynamic Convolution, SGDC), который использует явно обученную ветвь выделения структур для управления генерацией динамических ядер и сигналов затвора с целью модуляции признаков с учетом структуры. В частности, высокоточная информация о границах из этой вспомогательной ветви объединяется с семантическими признаками для обеспечения пространственно-точного преобразования признаков. Заменяя агрегацию контекста на поточечное структурное руководство, предложенная архитектура эффективно предотвращает потерю информации, вызванную усредняющим пулингом. Результаты экспериментов показывают, что SGDC достигает наилучших результатов на наборах данных ISIC 2016, PH2, ISIC 2018 и CoNIC, обеспечивая превосходную точность границ за счет снижения расстояния Хаусдорфа (HD95) на 2.05 и демонстрируя стабильное улучшение показателя IoU на 0.99%–1.49% по сравнению с базовыми методами на основе пулинга. Более того, механизм демонстрирует значительный потенциал для распространения на другие мелкозернистые, структурно-чувствительные задачи компьютерного зрения, такие как обнаружение малых объектов, предлагая принципиальное решение для сохранения структурной целостности в анализе медицинских изображений. Для обеспечения воспроизводимости и стимулирования дальнейших исследований код реализации наших модулей SGE и SGDC находится в открытом доступе по адресу https://github.com/solstice0621/SGDC.
Несмотря на впечатляющие возможности, современные модели преобразования текста в изображение (T2I) по-прежнему склонны генерировать небезопасный и токсичный контент. Хотя управление активацией (activation steering) представляет собой перспективный метод вмешательства на этапе вывода, мы наблюдаем, что линейное управление активацией часто ухудшает качество изображения при обработке безобидных промптов. Для решения этой проблемы мы сначала создали SafeSteerDataset — контрастный набор данных, содержащий 2300 пар безопасных и небезопасных промптов с высокой косинусной схожестью. Используя эти данные, мы предлагаем Conditioned Activation Transport (CAT) — фреймворк, который использует механизм conditioning на основе геометрических принципов и нелинейные карты транспорта (transport maps). Благодаря conditioning карт транспорта на активацию только в областях небезопасных активаций мы минимизируем вмешательство в обработку безвредных запросов. Мы проверяем наш подход на двух передовых архитектурах: Z-Image и Infinity. Эксперименты показывают, что CAT эффективно обобщается на эти базовые модели, значительно снижая коэффициент успешности атаки (Attack Success Rate) при сохранении fidelity изображения по сравнению с неуправляемыми генерациями. Внимание: данная статья содержит потенциально оскорбительные тексты и изображения.
Последние достижения в области больших языковых моделей (LLM) позволили создать более совершенные чат-боты. Однако большинство существующих систем ориентированы на однопользовательские сценарии и плохо обобщаются на групповые чаты с несколькими пользователями, где агентам требуются более проактивные и точные вмешательства в условиях сложного, развивающегося контекста. Существующие подходы обычно полагаются на LLM как для рассуждений, так и для генерации, что приводит к высокому потреблению токенов, ограниченной масштабируемости и потенциальным рискам конфиденциальности. Для решения этих проблем мы предлагаем GroupGPT — эффективный по использованию токенов и обеспечивающий конфиденциальность агентский фреймворк для многопользовательского чат-ассистента. GroupGPT использует архитектуру совместной работы малых и больших моделей, чтобы разделить определение момента вмешательства и генерацию ответа, обеспечивая эффективное и точное принятие решений. Фреймворк также поддерживает многомодальные входные данные, включая мемы, изображения, видео и голосовые сообщения. Мы также представляем MUIR — эталонный набор данных для оценки рассуждений о вмешательстве в многопользовательских чат-ассистентах. MUIR содержит 2500 размеченных сегментов групповых чатов с метками вмешательства и обоснованиями, поддерживая оценку точности времени и качества ответов. Мы оценили ряд моделей на MUIR, от больших языковых моделей до их меньших аналогов. Многочисленные эксперименты демонстрируют, что GroupGPT выдает точные и своевременные ответы, достигая среднего балла 4.72/5.0 в оценке на основе LLM, и хорошо воспринимается пользователями в различных сценариях групповых чатов. Более того, GroupGPT сокращает использование токенов до 3 раз по сравнению с базовыми методами, обеспечивая при этом очистку конфиденциальной информации пользовательских сообщений перед передачей в облако. Код доступен по адресу: https://github.com/Eliot-Shen/GroupGPT.
Мы представляем Whisper-RIR-Mega — эталонный набор данных парных записей чистой и реверберирующей речи для оценки устойчивости автоматического распознавания речи (АРР) к акустике помещений. Каждый образец сопоставляет чистый фрагмент речи из LibriSpeech с тем же фрагментом, свернутым с реальной импульсной характеристикой помещения из корпуса RIR-Mega, с стратифицированными разбиениями по времени реверберации (RT60) и отношению прямого звука к реверберирующему (DRR). Мы оцениваем пять моделей Whisper (от tiny до large-v3) на 1600 тестовых образцах и сообщаем коэффициент ошибок по словам (WER) и символам (CER) в чистых и реверберирующих условиях. Реверберация последовательно ухудшает производительность для всех размеров моделей; "штраф" за реверберацию в WER составляет от 0,12 до 1,07 процентных пункта в зависимости от модели. Мы публикуем набор данных, код для оценки и базовые результаты для поддержки воспроизводимых исследований в области устойчивой АРР.
Скрытая и косвенная ненавистническая риторика остается малоизученной проблемой в исследованиях безопасности в интернете, особенно когда вредоносный умысел встроен в вводящие в заблуждение или манипулятивные нарративы. Существующие наборы данных по ненавистническим высказываниям в основном фиксируют явную токсичность, недостаточно отражая тонкие способы, которыми дезинформация может разжигать или нормализовывать ненависть. Чтобы восполнить этот пробел, мы представляем HateMirage — новый набор данных, содержащий «ложные» комментарии с элементами ненависти (Faux Hate), предназначенный для развития исследований в области анализа и объяснимости ненависти, возникающей из фальшивых или искаженных нарративов. Набор данных был создан путем выявления широко опровергнутых утверждений из источников проверки фактов и отслеживания связанных обсуждений на YouTube, в результате чего было собрано 4530 пользовательских комментариев. Каждый комментарий аннотирован по трем интерпретируемым измерениям: Объект (на кого направлено воздействие), Умысел (скрытая мотивация или цель комментария) и Последствие (его потенциальное социальное воздействие). В отличие от предыдущих наборов данных для объяснимости, таких как HateXplain и HARE, которые предлагают токен-уровневую или одномерную интерпретацию, HateMirage представляет многомерную систему объяснений, фиксирующую взаимосвязь между дезинформацией, вредом и социальными последствиями. Мы провели тестирование нескольких моделей с открытым исходным кодом на наборе HateMirage, используя метрики ROUGE-L F1 и косинусное сходство Sentence-BERT для оценки связности объяснений. Результаты позволяют предположить, что качество объяснений может в большей степени зависеть от разнообразия предобучения и данных, ориентированных на логический вывод, чем только от масштаба модели. Сочетая анализ дезинформации с атрибуцией вреда, HateMirage устанавливает новый стандарт для интерпретируемого обнаружения ненависти и исследований в области ответственного ИИ.
Адаптация политики во время тестирования для многошаговых взаимодействий (T2PAM) крайне важна для согласования больших языковых моделей (LLM) с динамическими потребностями пользователей на этапе вывода. Однако существующие парадигмы обычно рассматривают адаптацию во время тестирования как одномерную проблему, либо чисто уточняя инструкции (инженерия промптов), либо только корректируя веса (обучение во время тестирования), игнорируя тот факт, что сбои взаимодействия проистекают из связанной смеси неоднозначности и неспособности. Мы утверждаем, что эти два пути оптимизации не просто аддитивны, а синергетичны: семантическая ясность выступает в роли предобуславливателя для эффективного обновления параметров. Для решения этой задачи мы предлагаем ROSA2 — фреймворк, который переформулирует взаимодействие как задачу совместной оптимизации в гетерогенном пространстве Слов и Весов. Математически разлагая сигнал ошибки, ROSA2 использует текстовые градиенты для исправления неоднозначности намерений и обновления параметров для преодоления пробелов в возможностях. Теоретически мы доказываем, что такая совместная адаптация строго сокращает необходимый сдвиг параметров для сходимости. Экспериментально ROSA2 превосходит современные базовые методы на 30% на наборе данных MATH, одновременно сокращая количество шагов взаимодействия на 40%, что демонстрирует, что уточнение контекста раскрывает истинный потенциал обновления параметров.
Крупные языковые модели для видео (VLLMs) демонстрируют высокое понимание видеоконтента, но страдают от неэффективности из-за избыточных визуальных токенов. Существующие методы прореживания в основном нацелены на внутрикадровую пространственную избыточность или осуществляют прореживание внутри языковой модели с накладными расходами на мелкие слои, что приводит к субоптимальному пространственно-временному сокращению и недостаточному использованию сжимаемости длинного контекста. При этом они часто отбрасывают тонкий, но информативный контекст из объединенных или удаленных токенов. В данной статье мы предлагаем новый подход, который детализирует якорные токены внутри кадра и между кадрами для комплексной агрегации информативных контекстов с помощью локально-глобального оптимального транспорта (AOT). Конкретно, мы сначала устанавливаем локально- и глобально-ориентированные якорные токены в каждом кадре под руководством механизма внимания, которые затем с помощью оптимального транспорта агрегируют информативные контексты из удаляемых токенов, формируя внутрикадровые якорные токены. Затем, на основе временных видеоклипов, первый кадр в каждом клипе рассматривается как якорный ключевой кадр для объединения схожей информации из последовательных кадров посредством оптимального транспорта, при этом сохраняются уникальные токены для отображения временной динамики, что приводит к эффективному сокращению токенов без обучения. Многочисленные оценки показывают, что предложенный метод AOT демонстрирует конкурентоспособные результаты на различных наборах данных для коротких и длинных видео в ведущих видео-ориентированных языковых моделях, обеспечивая существенную вычислительную эффективность при сохранении временной и визуальной точности. Страница проекта: https://tyroneli.github.io/AOT{AOT}.
Представлен фреймворк с открытым исходным кодом на C++ для поиска быстрых алгоритмов умножения матриц с использованием подхода на основе графа переворотов. Фреймворк поддерживает несколько колец коэффициентов — бинарное (Z₂), модульное троичное (Z₃) и целочисленное троичное (Z_T = {-1,0,1}) — и реализует операторы поиска как для фиксированной размерности, так и для мета-размерности. Благодаря эффективному битовому кодированию векторов коэффициентов и параллелизму на основе OpenMP, инструменты позволяют проводить масштабные исследования на стандартном оборудовании. В исследовании рассмотрено 680 алгоритмов размером от (2×2×2) до (16×16×16), из которых 276 алгоритмов используют коэффициенты Z_T, а 117 — целочисленные коэффициенты. С помощью данного фреймворка удалось улучшить мультипликативную сложность (ранг) для 79 алгоритмов умножения матриц. В частности, обнаружен новый алгоритм 4×4×10, требующий всего 115 умножений, который достигает ω ≈ 2,80478 и превосходит показатель Строссена для данного размера. Кроме того, заново открыты 93 алгоритма в троичных коэффициентах, которые ранее были известны только для рациональных или целых чисел, и 68 алгоритмов в целочисленных коэффициентах, которые ранее требовали дробей. Все инструменты и обнаруженные алгоритмы находятся в открытом доступе для обеспечения воспроизводимости исследований.
Многодоменное предварительное обучение на графах интегрирует знания из различных областей для повышения производительности в целевых доменах, что крайне важно для построения фундаментальных моделей для графов. Несмотря на первоначальные успехи, существующие решения часто не способны дать ответ на фундаментальный вопрос: как именно интегрируются или переносятся знания между доменами? Это теоретическое ограничение побуждает нас переосмыслить согласованность и переносимость между предварительным обучением модели и адаптацией к домену. В данной статье мы предлагаем новый взгляд с позиций римановой геометрии, ключевая идея которого заключается в объединении любого набора графовых данных в единое гладкое риманово многообразие, что позволяет систематически понять интеграцию и перенос знаний. Для достижения этой цели нашим ключевым вкладом является теоретическое обоснование склейки нейронных многообразий, которое сначала характеризует локальную геометрию с помощью адаптивного ортогонального репера, а затем «склеивает» локальные части в единое целое. Основываясь на этой теории, мы представляем фреймворк GraphGlue, который поддерживает пакетное предварительное обучение с прототипированием на основе экспоненциального скользящего среднего (EMA) и предоставляет меру переносимости, основанную на геометрической согласованности. Многочисленные эксперименты демонстрируют его превосходную производительность в разнообразных графовых доменах. Более того, мы эмпирически подтвердили закон геометрического масштабирования GraphGlue, показав, что увеличение объема данных улучшает переносимость модели за счет создания более гладкого многообразия. Код доступен по адресу https://github.com/RiemannGraph/GraphGlue.
Трассировка лучей стала стандартом для точного моделирования распространения радиоволн, однако страдает от экспоненциальной вычислительной сложности, поскольку количество потенциальных путей растет пропорционально числу объектов в степени порядка взаимодействия. Это узкое место ограничивает её применение в крупномасштабных или реального времени приложениях, вынуждая традиционные инструменты полагаться на эвристики для сокращения числа кандидатных путей ценой потенциального снижения точности. Чтобы преодолеть это ограничение, мы предлагаем комплексную систему с использованием машинного обучения, которая заменяет полный перебор путей на интеллектуальную выборку с помощью генеративных потоковых сетей. Применение таких генеративных моделей в данной области сопряжено со значительными трудностями, в частности с разреженностью вознаграждения из-за редкости допустимых путей, что может приводить к сбоям сходимости и тривиальным решениям при оценке взаимодействий высокого порядка в сложных средах. Для обеспечения устойчивого обучения и эффективного исследования наша система включает три ключевых архитектурных компонента. Во-первых, мы реализуем буфер воспроизведения опыта для фиксации и сохранения редких допустимых путей. Во-вторых, мы применяем равномерную стратегию исследования для улучшения обобщения и предотвращения переобучения модели на простых геометриях. В-третьих, мы используем стратегию маскирования действий на основе физики, которая отфильтровывает физически невозможные пути до их рассмотрения моделью. Как показала наша экспериментальная проверка, предложенная модель обеспечивает значительное ускорение по сравнению с полным перебором — до 10 раз на GPU и до 1000 раз на CPU — при сохранении высокой точности покрытия и успешном выявлении сложных путей распространения. Полный исходный код, тесты и руководство доступны по адресу https://github.com/jeertmans/sampling-paths.