Ежедневно отобранные исследовательские статьи по ИИ с переводами
Существующие методы оценки глубины принципиально ограничены предсказанием глубины на дискретных сетках изображений. Такие представления ограничивают их масштабируемость до произвольных выходных разрешений и препятствуют восстановлению геометрических деталей. В данной статье представлен метод InfiniDepth, который представляет глубину в виде нейронных неявных полей. Благодаря простому, но эффективному локальному неявному декодеру мы можем запрашивать глубину в непрерывных 2D-координатах, что позволяет осуществлять оценку глубины с произвольным разрешением и высокой детализацией. Чтобы лучше оценить возможности нашего метода, мы создали качественный синтетический 4K-бенчмарк на основе пяти различных игр, охватывающих разнообразные сцены с богатыми геометрическими и текстурными деталями. Многочисленные эксперименты демонстрируют, что InfiniDepth достигает передовых результатов на синтетических и реальных бенчмарках в задачах относительной и метрической оценки глубины, особенно преуспевая в областях с мелкими деталями. Метод также способствует решению задачи синтеза новых видов при значительных смещениях точки обзора, обеспечивая высококачественные результаты с меньшим количеством разрывов и артефактов.
Система распознавания речи с атрибуцией говорящих и временными метками (SATS) предназначена для расшифровки речи с точным определением временных интервалов каждого говорящего, что особенно ценно при транскрибировании совещаний. Существующие SATS-системы редко используют сквозной подход и дополнительно ограничены коротким контекстным окном, слабой долговременной памятью о говорящих и неспособностью выводить временные метки. Для устранения этих ограничений мы представляем MOSS Transcribe Diarize — унифицированную мультимодальную большую языковую модель, которая совместно выполняет распознавание речи с атрибуцией говорящих и временными метками в сквозном режиме. Обученная на обширных реальных данных и оснащённая контекстным окном в 128 тыс. токенов для обработки входных данных длительностью до 90 минут, модель MOSS Transcribe Diarize хорошо масштабируется и демонстрирует высокую обобщающую способность. По результатам всесторонних оценок она превосходит передовые коммерческие системы на нескольких публичных и внутренних тестовых наборах.
Современные диффузионные модели для генерации видео по тексту способны создавать убедительные видеопоследовательности, однако они остаются беззвучными — лишаясь семантических, эмоциональных и атмосферных сигналов, которые обеспечивает звук. Мы представляем LTX-2, модель открытого типа, способную единообразно генерировать высококачественный аудиовизуальный контент с временной синхронизацией. LTX-2 состоит из асимметричного двухпотокового трансформера с видеопотоком на 14 млрд параметров и аудиопотоком на 5 млрд параметров, соединённых посредством двунаправленных кросс-вниманий между аудио и видео со временными позиционными эмбеддингами и кросс-модальным AdaLN для совместного кондиционирования по временным шагам. Такая архитектура позволяет эффективно обучать и использовать единую аудиовизуальную модель, выделяя больше ресурсов на генерацию видео, чем на генерацию аудио. Мы используем многоязычный текстовый энкодер для лучшего понимания запросов и вводим механизм модально-зависимого классификатор-фри гайдинга (modality-CFG) для улучшения согласованности аудио и видео и повышения управляемости. Помимо генерации речи, LTX-2 создаёт богатые, связные звуковые дорожки, которые отражают персонажей, окружение, стиль и эмоции каждой сцены — включая естественные фоновые и фоули-элементы. По результатам наших оценок модель демонстрирует передовое качество аудиовизуального контента и соответствие запросам среди открытых систем, обеспечивая результаты, сопоставимые с проприетарными моделями, при существенно меньших вычислительных затратах и времени генерации. Все веса модели и код публично доступны.
Мы представляем SciEvalKit — унифицированный инструментарий для бенчмаркинга, предназначенный для оценки научных моделей ИИ в широком спектре дисциплин и типов задач. В отличие от платформ общего назначения, SciEvalKit фокусируется на ключевых компетенциях научного интеллекта, включая научное мультимодальное восприятие, научное мультимодальное рассуждение, научное мультимодальное понимание, научное символьное рассуждение, генерацию научного кода, генерацию научных гипотез и понимание научных знаний. Он поддерживает шесть основных научных областей — от физики и химии до астрономии и материаловедения. SciEvalKit создает основу из экспертных научных бенчмарков, курируемых из реальных предметно-ориентированных наборов данных, что гарантирует соответствие задач подлинным научным вызовам. Инструментарий обладает гибким, расширяемым конвейером оценки, который позволяет проводить пакетную оценку моделей и наборов данных, поддерживает интеграцию пользовательских моделей и данных, а также обеспечивает прозрачные, воспроизводимые и сопоставимые результаты. Объединяя оценку на основе компетенций и междисциплинарное разнообразие, SciEvalKit предлагает стандартизированную, но настраиваемую инфраструктуру для тестирования следующего поколения научных базовых моделей и интеллектуальных агентов. Инструментарий имеет открытый исходный код и активно развивается для поддержки совместной разработки сообществом и прогресса в области ИИ для науки (AI4Science).
Хотя унифицированные мультимодальные модели (UMM) достигли значительных успехов в кросс-модальном понимании, сохраняется существенный разрыв в их способности использовать эти внутренние знания для генерации высокого качества. Мы формализуем это расхождение как проводниковую афазию — феномен, при котором модели точно интерпретируют мультимодальные входные данные, но испытывают трудности с преобразованием этого понимания в достоверный и контролируемый синтез. Для решения этой проблемы мы предлагаем UniCorn, простую, но элегантную структуру самоусовершенствования, которая исключает необходимость во внешних данных или учительском контроле. Разделяя единую UMM на три совместные роли: Предлагающий, Решающий и Судья, UniCorn генерирует высококачественные взаимодействия через самодостаточную игру и использует реконструкцию когнитивных паттернов, чтобы преобразовать скрытое понимание в явные генеративные сигналы. Для проверки восстановления мультимодальной согласованности мы представляем UniCycle — бенчмарк цикличной согласованности, основанный на петле реконструкции Текст → Изображение → Текст. Многочисленные эксперименты демонстрируют, что UniCorn достигает всестороннего и существенного улучшения базовой модели в шести общих бенчмарках генерации изображений. Примечательно, что метод показывает состояние искусства на TIIF (73.8), DPG (86.8), CompBench (88.5) и UniCycle, одновременно демонстрируя значительный прирост +5.0 на WISE и +6.5 на OneIG. Эти результаты подчеркивают, что наш метод значительно улучшает генерацию по текстовому описанию (T2I), сохраняя при этом надежное понимание, и демонстрирует масштабируемость полностью самоконтролируемой доработки для унифицированного мультимодального интеллекта.
Мы представляем NitroGen — фреймворк-модель «зрение-действие» для универсальных игровых агентов, обученную на 40 000 часов игрового видео более чем по 1 000 играм. Модель включает три ключевых компонента: 1) масштабируемый видео-действенный датасет, созданный путём автоматического извлечения действий игрока из общедоступных игровых видеозаписей, 2) бенчмарк-среду для оценки меж-игрового обобщения и 3) унифицированную модель «зрение-действие», обученную методом крупномасштабного клонирования поведения. NitroGen демонстрирует высокую эффективность в разнообразных доменах, включая боевые столкновения в 3D-экшенах, прецизионное управление в 2D-платформерах и исследование процедурно генерируемых миров. Модель успешно переносится на неизвестные игры, показывая до 52% относительного улучшения показателя успешности выполнения задач по сравнению с моделями, обученными с нуля. Мы публикуем датасет, набор инструментов для оценки и веса модели для стимулирования исследований в области универсальных воплощённых агентов.
Модели «зрение-язык-действие» (VLA) достигают высокой обобщающей способности за счет масштабного предварительного обучения, однако для реального развертывания, помимо широты охвата, требуется также экспертный уровень владения конкретными задачами. Существующие подходы к дообучению моделей VLA обычно являются офлайн-методами, ориентированными на одного робота или на конкретную задачу, что ограничивает эффективную адаптацию на основе собственной стратегии и масштабируемое обучение на основе взаимодействия в реальном мире. Мы представляем систему масштабируемого онлайн-дообучения (SOP), которая позволяет проводить онлайн-распределенное многозадачное дообучение моделей VLA общего назначения непосредственно в физическом мире. SOP тесно связывает исполнение и обучение через замкнутую архитектуру, в которой флот роботов непрерывно передает данные о взаимодействии по собственной стратегии и сигналы вмешательства человека в централизованное облако обучения, асинхронно получая обновленные политики. Такая конструкция обеспечивает оперативное исправление на основе собственной стратегии, масштабирует сбор опыта за счет параллельного развертывания и сохраняет общность в процессе адаптации. SOP не зависит от выбора алгоритма дообучения; мы реализуем ее как с помощью интерактивного обучения с подражанием (HG-DAgger), так и с помощью обучения с подкреплением (RECAP). На ряде задач манипулирования в реальном мире, включая складывание ткани, сборку коробок и пополнение товаров на полках, мы показываем, что SOP существенно повышает производительность больших предварительно обученных моделей VLA, сохраняя при этом единую общую политику для всех задач. Эффективное дообучение может быть достигнуто за несколько часов взаимодействия в реальном мире, а производительность масштабируется почти линейно с увеличением количества роботов во флоте. Эти результаты свидетельствуют о том, что тесная связь онлайн-обучения с развертыванием в масштабе флота является ключевым фактором для обеспечения эффективного, надежного и масштабируемого дообучения политик роботов общего назначения в физическом мире.
Видеостилизация, важная последующая задача моделей генерации видео, до сих пор не была всесторонне изучена. Ее входные стилевые условия обычно включают текст, изображение-образец стиля и стилизованный первый кадр. Каждое условие обладает характерным преимуществом: текст более гибкий, изображение-образец стиля обеспечивает более точную визуальную опору, а стилизованный первый кадр делает стилизацию длинных видео осуществимой. Однако существующие методы в значительной степени ограничены использованием единственного типа стилевого условия, что сужает сферу их применения. Кроме того, отсутствие у них высококачественных наборов данных приводит к стилевой несогласованности и временному мерцанию. Для решения этих проблем мы представляем DreamStyle — унифицированную структуру для видеостилизации, поддерживающую (1) управляемую текстом, (2) управляемую изображением-образцом стиля и (3) управляемую первым кадром видеостилизацию, сопровождаемую тщательно разработанным конвейером курации данных для получения высококачественных парных видеоданных. DreamStyle построена на базовой модели «изображение-в-видео» (Image-to-Video, I2V) и обучается с использованием низкоранговой адаптации (Low-Rank Adaptation, LoRA) с восходящими матрицами, специфичными для токенов, что снижает путаницу между различными токенами условий. Как качественные, так и количественные оценки демонстрируют, что DreamStyle эффективно справляется со всеми тремя задачами видеостилизации и превосходит конкурентов по стилевой согласованности и качеству видео.
Мы представляем MiMo-V2-Flash — модель типа «смесь экспертов» (MoE) с общим числом параметров 309 млрд и 15 млрд активных параметров, разработанную для быстрых и мощных рассуждений и агентских возможностей. MiMo-V2-Flash использует гибридную архитектуру внимания, чередующую скользящее оконное внимание (SWA) с глобальным вниманием при размере скользящего окна 128 токенов и гибридном соотношении 5:1. Модель предварительно обучалась на 27 триллионах токенов с использованием многотокенного предсказания (MTP), имея исходную длину контекста 32 тыс. токенов с последующим расширением до 256 тыс. Для эффективного масштабирования вычислений после обучения MiMo-V2-Flash внедряет новую парадигму многопреподавательской дистилляции на основе стратегии (MOPD). В этой системе узкоспециализированные преподаватели (например, обученные с помощью масштабного обучения с подкреплением) предоставляют плотные и покомпонентные вознаграждения, позволяя модели-ученику в совершенстве осваивать экспертные знания. MiMo-V2-Flash конкурирует с ведущими открытыми моделями, такими как DeepSeek-V3.2 и Kimi-K2, несмотря на использование лишь 1/2 и 1/3 их общего количества параметров соответственно. При выводе, за счёт использования MTP в качестве черновой модели для спекулятивного декодирования, MiMo-V2-Flash достигает длины принятия до 3.6 токенов и ускорения декодирования в 2.6 раза при использовании трёх слоёв MTP. Мы открываем веса как основной модели, так и трёхслойного MTP для стимулирования открытых исследований и сотрудничества в сообществе.
Несмотря на значительный прогресс, мультимодальные большие языковые модели продолжают испытывать трудности с решением визуальных математических задач. Некоторые недавние работы признают, что визуальное восприятие является узким местом в визуальном математическом рассуждении, но их решения ограничиваются улучшением извлечения и интерпретации визуальных данных. Примечательно, что все они игнорируют ключевую проблему: действительно ли извлеченные визуальные признаки достоверно интегрируются и правильно используются в последующих рассуждениях. Мотивированные этим, мы представляем CogFlow — новую когнитивно-вдохновленную трехэтапную структуру, которая включает этап интернализации знаний, явно моделируя иерархический поток человеческого рассуждения: восприятие ⇒ интернализация ⇒ рассуждение. В соответствии с этим иерархическим потоком мы комплексно улучшаем все его этапы. Мы разрабатываем Синергетические Визуальные Вознаграждения для повышения возможностей восприятия в параметрическом и семантическом пространствах, совместно улучшая извлечение визуальной информации из символов и диаграмм. Чтобы гарантировать достоверную интеграцию извлеченных визуальных признаков в последующие рассуждения, мы вводим модель Вознаграждения за Интернализацию Знаний на этапе интернализации, соединяя восприятие и рассуждение. Кроме того, мы разрабатываем алгоритм Визуально-Управляемой Политики Оптимизации, чтобы дополнительно обеспечить обоснованность рассуждений визуальными знаниями, предотвращая поиск моделями ярлыков в виде правдоподобных, но визуально необоснованных цепочек рассуждений. Кроме того, мы представляем новый набор данных MathCog для обучения моделей, который содержит образцы с более чем 120 тыс. высококачественных аннотаций, согласованных между восприятием и рассуждением. Комплексные эксперименты и анализ на общепринятых эталонах визуального математического рассуждения подтверждают превосходство предложенного CogFlow.
Цифровые двойники, являясь точными цифровыми представлениями физических систем, эволюционировали от пассивных инструментов моделирования в интеллектуальные и автономные сущности благодаря интеграции технологий искусственного интеллекта. В данной статье представлена унифицированная четырехэтапная структура, систематически характеризующая интеграцию ИИ на протяжении всего жизненного цикла цифрового двойника, включая моделирование, отражение, вмешательство и автономное управление. Обобщая существующие технологии и практики, мы выделяем унифицированную четырехэтапную структуру, которая систематически описывает, как методы ИИ внедряются в жизненный цикл цифрового двойника: (1) моделирование физического двойника с использованием подходов ИИ на основе физики и с учетом физических законов, (2) отражение физической системы в цифровом двойнике с синхронизацией в реальном времени, (3) вмешательство в физический двойник посредством прогнозного моделирования, обнаружения аномалий и стратегий оптимизации, и (4) достижение автономного управления с помощью больших языковых моделей, фундаментальных моделей и интеллектуальных агентов. Мы анализируем синергию между физическим моделированием и обучением на основе данных, подчеркивая переход от традиционных численных решателей к физически информированным и фундаментальным моделям для физических систем. Кроме того, мы исследуем, как технологии генеративного ИИ, включая большие языковые модели и генеративные мировые модели, преобразуют цифровые двойники в проактивные и самообучающиеся когнитивные системы, способные к рассуждению, коммуникации и генерации творческих сценариев. Посредством междисциплинарного обзора, охватывающего одиннадцать прикладных областей, включая здравоохранение, аэрокосмическую отрасль, умное производство, робототехнику и умные города, мы выявляем общие проблемы, связанные с масштабируемостью, объяснимостью и надежностью, и определяем направления для разработки ответственных систем цифровых двойников на базе ИИ.
Крупные языковые модели (LLM), демонстрируя высокую производительность при решении сложных математических задач, имеют систематические ограничения в заданиях на счет. Эта проблема возникает из-за архитектурных ограничений трансформеров, где счет выполняется послойно, что приводит к снижению точности для задач с большими числами из-за ограничений по глубине. Чтобы устранить это ограничение, мы предлагаем простую стратегию на этапе тестирования, вдохновленную когнитивными процессами Системы 2, которая разбивает большие задачи счета на меньшие, независимые подзадачи, которые модель может надежно решать. Мы оцениваем этот подход с помощью обсервационного и каузального медиационного анализов, чтобы понять лежащий в основе механизм этой стратегии, подобной Системе 2. Наш механистический анализ выявляет ключевые компоненты: скрытые подсчеты вычисляются и сохраняются в финальных представлениях каждого элемента, передаются на промежуточные шаги через специальные attention-головы и агрегируются на финальном этапе для получения общего результата. Экспериментальные результаты демонстрируют, что данная стратегия позволяет LLM преодолевать архитектурные ограничения и достигать высокой точности в задачах масштабного счета. Эта работа дает механистическое понимание счета по принципу Системы 2 в LLM и представляет обобщаемый подход для улучшения и понимания их рассуждающего поведения.
Мы представляем WebGym — крупнейшую на сегодняшний день открытую среду для обучения реалистичных визуальных веб-агентов. Реальные веб-сайты нестационарны и разнообразны, что делает искусственные или маломасштабные наборы задач недостаточными для устойчивого обучения политик. WebGym содержит почти 300 000 задач с рубрико-ориентированной оценкой на разнообразных реальных веб-сайтах и уровнях сложности. Мы обучаем агентов по простому рецепту обучения с подкреплением (RL), который тренирует на следах взаимодействий (роллаутах) самого агента, используя вознаграждения за задачи как обратную связь для направления обучения. Чтобы обеспечить масштабируемость RL, мы ускоряем семплирование траекторий в WebGym за счёт разработки высокопроизводительной асинхронной системы роллаута, специально предназначенной для веб-агентов. Наша система достигает ускорения роллаута в 4–5 раз по сравнению с наивными реализациями. Во-вторых, мы масштабируем широту, глубину и размер набора задач, что приводит к непрерывному улучшению производительности. Дообучение мощной базовой визуально-языковой модели Qwen-3-VL-8B-Instruct на WebGym приводит к повышению успешности на тестовом наборе вне распределения с 26,2% до 42,9%, что значительно превосходит агентов на основе проприетарных моделей, таких как GPT-4o и GPT-5-Thinking, которые достигают 27,1% и 29,8% соответственно. Это улучшение является существенным, поскольку наш тестовый набор состоит исключительно из задач на веб-сайтах, не встречавшихся во время обучения, в отличие от многих предыдущих работ по обучению визуальных веб-агентов.
Мы представляем Muses — первый метод генерации фантастических 3D-существ в прямом проходе, не требующий обучения. Предыдущие подходы, основанные на оптимизации с учетом частей, ручной сборке или генерации 2D-изображений, часто создают нереалистичные или несогласованные 3D-объекты из-за сложностей манипуляции на уровне деталей и ограниченных возможностей генерации вне домена. В отличие от них, Muses использует 3D-скелет — фундаментальное представление биологических форм — для явного и рационального комбинирования разнородных элементов. Данная скелетная основа формализует создание 3D-контента как структурированный конвейер проектирования, композиции и генерации. Muses начинает с построения творчески составленного 3D-скелета с согласованной компоновкой и масштабом посредством графо-ограниченного вывода. Этот скелет затем направляет воксельный процесс сборки в структурированном латентном пространстве, интегрируя области различных объектов. Наконец, применяется моделирование внешнего вида под управлением изображений при скелетных ограничениях для генерации стилистически согласованной и гармоничной текстуры собранной формы. Многочисленные эксперименты подтверждают передовые показатели Muses по визуальной достоверности и соответствию текстовым описаниям, а также его потенциал в гибком редактировании 3D-объектов. Страница проекта: https://luhexiao.github.io/Muses.github.io/.
Быстрая интеграция мультимодальных больших языковых моделей (MLLM) в критически важные приложения все чаще сдерживается сохраняющимися уязвимостями безопасности. Однако существующие бенчмарки для тестирования на устойчивость (red-teaming) часто фрагментированы, ограничены однократными текстовыми взаимодействиями и не обладают необходимой масштабируемостью для систематической оценки. Для решения этой проблемы мы представляем OpenRT — унифицированную, модульную и высокопроизводительную инфраструктуру для тестирования на устойчивость, предназначенную для всесторонней оценки безопасности MLLM. В ее основе лежит парадигмальный сдвиг в автоматизированном тестировании на устойчивость, достигаемый за счет введения состязательного ядра, которое обеспечивает модульное разделение по пяти ключевым направлениям: интеграция моделей, управление данными, стратегии атак, методы оценки и метрики. Стандартизируя интерфейсы атак, фреймворк отделяет состязательную логику от высокопроизводительной асинхронной среды выполнения, что позволяет системно масштабировать оценку для различных моделей. Наша инфраструктура интегрирует 37 разнообразных методологий атак, включая бело-боксовые градиентные атаки, мультимодальные возмущения и сложные эволюционные стратегии с участием множества агентов. В ходе масштабного эмпирического исследования 20 передовых моделей (включая GPT-5.2, Claude 4.5 и Gemini 3 Pro) мы выявили критические пробелы в безопасности: даже самые современные модели не способны обобщать устойчивость к различным парадигмам атак, при этом ведущие модели демонстрируют средний процент успешных атак до 49,14%. Примечательно, что наши результаты показывают, что модели с возможностями рассуждений не обладают врожденно повышенной устойчивостью к сложным многократным взломам (jailbreaks). Публикуя OpenRT в открытом доступе, мы предоставляем устойчивую, расширяемую и постоянно поддерживаемую инфраструктуру, которая ускоряет разработку и стандартизацию безопасности ИИ.
Пропагация первого кадра (FFP) представляет собой перспективную парадигму для управляемого редактирования видео, однако существующие методы ограничены зависимостью от громоздких методов run-time guidance. Мы определяем коренную причину этого ограничения в неадекватности текущих обучающих наборов данных, которые часто являются слишком короткими, имеют низкое разрешение и недостаточное разнообразие задач, необходимое для обучения устойчивым временным priors. Для устранения этого фундаментального пробела в данных мы сначала представляем FFP-300K — новый масштабный набор данных, содержащий 300 тысяч пар видео высокой четкости с разрешением 720p и длиной 81 кадр, созданный по принципиальному двухтрековому пайплайну для разнообразных локальных и глобальных правок. На основе этого набора данных мы предлагаем новую архитектуру, предназначенную для подлинно безгидовой FFP, которая разрешает ключевое противоречие между сохранением внешнего вида первого кадра и движений исходного видео. На архитектурном уровне мы вводим Adaptive Spatio-Temporal RoPE (AST-RoPE), которая динамически перестраивает позиционные кодировки для разделения ссылок на внешний вид и движение. На уровне целевой функции мы используем стратегию самодистилляции, где задача идентификационной пропагации выступает в качестве мощного регуляризатора, обеспечивая долгосрочную временную стабильность и предотвращая семантический дрейф. Комплексные эксперименты на бенчмарке EditVerseBench демонстрируют, что наш метод значительно превосходит существующие академические и коммерческие модели, показывая улучшение примерно на 0.2 балла по PickScore и на 0.3 балла по VLM Score по сравнению с этими конкурентами.
Геолокализация ставит своей целью определение географического происхождения заданного сигнала. В компьютерном зрении геолокация служила требовательным бенчмарком для композиционных рассуждений и имеет значение для общественной безопасности. В отличие от этого, прогресс в области аудиогеолокации сдерживался отсутствием высококачественных пар "аудио-местоположение". Чтобы восполнить этот пробел, мы представляем AGL1K — первый бенчмарк для аудиогеолокации, предназначенный для аудиоязыковых моделей (ALM), охватывающий 72 страны и территории. Для отбора надежно локализуемых образцов с краудсорсинговой платформы мы предлагаем метрику Audio Localizability, которая количественно оценивает информативность каждой записи, в результате чего получено 1444 отобранных аудиоклипа. Оценки 16 ALM показывают, что у ALM появилась способность к аудиогеолокации. Мы обнаружили, что модели с закрытым исходным кодом существенно превосходят модели с открытым исходным кодом, а лингвистические подсказки часто доминируют в качестве основы для прогнозирования. Мы также анализируем цепочки рассуждений ALM, региональную предвзятость, причины ошибок и интерпретируемость метрики локализуемости. В целом, AGL1K устанавливает бенчмарк для аудиогеолокации и может способствовать развитию ALM с улучшенными геопространственными способностями к рассуждению.
Извлечение сложных пользовательских предпочтений из разреженных поведенческих последовательностей остается фундаментальной проблемой в последовательных рекомендательных системах. Современные методы латентного логического вывода показали перспективность за счет расширения вычислений во время тестирования через многошаговые рассуждения, однако они исключительно полагаются на масштабирование по глубине вдоль единственной траектории, страдая от затухающей отдачи при увеличении глубины рассуждений. Для преодоления этого ограничения мы предлагаем Parallel Latent Reasoning (PLR) — новую архитектуру, которая впервые реализует масштабирование вычислений по ширине за счет одновременного исследования множества разнообразных траекторий рассуждений. PLR конструирует параллельные потоки рассуждений через обучаемые триггерные токены в непрерывном латентном пространстве, сохраняет разнообразие между потоками с помощью глобальной регуляризации рассуждений и адаптивно синтезирует выходные данные множества потоков через агрегацию смеси потоков рассуждений. Экстенсивные эксперименты на трех реальных наборах данных демонстрируют, что PLR существенно превосходит современные базовые методы, сохраняя при этом эффективность вывода в реальном времени. Теоретический анализ дополнительно подтверждает эффективность параллельного логического вывода в улучшении обобщающей способности. Наша работа открывает новые пути для повышения логической емкости в последовательных рекомендательных системах за пределами существующего масштабирования по глубине.
Несмотря на впечатляющий прогресс в синтезе изображений высокой точности, генеративные модели по-прежнему испытывают трудности с выполнением инструкций, требующих сложной логики, что выявляет сохраняющийся разрыв между рассуждением и исполнением. В то же время закрытые системы (например, Nano Banana) продемонстрировали мощную генерацию изображений на основе рассуждений, подчеркивая существенное отставание современных открытых моделей. Мы утверждаем, что для преодоления этого разрыва необходимы не просто улучшенные визуальные генераторы, а исполняемое рассуждение: декомпозиция высокоуровневых намерений в обоснованные, проверяемые планы, которые напрямую направляют генеративный процесс. С этой целью мы предлагаем Unified Thinker, независимую от задач архитектуру рассуждений для общей генерации изображений, спроектированную как унифицированное ядро планирования, которое можно интегрировать в различные генераторы и рабочие процессы. Unified Thinker отделяет специализированный модуль Рассуждений (Thinker) от Генератора изображений, что позволяет модульно улучшать способность к рассуждению без переобучения всей генеративной модели. Мы также вводим двухэтапную парадигму обучения: сначала мы создаем структурированный интерфейс планирования для модуля Рассуждений, затем применяем обучение с подкреплением для обоснования его политики на основе обратной связи на уровне пикселей, поощряя планы, которые оптимизируют визуальную корректность, а не текстовую правдоподобность. Многочисленные эксперименты по генерации изображений по тексту и редактированию изображений показывают, что Unified Thinker существенно улучшает качество рассуждений и генерации изображений.
Крупные модели рассуждений (LRM) демонстрируют высокую производительность на задачах математического мышления, что часто связывают с их способностью генерировать явные объяснения в виде цепочки мыслей (CoT). Однако последние исследования показывают, что LRM часто приходят к правильному ответу до завершения этих текстовых шагов рассуждения, что указывает на наличие латентного рассуждения — внутреннего, невербального вычисления, закодированного в скрытых состояниях. Хотя это явление исследовалось для английского языка, его мультиязыковое поведение остаётся в значительной степени неизученным. В данной статье мы проводим систематическое исследование мультиязыкового латентного рассуждения в LRM для 11 языков. Используя стратегию усечения, мы изучаем, как правильный ответ возникает, когда модель получает лишь частичные траектории рассуждений, что позволяет нам измерить пошаговое формирование латентных предсказаний. Наши результаты выявляют явные свидетельства мультиязыкового латентного рассуждения, хотя и неравномерно: оно сильно в языках с большими ресурсами, слабее в языках с ограниченными ресурсами и в целом менее заметно на более сложных тестах. Чтобы понять, отражают ли эти различия различные внутренние механизмы, мы дополнительно проводим репрезентативный анализ. Несмотря на поверхностные различия, мы обнаруживаем, что внутренняя эволюция предсказаний высоко согласована между языками и в целом соответствует английскому — паттерн, указывающий на англоцентричный путь латентного рассуждения.
Обнаружение неизвестных дипфейковых манипуляций остается одной из наиболее сложных проблем в области выявления подделки лиц. Современные передовые методы не способны обобщаться на невидимые манипуляции, поскольку они в основном полагаются на обучение с учителем на существующих дипфейках или псевдоподделках, что приводит к переобучению на специфические паттерны фальсификации. В отличие от них, методы самообучения обладают большим потенциалом для обобщения, однако существующие разработки сталкиваются с трудностями в изучении дискриминативных представлений исключительно на основе самообучения. В данной статье мы предлагаем ExposeAnyone — полностью самообучаемый подход, основанный на диффузионной модели, которая генерирует последовательности выражений лиц из аудио. Ключевая идея заключается в том, что после персонализации модели на конкретных субъектах с использованием референсных наборов, она может вычислять расстояния идентичности между подозрительными видео и персонализированными субъектами через ошибки диффузионной реконструкции, что позволяет осуществлять выявление подделки лиц для конкретного интересующего лица. Многочисленные эксперименты демонстрируют, что: 1) наш метод превосходит предыдущий передовой метод на 4,22 процентных пункта по среднему AUC на наборах данных DF-TIMIT, DFDCP, KoDF и IDForge; 2) наша модель также способна обнаруживать видео, сгенерированные Sora2, с чем предыдущие подходы справляются плохо; и 3) наш метод высоко устойчив к искажениям, таким как размытие и сжатие, что подчеркивает его применимость в задачах реального обнаружения подделки лиц.
Мы представляем AceFF — предварительно обученный машинный потенциал межатомного взаимодействия (MLIP), оптимизированный для разработки низкомолекулярных лекарственных средств. Хотя MLIP стали эффективной альтернативой теории функционала плотности (DFT), обеспечение обобщаемости в разнообразных химических пространствах остается сложной задачей. AceFF решает эту проблему за счет усовершенствованной архитектуры TensorNet2, обученной на обширном наборе данных лекарственно-подобных соединений. Данный подход позволяет получить силовое поле, сочетающее высокую скорость вычислений в режиме высокопроизводительного скрининга с точностью уровня DFT. AceFF полностью поддерживает ключевые элементы медицинской химии (H, B, C, N, O, F, Si, P, S, Cl, Br, I) и специально обучен для работы с заряженными состояниями. Валидация по строгим тестовым наборам, включая сложные сканирования торсионной энергии, траектории молекулярной динамики, групповую минимизацию, а также точность сил и энергии, демонстрирует, что AceFF устанавливает новое состояние искусства для органических молекул. Веса модели AceFF-2 и код для inference доступны по адресу https://huggingface.co/Acellera/AceFF-2.0.
Удаление дымки с изображений является важной задачей компьютерного зрения, необходимой для повышения четкости изображений в условиях тумана. Традиционные методы часто опираются на модели атмосферного рассеяния, тогда как современные методы глубокого обучения, в частности сверточные нейронные сети (CNN) и трансформеры, улучшили производительность за счет эффективного анализа признаков изображения. Однако CNN плохо справляются с длинными зависимостями, а трансформеры требуют значительных вычислительных ресурсов. Для преодоления этих ограничений мы предлагаем DehazeSNN — инновационную архитектуру, объединяющую U-образную структуру с импульсными нейронными сетями (SNN). DehazeSNN захватывает многомасштабные признаки изображения, эффективно управляя как локальными, так и длинными зависимостями. Введение ортогонального блока Leaky-Integrate-and-Fire (OLIFBlock) улучшает межканальную коммуникацию, что обеспечивает превосходное качество удаления дымки при сниженной вычислительной нагрузке. Проведенные эксперименты демонстрируют, что DehazeSNN обладает высокой конкурентоспособностью по сравнению с современными методами на эталонных наборах данных, обеспечивая получение высококачественных изображений без дымки при меньшем размере модели и сокращенном количестве операций умножения-накопления. Предложенный метод удаления дымки общедоступен по адресу https://github.com/HaoranLiu507/DehazeSNN.
Обнаружение языка вражды в социальных сетях сталкивается с проблемами как точности, так и интерпретируемости, особенно для малоизученных индийских языков. Мы предлагаем новую обучающую систему с управляемой интерпретируемостью, X-MuTeST (eXplainable Multilingual haTe Speech deTection), для обнаружения языка вражды, которая сочетает семантическое рассуждение высокого уровня от больших языковых моделей (LLM) с традиционными методами усиления внимания. Мы расширяем это исследование на хинди и телугу наряду с английским, предоставляя эталонные человеко-размеченные обоснования для каждого слова, чтобы оправдать присвоенную метку класса. Метод интерпретируемости X-MuTeST вычисляет разницу между вероятностями предсказания исходного текста и вероятностями униграмм, биграмм и триграмм. Окончательные объяснения вычисляются как объединение объяснений LLM и объяснений X-MuTeST. Мы показываем, что использование человеческих обоснований в процессе обучения улучшает как производительность классификации, так и интерпретируемость. Более того, комбинирование человеческих обоснований с нашим методом интерпретируемости для уточнения внимания модели приводит к дальнейшим улучшениям. Мы оцениваем интерпретируемость с помощью метрик Правдоподобия, таких как Token-F1 и IOU-F1, и метрик Достоверности, таких как Полнота и Достаточность. Сосредоточившись на языках с ограниченными ресурсами, наша работа продвигает обнаружение языка вражды в различных лингвистических контекстах. Наш набор данных включает в себя аннотации обоснований на уровне токенов для 6004 примеров на хинди, 4492 на телугу и 6334 на английском языке. Данные и код доступны по адресу https://github.com/ziarehman30/X-MuTeST.
Мы исследуем два свойства систем ИИ: способности (что система может делать) и управляемость (насколько надежно можно смещать поведение к желаемым результатам). Ключевой вопрос заключается в том, приводит ли рост способностей к снижению управляемости и создает ли риски коллапса контроля. Мы также различаем авторизованную управляемость (когда разработчики надежно достигают целевого поведения) и неавторизованную управляемость (когда злоумышленники вызывают запрещенное поведение). Это разграничение подчеркивает фундаментальную дилемму безопасности-защищенности моделей ИИ: безопасность требует высокой управляемости для обеспечения контроля (например, остановки/отказа), в то время как защищенность требует низкой управляемости для предотвращения вызова вредоносного поведения злоумышленниками. Это противоречие представляет собой серьезную проблему для моделей с открытыми весами, которые в настоящее время демонстрируют высокую управляемость с помощью распространенных методов, таких как тонкая настройка или атаки состязательного характера. Используя Qwen3 и InstrumentalEval, мы обнаружили, что короткий анти-инструментальный суффикс в промпте резко снижает измеряемую скорость конвергенции (например, избегание отключения, самовоспроизведение). Для Qwen3-30B Instruct скорость конвергенции падает с 81,69% при про-инструментальном суффиксе до 2,82% при анти-инструментальном суффиксе. При анти-инструментальном промптинге более крупные выровненные модели демонстрируют более низкие скорости конвергенции, чем меньшие (Instruct: 2,82% против 4,23%; Thinking: 4,23% против 9,86%). Код доступен по адресу github.com/j-hoscilowicz/instrumental_steering.