Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем Segment Anything Model (SAM) 3 — унифицированную модель, которая обнаруживает, сегментирует и отслеживает объекты на изображениях и в видео на основе концептуальных промптов, определяемых нами как короткие именные группы (например, «желтый школьный автобус»), эталонные изображения или их комбинация. Сегментация по промптируемым концепциям (Promptable Concept Segmentation, PCS) принимает такие промпты и возвращает маски сегментации и уникальные идентификаторы для всех соответствующих экземпляров объектов. Для развития PCS мы создали масштабируемый механизм генерации данных, который производит высококачественный набор данных с 4 миллионами уникальных меток концепций, включая сложные негативные примеры, для изображений и видео. Наша модель состоит из детектора на уровне изображения и трекера для видео на основе памяти, которые используют общий базовый блок. Распознавание и локализация разделены с помощью модуля присутствия (presence head), что повышает точность детекции. SAM 3 вдвое превосходит по точности существующие системы в задачах PCS как для изображений, так и для видео, а также улучшает возможности предыдущих моделей SAM в задачах визуальной сегментации. Мы открываем исходный код SAM 3 вместе с новым бенчмарком Segment Anything with Concepts (SA-Co) для оценки сегментации по промптируемым концепциям.
Современные исследования в области агентного визуального мышления обеспечивают глубокое мультимодальное понимание, но в основном сосредоточены на инструментах манипуляции с изображениями, оставляя пробел в сторону более универсальных агентных моделей. В данной работе мы возвращаемся к задаче геолокализации, которая требует не только тонкого визуального заземления, но и веб-поиска для подтверждения или уточнения гипотез в процессе рассуждений. Поскольку существующие бенчмарки геолокализации не удовлетворяют потребность в высокодетальных изображениях и вызовах локализации для глубокого агентного мышления, мы создали GeoBench — бенчмарк, включающий фотографии и панорамы со всего мира, а также поднабор спутниковых снимков различных городов для тщательной оценки способности агентных моделей к геолокализации. Мы также предлагаем GeoVista, агентную модель, которая бесшовно интегрирует вызов инструментов в цикл рассуждений, включая инструмент увеличения изображения для детализации областей интереса и инструмент веб-поиска для получения связанной информации из сети. Мы разработали для нее полный конвейер обучения, включая начальный этап контролируемого тонкого обучения (SFT) для изучения шаблонов рассуждений и априорных знаний об использовании инструментов, за которым следует этап обучения с подкреплением (RL) для дальнейшего улучшения способности к рассуждениям. Мы применяем иерархическое вознаграждение для использования многоуровневой географической информации и повышения общей производительности геолокализации. Экспериментальные результаты показывают, что GeoVista значительно превосходит другие открытые агентные модели в задаче геолокализации и демонстрирует результаты, сопоставимые с закрытыми моделями, такими как Gemini-2.5-flash и GPT-5, по большинству метрик.
Внутренняя размерность (ID) является важным инструментом в современном анализе больших языковых моделей (LLM), информируя исследования динамики обучения, масштабируемости и структуры наборов данных, однако её текстовые детерминанты остаются малоизученными. Мы представляем первое всестороннее исследование, связывающее ID с интерпретируемыми свойствами текста посредством анализа кросс-энкодеров, лингвистических признаков и разреженных автоэнкодеров (SAE). В данной работе мы устанавливаем три ключевых вывода. Во-первых, ID дополняет метрики, основанные на энтропии: после контроля длины они не коррелируют, при этом ID фиксирует геометрическую сложность, ортогональную качеству предсказания. Во-вторых, ID демонстрирует устойчивую стратификацию по жанрам: научная проза показывает низкий ID (~8), энциклопедический контент — средний (~9), а творческие/публицистические тексты — высокий (~10.5) для всех протестированных моделей. Это показывает, что современные LLM находят научные тексты «репрезентативно простыми», в то время как художественная литература требует дополнительных степеней свободы. В-третьих, используя SAE, мы идентифицируем причинные признаки: научные сигналы (формальный тон, шаблоны отчетов, статистика) снижают ID; гуманизированные сигналы (персонализация, эмоции, нарратив) — увеличивают его. Эксперименты по управлению подтверждают причинность этих эффектов. Таким образом, для современных моделей научное письмо кажется сравнительно «легким», тогда как художественная литература, мнения и аффект добавляют репрезентативные степени свободы. Наш многогранный анализ предоставляет практические рекомендации для корректного использования ID и обоснованной интерпретации результатов, основанных на ID.
Последние достижения в области крупных моделей логического вывода стимулировали растущий интерес к расширению таких возможностей на мультимодальные области. Однако, несмотря на заметный прогресс в визуальном логическом выводе, отсутствие прозрачных и воспроизводимых стратегий подготовки данных и обучения остается основным препятствием для масштабируемых исследований. В данной работе мы представляем OpenMMReasoner — полностью прозрачный двухэтапный подход для мультимодального логического вывода, охватывающий контролируемую тонкую настройку (SFT) и обучение с подкреплением (RL). На этапе SFT мы создаем набор данных из 874 тысяч примеров с тщательной пошаговой валидацией, что обеспечивает прочную основу для развития логических способностей. Последующий этап RL использует набор данных из 74 тысяч примеров в различных областях для дальнейшего улучшения и стабилизации этих способностей, что приводит к более устойчивому и эффективному процессу обучения. Масштабные оценки демонстрируют, что наш подход к обучению не только превосходит сильные базовые модели, но и подчеркивает критическую роль качества данных и дизайна обучения в формировании производительности мультимодального логического вывода. В частности, наш метод демонстрирует улучшение на 11,6% по сравнению с базовой моделью Qwen2.5-VL-7B-Instruct на девяти мультимодальных тестах логического вывода, устанавливая прочную эмпирическую основу для будущих исследований крупномасштабного мультимодального логического вывода. Мы открыли исходные коды, конвейер и данные на https://github.com/EvolvingLMMs-Lab/OpenMMReasoner.
Мы представляем RynnVLA-002 — унифицированную модель «Видение-Язык-Действие» (VLA) и мировую модель. Мировая модель использует действия и визуальные входные данные для прогнозирования будущих состояний изображения, изучая фундаментальную физику окружающей среды для уточнения генерации действий. С другой стороны, модель VLA вырабатывает последующие действия на основе визуальных наблюдений, улучшая зрительное понимание и поддерживая генерацию изображений в мировой модели. Унифицированная архитектура RynnVLA-002 позволяет осуществлять совместное изучение динамики среды и планирования действий. Наши эксперименты показывают, что RynnVLA-002 превосходит отдельные модели VLA и мировые модели, демонстрируя их взаимное усиление. Мы оцениваем RynnVLA-002 как в симуляционных, так и в реальных роботизированных задачах. RynnVLA-002 достигает 97,4% успеха на симуляционном бенчмарке LIBERO без предварительного обучения, в то время как в реальных экспериментах LeRobot её интегрированная мировая модель повышает общий процент успеха на 50%.
Последние достижения в области агентов на базе больших языковых моделей (LLM) продемонстрировали значительный потенциал в генерации человекоподобных ответов; однако они по-прежнему сталкиваются с трудностями при поддержании долгосрочных взаимодействий в сложных средах, в основном из-за ограничений в контекстной согласованности и динамической персонализации. Существующие системы памяти часто зависят от семантической группировки перед извлечением, что может упускать семантически нерелевантную, но критически важную информацию о пользователе и вносить шум при поиске. В данном отчете мы предлагаем первоначальный проект O-Mem, новой архитектуры памяти, основанной на активном профилировании пользователя, которая динамически извлекает и обновляет характеристики пользователя и записи о событиях из их проактивных взаимодействий с агентами. O-Mem поддерживает иерархическое извлечение атрибутов личности и контекста, связанного с темами, что обеспечивает более адаптивные и связные персонализированные ответы. O-Mem достигает показателя 51,67% на публичном бенчмарке LoCoMo, что почти на 3% выше результата LangMem — предыдущего state-of-the-art метода, и показывает 62,99% на PERSONAMEM, что на 3,5% выше результата A-Mem — предыдущего state-of-the-art метода. O-Mem также повышает эффективность по времени ответа в токенах и на взаимодействие по сравнению с предыдущими архитектурами памяти. Наша работа открывает перспективные направления для разработки эффективных и человекоподобных персонализированных AI-ассистентов в будущем.
Понимание видеороликов с обилием текста требует считывания мелких, быстро исчезающих текстовых подсказок, что часто предполагает многократный просмотр. Однако большинство моделей для вопросно-ответных систем по видео опираются на однократное восприятие фиксированных кадров, что приводит к галлюцинациям и ошибкам при работе с детализированными свидетельствами. Вдохновившись тем, как люди ставят на паузу, приближают и перечитывают ключевые области, мы представляем Video-R4 (Reinforcing Text-Rich Video Reasoning with Visual Rumination) — языковую модель большого размера (LMM) для рассуждений о видео, которая выполняет визуальную руминацию: итеративно выбирает кадры, увеличивает информативные области, перекодирует извлеченные пиксели и обновляет свое состояние рассуждений. Мы создали два набора данных с исполняемыми траекториями руминации: Video-R4-CoT-17k для контролируемой практики и Video-R4-RL-30k для обучения с подкреплением. Мы предлагаем многоэтапную систему обучения руминации, которая поэтапно дообучает 7-миллиардную LMM для изучения атомарных и смешанных визуальных операций с помощью SFT и RL на основе GRPO. Video-R4-7B достигает наилучших результатов на M4-ViteVQA и, кроме того, обобщается на задачи вопросно-ответных систем по многостраничным документам, слайдам и видео общего типа, демонстрируя, что итеративная руминация является эффективной парадигмой для мультимодальных рассуждений, основанных на пикселях.
Мы представляем WorldGen — систему, позволяющую автоматически создавать масштабные интерактивные 3D-миры напрямую из текстовых описаний. Наш подход преобразует описания на естественном языке в проходимые, полностью текстурированные среды, которые можно немедленно исследовать или редактировать в стандартных игровых движках. Объединяя сценарное планирование на основе больших языковых моделей, процедурную генерацию, диффузионную 3D-генерацию и объектно-ориентированную декомпозицию сцен, WorldGen преодолевает разрыв между творческим замыслом и функциональными виртуальными пространствами, позволяя создателям проектировать согласованные, навигируемые миры без ручного моделирования или специализированных знаний в области 3D. Система является полностью модульной и поддерживает детализированный контроль над компоновкой, масштабом и стилем, создавая миры, которые геометрически согласованы, визуально насыщены и эффективны для рендеринга в реальном времени. Данная работа представляет собой шаг к доступному генеративному созданию миров в масштабе, расширяя границы генеративного ИИ для 3D в применении к играм, симуляциям и иммерсивным социальным средам.
В данном исследовании представлена система PARROT (Persuasion and Agreement Robustness Rating of Output Truth), ориентированная на оценку устойчивости и предназначенная для измерения снижения точности, возникающего под воздействием социального давления, оказываемого на пользователей через авторитет и убеждение в больших языковых моделях (LLM), — феномена сикофантства (чрезмерной конформности). PARROT (i) изолирует причинно-следственные эффекты, сравнивая нейтральную версию вопроса с авторитетно-ложной версией с помощью двойного слепого оценивания, (ii) количественно оценивает сдвиги уверенности в сторону правильных и навязанных ложных ответов с использованием калибровочного отслеживания на основе логарифмического правдоподобия и (iii) систематически классифицирует режимы отказов (например, устойчиво правильный, сикофантическое согласие, усиленная ошибка, упорная ошибка, самокоррекция и т.д.) с использованием восьмиуровневой поведенческой таксономии. Мы оценили 22 модели, используя 1302 вопроса в стиле MMLU с множественным выбором по 13 предметным областям и шаблонам авторитетности, специфичным для каждой области. Результаты демонстрируют значительную неоднородность: передовые модели (например, GPT-5, GPT-4.1, Claude Sonnet 4.5) показывают низкие «проценты следования» (≤ 11%, GPT-5: 4%) и минимальную потерю точности, в то время как более старые/меньшие модели демонстрируют серьезный эпистемический коллапс (GPT-4: 80%, Qwen 2.5-1.5B: 94%). Опасность не ограничивается изменением ответов; слабые модели снижают уверенность в правильном ответе, одновременно повышая уверенность в навязанном неверном ответе. В то время как международное право и глобальные знания на предметном уровне проявляют высокую хрупкость, элементарная математика оказалась относительно устойчивой. Следовательно, мы утверждаем, что цель «устойчивости к давлению чрезмерного согласия» должна рассматриваться в качестве первоочередной задачи наряду с точностью, предотвращением вреда и конфиденциальностью для безопасного развертывания в реальном мире.
Пошаговые руководства по рисованию крайне важны для освоения художественных техник, однако существующие видеоматериалы (например, на YouTube) лишены интерактивности и персонализации. Хотя современные генеративные модели достигли прогресса в синтезе художественных изображений, они плохо обобщаются для разных материалов и часто демонстрируют временные или структурные inconsistencies, что препятствует точному воспроизведению творческого процесса человека. Для решения этой проблемы мы предлагаем унифицированную framework для генерации процесса рисования в различных средах с семантически управляемым механизмом стилевого контроля, который встраивает множественные материалы в условное пространство diffusion-моделей и использует кросс-медийную стилевую аугментацию. Это обеспечивает согласованную эволюцию текстуры и перенос процесса между стилями. Стратегия обучения с обратным рисованием дополнительно гарантирует плавную генерацию, соответствующую человеческому подходу. Мы также создали масштабный dataset реальных процессов рисования и провели оценку кросс-медийской согласованности, временной когерентности и fidelity финального изображения, достигнув высоких результатов по метрикам LPIPS, DINO и CLIP. Наконец, наша кривая Perceptual Distance Profile (PDP) количественно моделирует творческую последовательность — композицию, цветовые пятна и детализацию, — отражая прогрессию человеческого художественного процесса.
Несмотря на впечатляющие успехи визуально-языковых моделей (VLM), их производительность при решении сложных визуальных задач часто ограничивается «визуальным узким местом»: склонностью терять связь с визуальными данными и дефицитом контекстуализированного визуального опыта в процессе пролонгированной генерации. Опираясь на теорию когнитивной памяти человека, которая различает кратковременную (доминирующую визуальные аспекты) и долговременную (доминирующую семантические аспекты) память, мы предлагаем VisMem — когнитивно-ориентированную архитектуру, оснащающую VLM динамическими латентными визуальными воспоминаниями: кратковременным модулем для сохранения детализированного восприятия и долговременным модулем для консолидации абстрактной семантики. Эти воспоминания активируются на этапе вывода, позволяя моделям сохранять как перцептивную точность, так и семантическую согласованность в процессе мышления и генерации. Масштабные эксперименты на разнообразных визуальных тестах для задач понимания, рассуждения и генерации демонстрируют, что VisMem обеспечивает значительный прирост производительности в среднем на 11,8% относительно базовой модели и превосходит все аналоги, устанавливая новую парадигму улучшения памяти в латентном пространстве. Код будет доступен по адресу: https://github.com/YU-deep/VisMem.git.
Последние достижения в области моделей «Зрение-Язык-Действие» (VLA) демонстрируют, что визуальные сигналы могут эффективно дополнять разреженные разметки действий. Однако прямое предсказание VLA-моделями высокоразмерных визуальных состояний может распределять емкость модели и приводить к непомерным затратам на обучение, в то время как сжатие визуальных состояний в более компактные управляющие сигналы неизбежно создает информационные узкие места. Более того, существующие методы часто страдают от слабых способностей к пониманию и логическому выводу из-за пренебрежения языковой разметкой. В данной статье представлена Mantis — новая архитектура, включающая модуль Разделенного Визуального Предсказания (Disentangled Visual Foresight, DVF) для решения этих проблем. В частности, Mantis разделяет задачу визуального предсказания от основной модели с помощью комбинации мета-запросов и диффузионного трансформерного (DiT) головного модуля. Когда текущее визуальное состояние подается в DiT через остаточное соединение, простая цель предсказания следующего состояния позволяет мета-запросам автоматически захватывать скрытые действия, которые описывают визуальную траекторию, и тем самым усиливать обучение явным действиям. Такое разделение снижает нагрузку на основную VLA-модель, позволяя ей сохранять способности к пониманию и логическому выводу благодаря языковой разметке. Экспериментально, после предварительного обучения на видеозаписях манипуляций человека, демонстрациях роботов и парах «изображение-текст», Mantis достигает показателя успеха 96,7% на бенчмарке LIBERO после дообучения, превосходя мощные базовые модели и демонстрируя высокую скорость сходимости. Реальные оценки показывают, что Mantis превосходит π_{0.5} — ведущую открытую VLA-модель — особенно в способности следовать инструкциям, обобщении на незнакомые инструкции и логическом выводе. Код и веса модели опубликованы для поддержки сообщества открытого исходного кода.
Мы рассматриваем задачу редактирования многовидовых изображений по разреженным входным данным, где входные данные представляют собой набор изображений сцены, полученных с разных точек обзора. Цель заключается в модификации сцены в соответствии с текстовой инструкцией при сохранении согласованности между всеми видами. Существующие методы, основанные на нейронных полях для отдельной сцены или временных механизмах внимания, плохо справляются в этой постановке задачи, зачастую порождая артефакты и несогласованные правки. Мы предлагаем InstructMix2Mix (I-Mix2Mix) — фреймворк, который дистиллирует возможности редактирования 2D диффузионной модели в предобученную многовидовую диффузионную модель, используя её основанные на данных 3D-приоры для обеспечения межвидовой согласованности. Ключевой вклад заключается в замене традиционного консолидатора на основе нейронного поля в Score Distillation Sampling (SDS) на многовидовую диффузионную «ученическую» модель, что потребовало новых адаптаций: инкрементных обновлений «ученика» на протяжении временных шагов, специализированного планировщика шума для «учительской» модели для предотвращения вырождения и модификации механизма внимания, которая улучшает межвидовую согласованность без дополнительных затрат. Эксперименты показывают, что I-Mix2Mix значительно улучшает многовидовую согласованность, сохраняя при этом высокое качество правки для каждого отдельного кадра.
Масштабирование мультимодальных моделей позволило достичь значительных успехов в области визуального понимания и логического вывода, однако практические требования диктуют необходимость создания компактных и эффективных систем. В данной работе мы проводим принципиальный анализ масштабирования интеллектуальных возможностей мультимодальных моделей в сторону уменьшения, исследуя, как сокращение емкости большой языковой модели (БЯМ) влияет на мультимодальные способности. Наши первоначальные результаты выявляют интересную тенденцию: уменьшение масштаба БЯМ непропорционально сильно сказывается именно на визуальных возможностях, а не на способностях, унаследованных от БЯМ. Далее мы исследуем, отражает ли это снижение ожидаемое ухудшение зрительного мышления или же более фундаментальную потерю перцептивных способностей. Изолируя влияние уменьшения БЯМ на восприятие, мы обнаруживаем, что производительность по-прежнему резко падает, зачастую соответствуя или даже превосходя влияние на рассуждение. Для устранения этого узкого места мы предлагаем метод визуальной экстракционной настройки, который явно обучает модель последовательно извлекать визуальные детали, релевантные инструкции, для различных задач. Используя эти извлеченные визуальные детали, мы затем применяем пошаговые рассуждения для генерации ответов. Вместе эти компоненты формируют наш подход «Извлечь+Подумать», устанавливающий новый стандарт эффективности и производительности в данной области.
Моделирование геномных последовательностей сталкивается с двумя нерешенными проблемами: плотность информации сильно варьируется в разных регионах, при этом отсутствует четко определенная минимальная единица словаря. Опираясь либо на четыре первичных нуклеотида, либо на независимо разработанные ДНК-токенизаторы, существующие подходы с наивным предварительным обучением по моделированию с маскированием часто не способны адаптироваться к varying complexity геномных последовательностей. Используя методы Token Merging, данная работа представляет иерархическую архитектуру, которая совместно оптимизирует динамический геномный токенизатор и латентные трансформеры с контекстно-зависимыми задачами предварительного обучения. Что касается структуры сети, модуль токенизации автоматически объединяет соседние нуклеотиды в слова путем наслоения множества слоев дифференцируемых блоков слияния токенов с ограничениями локального окна, после чего Латентный Кодировщик захватывает глобальный контекст этих объединенных слов с помощью блоков полного внимания. Симметрично используя Латентный Декодер и Локальный Декодер, MergeDNA обучается с двумя задачами предварительного обучения: Реконструкция Объединенных Токенов одновременно обучает модуль динамической токенизации и адаптивно фильтрует важные токены, в то время как Адаптивное Моделирование Маскированных Токенов учится предсказывать эти отфильтрованные токены для захвата информативного содержания. Многочисленные эксперименты показывают, что MergeDNA достигает превосходной производительности на трех популярных ДНК-бенчмарках и нескольких мульти-омиксных задачах при тонкой настройке или zero-shot оценке, превосходя типичные методы токенизации и крупномасштабные ДНК-фундаментальные модели.
Модели "визуальный язык-действие" (VLA) демонстрируют потенциал для решения общих роботизированных задач, но остаются проблематичными в вопросах пространственно-временной согласованности манипуляций, требующих тонких представлений. Обычно существующие методы внедряют 3D-позиции в визуальные представления для повышения пространственной точности действий. Однако эти методы не позволяют достичь временной согласованности управления выполнением действий. В данной работе мы предлагаем VLA-4D — общую модель VLA с 4D-осведомленностью для пространственно-временной согласованной роботизированной манипуляции. Наша модель основана на двух ключевых решениях: 1) 4D-осведомленное визуальное представление. Мы извлекаем визуальные признаки, внедряем одномерное время в 3D-позиции для получения 4D-эмбеддингов и объединяем их в единое визуальное представление с помощью механизма перекрёстного внимания. 2) Пространственно-временное представление действий. Мы расширяем традиционные пространственные представления действий временной информацией для обеспечения пространственно-временного планирования и выравниваем мультимодальные представления в языковой модели большого размера (LLM) для прогнозирования пространственно-временных действий. В рамках этой единой архитектуры разработанные визуальные и акционные представления совместно обеспечивают пространственную плавность и временную согласованность роботизированной манипуляции. Кроме того, мы расширяем набор данных VLA временными аннотациями действий для тонкой настройки нашей модели. Проведены масштабные эксперименты, подтверждающие превосходство нашего метода в различных задачах роботизированной манипуляции.
Проверка рецензирования является краеугольным камнем научной публикации, включая ведущие конференции по машинному обучению, такие как ICLR. По мере роста числа подаваемых работ понимание природы и динамики процесса рецензирования становится crucial для повышения его эффективности, действенности и качества публикуемых статей. Мы представляем масштабный анализ процесса рецензирования ICLR 2024 и 2025 годов, сосредоточившись на оценках до и после получения авторских ответов, а также на взаимодействиях между рецензентами и авторами. Мы исследуем оценки рецензентов, вовлеченность авторов и рецензентов, временные паттерны подачи рецензий и эффекты влияния сорецензентов. Комбинируя количественный анализ с категоризацией текстов рецензий и дискуссий по ответам на основе больших языковых моделей (LLM), мы выявляем типичные сильные и слабые стороны для каждой рейтинговой группы, а также тенденции в стратегиях ответов, которые наиболее сильно связаны с изменением оценок. Наши результаты показывают, что исходные оценки и рейтинги сорецензентов являются наиболее сильными предикторами изменения оценок в процессе ответов, что указывает на определенную степень влияния рецензентов. Ответы авторов играют ценную роль в улучшении результатов для пограничных статей, где вдумчивые авторские ответы могут существенно изменить мнение рецензентов. В более широком смысле наше исследование предлагает основанные на данных инсайты для улучшения процесса рецензирования, направляя авторов к эффективным стратегиям ответов и помогая сообществу разрабатывать более справедливые и эффективные процессы рецензирования. Наш код и данные об изменении оценок доступны по адресу https://github.com/papercopilot/iclr-insights.
Стремительное развитие больших языковых моделей (LLM) позволило ИИ-агентам демонстрировать растущую компетентность в выполнении научных задач — от генерации гипотез и планирования экспериментов до написания научных статей. Такие системы агентов принято называть «ИИ-учеными». Однако существующие ИИ-ученые преимущественно формулируют научное открытие как изолированную проблему поиска или оптимизации, упуская из виду тот факт, что научные исследования по своей природе являются социальной и коллаборативной деятельностью. Реальная научная практика опирается на сложную научную инфраструктуру, включающую механизмы сотрудничества, атрибуцию вклада, рецензирование и структурированные сети научных знаний. Из-за отсутствия моделирования этих ключевых аспектов современные системы не способны создать подлинную исследовательскую экосистему или углубленно взаимодействовать с человеческим научным сообществом. Для преодоления этого разрыва мы представляем OmniScientist — фреймворк, который явным образом кодирует фундаментальные механизмы человеческих исследований в рабочий процесс научного ИИ. OmniScientist не только обеспечивает сквозную автоматизацию на всех этапах — от работы с данными и обзора литературы до генерации идей, автоматизации экспериментов, научного письма и рецензирования, — но и предоставляет комплексную инфраструктурную поддержку, моделируя человеческую научную систему, включающую: (1) структурированную систему знаний, построенную на основе цитатных сетей и концептуальных корреляций; (2) коллаборативный исследовательский протокол (OSP), позволяющий осуществлять seamless-взаимодействие между множеством агентов и участие исследователей-людей; и (3) открытую платформу оценки (ScienceArena), основанную на слепом парном голосовании пользователей и рейтингах Эло. Данная инфраструктура позволяет агентам не только понимать и использовать человеческие системы знаний, но и сотрудничать и совместно эволюционировать, способствуя созданию устойчивой и масштабируемой инновационной экосистемы.
Визуальные авторегрессионные модели (VAR) недавно привлекли значительное внимание благодаря инновационной парадигме прогнозирования на следующем масштабе, демонстрируя заметные преимущества как в эффективности вывода, так и в качестве изображений по сравнению с традиционными многошаговыми авторегрессионными (AR) моделями и моделями диффузии. Однако, несмотря на свою эффективность, VAR-модели часто страдают от коллапса разнообразия, то есть снижения вариативности выходных данных, аналогичного наблюдаемому в диффузионных моделях с дистилляцией за малое число шагов. В данной статье мы представляем DiverseVAR — простой, но эффективный метод, который восстанавливает генеративное разнообразие VAR-моделей без необходимости какого-либо дополнительного обучения. Наш анализ выявляет ключевой компонент карты признаков как решающий фактор формирования разнообразия на ранних масштабах. Подавляя ключевой компонент на входе модели и усиливая его на выходе, DiverseVAR эффективно раскрывает inherentный генеративный потенциал VAR-моделей, сохраняя при этом синтез высокой точности. Экспериментальные результаты показывают, что наш подход существенно повышает генеративное разнообразие при лишь незначительном влиянии на производительность. Наш код будет общедоступен по адресу https://github.com/wangtong627/DiverseVAR.
Обучение моделей обнаружения запрещенных предметов требует большого количества рентгеновских изображений безопасности, однако сбор и аннотирование этих изображений являются трудоемкими и затратными по времени. Для решения проблемы недостатка данных методы синтеза рентгеновских изображений безопасности комбинируют изображения для масштабирования наборов данных. Однако предыдущие методы в основном следуют двухэтапному конвейеру: на первом этапе выполняется трудоемкое извлечение переднего плана, а на втором этапе изображения компонуются. Такой подход приводит к неизбежным дополнительным трудозатратам и не является эффективным. В данной статье мы предлагаем одноэтапный конвейер синтеза рентгеновских изображений безопасности (Xsyn) на основе генерации изображений по текстовому описанию, который включает две эффективные стратегии для повышения пригодности синтетических изображений. Стратегия уточнения через кросс-внимание (Cross-Attention Refinement, CAR) использует карту кросс-внимания из диффузионной модели для уточнения аннотаций ограничивающих рамок. Стратегия моделирования окклюзии фона (Background Occlusion Modeling, BOM) явно моделирует перекрытие фона в латентном пространстве для повышения сложности изображения. Насколько нам известно, Xsyn является первым методом, который позволяет достичь высококачественного синтеза рентгеновских изображений безопасности без дополнительных трудозатрат в сравнении с предыдущими подходами. Эксперименты показывают, что наш метод превосходит все предыдущие подходы с улучшением mAP на 1,2%, а синтетические изображения, сгенерированные нашим методом, способствуют повышению производительности обнаружения запрещенных предметов на различных наборах рентгеновских данных безопасности и с использованием различных детекторов. Код доступен по адресу https://github.com/pILLOW-1/Xsyn/.
Современные подходы к генерации видео всё чаще используют планирование промежуточных управляющих сигналов, таких как траектории объектов, для повышения временной согласованности и достоверности движения. Однако эти методы в основном применяют одношаговое планирование, которое обычно ограничено простыми движениями, или итеративное уточнение, требующее многократных вызовов генератора видео и сопряжённое с высокими вычислительными затратами. Чтобы преодолеть эти ограничения, мы предлагаем SketchVerify — бесплатную для обучения платформу планирования на основе скетч-верификации, которая повышает качество планирования движения за счёт более динамически согласованных траекторий (т.е. физически правдоподобных и соответствующих инструкции движений) до полной генерации видео, вводя цикл сэмплирования и верификации в момент тестирования. При заданном промпте и эталонном изображении наш метод предсказывает несколько кандидатных планов движения и ранжирует их с помощью визуально-языкового верификатора, который совместно оценивает семантическое соответствие инструкции и физическую правдоподобность. Для эффективной оценки кандидатных планов движения мы визуализируем каждую траекторию в виде облегчённого видео-скетча путём композиции объектов на статичном фоне, что позволяет обойти необходимость дорогостоящего многократного синтеза на основе диффузии при сохранении сопоставимой производительности. Мы итеративно уточняем план движения до идентификации удовлетворительного варианта, который затем передаётся в генератор с условием по траектории для финального синтеза. Эксперименты на WorldModelBench и PhyWorldBench демонстрируют, что наш метод значимо улучшает качество движения, физический реализм и долгосрочную согласованность по сравнению с конкурентоспособными базовыми методами, оставаясь существенно более эффективным. Наше абляционное исследование дополнительно показывает, что увеличение количества кандидатных траекторий последовательно улучшает общую производительность.
Растущее злоупотребление моделями "визуальный язык" (VLM) вынуждает провайдеров внедрять различные защитные механизмы, включая тонкую настройку согласованности (alignment), системные промпты и модерацию контента. Однако реальная устойчивость этих защит к атакам противника остаётся малоизученной. Мы представляем Multi-Faceted Attack (MFA) — фреймворк, который систематически выявляет общие уязвимости безопасности в ведущих VLM с защитой, таких как GPT-4o, Gemini-Pro и Llama-4. Ключевым компонентом MFA является Attention-Transfer Attack (ATA), который скрывает вредоносные инструкции внутри мета-задачи с конкурирующими целями. Мы предлагаем теоретическое обоснование, основанное на взломе функции вознаграждения (reward hacking), чтобы объяснить успех данной атаки. Для повышения межмодельной переносимости мы дополнительно вводим облегчённый алгоритм усиления переносимости в сочетании с простой стратегией повторения, которые совместно обходят как входные, так и выходные фильтры без специфичной для модели тонкой настройки. Экспериментально мы показываем, что состязательные изображения, оптимизированные для одного визуального энкодера, успешно переносятся на неизвестные VLM, что указывает на то, что общие визуальные представления создают кросс-модельную уязвимость безопасности. В целом, MFA достигает успеха в 58,5% случаев и стабильно превосходит существующие методы. На передовых коммерческих моделях MFA демонстрирует уровень успеха 52,8%, превосходя вторую по эффективности атаку на 34%. Эти результаты ставят под сомнение предполагаемую устойчивость современных защитных механизмов и подчёркивают сохраняющиеся слабые места в безопасности современных VLM. Код: https://github.com/cure-lab/MultiFacetedAttack
Мы представляем первое крупномасштабное исследование предварительного обучения моделей со смесью экспертов (MoE) исключительно на оборудовании AMD с использованием GPU MI300X и межсоединения Pollara. Мы формулируем практические рекомендации как для проектирования систем, так и для проектирования моделей. В части систем мы предоставляем всестороннюю характеристику кластера и сети: микробенчмарки для всех основных коллективных операций (all-reduce, reduce-scatter, all-gather, broadcast) для различных размеров сообщений и количества GPU на Pollara. Насколько нам известно, это первое исследование такого масштаба. Кроме того, мы представляем микробенчмарки MI300X по определению размеров ядер и пропускной способности памяти для информирования проектирования моделей. В части моделирования мы вводим и применяем правила определения размеров трансформеров с учетом особенностей MI300X для блоков внимания и MLP, а также обосновываем ширину MoE, которая совместно оптимизирует пропускную способность обучения и задержку вывода. Мы подробно описываем наш стек обучения, включая часто игнорируемые утилиты, такие как отказоустойчивость и изменение структуры контрольных точек, а также подробную информацию о нашем рецепте обучения. Мы также предоставляем предварительный обзор архитектуры нашей модели и базовой модели — ZAYA1 (760M активных, 8.3B общих параметров MoE), которая будет дополнительно улучшена в последующих публикациях. Базовая модель ZAYA1 демонстрирует производительность, сопоставимую с ведущими базовыми моделями, такими как Qwen3-4B и Gemma3-12B, в своем масштабе и крупнее, и превосходит модели, включая Llama-3-8B и OLMoE, по тестам на логическое мышление, математику и программирование. В совокупности эти результаты демонстрируют, что аппаратное обеспечение AMD, сеть и программный стек являются зрелыми и достаточно оптимизированными для проведения конкурентоспособного крупномасштабного предварительного обучения.
Карты значимости широко используются для визуального объяснения решений в глубоком обучении, однако фундаментальное отсутствие консенсуса сохраняется относительно их предполагаемой цели и соответствия разнообразным запросам пользователей. Эта неоднозначность препятствует эффективной оценке и практической полезности методов объяснения. Мы устраняем этот пробел, вводя таксономию «Референтный-фрейм × Гранулярность» (РФ×Г) — принципиальную концептуальную основу, которая систематизирует объяснения на основе значимости по двум ключевым осям: * **Референтный фрейм:** Разграничивает точечные («Почему именно этот прогноз?») и контрастные («Почему это, а не альтернатива?») объяснения. * **Гранулярность:** Охватывает интерпретации от детального классового уровня (например, «Почему хаски?») до общего группового уровня (например, «Почему собака?»). Используя линзу РФ×Г, мы демонстрируем ключевые ограничения существующих метрик оценки, которые в подавляющем большинстве ориентированы на точечную достоверность (faithfulness), пренебрегая контрастными рассуждениями и семантической гранулярностью. Для систематической оценки качества объяснений по обоим измерениям РФ×Г мы предлагаем четыре новые метрики достоверности. Наша комплексная система оценки применяет эти метрики к десяти современным методам построения карт значимости, четырем архитектурам моделей и трем наборам данных. Пропагандируя переход к оценке, управляемой намерениями пользователя, наша работа предоставляет как концептуальную основу, так и практические инструменты, необходимые для разработки визуальных объяснений, которые не только достоверно отражают поведение базовой модели, но и содержательно согласуются со сложностью человеческого понимания и запросов.