Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем Depth Anything 3 (DA3) — модель, которая предсказывает пространственно согласованную геометрию из произвольного числа визуальных входных данных с известными или неизвестными позами камер. В стремлении к минимализму моделирования DA3 дает два ключевых вывода: в качестве основы достаточно одного простого трансформера (например, ванильного DINO-энкодера) без архитектурной специализации, а единая цель предсказания глубины по лучу устраняет необходимость в сложном многозадачном обучении. Благодаря нашей парадигме обучения «учитель-ученик» модель достигает уровня детализации и обобщения, сопоставимого с Depth Anything 2 (DA2). Мы создали новый бенчмарк для оценки визуальной геометрии, охватывающий оценку позы камеры, геометрию для произвольных ракурсов и визуальный рендеринг. На этом бенчмарке DA3 устанавливает новое состояние искусства по всем задачам, превосходя предыдущий SOTA метод VGGT в среднем на 44,3% по точности определения позы камеры и на 25,1% по геометрической точности. Более того, она превосходит DA2 в монокулярном оценивании глубины. Все модели обучены исключительно на общедоступных академических наборах данных.
Модель мира позволяет интеллектуальному агенту представлять, предсказывать и анализировать, как мир изменяется в ответ на его действия, и на этой основе планировать и вырабатывать стратегии. Хотя современные модели генерации видео создают реалистичные визуальные последовательности, они обычно работают по принципу «текстовый запрос — полное видео» без причинно-следственного контроля, интерактивности или долгосрочной согласованности, необходимых для целенаправленного рассуждения. Существующие же подходы к моделированию мира часто сосредоточены на ограниченных областях (например, физика, игры или динамика 3D-сцен) с недостаточной глубиной и управляемостью и с трудом обобщаются на разнообразные среды и форматы взаимодействия. В данной работе мы представляем PAN — универсальную, интерактивную и долгосрочную модель мира, которая предсказывает будущие состояния мира через высококачественное видео-моделирование, обусловленное историей и действиями на естественном языке. PAN использует архитектуру Generative Latent Prediction (GLP), сочетающую авторегрессионную динамику в латентном пространстве на основе большой языковой модели (LLM) — что связывает моделирование с обширными текстовыми знаниями и позволяет учитывать действия, заданные языком, — с видео-диффузионным декодером, восстанавливающим перцептивно детальные и временно согласованные визуальные наблюдения. Это обеспечивает объединение рассуждений в латентном пространстве (воображение) и реализуемой динамики мира (реальность). Обученная на масштабных наборах видео-действий из различных областей, PAN поддерживает открытое, обусловленное действиями моделирование с согласованной долгосрочной динамикой. Многочисленные эксперименты показывают, что PAN демонстрирует высокую производительность в обусловленном действиями моделировании мира, долгосрочном прогнозировании и симулятивных рассуждениях по сравнению с другими генераторами видео и моделями мира, делая шаг к созданию универсальных моделей мира, позволяющих прогнозировать будущие состояния для рассуждений и действий.
Модели диффузии сталкиваются с трудностями при масштабировании за пределы их обучающих разрешений, поскольку прямое сэмплирование в высоком разрешении является медленным и затратным, а постобработка изображений с использованием методов супер-разрешения (ISR) вносит артефакты и дополнительную задержку, работая после декодирования. Мы представляем Latent Upscaler Adapter (LUA) — легковесный модуль, который выполняет супер-разрешение непосредственно на латентном коде генератора перед финальным шагом декодирования VAE. LUA интегрируется как встраиваемый компонент, не требуя модификаций базовой модели или дополнительных этапов диффузии, и позволяет синтезировать изображения в высоком разрешении за один прямой проход в латентном пространстве. Общая архитектура на основе Swin с масштабно-специфичными головками pixel-shuffle поддерживает коэффициенты увеличения 2x и 4x и остается совместимой с базовыми методами супер-разрешения в пространстве изображений, достигая сопоставимого перцептивного качества при почти в 3 раза меньшем времени декодирования и масштабирования (добавляя всего +0,42 с для генерации изображения 1024 px из 512 px по сравнению с 1,87 с для супер-разрешения в пространстве пикселей с использованием той же архитектуры SwinIR). Более того, LUA демонстрирует сильную обобщаемость в латентных пространствах различных VAE, что упрощает его внедрение без необходимости переобучения с нуля для каждого нового декодера. Многочисленные эксперименты показывают, что LUA близко соответствует точности нативной генерации в высоком разрешении, предлагая практичный и эффективный путь к масштабируемому синтезу высококачественных изображений в современных конвейерах диффузии.
Дистилляция по методу черного ящика создает студенческие большие языковые модели (БЯМ) путем обучения исключительно на текстовых выходах проприетарной модели-учителя, без доступа к ее внутренним логитам или параметрам. В данной работе мы представляем Generative Adversarial Distillation (GAD) — метод, который позволяет проводить дистилляцию по методу черного ящика в режиме on-policy. GAD представляет студенческую БЯМ в качестве генератора и обучает дискриминатор отличать ее ответы от ответов модели-учителя, создавая минимаксную игру. Дискриминатор выступает в роли on-policy модели вознаграждения, которая коэволюционирует со студенческой моделью, обеспечивая стабильную и адаптивную обратную связь. Экспериментальные результаты показывают, что GAD последовательно превосходит широко используемую дистилляцию знаний на уровне последовательностей. В частности, модель Qwen2.5-14B-Instruct (студенческая), обученная с помощью GAD, становится сопоставимой со своим учителем, GPT-5-Chat, по результатам автоматической оценки LMSYS-Chat. Полученные результаты утверждают GAD как перспективную и эффективную парадигму для дистилляции БЯМ по методу черного ящика.
Хотя специализированные модели ИИ превосходно справляются с изолированными задачами работы с видео, такими как генерация или анализ, реальные приложения требуют сложных, итеративных процессов, сочетающих эти возможности. Чтобы заполнить этот пробел, мы представляем UniVA — открытую, универсальную мультиагентную платформу для видео-генералистов следующего поколения, которая объединяет анализ, сегментацию, редактирование и генерацию видео в целостные рабочие процессы. UniVA использует двухагентную архитектуру «Планирование-Действие», которая обеспечивает высокоавтоматизированный и проактивный процесс: агент-планировщик интерпретирует намерения пользователя и разбивает их на структурированные этапы обработки видео, в то время как агенты-исполнители выполняют их через модульные серверы инструментов на основе MCP (для анализа, генерации, редактирования, отслеживания и т.д.). Благодаря иерархической многоуровневой памяти (глобальные знания, контекст задачи и пользовательские предпочтения) UniVA поддерживает долгосрочное планирование, контекстуальную преемственность и межагентное взаимодействие, обеспечивая интерактивное и саморефлексивное создание видео с полной отслеживаемостью. Такой подход позволяет реализовать итеративные и условно-независимые рабочие процессы (например, генерация по тексту/изображению/видео → многораундовое редактирование → сегментация объектов → композиционный синтез), которые ранее было сложно достичь с помощью узкоспециализированных моделей или монолитных видео-языковых моделей. Мы также представляем UniVA-Bench — набор эталонных тестов для многошаговых задач, охватывающих анализ, редактирование, сегментацию и генерацию видео, для строгой оценки таких агентных видео-систем. И UniVA, и UniVA-Bench полностью открыты и направлены на стимулирование исследований в области интерактивного, агентного и универсального видео-интеллекта для следующего поколения мультимодальных систем ИИ. (https://univa.online/)
Метод оптимизации относительной групповой политики (Group Relative Policy Optimization, GRPO) продемонстрировал высокую эффективность при дообучении больших языковых моделей (LLM). В GRPO модель генерирует ответы на промпты, а с помощью обучения с подкреплением усваивает предпочитаемые завершения. Благодаря малому объему коммуникации GRPO изначально подходит для децентрализованного обучения, поскольку промпты могут обрабатываться параллельно на нескольких узлах, а затем обмениваться в виде строк. В данной работе мы представляем первую атаку на децентрализованный GRPO. Мы показываем, что злоумышленники могут отравлять такие системы, внедряя произвольные вредоносные токены в добросовестные модели, как в атаках вне контекста, так и в рамках контекста. На эмпирических примерах математических и программистских задач мы демонстрируем, что adversarial-атаки могут легко отравить добросовестные узлы, нарушив их локальное дообучение LLM, достигая успеха атаки до 100% всего за 50 итераций. Мы предлагаем два способа защиты от этих атак, в зависимости от того, обучают ли все пользователи одну и ту же модель или разные модели. Мы показываем, что эти защиты могут достигать показателей остановки атаки до 100%, делая её невозможной.
Крупные языковые модели (LLM) достигли значительных прорывов в области логического вывода, анализа и использования инструментов, однако объединение этих способностей в протяженные процессы, сопоставимые по масштабу с теми, что регулярно выполняются людьми, организациями и обществами, до сих пор оставалось недостижимой целью. Модели демонстрируют устойчивый уровень ошибок, который препятствует масштабированию: например, недавние эксперименты в рамках бенчмарка «Ханойские башни» показали, что процесс неизбежно сбивается после максимум нескольких сотен шагов. Таким образом, хотя исследования LLM по-прежнему часто оцениваются на задачах с относительно небольшим количеством зависимых логических шагов, растет внимание к способности (или неспособности) LLM выполнять задачи с длинными цепочками действий. В данной статье описывается система MAKER — первая система, которая успешно решает задачу, требующую более миллиона шагов LLM с нулевым количеством ошибок и, в принципе, масштабируется далеко за этот предел. Подход основывается на экстремальной декомпозиции задачи на подзадачи, каждая из которых решается узкоспециализированными микроагентами. Высокий уровень модульности, достигаемый за счет декомпозиции, позволяет применять коррекцию ошибок на каждом шаге с помощью эффективной схемы голосования множества агентов. Именно это сочетание экстремальной декомпозиции и коррекции ошибок делает масштабирование возможным. Таким образом, полученные результаты позволяют предположить, что вместо постоянного улучшения существующих LLM, массово декомпозированные агентские процессы (MDAP) могут предложить путь к эффективному решению проблем уровня организаций и обществ.
Крупные языковые модели достигли значительного прогресса в решении сложных, но легко проверяемых задач, однако по-прежнему испытывают трудности с открытием неизвестного. В данной статье мы представляем AlphaResearch — автономного исследовательского агента, предназначенного для открытия новых алгоритмов в условиях открытых проблем. Для синергии осуществимости и инновационности процесса открытия мы создаем новую двойную исследовательскую среду, объединяя исполняемую проверку (execution-based verify) и смоделированную среду реального рецензирования. AlphaResearch открывает новые алгоритмы путем итеративного выполнения следующих шагов: (1) предложение новых идей, (2) проверка идей в двойной исследовательской среде, (3) оптимизация исследовательских предложений для повышения производительности. Для обеспечения прозрачности процесса оценки мы создали AlphaResearchComp — новый оценочный бенчмарк, включающий конкурс по восьми открытым алгоритмическим проблемам, где каждая задача тщательно отобрана и проверена через исполняемые конвейеры, объективные метрики и проверки воспроизводимости. AlphaResearch демонстрирует показатель побед 2/8 в прямом сравнении с исследователями-людьми, что подтверждает возможность ускорения открытия алгоритмов с помощью LLM. Примечательно, что алгоритм, открытый AlphaResearch для задачи «упаковки кругов», демонстрирует наилучшую из известных производительность, превосходя результаты человеческих исследователей и сильные базовые линии из recent работ (например, AlphaEvolve). Кроме того, мы проводим комплексный анализ оставшихся проблем в 6/8 случаях неудач, предоставляя ценные инсайты для будущих исследований.
Крупные языковые модели (LLM) все чаще обучаются с использованием классических методов оптимизации, таких как AdamW, для повышения сходимости и способности к обобщению. Однако механизмы, с помощью которых квантово-вдохновленные методы улучшают классическое обучение, остаются малоизученными. Мы представляем Superpositional Gradient Descent (SGD) — новый оптимизатор, связывающий градиентные обновления с квантовой суперпозицией путем внедрения возмущений из квантовых схем. Мы предлагаем математический фреймворк и реализуем гибридные квантово-классические схемы на базе PyTorch и Qiskit. В задачах синтетической классификации последовательностей и тонкой настройки крупномасштабных LLM метод SGD демонстрирует более быструю сходимость и обеспечивает меньший итоговый показатель потерь по сравнению с AdamW. Несмотря на обнадеживающие результаты, масштабируемость и аппаратные ограничения препятствуют широкому внедрению. В целом, данная работа открывает новые перспективы на стыке квантовых вычислений и глубокого обучения, предлагая практические пути использования квантовых принципов для управления и улучшения поведения моделей.
Мы представляем Music Flamingo — новую крупную аудио-языковую модель, разработанную для расширения возможностей понимания музыки (включая песни) в базовых аудиомоделях. Несмотря на быстрый прогресс в области аудио-языковых исследований, музыка остается сложной задачей из-за своей динамичной, многослойной и насыщенной информацией природы. Дальнейшее развитие сдерживается трудностями масштабирования открытых моделей понимания аудио, главным образом из-за нехватки высококачественных музыкальных данных и аннотаций. Как следствие, существующие модели ограничены генерацией коротких, общих описаний, способны отвечать лишь на поверхностные вопросы и демонстрируют ограниченную обобщающую способность для различных музыкальных культур. Для решения этих проблем мы создали MF-Skills — масштабный набор данных, размеченный с помощью многоэтапного конвейера, который предоставляет богатые описания и пары «вопрос-ответ», охватывающие гармонию, структуру, тембр, текст песен и культурный контекст. Мы дообучили улучшенный базовый блок Audio Flamingo 3 на MF-Skills и дополнительно усилили множество навыков, связанных с пониманием музыки. Чтобы повысить способности модели к рассуждению, мы внедряем метод пост-обучения: сначала используем «холодный старт» с MF-Think — новым набором данных для chain-of-thought, основанным на музыкальной теории, а затем применяем обучение с подкреплением на основе GRPO с пользовательскими вознаграждениями. Music Flamingo демонстрирует наилучшие результаты более чем на 10 тестовых наборах для понимания и анализа музыки, утверждая себя в качестве универсальной и музыкально интеллектуальной аудио-языковой модели. Помимо сильных эмпирических результатов, Music Flamingo задает новый стандарт продвинутого понимания музыки, показывая, как модели могут перейти от поверхностного распознавания к многоуровневому, человеко-подобному восприятию песен. Мы уверены, что эта работа предоставляет сообществу как ориентир, так и основу для создания следующего поколения моделей, способных взаимодействовать с музыкой так же осмысленно, как и человек.
Глубокое исследование (ГИ) — это развивающееся приложение-агент, использующее большие языковые модели (БЯМ) для решения открытых запросов. Оно требует интеграции нескольких способностей, включая многошаговые рассуждения, кросс-документальный синтез и генерацию развернутых ответов, подкрепленных доказательствами. Оценка ГИ остается сложной задачей, поскольку ответы получаются длинными и разнообразными, допускают множество допустимых решений и часто зависят от динамических источников информации. Мы представляем ResearchRubrics — стандартизированный бенчмарк для ГИ, созданный с затратами более 2800+ человеко-часов, который сопоставляет реалистичные, разнородные по тематикам промпты с 2500+ экспертными, детализированными рубриками для оценки фактической обоснованности, логической стройности и ясности. Мы также предлагаем новую систему классификации сложности для категоризации задач ГИ по трем осям: концептуальная широта, логическая вложенность и исследовательская глубина. Кроме того, мы разрабатываем протоколы оценки с участием человека и на основе моделей, которые измеряют соответствие ответов агентов ГИ установленным рубрикам. Мы оцениваем несколько современных систем ГИ и обнаруживаем, что даже ведущие агенты, такие как Gemini's DR и OpenAI's DR, демонстрируют среднее соответствие нашим рубрикам ниже 68%, в основном из-за упущения неявного контекста и недостаточного анализа извлеченной информации. Наши результаты подчеркивают необходимость надежной и масштабируемой оценки возможностей глубокого исследования, для содействия чему мы публикуем ResearchRubrics (включая все промпты, рубрики и код для оценки), чтобы способствовать прогрессу в создании обоснованных исследовательских ассистентов.
Модели редактирования изображений на основе инструкций в последнее время демонстрируют впечатляющие результаты, позволяя выполнять сложные правки входного изображения по многосоставному текстовому запросу. Однако эти модели применяют каждую инструкцию в запросе с фиксированной интенсивностью, что ограничивает возможность пользователя точно и плавно контролировать силу отдельных правок. Мы представляем SliderEdit — фреймворк для непрерывного редактирования изображений с детализированным и интерпретируемым управлением через инструкции. Для заданной многосоставной инструкции редактирования SliderEdit разделяет отдельные инструкции и представляет каждую в виде глобально обученного слайдера, позволяя плавно регулировать её интенсивность. В отличие от предыдущих работ, вводивших слайдеры для управления атрибутами в задачах генерации изображений по тексту, что обычно требует отдельного обучения или дообучения для каждого атрибута или концепции, наш метод обучает единый набор матриц низкоранговой адаптации, который обобщается для разнообразных правок, атрибутов и композиционных инструкций. Это позволяет осуществлять непрерывную интерполяцию по отдельным измерениям редактирования, сохраняя как пространственную локальность, так и глобальную семантическую согласованность. Мы применяем SliderEdit к передовым моделям редактирования изображений, включая FLUX-Kontext и Qwen-Image-Edit, и наблюдаем существенное улучшение управляемости правками, визуальной согласованности и возможности взаимодействия с пользователем. Насколько нам известно, мы первые, кто исследует и предлагает фреймворк для непрерывного, детализированного управления через инструкции в моделях редактирования изображений на их основе. Наши результаты открывают путь к интерактивному, управляемому инструкциями манипулированию изображениями с непрерывным и композиционным контролем.
Эффективное взаимодействие человека и агента в физических средах требует понимания не только того, на что воздействовать, но и того, где находятся целевые элементы и как с ними взаимодействовать. Существующие подходы часто работают на уровне объектов или разрозненно обрабатывают детализированное распознавание аффордансов, не обеспечивая согласованного, основанного на инструкциях закрепления и рассуждения. В данной работе мы представляем новую задачу: Детализированное воплощенное рассуждение в 3D, которая требует от агента предсказания для каждого упомянутого элемента аффорданса в 3D-сцене структурированного триплета, включающего его пространственное местоположение, тип движения и ось движения, на основе текстовой инструкции. Для решения этой задачи мы предлагаем AffordBot, новую архитектуру, которая интегрирует Мультимодальные Большие Языковые Модели (MLLM) с адаптированной парадигмой рассуждений по цепочке мыслей (CoT). Чтобы преодолеть разрыв между 3D-вводом и MLLM, совместимыми с 2D, мы визуализируем панорамные изображения сцены и проецируем кандидатные 3D-элементы в эти виды, формируя богатое визуальное представление, согласованное с геометрией сцены. Наш конвейер CoT начинается с этапа активного восприятия, на котором MLLM предлагается выбрать наиболее информативную точку обзора на основе инструкции, прежде чем перейти к пошаговому рассуждению для локализации элементов аффорданса и вывода правдоподобных взаимодействий. При оценке на наборе данных SceneFun3D AffordBot демонстрирует наилучшую производительность, показывая высокую способность к обобщению и физически обоснованным рассуждениям, используя только облака 3D-точек и MLLM.
Недавние успехи в области больших языковых моделей (LLM) привели к впечатляющим результатам в решении широкого круга задач, однако продвинутое следование инструкциям (IF) — особенно сложным, многошаговым и системным — остаётся серьёзной проблемой. Тщательная оценка и эффективное обучение таким способностям затруднены из-за отсутствия высококачественных размеченных человеком бенчмарков и надёжных, интерпретируемых сигналов вознаграждения. В данной работе мы представляем AdvancedIF (мы скоро выпустим этот бенчмарк), комплексный бенчмарк, содержащий более 1600 промптов и экспертные критерии оценки, которые измеряют способность LLM следовать сложным, многошаговым и системным инструкциям. Мы также предлагаем RIFL (Rubric-based Instruction-Following Learning), новый пост-тренировочный конвейер, который использует генерацию критериев, тонко настроенный верификатор критериев и формирование вознаграждения для обеспечения эффективного обучения с подкреплением для следования инструкциям. Многочисленные эксперименты демонстрируют, что RIFL существенно улучшает способности LLM к следованию инструкциям, показывая абсолютный прирост в 6.7% на AdvancedIF и высокие результаты на публичных бенчмарках. Наши исследования абляции подтверждают эффективность каждого компонента RIFL. Эта работа устанавливает критерии оценки как мощный инструмент как для обучения, так и для оценки продвинутого следования инструкциям в LLM, прокладывая путь к созданию более способных и надёжных систем искусственного интеллекта.
Несмотря на прогресс в качестве генерации, современные модели преобразования текста в изображение (T2I) часто демонстрируют недостаточное разнообразие, создавая однородные результаты. Данная работа представляет методологию, направленную на решение проблемы надежной оценки разнообразия в моделях T2I. Наш подход систематически оценивает разнообразие путем анализа отдельных концепций и соответствующих им факторов вариативности. Ключевые вклады включают: (1) новый шаблон человеческой оценки для детального анализа разнообразия; (2) тщательно отобранный набор промптов, охватывающий различные концепции с идентифицированными факторами вариативности (например, промпт: «Изображение яблока», фактор вариативности: цвет); и (3) методологию сравнения моделей на основе человеческих аннотаций с помощью биномиальных тестов. Кроме того, мы проводим строгое сравнение различных векторных представлений изображений для измерения разнообразия. Примечательно, что наш принципиальный подход позволяет ранжировать модели T2I по уровню разнообразия и выявлять категории, в которых они испытывают особые трудности. Это исследование предлагает надежную методологию и новые insights, прокладывая путь к улучшению разнообразия моделей T2I и развитию соответствующих метрик.
Способность к критике жизненно важна для моделей, чтобы они могли самосовершенствоваться и служить надежными ИИ-ассистентами. Хотя этот вопрос широко изучался в условиях работы только с языком, мультимодальная критика крупных мультимодальных моделей (LMM) остается малоисследованной, несмотря на их растущие возможности в таких задачах, как создание подписей и визуальные рассуждения. В данной работе мы представляем MM-CRITIC — целостный бенчмарк для оценки критической способности LMM по нескольким измерениям: базовому, корректирующему и сравнительному. Охватывая 8 основных типов задач и более 500 заданий, MM-CRITIC собирает ответы от различных LMM с разным размером моделей и состоит из 4471 образца. Для повышения надежности оценки мы интегрируем эталонные ответы, сформированные с участием экспертов, в оценочные рубрики, которые направляют GPT-4o в аннотировании ответов и генерации эталонных критических замечаний, служащих якорем для достоверных суждений. Обширные эксперименты подтверждают эффективность MM-CRITIC и обеспечивают всестороннюю оценку критических способностей ведущих LMM в нескольких измерениях. Дальнейший анализ выявляет ключевые инсайты, включая корреляцию между качеством ответа и критикой, а также различную сложность критики в разных оценочных измерениях. Наш код доступен по адресу https://github.com/MichealZeng0420/MM-Critic.
Оценки воспроизводимости цитируемых статей в последующих публикациях отражают мнение научного сообщества и показали себя как перспективный индикатор фактической воспроизводимости опубликованных результатов. Для обучения эффективных моделей, способных прогнозировать настроения, связанные с воспроизводимостью, и систематического изучения их корреляции с фактической воспроизводимостью, мы представляем набор данных CC30k, содержащий 30 734 цитатных контекста из статей по машинному обучению. Каждый цитатный контекст размечен одной из трех меток настроения, ориентированных на воспроизводимость: Позитивный, Негативный или Нейтральный, что отражает воспринимаемую воспроизводимость или повторяемость цитируемой статьи. Из них 25 829 контекстов размечены с помощью краудсорсинга, дополненных негативными примерами, сгенерированными по контролируемому конвейеру для компенсации дефицита негативных меток. В отличие от традиционных наборов данных для анализа тональности, CC30k фокусируется на настроениях, связанных с воспроизводимостью, восполняя пробел в ресурсах для вычислительных исследований воспроизводимости. Набор данных создан с использованием конвейера, включающего robust-очистку данных, тщательный отбор участников краудсорсинга и всестороннюю валидацию. Результирующий набор данных достигает точности разметки 94%. Мы продемонстрировали, что производительность трех больших языковых моделей значительно улучшается в задаче классификации настроений, связанных с воспроизводимостью, после дообучения на нашем наборе данных. Набор данных закладывает основу для масштабной оценки воспроизводимости статей по машинному обучению. Набор данных CC30k и Jupyter notebooks, использованные для его создания и анализа, доступны по адресу https://github.com/lamps-lab/CC30k.
Методы классификации аномалий (AC) и сегментации аномалий (AS) с нулевым разгоном (zero-shot) ставят целью выявление и контурирование дефектов без использования размеченных образцов. В данной статье мы раскрываем ключевое свойство, которое упускается существующими методами: патчи нормальных изображений промышленных изделий обычно находят множество других схожих патчей не только по 2D-внешнему виду, но и по 3D-форме, в то время как аномалии остаются разнородными и изолированными. Для явного использования этого дискриминативного свойства мы предлагаем фреймворк Mutual Scoring (MuSc-V2) для zero-shot AC/AS, который гибко поддерживает работу с одиночными 2D/3D данными или мультимодальность. Конкретно наш метод начинается с улучшения 3D-представления через Итеративную Группировку Точки (IPG), что снижает ложные срабатывания от разрывов поверхностей. Затем мы используем Аггрегацию Соседства по Сходству с Множественными Степенями (SNAMD) для объединения 2D/3D признаков соседства в более дискриминативные многомасштабные признаки патчей для взаимного оценивания. Ядро системы составляет Механизм Взаимного Оценивания (MSM), который позволяет образцам внутри каждой модальности назначать оценки друг другу, и Кросс-модальное Усиление Аномалий (CAE), которое объединяет 2D и 3D оценки для восстановления пропущенных аномалий, специфичных для модальности. Наконец, Повторное Оценивание с Ограниченным Соседством (RsCon) подавляет ложную классификацию на основе сходства с более репрезентативными образцами. Наш фреймворк гибко работает как с полным набором данных, так и с малыми подвыборками, демонстрируя стабильно robustную производительность и обеспечивая беспрепятственную адаптируемость к различным производственным линиям. Благодаря новой архитектуре MuSc-V2 достигает значительного улучшения производительности: прирост +23.7% AP на наборе данных MVTec 3D-AD и увеличение на +19.3% на наборе данных Eyecandies, превосходя предыдущие zero-shot ориентиры и даже опережая большинство few-shot методов. Код будет доступен по адресу https://github.com/HUST-SLOW/MuSc-V2.