Ежедневно отобранные исследовательские статьи по ИИ с переводами
Систематически мы исследуем широко обсуждаемый вопрос: Действительно ли LLM понимают то, что они говорят?, что связано с более знакомым термином Стохастический Попугай. Для этой цели мы предлагаем суммативную оценку на тщательно разработанной задаче понимания физического концепта, PhysiCo. Наша задача уменьшает проблему запоминания путем использования входных данных в виде сетки, которые абстрактно описывают физические явления. Сетки представляют различные уровни понимания, от основного явления, примеров применения до аналогий с другими абстрактными шаблонами в мире сеток. Комплексное исследование нашей задачи демонстрирует: (1) LLM последнего поколения, включая GPT-4o, o1 и Gemini 2.0 flash thinking, отстают от людей примерно на ~40%; (2) феномен стохастического попугая присутствует у LLM, поскольку они терпят неудачу в нашей задаче на сетке, но могут хорошо описывать и распознавать те же концепции на естественном языке; (3) наша задача представляет для LLM вызов из-за внутренних трудностей, а не из-за незнакомого формата сетки, поскольку контекстное обучение и настройка на тех же данных в формате добавили мало к их производительности.
В современных больших моделях языка (LLM) обработка очень длинных контекстов представляет существенные вызовы, так как это приводит к замедлению скорости вывода и увеличению затрат памяти. Кроме того, большинство существующих предварительно обученных LLM не способны обобщать за пределы их исходных длин последовательностей обучения. Для обеспечения эффективного и практичного использования длинных контекстов мы представляем InfiniteHiP, новую и практичную инферентную платформу LLM, которая ускоряет обработку путем динамического устранения нерелевантных токенов контекста с помощью модульного иерархического алгоритма обрезки токенов. Наш метод также позволяет обобщать к более длинным последовательностям путем выборочного применения различных методов коррекции RoPE в соответствии с внутренними образцами внимания в LLM. Кроме того, мы выгружаем кэш ключ-значение в оперативную память хоста во время вывода, что значительно снижает давление на память GPU. В результате InfiniteHiP позволяет обрабатывать до 3 миллионов токенов на одном GPU L40s 48GB - в 3 раза больше - без постоянной потери контекстной информации. Наша платформа достигает ускорения в 18,95 раз в декодировании внимания для контекста из 1 миллиона токенов без дополнительного обучения. Мы реализуем наш метод в рамках SGLang и демонстрируем его эффективность и практичность через обширные оценки.
Крупномасштабные текстовые кодировщики в моделях диффузии текста в изображение (T2I) продемонстрировали исключительную производительность в генерации высококачественных изображений по текстовым подсказкам. В отличие от модулей шумоподавления, которые зависят от множественных итеративных шагов, текстовые кодировщики требуют лишь одного прямого прохода для создания текстовых вложений. Однако, несмотря на их минимальный вклад в общее время вывода и операции с плавающей запятой (FLOPs), текстовые кодировщики требуют значительно большего объема памяти, до восьми раз больше, чем модули шумоподавления. Для решения этой неэффективности мы предлагаем слои Пропуска и Повторного использования (Skrr), простую, но эффективную стратегию обрезки, специально разработанную для текстовых кодировщиков в моделях диффузии T2I. Skrr использует встроенную избыточность в блоках трансформера путем выборочного пропуска или повторного использования определенных слоев специально под задачи T2I, тем самым уменьшая потребление памяти без ущерба производительности. Обширные эксперименты показывают, что Skrr сохраняет качество изображения, сравнимое с оригинальной моделью даже при высоких уровнях разреженности, превосходя существующие методы блочной обрезки. Более того, Skrr достигает передовой памяти эффективности, сохраняя производительность по множеству метрик оценки, включая FID, CLIP, DreamSim и оценки GenEval.
Недавние достижения в области техник диффузии подняли генерацию изображений и видео на невиданный уровень качества, значительно ускорив внедрение и применение генеративного искусственного интеллекта. Однако технология генерации 3D форм до сих пор отстает, ограниченная масштабом 3D данных, сложностью обработки 3D данных и недостаточным изучением передовых техник в области 3D. Существующие подходы к генерации 3D форм сталкиваются с существенными вызовами в области качества вывода, обобщающей способности и соответствия входным условиям. Мы представляем TripoSG, новую упрощенную парадигму диффузии формы, способную генерировать высококачественные 3D сетки с точным соответствием входным изображениям. Конкретно, мы предлагаем: 1) Большой прямоугольный потоковый трансформатор для генерации 3D форм, достигающий передового качества благодаря обучению на обширных данных высокого качества. 2) Гибридную стратегию обучения с учителем, объединяющую потери SDF, нормалей и эйконов для 3D VAE, достигая высококачественной производительности 3D реконструкции. 3) Пайплайн обработки данных для генерации 2 миллионов высококачественных 3D образцов, выделяя ключевые правила для качества и количества данных в обучении 3D генеративных моделей. Через комплексные эксперименты мы подтвердили эффективность каждого компонента в нашей новой структуре. Безупречная интеграция этих частей позволила TripoSG достичь передовой производительности в генерации 3D форм. Полученные 3D формы обладают улучшенной детализацией благодаря возможностям высокого разрешения и демонстрируют исключительную точность по отношению к входным изображениям. Более того, TripoSG демонстрирует улучшенную универсальность в генерации 3D моделей из различных стилей и содержания изображений, показывая сильные обобщающие способности. Для содействия прогрессу и инновациям в области генерации 3D, мы сделаем нашу модель общедоступной.
С увеличением количества публично доступных моделей, вероятно, существуют предварительно обученные онлайн-модели для большинства задач, которые требуют пользователи. Однако текущие методы поиска моделей являются примитивными, в основном основаны на текстовом поиске в документации, поэтому пользователи не могут найти соответствующие модели. В данной статье представлен ProbeLog, метод для извлечения классификационных моделей, способных распознавать целевое понятие, такое как "Собака", без доступа к метаданным модели или обучающим данным. В отличие от предыдущих методов исследования, ProbeLog вычисляет дескриптор для каждого выходного измерения (логита) каждой модели, наблюдая за ее реакциями на фиксированный набор входных данных (зондов). Наш метод поддерживает как поиск на основе логитов ("найти больше логитов как этот"), так и нулевой поиск на основе текста ("найти все логиты, соответствующие собакам"). Поскольку представления на основе исследования требуют нескольких дорогостоящих прямых проходов через модель, мы разработали метод, основанный на коллаборативной фильтрации, который снижает стоимость кодирования репозиториев в 3 раза. Мы демонстрируем, что ProbeLog достигает высокой точности извлечения как в задачах поиска в реальном мире, так и в тонкозернистых задачах поиска, и масштабируется для репозиториев полного размера.
Мы представляем SelfCite, новый метод самонадзора, который выравнивает LLM для генерации высококачественных, детализированных цитат на уровне предложения для высказываний в их сгенерированных ответах. Вместо того чтобы полагаться только на дорогостоящие и трудоемкие аннотации, SelfCite использует сигнал вознаграждения, предоставляемый самим LLM через абляцию контекста: если цитата необходима, удаление процитированного текста из контекста должно предотвратить тот же ответ; если достаточно, сохранение только процитированного текста должно сохранить тот же ответ. Это вознаграждение может направлять стратегию выбора лучшего из N во время вывода для значительного улучшения качества цитирования, а также использоваться в оптимизации предпочтений для прямой настройки моделей на генерацию лучших цитат. Эффективность SelfCite продемонстрирована увеличением значения F1 цитирования до 5,3 пункта на бенчмарке LongBench-Cite по пяти задачам длинноформатного вопросно-ответного моделирования.
Использование много-модальных крупных языковых моделей (MLLM) для создания воплощенных агентов представляет собой многообещающий подход к решению задач реального мира. В то время как языково-центрические воплощенные агенты привлекли значительное внимание, воплощенные агенты на основе MLLM остаются малоисследованными из-за отсутствия комплексных критериев оценки. Для устранения этого пробела мы представляем EmbodiedBench, обширную платформу для оценки воплощенных агентов, работающих на основе зрительных данных. EmbodiedBench включает: (1) разнообразный набор из 1 128 тестовых задач в четырех средах, включая задачи высокого уровня семантики (например, домашние дела) и задачи низкого уровня, требующие атомарных действий (например, навигация и манипуляции); и (2) шесть тщательно подобранных подмножеств, оценивающих ключевые возможности агента, такие как здравый смысл, понимание сложных инструкций, пространственное восприятие, зрительное восприятие и долгосрочное планирование. Проведя обширные эксперименты, мы оценили 13 ведущих проприетарных и открытых MLLM в рамках EmbodiedBench. Наши результаты показывают, что MLLM преуспевают в задачах высокого уровня, но испытывают трудности с низкоуровневыми манипуляциями, причем лучшая модель, GPT-4o, в среднем набрала всего 28,9%. EmbodiedBench предоставляет многоаспектную стандартизированную платформу для оценки, которая не только выделяет существующие проблемы, но также предлагает ценные идеи для развития воплощенных агентов на основе MLLM. Наш код доступен по ссылке https://embodiedbench.github.io.
Данный документ исследует методики выбора данных и объединения моделей с целью интеграции продвинутых возможностей рассуждения, таких как у DeepSeek R1, в языко-специфические большие языковые модели (LLM), с особым вниманием к тайской LLM. Наша цель - улучшить возможности рассуждения языко-специфических LLM, сохраняя их языковые возможности. DeepSeek R1 выделяется в рассуждениях, но в основном приносит пользу языкам с высокими ресурсами, таким как английский и китайский. Однако языки с низкими ресурсами остаются недооцененными из-за доминирования англо-центричных данных обучения и оптимизации моделей, что снижает производительность в этих языках. Это ограничение приводит к ненадежному переключению кода и уменьшению эффективности на задачах в языках с низкими ресурсами. Тем временем местные и региональные инициативы по LLM пытались заполнить эту пропасть, разрабатывая языко-специфические LLM, сосредотачиваясь на улучшении местной лингвистической достоверности. Мы демонстрируем, что с использованием только общедоступных наборов данных и бюджета в размере 120 долларов США возможно улучшить возможности рассуждения языко-специфических LLM до уровня DeepSeek R1, не ухудшая их производительность на задачах целевого языка.
Агенты, имитирующие язык (RPLA), стали перспективными приложениями для больших языковых моделей (LLM). Однако моделирование установленных персонажей представляет собой сложную задачу для RPLA из-за отсутствия аутентичных наборов данных о персонажах и тонких методов оценки с использованием таких данных. В данной статье мы представляем CoSER, коллекцию высококачественного набора данных, открытых моделей и протокола оценки для эффективных RPLA установленных персонажей. Набор данных CoSER охватывает 17 966 персонажей из 771 известной книги. Он предоставляет аутентичные диалоги с реальными тонкостями мира, а также разнообразные типы данных, такие как настройки беседы, переживания персонажей и внутренние мысли. Изучая методы актерского мастерства, мы представляем актёрское моделирование по обстоятельствам для обучения и оценки агентов RPLA, где LLM последовательно изображают несколько персонажей в сценах книг. Используя наш набор данных, мы разрабатываем CoSER 8B и CoSER 70B, т.е. передовые открытые агенты RPLA, построенные на моделях LLaMA-3.1. Обширные эксперименты демонстрируют ценность набора данных CoSER для обучения, оценки и поиска RPLA. Более того, CoSER 70B демонстрирует современные достижения, превосходящие или соответствующие GPT-4o в нашей оценке и трех существующих бенчмарках, т.е. достигая 75,80% и 93,47% точности на бенчмарках InCharacter и LifeChoice соответственно.
Ответы на вопросы с использованием цепочки мыслей (CoT) значительно улучшили способности к рассуждению крупных языковых моделей (LLM), однако их влияние на крупные мультимодальные модели (LMM) до сих пор не имеет систематической оценки и глубокого исследования. В данной статье мы представляем MME-CoT, специализированный бенчмарк для оценки способности к рассуждению с использованием CoT у LMM, охватывающий шесть областей: математику, науку, OCR, логику, пространство-время и общие сцены. Как первое всестороннее исследование в этой области, мы предлагаем тщательный набор оценочных метрик, оценивающих качество, устойчивость и эффективность рассуждений на более детальном уровне. Используя отобранные высококачественные данные и уникальную стратегию оценки, мы проводим глубокий анализ передовых LMM, выявляя несколько ключевых идей: 1) Модели с механизмом отражения демонстрируют превосходное качество CoT, причем Kimi k1.5 превосходит GPT-4o и показывает лучшие результаты качества; 2) Применение CoT-подсказок часто снижает производительность LMM на задачах, требующих восприятия, что указывает на потенциально вредное поведение излишнего размышления; и 3) Хотя качество CoT высоко, LMM с механизмом отражения проявляют значительную неэффективность как в обычной реакции, так и на этапе самокоррекции. Мы надеемся, что MME-CoT послужит основой для развития мультимодального рассуждения в LMM. Страница проекта: https://mmecot.github.io/
Архитектуры без кодировщика были предварительно исследованы в визуальной области 2D, однако остается открытым вопрос, могут ли они быть эффективно применены в сценариях понимания 3D. В данной статье мы представляем первое всестороннее исследование потенциала архитектур без кодировщика для преодоления вызовов, связанных с 3D Большими Мультимодальными Моделями (LMMs) на основе кодировщика. Эти вызовы включают невозможность адаптации к различным разрешениям облаков точек и недостаточное соответствие точечных признаков от кодировщика семантическим потребностям Больших Языковых Моделей (LLMs). Мы выявляем ключевые аспекты для 3D LMMs для удаления кодировщика и позволяем LLM занять место 3D кодировщика: 1) Мы предлагаем стратегию Семантического Кодирования с внедренным LLM на этапе предварительного обучения, исследуя эффекты различных потерь самонадзора для облаков точек. И мы представляем Гибридную Семантическую Потерю для извлечения высокоуровневой семантики. 2) Мы вводим стратегию Иерархической Геометрической Агрегации на этапе настройки инструкций. Это включает индуктивный биас в ранние слои LLM для фокусировки на локальных деталях облаков точек. В конечном итоге мы представляем первую 3D LMM без кодировщика, ENEL. Наша модель 7B не уступает текущей передовой модели, ShapeLLM-13B, достигая 55,0%, 50,92% и 42,7% по задачам классификации, подписывания и VQA соответственно. Наши результаты демонстрируют, что архитектура без кодировщика обещает заменить архитектуры на основе кодировщика в области понимания 3D. Код доступен по ссылке https://github.com/Ivan-Tang-3D/ENEL
С появлением продвинутых моделей рассуждения, таких как OpenAI o3 и DeepSeek-R1, большие языковые модели (LLM) продемонстрировали выдающиеся способности к рассуждениям. Однако их способность к проведению строгого логического рассуждения остается открытым вопросом. Этот обзор синтезирует последние достижения в логическом рассуждении в рамках LLM, критической области исследований в области искусственного интеллекта. Он определяет объем логического рассуждения в LLM, его теоретические основы и бенчмарки, используемые для оценки профессионализма в рассуждениях. Мы анализируем существующие возможности в различных парадигмах рассуждения - дедуктивном, индуктивном, абдуктивном и аналогичном - и оцениваем стратегии для улучшения производительности в рассуждениях, включая настройку на основе данных, обучение с подкреплением, стратегии декодирования и нейросимволические подходы. Обзор завершается перспективами развития, акцентируя внимание на необходимости дальнейшего исследования для укрепления логического рассуждения в системах искусственного интеллекта.
В быстро развивающейся области обработки естественного языка крупные языковые модели (LLM) сталкиваются с все более сложными задачами рассуждения. Традиционные методы, такие как цепочка вопросов, показали свою перспективность, но часто не используют полностью возможности модели в рассуждениях. В данной статье представлена техника под названием SQuARE (Sequential Question Answering Reasoning Engine), новый метод подсказок, разработанный для улучшения рассуждений через парадигму самоподроста. На основе фреймворков CoT, SQuARE подталкивает модели к генерации и разрешению нескольких вспомогательных вопросов перед решением основного запроса, способствуя более тщательному исследованию различных аспектов темы. Наши обширные оценки, проведенные с моделями Llama 3 и GPT-4o на нескольких наборах данных вопросов и ответов, показывают, что SQuARE значительно превосходит традиционные подсказки CoT и существующие методы перефразирования и ответа. Путем систематического декомпозирования запросов SQuARE продвигает возможности LLM в задачах рассуждения. Код общедоступен по адресу https://github.com/IntelLabs/RAG-FiT/tree/square.
Эта статья представляет Typhoon T1, открытое усилие по разработке открытой тайской модели рассуждений. Модель рассуждений - это относительно новый тип генеративной модели, построенный на основе крупных языковых моделей (LLM). Модель рассуждений генерирует длинную цепочку мыслей перед получением окончательного ответа, подход, который улучшает производительность на сложных задачах. Однако детали разработки такой модели ограничены, особенно для моделей рассуждений, способных генерировать следы на языке с ограниченными ресурсами. Typhoon T1 представляет открытое усилие, которое углубляется в детали разработки модели рассуждений более экономичным способом, используя надзорное дообучение на открытых наборах данных, вместо обучения с подкреплением. В этой статье мы делимся деталями о генерации синтетических данных и обучении, а также нашими наборами данных и весами модели. Кроме того, мы предоставляем исследовательские выводы, полученные при разработке модели рассуждений, которая обобщается на различные области и способна генерировать следы рассуждений на языке с ограниченными ресурсами, используя тайский язык в качестве примера. Мы надеемся, что это открытое усилие создаст основу для дальнейших исследований в этой области.
Цепочка мыслей значительно улучшает способность модели к рассуждениям, но также сопряжена с значительным увеличением стоимости вывода из-за длинных цепочек. Учитывая, что путь рассуждений легко сжимается при выполнении простых задач, но затруднен при выполнении сложных задач, мы исследуем возможность эластичного контроля длины путей рассуждений с помощью одной модели, тем самым уменьшая накладные расходы на вывод рассуждающих моделей динамически в зависимости от сложности задачи. Мы представляем новую стратегию настройки и вывода под названием CoT-Valve, разработанную для того, чтобы позволить моделям генерировать цепочки рассуждений различной длины. Для достижения этой цели мы предлагаем выявить направление в пространстве параметров, которое, при манипулировании, может эффективно контролировать длину созданных цепочек мыслей. Более того, мы показываем, что эта особенность ценна для сжатия цепочки рассуждений. Мы создаем наборы данных с цепочками от длинных до коротких для одних и тех же вопросов и исследуем две улучшенные стратегии для CoT-Valve: (1) точный метод настройки CoT с возможностью сжатия длины и (2) пошаговый подход к сжатию длины цепочки. Наши эксперименты показывают, что CoT-Valve успешно обеспечивает управляемость и сжимаемость цепочки и демонстрирует лучшую производительность, чем управление на основе подсказок. Мы применили этот метод к QwQ-32B-Preview, сократив цепочки рассуждений на GSM8K с 741 до 225 токенов с незначительным снижением производительности (с 95.07% до 94.92%) и на AIME с 6827 до 4629 токенов, с только одним дополнительным неверным ответом.
Модели мультимодальных вложений привлекли значительное внимание благодаря своей способности отображать данные из различных модальностей, таких как текст и изображения, в единое пространство представлений. Однако ограниченное количество размеченных мультимодальных данных часто затрудняет производительность вложений. Недавние подходы использовали синтез данных для решения этой проблемы, однако качество синтетических данных остается критическим узким местом. В данной работе мы выделяем три критерия для синтетических мультимодальных данных высокого качества. Во-первых, широкий охват гарантирует, что сгенерированные данные охватывают разнообразные задачи и модальности, что делает их применимыми к различным последующим сценариям. Во-вторых, устойчивая кросс-модальная выравнивание делает различные модальности семантически согласованными. В-третьих, высокая достоверность обеспечивает, что синтетические данные сохраняют реалистичные детали для улучшения их надежности. Руководствуясь этими принципами, мы синтезируем наборы данных, которые: (1) охватывают широкий спектр задач, комбинаций модальностей и языков, (2) генерируются с помощью глубокого мышления в рамках одного прохода мультиязычной модели большого размера, и (3) включают реальные изображения с точными и соответствующими текстами, обеспечивая достоверность через самооценку и усовершенствование. Используя эти высококачественные синтетические и размеченные наборы данных, мы обучаем мультиязычную мультимодальную модель E5 mmE5. Обширные эксперименты показывают, что mmE5 достигает передовой производительности на бенчмарке MMEB и превосходной мультиязычной производительности на бенчмарке XTD. Наши коды, наборы данных и модели доступны по ссылке https://github.com/haon-chen/mmE5.
Мы решаем задачу разработки обобщаемого нейронного контроллера отслеживания для ловкого манипулирования по образцу человеческих движений. Этот контроллер направлен на управление ловкой манипуляцией роботической руки для манипулирования разнообразными объектами для различных целей, определенных кинематическими взаимодействиями человек-объект. Разработка такого контроллера осложнена сложной динамикой контакта ловкого манипулирования и необходимостью адаптивности, обобщаемости и надежности. Нынешние методы обучения с подкреплением и оптимизации траектории часто оказываются недостаточными из-за зависимости от задачно-специфических вознаграждений или точных моделей системы. Мы представляем подход, который отбирает большое количество успешных демонстраций отслеживания робота, включающих пары человеческих образцов и действий робота, для обучения нейронного контроллера. Используя цикл данных, мы итеративно улучшаем производительность контроллера, а также количество и качество успешных демонстраций отслеживания. Мы используем доступные демонстрации отслеживания и тщательно интегрируем обучение с подкреплением и обучение по подражанию для улучшения производительности контроллера в динамических средах. В то же время, для получения высококачественных демонстраций отслеживания, мы индивидуально оптимизируем отслеживание для каждой траектории, используя изученный контроллер отслеживания в методе оптимизации гомотопии. Оптимизация гомотопии, имитируя цепочку мыслей, помогает решать сложные проблемы отслеживания траекторий для увеличения разнообразия демонстраций. Мы продемонстрировали наш успех, обучив обобщаемый нейронный контроллер и оценив его как в симуляции, так и в реальном мире. Наш метод достигает более чем 10% улучшения показателей успеха по сравнению с ведущими базовыми уровнями. Веб-сайт проекта с анимированными результатами доступен по адресу https://meowuu7.github.io/DexTrack/.
Математическое рассуждение в больших языковых моделях (LLM) часто оценивается с использованием бенчмарков с ограниченными числовыми диапазонами, что не отражает реальное решение проблем на различных масштабах. Более того, большинство существующих методов оценки сравнивают выходные данные модели с эталонными ответами, затрудняя понимание процессов рассуждения. Для преодоления этих ограничений мы представляем GSM-Ranges, генератор набора данных, производный от GSM8K, который систематически изменяет числовые значения в математических задачах для оценки устойчивости модели на различных числовых масштабах. Кроме того, мы предлагаем новую методологию оценки, которая различает логические и нелогические ошибки, предлагая более точную оценку процессов рассуждения за пределами вычислительной точности. Наши эксперименты с различными моделями показывают значительное увеличение доли логических ошибок - до 14 процентных пунктов - с ростом числовой сложности, демонстрируя общее слабое место в рассуждениях с числами, не входящими в распределение. Более того, хотя модели демонстрируют высокую точность в отдельных арифметических задачах, их производительность существенно ухудшается, когда вычисления встраиваются в словесные задачи. Эти результаты обеспечивают всестороннюю оценку математических способностей LLM и определяют направления для дальнейших исследований по улучшению числовой обобщенности в языковых моделях.
Создание магии и иллюзий является одним из самых захватывающих аспектов кинопроизводства, при этом визуальные эффекты (VFX) выступают мощным двигателем захватывающих кинематографических впечатлений. В то время как недавние достижения в области генеративного искусственного интеллекта способствовали прогрессу в области синтеза общих изображений и видео, область генерации управляемых визуальных эффектов остается относительно недоисследованной. В данной работе мы предлагаем новую парадигму для создания анимированных визуальных эффектов в качестве анимации изображений, где динамические эффекты генерируются из удобных для пользователя текстовых описаний и статических исходных изображений. Наша работа вносит два основных вклада: (i) Open-VFX, первый набор данных видеороликов высокого качества с 15 различными категориями эффектов, аннотированный текстовыми описаниями, масками сегментации экземпляров для пространственного условионирования и временными метками начала и конца для управления временем. (ii) VFX Creator, простая, но эффективная рамочная система для создания управляемых визуальных эффектов на основе Video Diffusion Transformer. Модель включает пространственный и временной управляемый адаптер LoRA, требующий минимального количества обучающих видеороликов. В частности, модуль управления масками "plug-and-play" позволяет манипулировать пространственно на уровне экземпляров, а временные метки начала и конца, внедренные в процесс диффузии, наряду с текстовым кодировщиком, обеспечивают точный контроль над временем и темпом эффекта. Обширные эксперименты на тестовом наборе данных Open-VFX демонстрируют превосходство предложенной системы в создании реалистичных и динамичных эффектов, достигая передовых показателей производительности и обобщающей способности как в пространственном, так и во временном управлении. Более того, мы представляем специализированную метрику для оценки точности временного контроля. Соединяя традиционные техники визуальных эффектов с генеративными подходами, VFX Creator открывает новые возможности для эффективного и высококачественного создания видеоэффектов, делая передовые визуальные эффекты доступными для более широкой аудитории.
Латентная трехмерная реконструкция показала большой потенциал в обеспечении трехмерного семантического понимания и генерации за счет конденсации двумерных признаков в трехмерное пространство. Однако существующие подходы испытывают трудности из-за разрыва между двумерным пространством признаков и трехмерными представлениями, что приводит к ухудшению качества визуализации. Для решения этой проблемы мы предлагаем новую структуру, которая интегрирует трехмерное понимание в двумерное латентное пространство. Структура состоит из трех этапов: (1) метод автоэнкодирования, учитывающий соответствие, который улучшает трехмерную согласованность двумерных представлений, (2) латентное поле яркости (LRF), которое переносит эти трехмерно осознанные двумерные представления в трехмерное пространство, и (3) стратегия выравнивания VAE-Radiance Field (VAE-RF), которая улучшает декодирование изображений из отрендеренных двумерных представлений. Обширные эксперименты показывают, что наш метод превосходит современные подходы к латентной трехмерной реконструкции по показателям синтеза и обобщаемости между различными наборами данных внутри помещений и на открытом воздухе. На наш взгляд, это первая работа, демонстрирующая, что представления поля яркости, построенные на основе двумерных латентных представлений, могут обеспечить фотореалистичную трехмерную реконструкцию.
Промышленное обнаружение аномалий достигает прогресса благодаря наборам данных, таким как MVTec-AD и VisA. Однако они сталкиваются с ограничениями в виде количества образцов дефектов, типов дефектов и доступности реальных сцен. Эти ограничения препятствуют исследователям дальнейшего изучения производительности промышленного обнаружения с более высокой точностью. В этой связи мы предлагаем новый масштабный набор данных для обнаружения аномалий под названием 3CAD, который происходит из реальных производственных линий 3C. В частности, предложенный 3CAD включает в себя восемь различных типов изготовленных деталей, общим числом 27 039 изображений высокого разрешения, помеченных аномалиями на уровне пикселей. Основные особенности 3CAD заключаются в том, что он охватывает аномальные области различных размеров, несколько типов аномалий, а также возможность наличия нескольких аномальных областей и нескольких типов аномалий на одном аномальном изображении. Это самый крупный и первый набор данных для обнаружения аномалий, посвященный контролю качества продукции 3C для исследований и разработок в сообществе. Тем временем мы представляем простую, но эффективную структуру для неконтролируемого обнаружения аномалий: парадигму обнаружения от грубого к точному с руководством восстановления (CFRG). Для обнаружения маленьких дефектных аномалий предложенный CFRG использует парадигму обнаружения от грубого к точному. Конкретно, мы используем гетерогенную модель дистилляции для грубой локализации, а затем точную локализацию через модель сегментации. Кроме того, для лучшего захвата нормальных паттернов мы вводим признаки восстановления в качестве руководства. Наконец, мы представляем результаты нашей структуры CFRG и популярных методов обнаружения аномалий на наборе данных 3CAD, демонстрируя сильную конкурентоспособность и предоставляя высоко вызывающий бенчмарк для поощрения развития области обнаружения аномалий. Данные и код доступны по ссылке: https://github.com/EnquanYang2022/3CAD.