Ежедневно отобранные исследовательские статьи по ИИ с переводами
Вдохновленные успехом DeepSeek-R1 в раскрытии способностей к рассуждению с помощью обучения с подкреплением (RL) на основе правил, мы представляем Video-R1 как первую попытку систематического исследования парадигмы R1 для раскрытия способностей к видео-рассуждению в мультимодальных больших языковых моделях (MLLMs). Однако прямое применение RL-обучения с алгоритмом GRPO для видео-рассуждений сталкивается с двумя основными проблемами: (i) отсутствие временного моделирования для видео-рассуждений и (ii) недостаток высококачественных данных для видео-рассуждений. Для решения этих проблем мы сначала предлагаем алгоритм T-GRPO, который побуждает модели использовать временную информацию в видео для рассуждений. Кроме того, вместо полного reliance на видео-данные, мы включаем в процесс обучения высококачественные данные для рассуждений на основе изображений. Мы создали два набора данных: Video-R1-COT-165k для холодного старта SFT и Video-R1-260k для RL-обучения, оба включающие данные изображений и видео. Экспериментальные результаты показывают, что Video-R1 достигает значительных улучшений на бенчмарках для видео-рассуждений, таких как VideoMMMU и VSI-Bench, а также на общих видео-бенчмарках, включая MVBench и TempCompass и др. Примечательно, что Video-R1-7B достигает точности 35,8% на бенчмарке для пространственных видео-рассуждений VSI-bench, превосходя коммерческую проприетарную модель GPT-4o. Все коды, модели и данные опубликованы.
Эпоха интеллектуальных агентов наступила благодаря революционным достижениям в области больших языковых моделей (LLM). Агенты на основе LLM, обладающие целеориентированным поведением и способностью к динамической адаптации, потенциально представляют собой важный шаг на пути к созданию искусственного общего интеллекта. В данном обзоре систематически анализируются системы LLM-агентов с использованием методологически-ориентированной таксономии, связывающей архитектурные основы, механизмы взаимодействия и эволюционные пути. Мы объединяем разрозненные направления исследований, раскрывая фундаментальные связи между принципами проектирования агентов и их возникающим поведением в сложных средах. Наша работа предлагает единую архитектурную перспективу, рассматривая, как агенты создаются, взаимодействуют и эволюционируют со временем, а также затрагивает методологии оценки, применение инструментов, практические вызовы и разнообразные области применения. Обзор последних достижений в этой быстро развивающейся области предоставляет исследователям структурированную таксономию для понимания LLM-агентов и выделяет перспективные направления для будущих исследований. Коллекция доступна по адресу https://github.com/luo-junyu/Awesome-Agent-Papers.
Недавняя модель DeepSeek-R1 продемонстрировала появление способностей к рассуждению в крупных языковых моделях (LLM) благодаря обучению с подкреплением (RL) с использованием правил для начисления наград. Развивая эту идею, мы впервые исследуем, как RL на основе правил может улучшить способности к рассуждению мультимодальных крупных языковых моделей (MLLM) для задач прогнозирования действий в графических пользовательских интерфейсах (GUI). Для этого мы создали небольшой, но высококачественный набор данных, включающий 136 сложных задач, охватывающих пять типов распространенных действий на мобильных устройствах. Мы также вводим унифицированную систему наград для действий на основе правил, что позволяет оптимизировать модель с помощью алгоритмов, основанных на политиках, таких как Group Relative Policy Optimization (GRPO). Результаты экспериментов показывают, что наша предложенная модель, эффективная по данным UI-R1-3B, достигает значительных улучшений как на задачах внутри домена (ID), так и за его пределами (OOD). В частности, на тестовом наборе AndroidControl (ID) точность определения типа действий увеличивается на 15%, а точность локализации — на 10,3% по сравнению с базовой моделью (Qwen2.5-VL-3B). На тестовом наборе ScreenSpot-Pro (OOD) наша модель превосходит базовую на 6,0% и демонстрирует конкурентоспособные результаты с более крупными моделями (например, OS-Atlas-7B), которые обучались с помощью контролируемой тонкой настройки (SFT) на 76 тыс. данных. Эти результаты подчеркивают потенциал обучения с подкреплением на основе правил для улучшения понимания и управления GUI, открывая новые направления для будущих исследований в этой области.
В последние годы стремительное развитие крупных моделей логического вывода привело к насыщению существующих тестовых наборов для оценки математического мышления, что подчеркивает острую необходимость в более сложных и строгих рамках оценки. Для устранения этого пробела мы представляем OlymMATH — новый олимпиадный математический тестовый набор, разработанный для тщательной проверки сложных способностей к логическому выводу у крупных языковых моделей (LLM). OlymMATH включает 200 тщательно отобранных задач, каждая из которых вручную проверена и доступна в параллельных версиях на английском и китайском языках. Задачи систематически организованы в два уровня сложности: (1) задачи уровня AIME (легкие), которые устанавливают базовый уровень для оценки математического мышления, и (2) значительно более сложные задачи (тяжелые), призванные выйти за пределы возможностей современных передовых моделей. В нашем тестовом наборе эти задачи охватывают четыре ключевые области математики, каждая из которых включает проверяемое численное решение для обеспечения объективной, основанной на правилах оценки. Эмпирические результаты подчеркивают значительную сложность OlymMATH, при этом передовые модели, включая DeepSeek-R1 и OpenAI o3-mini, демонстрируют заметно ограниченную точность на сложном подмножестве задач. Кроме того, тестовый набор позволяет проводить всестороннюю двуязычную оценку способностей к математическому мышлению — критический аспект, который остается в значительной степени неохваченным в основных тестовых наборах для оценки математического мышления. Мы публикуем тестовый набор OlymMATH в рамках проекта STILL: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.
Генерация видео значительно продвинулась вперед, эволюционировав от создания нереалистичных результатов до генерации видео, которые выглядят визуально убедительными и временно согласованными. Для оценки этих моделей генерации видео были разработаны бенчмарки, такие как VBench, которые измеряют их достоверность, учитывая такие факторы, как эстетика каждого кадра, временная согласованность и базовое соответствие запросу. Однако эти аспекты в основном представляют поверхностную достоверность, которая фокусируется на том, выглядит ли видео визуально убедительным, а не на том, соответствует ли оно принципам реального мира. Хотя современные модели показывают все лучшие результаты по этим метрикам, они по-прежнему сталкиваются с трудностями в создании видео, которые не только визуально правдоподобны, но и фундаментально реалистичны. Для достижения настоящих "моделей мира" через генерацию видео следующая граница заключается в обеспечении внутренней достоверности, чтобы сгенерированные видео соответствовали физическим законам, здравому смыслу, анатомической корректности и композиционной целостности. Достижение такого уровня реализма крайне важно для приложений, таких как создание фильмов с помощью ИИ и моделирование виртуальных миров. Чтобы преодолеть этот разрыв, мы представляем VBench-2.0 — бенчмарк следующего поколения, предназначенный для автоматической оценки моделей генерации видео с точки зрения их внутренней достоверности. VBench-2.0 оценивает пять ключевых аспектов: достоверность человека, управляемость, креативность, физика и здравый смысл, каждый из которых разбит на более детализированные возможности. Наша система оценки, адаптированная для каждого аспекта, интегрирует универсальные инструменты, такие как современные модели обработки визуальных и языковых данных (VLMs и LLMs), и специализированные методы, включая подходы к обнаружению аномалий, предложенные для генерации видео. Мы проводим обширные аннотации, чтобы обеспечить соответствие человеческому суждению. Продвигаясь за пределы поверхностной достоверности к внутренней, VBench-2.0 стремится установить новый стандарт для следующего поколения моделей генерации видео, ориентированных на достижение внутренней достоверности.
Модели с расширенными возможностями рассуждений (Large Reasoning Models, LRMs) демонстрируют впечатляющие способности к рассуждениям, но в основном полагаются на параметрические знания, что ограничивает их фактическую точность. Хотя недавние работы оснащают LRMs, основанные на обучении с подкреплением (Reinforcement Learning, RL), возможностями поиска информации, они страдают от избыточного анализа и недостаточной устойчивости в рассуждениях, что снижает их эффективность в задачах ответов на вопросы (Question Answering, QA). Для решения этой проблемы мы предлагаем ReaRAG — модель рассуждений, усиленную с точки зрения фактической точности, которая исследует разнообразные запросы без избыточных итераций. Наше решение включает новую структуру построения данных с верхней границей длины цепочки рассуждений. В частности, мы сначала используем LRM для генерации обдуманных рассуждений, затем выбираем действие из предопределенного пространства действий (Поиск и Завершение). Для действия Поиск запрос выполняется в движке RAG, где результат возвращается как наблюдение для последующего руководства шагами рассуждений. Этот процесс повторяется до тех пор, пока не будет выбрано действие Завершение. Благодаря мощным возможностям рассуждений ReaRAG, наш подход превосходит существующие базовые методы в задачах многошагового QA. Дополнительный анализ подчеркивает её сильную рефлексивную способность распознавать ошибки и корректировать траекторию рассуждений. Наше исследование повышает фактическую точность LRMs, эффективно интегрируя устойчивые рассуждения в генерацию, усиленную поиском (Retrieval-Augmented Generation, RAG).
Мы представляем LeX-Art — комплексный набор инструментов для высококачественного синтеза текста и изображений, который систематически устраняет разрыв между выразительностью запросов и точностью визуализации текста. Наш подход следует парадигме, ориентированной на данные, и включает создание высококачественного конвейера синтеза данных на основе Deepseek-R1 для формирования LeX-10K — набора из 10 000 изображений с высоким разрешением 1024×1024, обладающих эстетической утонченностью. Помимо создания набора данных, мы разработали LeX-Enhancer — мощную модель обогащения запросов, а также обучили две модели для генерации изображений по тексту: LeX-FLUX и LeX-Lumina, достигшие передовых показателей в визуализации текста. Для систематической оценки генерации визуального текста мы представляем LeX-Bench — эталонный тест, оценивающий точность, эстетику и соответствие, дополненный новым метрическим показателем Pairwise Normalized Edit Distance (PNED) для надежной оценки точности текста. Эксперименты демонстрируют значительные улучшения: LeX-Lumina достигает увеличения PNED на 79,81% на CreateBench, а LeX-FLUX превосходит базовые модели по точности цветопередачи (+3,18%), позиционирования (+4,45%) и шрифтов (+3,81%). Наши коды, модели, наборы данных и демонстрация доступны публично.
Интерактивные портреты для видеозвонков в реальном времени всё чаще признаются как будущий тренд, особенно благодаря значительному прогрессу в технологиях текстового и голосового общения. Однако существующие методы в основном сосредоточены на генерации движений головы в реальном времени, но испытывают трудности с созданием синхронизированных движений тела, соответствующих этим движениям головы. Кроме того, достижение детального контроля над стилем речи и нюансами мимики остаётся сложной задачей. Для решения этих ограничений мы представляем новую структуру для стилизованной генерации портретных видео в реальном времени, обеспечивающую выразительное и гибкое видеозвонки, расширяющиеся от "говорящей головы" до взаимодействия с верхней частью тела. Наш подход состоит из двух этапов. Первый этап включает эффективные иерархические модели диффузии движений, которые учитывают как явные, так и неявные представления движений на основе аудиовходов, что позволяет генерировать разнообразные выражения лица с контролем стиля и синхронизацией движений головы и тела. Второй этап направлен на создание портретного видео с движениями верхней части тела, включая жесты рук. Мы внедряем явные сигналы управления руками в генератор для создания более детализированных движений рук и дополнительно выполняем уточнение лица для повышения общей реалистичности и выразительности портретного видео. Кроме того, наш подход поддерживает эффективную и непрерывную генерацию портретного видео верхней части тела с максимальным разрешением 512 * 768 и частотой до 30 кадров в секунду на GPU 4090, обеспечивая интерактивные видеозвонки в реальном времени. Экспериментальные результаты демонстрируют способность нашего подхода создавать портретные видео с богатой выразительностью и естественными движениями верхней части тела.
Представляем Lumina-Image 2.0 — усовершенствованную систему генерации изображений по тексту, которая демонстрирует значительный прогресс по сравнению с предыдущей версией, Lumina-Next. Lumina-Image 2.0 основана на двух ключевых принципах: (1) Унификация — она использует унифицированную архитектуру (Unified Next-DiT), которая рассматривает текстовые и визуальные токены как единую последовательность, обеспечивая естественное взаимодействие между модальностями и позволяя легко расширять функциональность. Кроме того, поскольку высококачественные системы описания изображений могут предоставить семантически согласованные пары текст-изображение для обучения, мы внедрили унифицированную систему описания, Unified Captioner (UniCap), специально разработанную для задач генерации изображений по тексту. UniCap превосходно справляется с созданием детальных и точных описаний, ускоряя сходимость обучения и улучшая соответствие генерируемых изображений запросам. (2) Эффективность — для повышения эффективности модели мы разработали многоэтапные стратегии прогрессивного обучения и внедрили методы ускорения вывода без ущерба для качества изображений. Масштабные оценки на академических бенчмарках и публичных платформах для генерации изображений по тексту показывают, что Lumina-Image 2.0 демонстрирует выдающиеся результаты даже при использовании всего 2,6 миллиардов параметров, подчеркивая её масштабируемость и эффективность проектирования. Мы опубликовали детали обучения, код и модели на сайте https://github.com/Alpha-VLLM/Lumina-Image-2.0.
Последние достижения в области моделей глубокого мышления продемонстрировали выдающиеся способности к рассуждению в математических и программистских задачах. Однако их эффективность в воплощённых доменах, требующих непрерывного взаимодействия с окружением через траектории, чередующие изображения и действия, остаётся в значительной степени неисследованной. Мы представляем Embodied Reasoner — модель, которая расширяет стиль рассуждений o1 на интерактивные задачи воплощённого поиска. В отличие от математического рассуждения, которое в основном опирается на логическую дедукцию, воплощённые сценарии требуют пространственного понимания, временного рассуждения и постоянного самоанализа на основе истории взаимодействий. Для решения этих задач мы синтезируем 9,3 тыс. согласованных траекторий "Наблюдение-Мысль-Действие", содержащих 64 тыс. интерактивных изображений и 90 тыс. разнообразных мыслительных процессов (анализ, пространственное рассуждение, рефлексия, планирование и проверка). Мы разрабатываем трёхэтапный процесс обучения, который постепенно улучшает способности модели через обучение с подражанием, самоисследование с помощью отбраковки выборок и самокоррекцию через настройку рефлексии. Оценка показывает, что наша модель значительно превосходит передовые модели визуального рассуждения, например, она превышает показатели OpenAI o1, o3-mini и Claude-3.7 на +9%, 24% и +13% соответственно. Анализ выявляет, что наша модель демонстрирует меньше повторных поисков и логических несоответствий, с особыми преимуществами в сложных задачах с длительным горизонтом. В реальных средах также наблюдается наше превосходство при меньшем количестве повторных поисков и случаев логической несогласованности.
Крупные языковые модели (LLM) продемонстрировали потенциал в оказании помощи научным исследованиям, однако их способность выдвигать качественные исследовательские гипотезы остаётся неизученной из-за отсутствия специализированного бенчмарка. Чтобы устранить этот пробел, мы представляем первый крупномасштабный бенчмарк для оценки LLM, включающий почти полный набор подзадач научного открытия: поиск вдохновения, составление гипотез и их ранжирование. Мы разрабатываем автоматизированную систему, которая извлекает ключевые компоненты — исследовательские вопросы, обзоры литературы, источники вдохновения и гипотезы — из научных статей в 12 дисциплинах, причём точность системы подтверждена экспертной проверкой. Чтобы избежать загрязнения данных, мы сосредоточились исключительно на статьях, опубликованных в 2024 году, что минимизирует их пересечение с данными, использованными для предварительного обучения LLM. Наша оценка показывает, что LLM успешно справляются с поиском вдохновения — задачей, выходящей за пределы их обучающего распределения, что указывает на их способность выявлять новые ассоциации знаний. Это позиционирует LLM как "шахты исследовательских гипотез", способные способствовать автоматизированному научному открытию, генерируя инновационные гипотезы в больших масштабах при минимальном вмешательстве человека.
Аудио-ориентированные большие языковые модели (AudioLLMs) получили широкое внимание и значительно улучшили производительность в задачах, связанных с аудио, таких как диалоги, понимание аудио и автоматическое распознавание речи (ASR). Несмотря на эти достижения, отсутствует эталонный тест для оценки AudioLLMs в финансовых сценариях, где аудиоданные, такие как конференц-звонки о финансовых результатах и выступления генеральных директоров, являются важными ресурсами для финансового анализа и инвестиционных решений. В данной статье мы представляем FinAudio — первый эталонный тест, разработанный для оценки возможностей AudioLLMs в финансовой области. Сначала мы определяем три задачи, основанные на уникальных характеристиках финансовой сферы: 1) ASR для коротких финансовых аудиозаписей, 2) ASR для длинных финансовых аудиозаписей и 3) суммаризация длинных финансовых аудиозаписей. Затем мы создаем два набора данных для коротких и два для длинных аудиозаписей, а также разрабатываем новый набор данных для суммаризации финансовых аудиозаписей, составляющих эталонный тест FinAudio. Далее мы оцениваем семь популярных AudioLLMs на FinAudio. Наша оценка выявляет ограничения существующих AudioLLMs в финансовой области и предлагает рекомендации для их улучшения. Все наборы данных и коды будут опубликованы.
Мы исследуем, как повысить физическую достоверность моделей генерации видео, используя синтетические видео, созданные с помощью графических конвейеров. Эти визуализированные видео соответствуют законам реального мира, например, сохраняют 3D-согласованность, и представляют собой ценный ресурс, который может потенциально улучшить модели генерации видео. Чтобы реализовать этот потенциал, мы предлагаем решение, которое отбирает и интегрирует синтетические данные, одновременно вводя метод передачи их физической реалистичности модели, что значительно снижает нежелательные артефакты. В ходе экспериментов на трех репрезентативных задачах, акцентирующих физическую согласованность, мы демонстрируем эффективность этого подхода в повышении физической достоверности. Хотя наша модель все еще не обладает глубоким пониманием физики, наша работа представляет одно из первых эмпирических доказательств того, что синтетические видео улучшают физическую достоверность в синтезе видео. Веб-сайт: https://kevinz8866.github.io/simulation/
Диффузионные модели демонстрируют выдающееся качество генерации, но сталкиваются с проблемой вычислительно затратного сэмплирования из-за неоптимальной дискретизации шагов. В то время как существующие работы сосредоточены на оптимизации направлений удаления шума, мы предлагаем принципиальный подход к проектированию расписаний шагов. В данной статье представлен метод Оптимальной Дистилляции Шагов — фреймворк динамического программирования, который извлекает теоретически оптимальные расписания, дистиллируя знания из референсных траекторий. Переформулируя оптимизацию шагов как рекурсивную минимизацию ошибки, наш метод гарантирует глобальные границы дискретизации за счет использования оптимальной подструктуры. Важно отметить, что полученные расписания демонстрируют высокую устойчивость к различным архитектурам, решателям ОДУ и расписаниям шума. Эксперименты показывают ускорение генерации текста в изображение в 10 раз при сохранении 99,4% производительности на GenEval. Наш код доступен по адресу https://github.com/bebebe666/OptimalSteps.
Последние достижения в области генерации видео демонстрируют значительный прогресс, особенно благодаря быстрому развитию диффузионных моделей. Однако их недостатки в физическом восприятии постепенно привлекают всё больше внимания — создаваемый контент часто нарушает фундаментальные законы физики, попадая в ловушку «визуального реализма, но физического абсурда». Исследователи всё чаще осознают важность физической достоверности в генерации видео и пытаются интегрировать эвристическое физическое восприятие, такое как представления движения и физические знания, в генеративные системы для моделирования реальных динамических сценариев. Учитывая отсутствие систематического обзора в этой области, данная работа ставит целью восполнить этот пробел, предоставив всесторонний обзор архитектурных решений и их применений. В частности, мы обсуждаем и систематизируем эволюцию физического восприятия в генерации видео с точки зрения когнитивной науки, предлагая трехуровневую таксономию: 1) базовое восприятие схем для генерации, 2) пассивное восприятие физических знаний для генерации и 3) активное восприятие для моделирования мира, охватывая современные методы, классические парадигмы и бенчмарки. Далее мы подчеркиваем ключевые вызовы в этой области и намечаем потенциальные направления для будущих исследований, способствуя продвижению дискуссии как в академических кругах, так и в индустрии. Благодаря структурированному обзору и междисциплинарному анализу, данная работа стремится предоставить направляющие рекомендации для разработки интерпретируемых, управляемых и физически согласованных парадигм генерации видео, тем самым продвигая генеративные модели от этапа «визуального подражания» к новой фазе «человекоподобного физического понимания».
Модели семантической сегментации с открытым словарем связывают визуальные данные и текст для маркировки пикселей из неопределенного набора классов с использованием текстовых запросов, обеспечивая универсальную производительность на новых наборах данных. Однако значительные различия между обучающими и тестовыми доменами снижают их эффективность, что требует тонкой настройки для успешного применения в реальных условиях. Мы представляем Semantic Library Adaptation (SemLA) — новый фреймворк для адаптации к домену во время тестирования без дополнительного обучения. SemLA использует библиотеку адаптеров на основе LoRA, индексированных с помощью эмбеддингов CLIP, динамически объединяя наиболее релевантные адаптеры на основе близости к целевому домену в пространстве эмбеддингов. Этот подход создает специализированную модель для каждого конкретного входного данных без дополнительного обучения. Наш метод эффективно масштабируется, повышает объяснимость за счет отслеживания вклада адаптеров и обеспечивает защиту конфиденциальности данных, что делает его идеальным для чувствительных приложений. Комплексные эксперименты на бенчмарке из 20 доменов, созданном на основе 10 стандартных наборов данных, демонстрируют превосходную адаптивность и производительность SemLA в различных условиях, устанавливая новый стандарт в адаптации доменов для семантической сегментации с открытым словарем.
Многомодальные генеративные модели, способные понимать и генерировать данные в различных модальностях, в основном представлены авторегрессивными (AR) подходами, которые обрабатывают токены последовательно слева направо или сверху вниз. Эти модели совместно работают с изображениями, текстом, видео и аудио для решения различных задач, таких как создание подписей к изображениям, ответы на вопросы и генерация изображений. В данной работе мы исследуем дискретные диффузионные модели как унифицированную генеративную формулировку в совместной области текста и изображений, основываясь на их недавних успехах в генерации текста. Дискретные диффузионные модели предлагают несколько преимуществ перед AR-моделями, включая улучшенный контроль над качеством и разнообразием генерируемых образцов, возможность выполнения совместного многомодального восстановления (в областях текста и изображений) и большую управляемость в процессе генерации с использованием направляющих. Используя эти преимущества, мы представляем первую Унифицированную Многомодальную Дискретную Диффузионную модель (UniDisc), которая способна совместно понимать и генерировать текст и изображения для различных задач. Мы сравниваем UniDisc с многомодальными AR-моделями, проводя анализ масштабирования и демонстрируя, что UniDisc превосходит их по производительности, вычислительной эффективности на этапе вывода, улучшенной управляемости, редактируемости, восстановлению и гибкому балансу между временем вывода и качеством генерации. Код и дополнительные визуализации доступны по адресу https://unidisc.github.io.
В данной статье представлена заявка команды ZJUKLAB на участие в задаче SemEval-2025 Task 4: Удаление чувствительного контента из больших языковых моделей. Цель задачи заключается в избирательном удалении чувствительных знаний из больших языковых моделей, избегая как чрезмерного, так и недостаточного забывания. Мы предлагаем систему удаления, которая использует метод объединения моделей (в частности, TIES-Merging), комбинируя две специализированные модели в более сбалансированную модель с удаленными данными. Наша система демонстрирует конкурентоспособные результаты, занимая второе место среди 26 команд, с онлайн-оценкой 0.944 для Task Aggregate и 0.487 для общего Aggregate. В этой статье мы также проводим локальные эксперименты и выполняем всесторонний анализ процесса удаления, изучая траектории производительности, динамику потерь и перспективы весов, а также несколько дополнительных экспериментов, чтобы понять эффективность нашего метода. Кроме того, мы анализируем недостатки нашего метода и метрик оценки, подчеркивая, что оценки MIA и метрики на основе ROUGE сами по себе недостаточны для полной оценки успешного удаления. Наконец, мы подчеркиваем необходимость более комплексных методик оценки и переосмысления целей удаления в будущих исследованиях. Код доступен по адресу https://github.com/zjunlp/unlearn/tree/main/semeval25.
Последние достижения в области 2D и мультимодальных моделей позволили добиться значительных успехов благодаря масштабному обучению на обширных наборах данных. Однако перенос этих достижений для обеспечения свободного взаимодействия и выполнения семантических операций высокого уровня с комплексными 3D/4D сценами остается сложной задачей. Эта трудность обусловлена ограниченной доступностью крупномасштабных аннотированных 3D/4D или многовидовых наборов данных, которые имеют решающее значение для обобщаемых задач зрения и языка, таких как сегментация на основе открытого словаря и подсказок, редактирование с использованием языка и визуальный вопросно-ответный анализ (VQA). В данной работе мы представляем Feature4X — универсальную структуру, предназначенную для расширения функциональности любой 2D модели базового зрения в 4D пространство, используя только монокулярное видео, которое широко доступно в пользовательском контенте. "X" в Feature4X символизирует его универсальность, позволяя выполнять любую задачу через адаптируемое, обусловленное моделью дистиллирование 4D поля признаков. В основе нашей структуры лежит динамическая стратегия оптимизации, объединяющая несколько возможностей модели в единое представление. Кроме того, насколько нам известно, Feature4X является первым методом, который дистиллирует и переносит признаки моделей базового видео (например, SAM2, InternVideo2) в явное 4D поле признаков с использованием гауссовского разбрызгивания. Наши эксперименты демонстрируют сегментацию любого объекта в новых ракурсах, редактирование геометрии и внешнего вида сцены, а также свободный VQA на всех временных шагах, усиленные использованием больших языковых моделей (LLM) в обратных связях. Эти достижения расширяют область применения агентного ИИ, предоставляя основу для масштабируемых, контекстуально и пространственно-временно осознанных систем, способных к иммерсивному взаимодействию с динамическими 4D сценами.
Входные данные, вызывающие сбои, играют ключевую роль в диагностике и анализе программных ошибок. Отчёты об ошибках обычно содержат такие данные, которые разработчики извлекают для упрощения отладки. Поскольку отчёты об ошибках написаны на естественном языке, предыдущие исследования использовали различные методы обработки естественного языка (Natural Language Processing, NLP) для автоматического извлечения входных данных. С появлением крупных языковых моделей (Large Language Models, LLMs) возникает важный исследовательский вопрос: насколько эффективно генеративные LLM могут извлекать входные данные, вызывающие сбои, из отчётов об ошибках? В данной статье мы предлагаем LLPut — метод для эмпирической оценки производительности трёх открытых генеративных LLM (LLaMA, Qwen и Qwen-Coder) в извлечении релевантных входных данных из отчётов об ошибках. Мы проводим экспериментальную оценку на наборе данных из 206 отчётов об ошибках, чтобы оценить точность и эффективность этих моделей. Наши результаты дают представление о возможностях и ограничениях генеративных LLM в автоматической диагностике ошибок.
Временная согласованность имеет критическое значение в прогнозировании видео для обеспечения того, чтобы выходные данные были последовательными и свободными от артефактов. Традиционные методы, такие как временное внимание и 3D-свертка, могут испытывать трудности с обработкой значительного движения объектов и не всегда способны улавливать долгосрочные временные зависимости в динамических сценах. Для устранения этого пробела мы предлагаем слой Tracktention — новый архитектурный компонент, который явно интегрирует информацию о движении с использованием треков точек, то есть последовательностей соответствующих точек между кадрами. Включая эти сигналы движения, слой Tracktention улучшает временное выравнивание и эффективно справляется со сложными движениями объектов, сохраняя согласованные представления признаков во времени. Наш подход является вычислительно эффективным и может быть легко интегрирован в существующие модели, такие как Vision Transformers, с минимальными изменениями. Он позволяет модернизировать модели, предназначенные только для изображений, до современных моделей для видео, иногда превосходя модели, изначально разработанные для прогнозирования видео. Мы демонстрируем это на примере прогнозирования глубины видео и раскрашивания видео, где модели, дополненные слоем Tracktention, показывают значительно улучшенную временную согласованность по сравнению с базовыми методами.
Редактирование изображений на основе текстовых инструкций направлено на изменение определенных областей изображения в соответствии с естественными языковыми указаниями, сохраняя при этом общую структуру и фоновую достоверность. Существующие методы используют маски, полученные из карт кросс-внимания, сгенерированных моделями диффузии, для идентификации целевых областей, подлежащих изменению. Однако, поскольку механизмы кросс-внимания сосредоточены на семантической релевантности, они испытывают трудности с сохранением целостности изображения. В результате эти методы часто страдают от недостатка пространственной согласованности, что приводит к артефактам и искажениям при редактировании. В данной работе мы устраняем эти ограничения и представляем LOCATEdit, который улучшает карты кросс-внимания с помощью графового подхода, использующего отношения между патчами, полученные из механизмов самовнимания, для поддержания плавного и согласованного внимания между областями изображения. Это гарантирует, что изменения ограничиваются указанными объектами, сохраняя при этом окружающую структуру. \method стабильно и значительно превосходит существующие базовые методы на PIE-Bench, демонстрируя передовую производительность и эффективность в различных задачах редактирования. Код доступен по адресу https://github.com/LOCATEdit/LOCATEdit/.