Ежедневно отобранные исследовательские статьи по ИИ с переводами
Модели диффузии для супер-разрешения (SR) обеспечивают высококачественные визуальные результаты, но требуют значительных вычислительных затрат. Несмотря на разработку нескольких методов для ускорения SR-моделей на основе диффузии, некоторые из них (например, SinSR) не способны воспроизводить реалистичные детали, в то время как другие (например, OSEDiff) могут генерировать несуществующие структуры. Чтобы преодолеть эти проблемы, мы представляем RSD — новый метод дистилляции для ResShift, одной из ведущих SR-моделей на основе диффузии. Наш метод основан на обучении студенческой сети таким образом, чтобы она генерировала изображения, на которых обученная новая "поддельная" модель ResShift будет совпадать с учительской моделью. RSD обеспечивает восстановление за один шаг и значительно превосходит учительскую модель. Мы показываем, что наш метод дистилляции может превзойти другой метод дистилляции для ResShift — SinSR, делая его сопоставимым с современными методами дистилляции SR на основе диффузии. По сравнению с методами SR, основанными на предварительно обученных моделях текста в изображение, RSD обеспечивает конкурентоспособное воспринимаемое качество, предоставляет изображения с лучшим соответствием деградированным входным изображениям и требует меньше параметров и памяти GPU. Мы предоставляем экспериментальные результаты на различных реальных и синтетических наборах данных, включая RealSR, RealSet65, DRealSR, ImageNet и DIV2K.
Появление агентов на основе больших языковых моделей (LLM) представляет собой смену парадигмы в области ИИ, позволяя автономным системам планировать, рассуждать, использовать инструменты и поддерживать память при взаимодействии с динамическими средами. В данной статье представлен первый всесторонний обзор методологий оценки этих всё более способных агентов. Мы систематически анализируем эталонные тесты и фреймворки по четырём ключевым направлениям: (1) базовые способности агентов, включая планирование, использование инструментов, саморефлексию и память; (2) специализированные тесты для веб-агентов, агентов в области разработки программного обеспечения, научных и диалоговых агентов; (3) тесты для универсальных агентов; и (4) фреймворки для оценки агентов. Наш анализ выявляет новые тенденции, включая переход к более реалистичным и сложным оценкам с постоянно обновляемыми тестами. Мы также определяем ключевые пробелы, которые необходимо устранить в будущих исследованиях, особенно в оценке экономической эффективности, безопасности и устойчивости, а также в разработке детализированных и масштабируемых методов оценки. Этот обзор описывает быстро развивающуюся область оценки агентов, выявляет новые тенденции, определяет текущие ограничения и предлагает направления для будущих исследований.
Крупные языковые модели (LLM) продемонстрировали выдающиеся способности в решении сложных задач. Недавние достижения в области крупных моделей рассуждений (LRM), таких как OpenAI o1 и DeepSeek-R1, еще больше улучшили производительность в областях, требующих системного мышления (System-2), таких как математика и программирование, благодаря использованию методов контролируемого тонкого настройки (SFT) и обучения с подкреплением (RL) для улучшения цепочек рассуждений (CoT). Однако, хотя более длинные последовательности CoT повышают производительность, они также вносят значительные вычислительные издержки из-за многословных и избыточных выводов, что известно как "феномен чрезмерного мышления". В данной статье мы представляем первое структурированное исследование, систематически изучающее и анализирующее текущие достижения в области повышения эффективности рассуждений в LLM. Основываясь на внутренних механизмах LLM, мы классифицируем существующие работы по нескольким ключевым направлениям: (1) эффективное рассуждение на основе моделей, которое предполагает оптимизацию полномасштабных моделей рассуждений в более компактные или прямое обучение эффективных моделей рассуждений; (2) эффективное рассуждение на основе вывода, направленное на динамическое сокращение шагов и длины рассуждений во время вывода; (3) эффективное рассуждение на основе входных подсказок, которое стремится повысить эффективность рассуждений, учитывая свойства входных подсказок, такие как сложность или управление длиной. Кроме того, мы рассматриваем использование эффективных данных для обучения моделей рассуждений, исследуем способности к рассуждениям у небольших языковых моделей и обсуждаем методы оценки и бенчмаркинга.
В данной работе представлена методика для оценки того, содержат ли крупные языковые модели (LLM) в своих параметрах больше фактических знаний, чем они выражают в своих выводах. Хотя несколько исследований намекают на такую возможность, ни одно из них не дало четкого определения или демонстрации этого явления. Мы сначала предлагаем формальное определение знания, количественно оценивая его для заданного вопроса как долю пар правильных и неправильных ответов, где правильный ответ имеет более высокий рейтинг. Это приводит к понятиям внешнего и внутреннего знания, в зависимости от информации, используемой для оценки отдельных кандидатов на ответ: либо наблюдаемые вероятности на уровне токенов модели, либо ее промежуточные вычисления. Скрытое знание возникает, когда внутреннее знание превышает внешнее. Затем мы представляем кейс-стади, применяя эту методику к трем популярным LLM с открытыми весами в условиях закрытой книги (closed-book QA). Наши результаты показывают, что: (1) LLM последовательно содержат больше фактических знаний внутри, чем выражают внешне, со средним разрывом в 40%. (2) Удивительно, но некоторые знания настолько глубоко скрыты, что модель может идеально знать ответ внутри, но не сгенерировать его ни разу, несмотря на масштабное повторное сэмплирование 1000 ответов. Это выявляет фундаментальные ограничения в генерационных возможностях LLM, что (3) накладывает практическое ограничение на масштабирование вычислительных ресурсов во время тестирования через повторное сэмплирование ответов в условиях закрытой книги: значительные улучшения производительности остаются недоступными, потому что некоторые ответы практически никогда не выбираются, хотя если бы они были выбраны, мы гарантированно поставили бы их на первое место.
Улучшение способностей к рассуждению у крупных языковых моделей (LLM) обычно требует значительных вычислительных ресурсов и обширных наборов данных, что ограничивает доступность в условиях ограниченных ресурсов. Наше исследование изучает потенциал обучения с подкреплением (RL) для улучшения рассуждений в небольших LLM, сосредоточившись на модели с 1,5 миллиардами параметров, DeepSeek-R1-Distill-Qwen-1.5B, при строгих ограничениях: обучение на 4 GPU NVIDIA A40 (48 ГБ видеопамяти каждый) в течение 24 часов. Адаптировав алгоритм Group Relative Policy Optimization (GRPO) и создав компактный, высококачественный набор данных для математических рассуждений, мы провели три эксперимента для изучения поведения и производительности модели. Наши результаты демонстрируют быстрое улучшение способностей к рассуждению — например, точность на AMC23 возросла с 63% до 80%, а на AIME24 достигла 46,7%, превзойдя o1-preview — используя всего 7000 образцов и стоимость обучения в $42 по сравнению с тысячами долларов для базовых моделей. Однако с увеличением продолжительности обучения возникли такие проблемы, как нестабильность оптимизации и ограничения по длине. Эти результаты подчеркивают эффективность тонкой настройки на основе RL для небольших LLM, предлагая экономичную альтернативу крупномасштабным подходам. Мы публикуем наш код и наборы данных как открытые ресурсы, предоставляя понимание компромиссов и закладывая основу для масштабируемых, способных к рассуждению LLM в условиях ограниченных ресурсов. Все материалы доступны по адресу https://github.com/knoveleng/open-rs.
Физические системы искусственного интеллекта должны воспринимать, понимать и выполнять сложные действия в физическом мире. В данной статье мы представляем модели Cosmos-Reason1, которые способны понимать физический мир и генерировать соответствующие воплощенные решения (например, следующее действие) на естественном языке через длинные цепочки рассуждений. Мы начинаем с определения ключевых способностей для рассуждений в физическом ИИ, уделяя особое внимание физическому здравому смыслу и воплощенным рассуждениям. Для представления физического здравого смысла мы используем иерархическую онтологию, которая охватывает фундаментальные знания о пространстве, времени и физике. Для воплощенных рассуждений мы опираемся на двумерную онтологию, которая обобщает различные физические воплощения. На основе этих способностей мы разрабатываем две мультимодальные большие языковые модели: Cosmos-Reason1-8B и Cosmos-Reason1-56B. Мы собираем данные и обучаем наши модели в четыре этапа: предварительное обучение на визуальных данных, общая тонкая настройка с учителем (SFT), тонкая настройка для физического ИИ (SFT) и обучение с подкреплением (RL) для физического ИИ в качестве пост-обучения. Для оценки наших моделей мы создаем комплексные бенчмарки для физического здравого смысла и воплощенных рассуждений в соответствии с нашими онтологиями. Результаты оценки показывают, что тонкая настройка и обучение с подкреплением для физического ИИ приносят значительные улучшения. Для содействия развитию физического ИИ мы сделаем наш код и предобученные модели доступными под лицензией NVIDIA Open Model License по адресу https://github.com/nvidia-cosmos/cosmos-reason1.
Несмотря на растущий энтузиазм в отношении многоагентных систем (MAS), где несколько агентов на основе больших языковых моделей (LLM) взаимодействуют для выполнения задач, их прирост производительности на популярных тестовых наборах остается минимальным по сравнению с одноагентными подходами. Этот разрыв подчеркивает необходимость анализа проблем, препятствующих эффективности MAS. В данной статье мы представляем первое всестороннее исследование проблем MAS. Мы анализируем пять популярных фреймворков MAS на более чем 150 задачах с участием шести экспертов-аннотаторов. Мы выявляем 14 уникальных типов сбоев и предлагаем универсальную таксономию, применимую к различным фреймворкам MAS. Эта таксономия разработана итеративно на основе согласованных решений трех экспертов-аннотаторов для каждого исследования, достигая коэффициента Каппа Коэна 0,88. Эти детализированные типы сбоев организованы в три категории: (i) ошибки спецификации и проектирования системы, (ii) рассогласование между агентами и (iii) проверка и завершение задач. Для поддержки масштабируемой оценки мы интегрируем MASFT с подходом LLM-as-a-Judge. Мы также исследуем, можно ли легко предотвратить выявленные сбои, предложив два вмешательства: улучшение спецификации ролей агентов и усовершенствование стратегий оркестрации. Наши результаты показывают, что выявленные сбои требуют более сложных решений, что открывает четкий путь для будущих исследований. Мы публикуем наш набор данных и аннотатор на основе LLM в открытом доступе.
Генерация 3D-форм значительно продвинулась благодаря развитию так называемых "нативных" 3D диффузионных моделей, в частности, благодаря модели Vecset Diffusion Model (VDM). Хотя последние достижения демонстрируют многообещающие результаты в создании высококачественных 3D-форм, VDM по-прежнему сталкивается с трудностями в ускорении генерации. Эти проблемы связаны не только с ускорением диффузионного сэмплирования, но и с декодированием VAE в VDM, что оставалось недостаточно изученным в предыдущих работах. Для решения этих задач мы представляем FlashVDM — систематическую структуру для ускорения как VAE, так и DiT в VDM. Для DiT FlashVDM обеспечивает гибкое диффузионное сэмплирование всего за 5 шагов вывода с сохранением сопоставимого качества, что стало возможным благодаря стабилизации консистентного дистилляции с использованием нашего нового метода Progressive Flow Distillation. Для VAE мы предлагаем быстрый декодер vecset, оснащённый Adaptive KV Selection, Hierarchical Volume Decoding и Efficient Network Design. Используя локальность vecset и разреженность поверхности формы в объёме, наш декодер значительно снижает количество операций (FLOPs), минимизируя общие затраты на декодирование. Мы применяем FlashVDM к модели Hunyuan3D-2, создавая Hunyuan3D-2 Turbo. Систематическая оценка показывает, что наша модель значительно превосходит существующие методы быстрой 3D-генерации, достигая сопоставимой производительности с современными решениями, при этом сокращая время вывода более чем в 45 раз для реконструкции и в 32 раза для генерации. Код и модели доступны по адресу https://github.com/Tencent/FlashVDM.
Мы представляем SwD, масштабно-ориентированную фреймворк дистилляции для диффузионных моделей (DMs), которая эффективно использует идеи предсказания следующего масштаба для генераторов на основе диффузии с малым количеством шагов. В частности, SwD вдохновлен недавними исследованиями, связывающими процессы диффузии с неявной спектральной авторегрессией. Мы предполагаем, что DMs могут начинать генерацию на более низких разрешениях данных и постепенно увеличивать масштаб выборок на каждом шаге шумоподавления без потери производительности, при этом значительно снижая вычислительные затраты. SwD естественным образом интегрирует эту идею в существующие методы дистилляции диффузии, основанные на согласовании распределений. Кроме того, мы расширяем семейство подходов к согласованию распределений, вводя новый патч-лосс, который обеспечивает более детальное сходство с целевым распределением. Примененный к современным диффузионным моделям для генерации изображений по тексту, SwD приближается к времени вывода, эквивалентному двум шагам на полном разрешении, и значительно превосходит аналогичные методы при одинаковом вычислительном бюджете, что подтверждается автоматическими метриками и исследованиями предпочтений пользователей.
В последнее время принятие решений на основе действий в открытых средах привлекает значительное внимание. Модели визуального языка и действий (Visual Language Action, VLA), предварительно обученные на крупномасштабных веб-данных, показали перспективность в задачах принятия решений. Однако предыдущие работы в основном сосредотачивались на пост-обучении действий, часто упуская улучшения базовой модели. В ответ на это мы представляем новый подход, Act from Visual Language Post-Training, который улучшает модели визуального языка (Visual Language Models, VLMs) с помощью визуального и лингвистического руководства в самообучаемом режиме. Это улучшение повышает способности моделей в области знаний о мире, визуального распознавания и пространственной ориентации в открытых средах. Следуя вышеуказанным парадигмам пост-обучения, мы получаем первые модели VLA в Minecraft, способные выполнять человеческие инструкции для более чем 1 тыс. различных атомарных задач, включая создание предметов, плавку, готовку, добычу ресурсов и уничтожение врагов. Наши эксперименты показывают, что пост-обучение на задачах, не связанных с траекториями, приводит к значительному улучшению на 40% по сравнению с лучшим базовым агентом на разнообразном наборе атомарных задач. Кроме того, мы демонстрируем, что наш подход превосходит традиционные политики, основанные на обучении с подражанием в Minecraft, достигая передовых результатов. Мы открыли исходный код, модели и наборы данных для стимулирования дальнейших исследований. Страница проекта доступна по адресу: https://craftjarvis.github.io/JarvisVLA.
Достижение гибкого и высококачественного генерации изображений с сохранением идентичности остается сложной задачей, особенно при использовании продвинутых Diffusion Transformers (DiTs), таких как FLUX. Мы представляем InfiniteYou (InfU) — одну из первых надежных архитектур, использующих DiTs для решения этой задачи. InfU устраняет ключевые проблемы существующих методов, такие как недостаточное сходство идентичности, слабое соответствие текста и изображения, а также низкое качество и эстетика генерации. Основой InfU является InfuseNet — компонент, который внедряет признаки идентичности в базовую модель DiT через остаточные соединения, улучшая сходство идентичности при сохранении способности к генерации. Многоэтапная стратегия обучения, включающая предварительное обучение и контролируемую тонкую настройку (SFT) с использованием синтетических данных single-person-multiple-sample (SPMS), дополнительно улучшает соответствие текста и изображения, повышает качество изображений и снижает эффект копирования лиц. Многочисленные эксперименты демонстрируют, что InfU достигает наилучших результатов, превосходя существующие базовые подходы. Кроме того, модульная конструкция InfU обеспечивает совместимость с различными существующими методами, что представляет ценность для широкого сообщества.
Реконструкция анимируемых 3D-моделей человека из одного изображения представляет собой сложную задачу из-за неоднозначности разделения геометрии, внешнего вида и деформации. Современные достижения в области 3D-реконструкции человека в основном сосредоточены на статическом моделировании, а зависимость от использования синтетических 3D-сканов для обучения ограничивает их способность к обобщению. С другой стороны, оптимизационные методы, основанные на видео, достигают более высокой точности, но требуют контролируемых условий съемки и вычислительно затратных процессов уточнения. Вдохновленные появлением крупных моделей реконструкции для эффективного статического восстановления, мы предлагаем LHM (Large Animatable Human Reconstruction Model) для вывода высококачественных аватаров, представленных в виде 3D-гауссовых сплатов, за один прямой проход. Наша модель использует мультимодальную трансформерную архитектуру для эффективного кодирования позиционных признаков тела человека и признаков изображения с помощью механизма внимания, что позволяет детально сохранять геометрию и текстуру одежды. Для дальнейшего улучшения сохранения идентичности лица и восстановления мелких деталей мы предлагаем схему кодирования пирамиды признаков головы, которая агрегирует многоуровневые признаки областей головы. Многочисленные эксперименты демонстрируют, что наш LHM генерирует правдоподобные анимируемые модели человека за секунды без постобработки для лица и рук, превосходя существующие методы как по точности реконструкции, так и по способности к обобщению.
Модели языкового мышления крупного масштаба быстро развиваются в различных областях. Однако их способности в решении сложных финансовых задач все еще требуют глубокого изучения. В данной статье мы представляем Fin-R1 — модель языкового мышления, специально разработанную для финансового сектора. Fin-R1 построена на основе двухэтапной архитектуры, используя набор данных для финансового рассуждения, обработанный и подготовленный на основе DeepSeek-R1. Благодаря обучению с учителем (SFT) и обучению с подкреплением (RL), она демонстрирует производительность, близкую к DeepSeek-R1, при размере параметров в 7 миллиардов, в широком спектре задач финансового рассуждения. Fin-R1 достигает наилучших результатов (SOTA) в задачах FinQA и ConvFinQA среди оцениваемых нами языковых моделей, превосходя более крупные модели и в других задачах. Fin-R1 демонстрирует мощные способности к рассуждению и принятию решений, предлагая решения для различных проблем, возникающих в финансовой сфере. Наш код доступен по адресу https://github.com/SUFE-AIFLM-Lab/Fin-R1.
Диффузионные модели продемонстрировали впечатляющие результаты в различных задачах генерации изображений, однако их производительность часто ограничивается равномерной обработкой входных данных при различных условиях и уровнях шума. Чтобы устранить это ограничение, мы предлагаем новый подход, который использует присущую диффузионному процессу неоднородность. Наш метод, DiffMoE, вводит пул глобальных токенов на уровне батча, что позволяет экспертам получать доступ к глобальным распределениям токенов во время обучения, способствуя специализированному поведению экспертов. Для полного раскрытия потенциала диффузионного процесса DiffMoE включает предсказатель емкости, который динамически распределяет вычислительные ресурсы в зависимости от уровня шума и сложности образца. В ходе всесторонней оценки DiffMoE достигает наилучших результатов среди диффузионных моделей на бенчмарке ImageNet, значительно превосходя как плотные архитектуры с 3x активированными параметрами, так и существующие подходы MoE, сохраняя при этом 1x активированных параметров. Эффективность нашего подхода выходит за рамки условной генерации по классам и распространяется на более сложные задачи, такие как генерация изображений по тексту, демонстрируя его широкую применимость в различных приложениях диффузионных моделей. Страница проекта: https://shiml20.github.io/DiffMoE/
Мы решаем задачу генерации 3D-миров из текстовых описаний. Предлагаем SynCity — подход, не требующий обучения и оптимизации, который использует геометрическую точность предобученных 3D-генеративных моделей и художественную универсальность 2D-генераторов изображений для создания масштабных и качественных 3D-пространств. В то время как большинство 3D-генеративных моделей ориентированы на объекты и не способны создавать крупномасштабные миры, мы показываем, как можно комбинировать 3D- и 2D-генераторы для создания постоянно расширяющихся сцен. С помощью плиточного подхода мы обеспечиваем детальный контроль над компоновкой и внешним видом сцен. Мир генерируется по частям, каждая новая часть создается с учетом контекста мира и затем интегрируется в сцену. SynCity создает впечатляющие и захватывающие сцены, богатые деталями и разнообразием.
Видео-модели с большим языковым контекстом (VideoLLMs) продемонстрировали способность обрабатывать длинные видеовходы и выполнять сложные рассуждения и анализ. Однако из-за тысяч визуальных токенов, извлекаемых из кадров видео, кэш ключей и значений (KV) может значительно увеличить требования к памяти, становясь узким местом для скорости вывода и использования памяти. Квантование кэша KV является широко используемым подходом для решения этой проблемы. В данной работе мы обнаруживаем, что 2-битное квантование кэша KV для VideoLLMs практически не ухудшает производительность модели, в то время как предел квантования кэша KV в ещё меньшем количестве бит не исследовался. Чтобы устранить этот пробел, мы представляем VidKV, метод квантования кэша KV по принципу "подключи и работай", который сжимает кэш KV до менее чем 2 бит. В частности, (1) для ключей мы предлагаем стратегию смешанной точности квантования по канальному измерению, где выполняем 2-битное квантование для аномальных каналов и 1-битное квантование в сочетании с быстрым преобразованием Фурье (FFT) для нормальных каналов; (2) для значений мы реализуем 1.58-битное квантование, при этом избирательно фильтруем семантически значимые визуальные токены для их целенаправленного сохранения, чтобы достичь лучшего баланса между точностью и производительностью модели. Важно отметить, что наши результаты показывают, что кэш значений для VideoLLMs должен квантоваться по канальному принципу, а не по токенному, как предлагалось в предыдущих работах по квантованию кэша KV для LLM. Экспериментально, обширные результаты с моделями LLaVA-OV-7B и Qwen2.5-VL-7B на шести тестовых наборах данных показывают, что VidKV эффективно сжимает кэш KV до 1.5-битной и 1.58-битной точности практически без потери производительности по сравнению с аналогами на FP16.
Крупные языковые модели (LLMs) продемонстрировали впечатляющий прогресс в области математического мышления. Хотя расширение данных представляется перспективным для улучшения способности решать математические задачи, текущие подходы в основном ограничиваются модификациями на уровне отдельных примеров — такими как перефразирование или создание синтаксических вариаций, — которые не учитывают и не используют внутренние реляционные структуры, присущие математическим знаниям. Вдохновленные процессами человеческого обучения, где математическая грамотность развивается через систематическое знакомство с взаимосвязанными концепциями, мы представляем MathFusion — новый фреймворк, который улучшает математическое мышление за счет синтеза инструкций между задачами. MathFusion реализует это с помощью трех стратегий слияния: (1) последовательное слияние, которое связывает связанные задачи для моделирования зависимостей решений; (2) параллельное слияние, которое объединяет аналогичные задачи для укрепления концептуального понимания; и (3) условное слияние, которое создает контекстно-зависимые избирательные задачи для повышения гибкости мышления. Применяя эти стратегии, мы создаем новый набор данных MathFusionQA, после чего проводим тонкую настройку моделей (DeepSeekMath-7B, Mistral-7B, Llama3-8B) на нем. Экспериментальные результаты показывают, что MathFusion достигает значительных улучшений в математическом мышлении при сохранении высокой эффективности данных, повышая точность на 18,0 пунктов на различных бенчмарках, при этом требуя всего 45K дополнительных синтетических инструкций, что представляет собой существенное улучшение по сравнению с традиционными подходами с одной инструкцией. Наши наборы данных, модели и код доступны публично по адресу https://github.com/QizhiPei/mathfusion.
В данной статье предлагается принципиально новая парадигма генерации изображений через токенизацию на основе множеств и моделирование распределений. В отличие от традиционных методов, которые сериализуют изображения в фиксированные позиционные латентные коды с равномерным коэффициентом сжатия, мы вводим представление в виде неупорядоченного множества токенов, что позволяет динамически распределять емкость кодирования в зависимости от семантической сложности регионов. Этот подход, названный TokenSet, улучшает агрегацию глобального контекста и повышает устойчивость к локальным искажениям. Для решения ключевой задачи моделирования дискретных множеств мы разработали механизм двойного преобразования, который биективно преобразует множества в фиксированные последовательности целых чисел с ограничениями на сумму. Кроме того, мы предлагаем Fixed-Sum Discrete Diffusion — первый фреймворк, который одновременно работает с дискретными значениями, фиксированной длиной последовательности и инвариантностью суммы, что позволяет эффективно моделировать распределение множеств. Эксперименты демонстрируют превосходство нашего метода в семантически осознанном представлении и качестве генерации. Наши инновации, охватывающие новые стратегии представления и моделирования, продвигают визуальную генерацию за рамки традиционных последовательных токен-парадигм. Наш код и модели доступны по адресу https://github.com/Gengzigang/TokenSet.
Мы представляем 3D Spatial MultiModal Memory (M3) — мультимодальную систему памяти, предназначенную для сохранения информации о средних по размеру статических сценах с использованием видеоисточников для визуального восприятия. Интегрируя методы 3D Gaussian Splatting с базовыми моделями, M3 создает мультимодальную память, способную воспроизводить представления признаков на различных уровнях детализации, охватывая широкий спектр знаний. В ходе исследования мы выявили две ключевые проблемы в предыдущих работах по сплаттингу признаков: (1) вычислительные ограничения при хранении высокоразмерных признаков для каждого гауссовского примитива и (2) несоответствие или потеря информации между дистиллированными признаками и признаками базовых моделей. Для решения этих проблем мы предлагаем M3 с ключевыми компонентами, такими как основные компоненты сцены и механизм внимания гауссовской памяти, что обеспечивает эффективное обучение и вывод. Для проверки M3 мы проводим всесторонние количественные оценки сходства признаков и задач последующего анализа, а также качественные визуализации, чтобы выделить трассировку пикселей в механизме внимания гауссовской памяти. Наш подход охватывает широкий спектр базовых моделей, включая модели визуально-языкового взаимодействия (VLMs), модели восприятия, а также крупные мультимодальные и языковые модели (LMMs/LLMs). Кроме того, чтобы продемонстрировать применимость в реальных условиях, мы развертываем поле признаков M3 в помещениях на четвероногом роботе. Примечательно, что мы утверждаем, что M3 является первой работой, которая решает ключевые задачи сжатия в дистилляции 3D-признаков.
Редактирование знаний (Knowledge Editing, KE) позволяет изменять устаревшую или некорректную информацию в больших языковых моделях (LLMs). Хотя существующие методы KE способны обновлять отдельные факты, они испытывают трудности с обобщением этих обновлений для задач многошагового рассуждения, которые зависят от измененных знаний. Анализируя цепи рассуждений — нейронные пути, которые LLMs используют для логического вывода на основе знаний, мы наблюдаем, что текущие подходы KE, локализованные на уровне слоев, такие как MEMIT и WISE, которые редактируют только один или несколько слоев модели, не могут эффективно интегрировать обновленную информацию в эти цепи рассуждений. Чтобы устранить это ограничение, мы предлагаем CaKE (Circuit-aware Knowledge Editing) — новый метод, который обеспечивает более эффективное внедрение обновленных знаний в LLMs. CaKE использует стратегически подготовленные данные, основанные на нашем анализе цепей, которые заставляют модель использовать измененные знания, стимулируя ее к формированию соответствующих цепей рассуждений для вновь интегрированных знаний. Экспериментальные результаты показывают, что CaKE обеспечивает более точное и последовательное использование обновленных знаний в связанных задачах рассуждения, что приводит к среднему улучшению точности многошагового рассуждения на 20% на наборе данных MQuAKE по сравнению с существующими методами KE. Мы публикуем код и данные по адресу https://github.com/zjunlp/CaKE.
В данной работе рассматривается задача потокового генерации движений на основе текста, которая требует предсказания следующего шага человеческой позы с учетом переменной длины исторических движений и поступающих текстовых данных. Существующие методы сталкиваются с трудностями при реализации потоковой генерации движений: например, диффузионные модели ограничены предопределенной длиной движений, а методы на основе GPT страдают от задержек в ответах и накопления ошибок из-за дискретизированной некаузальной токенизации. Для решения этих проблем мы предлагаем MotionStreamer — новый фреймворк, который интегрирует непрерывное каузальное латентное пространство в вероятностную авторегрессионную модель. Непрерывные латентные переменные уменьшают потерю информации, вызванную дискретизацией, и эффективно снижают накопление ошибок при долгосрочной авторегрессионной генерации. Кроме того, устанавливая временные каузальные зависимости между текущими и историческими латентными переменными движений, наша модель полностью использует доступную информацию для точного декодирования движений в режиме реального времени. Эксперименты показывают, что наш метод превосходит существующие подходы, предлагая больше возможностей, включая многократную генерацию, долгосрочную генерацию и динамическую композицию движений. Страница проекта: https://zju3dv.github.io/MotionStreamer/
Трансформеры с длинным контекстом (LCTMs) играют ключевую роль в реальных приложениях, но сталкиваются с высокими вычислительными затратами из-за квадратичной сложности механизма внимания. Разреженное блочное внимание смягчает эту проблему, концентрируя вычисления на критически важных областях, однако существующие методы испытывают трудности с балансом между точностью и эффективностью из-за дорогостоящих измерений важности блоков. В данной статье мы представляем XAttention — модульную платформу, которая значительно ускоряет вывод в моделях трансформеров с длинным контекстом за счет использования разреженного внимания. Ключевая инновация XAttention заключается в идее, что сумма значений по антидиагонали (т.е. от нижнего левого до верхнего правого угла) в матрице внимания служит мощным прокси для оценки важности блоков. Это позволяет точно идентифицировать и удалять несущественные блоки, достигая высокой степени разреженности и значительного ускорения вывода. В ходе всесторонних оценок на сложных бенчмарках с длинным контекстом, включая RULER и LongBench для языка, VideoMME для понимания видео и VBench для генерации видео, XAttention демонстрирует точность, сопоставимую с полным вниманием, при этом обеспечивая существенные вычислительные преимущества. Мы показываем ускорение вычислений внимания до 13,5 раз. Эти результаты подчеркивают способность XAttention раскрыть практический потенциал блочного разреженного внимания, прокладывая путь для масштабируемого и эффективного внедрения LCTMs в реальных приложениях. Код доступен по адресу https://github.com/mit-han-lab/x-attention.
4D Gaussian Splatting (4DGS) недавно привлекла значительное внимание как метод реконструкции динамических сцен. Несмотря на достижение превосходного качества, 4DGS обычно требует значительных объемов памяти и страдает от низкой скорости рендеринга. В данной работе мы углубляемся в эти проблемы и выявляем два ключевых источника временной избыточности. (Q1) Гауссовы функции с коротким временем жизни: 4DGS использует большое количество гауссовых функций с коротким временным интервалом для представления динамики сцены, что приводит к избыточному количеству гауссовых функций. (Q2) Неактивные гауссовы функции: при рендеринге только небольшая часть гауссовых функций вносит вклад в каждый кадр. Несмотря на это, все гауссовы функции обрабатываются во время растеризации, что приводит к избыточным вычислительным затратам. Для устранения этих избыточностей мы представляем 4DGS-1K, которая работает со скоростью более 1000 кадров в секунду на современных GPU. Для Q1 мы вводим Spatial-Temporal Variation Score — новый критерий обрезки, который эффективно удаляет гауссовы функции с коротким временем жизни, побуждая 4DGS захватывать динамику сцены с использованием гауссовых функций с более длительными временными интервалами. Для Q2 мы сохраняем маску активных гауссовых функций для последовательных кадров, что значительно сокращает избыточные вычисления при рендеринге. По сравнению с базовой версией 4DGS, наш метод достигает 41-кратного сокращения объема памяти и 9-кратного ускорения скорости растеризации на сложных динамических сценах, сохраняя при этом сопоставимое визуальное качество. Подробнее см. на нашей странице проекта: https://4DGS-1K.github.io.
Диффузионные модели стали основным фреймворком в области генерации изображений. Опираясь на этот успех, интеграция методов Mixture of Experts (MoE) показала потенциал в улучшении масштабируемости и производительности моделей. В данной статье мы представляем Race-DiT — новую MoE-модель для диффузионных трансформеров с гибкой стратегией маршрутизации, названной Expert Race. Позволяя токенам и экспертам конкурировать друг с другом и выбирать лучшие кандидаты, модель учится динамически назначать экспертов критически важным токенам. Кроме того, мы предлагаем регуляризацию на уровне слоев для решения проблем обучения на поверхностных слоях и функцию потерь на основе сходства маршрутизаторов, чтобы предотвратить коллапс мод и обеспечить лучшее использование экспертов. Многочисленные эксперименты на наборе данных ImageNet подтверждают эффективность нашего подхода, демонстрируя значительное улучшение производительности и перспективные свойства масштабирования.
Модели диффузии для генерации изображений из текста достигли значительного прогресса в последние годы. Однако обучение моделей для создания изображений с высоким разрешением остается сложной задачей, особенно при ограниченных данных для обучения и вычислительных ресурсах. В данной статье мы исследуем эту практическую проблему с двух ключевых перспектив: эффективности данных и параметров, и предлагаем набор основных принципов для адаптации к сверхвысокому разрешению, названный URAE. В аспекте эффективности данных мы теоретически и эмпирически демонстрируем, что синтетические данные, сгенерированные некоторыми моделями-учителями, могут значительно ускорить сходимость обучения. В аспекте эффективности параметров мы обнаруживаем, что настройка незначительных компонентов матриц весов превосходит широко используемые низкоранговые адаптеры, когда синтетические данные недоступны, обеспечивая существенный прирост производительности при сохранении эффективности. Кроме того, для моделей, использующих дистилляцию с управлением, таких как FLUX, мы показываем, что отключение классификатор-независимого управления, то есть установка масштаба управления на 1 во время адаптации, является критически важным для достижения удовлетворительной производительности. Многочисленные эксперименты подтверждают, что URAE достигает сопоставимой производительности в генерации 2K с современными закрытыми моделями, такими как FLUX1.1 [Pro] Ultra, используя всего 3K образцов и 2K итераций, одновременно устанавливая новые стандарты для генерации с разрешением 4K. Код доступен {здесь}https://github.com/Huage001/URAE.
В данной статье мы задаемся вопросом, существует ли надежная модель с самоконтролем для работы с облаками точек, которая может быть использована для разнообразных 3D-задач с помощью простого линейного зондирования, даже при ограниченных данных и минимальных вычислительных ресурсах. Мы обнаруживаем, что существующие подходы к самоконтролируемому обучению в 3D не справляются с задачей, когда оценивается качество представлений через линейное зондирование. Мы предполагаем, что это связано с тем, что мы называем "геометрическим упрощением", которое приводит к коллапсу представлений в низкоуровневые пространственные признаки. Эта проблема уникальна для 3D и возникает из-за разреженной природы данных облаков точек. Мы решаем ее с помощью двух ключевых стратегий: сокрытия пространственной информации и усиления зависимости от входных признаков, в конечном итоге создавая Sonata из 140 тысяч облаков точек через самодистилляцию. Sonata проста и интуитивно понятна, однако ее обученные представления являются сильными и надежными: визуализации с нулевым обучением демонстрируют семантическую группировку, а также сильное пространственное мышление через отношения ближайших соседей. Sonata демонстрирует исключительную эффективность по параметрам и данным, утраивая точность линейного зондирования (с 21,8% до 72,5%) на ScanNet и почти удваивая производительность при использовании всего 1% данных по сравнению с предыдущими подходами. Полная тонкая настройка дополнительно улучшает состояние искусства (SOTA) как для задач 3D-восприятия в помещении, так и на открытом воздухе.
Последние достижения в области генерации видео привели к значительному улучшению визуального качества и временной согласованности. На этом фоне появилась генерация видео с управлением траекториями, которая позволяет точно контролировать движение объектов через явно заданные пространственные пути. Однако существующие методы сталкиваются с трудностями при работе со сложными движениями объектов и управлением движением нескольких объектов, что приводит к неточному следованию траекториям, плохой согласованности объектов и ухудшению визуального качества. Более того, эти методы поддерживают управление траекториями только в одном формате, что ограничивает их применимость в различных сценариях. Кроме того, отсутствует общедоступный набор данных или бенчмарк, специально разработанный для генерации видео с управлением траекториями, что затрудняет надежное обучение и систематическую оценку. Для решения этих проблем мы представляем MagicMotion — новый фреймворк для генерации видео из изображений, который позволяет управлять траекториями через три уровня условий от плотных до разреженных: маски, ограничивающие рамки и разреженные рамки. При заданном входном изображении и траекториях MagicMotion плавно анимирует объекты вдоль заданных траекторий, сохраняя согласованность объектов и визуальное качество. Кроме того, мы представляем MagicData — крупномасштабный набор данных для видео с управлением траекториями, а также автоматизированный конвейер для аннотирования и фильтрации. Мы также представляем MagicBench — комплексный бенчмарк, который оценивает как качество видео, так и точность управления траекториями для разного количества объектов. Многочисленные эксперименты демонстрируют, что MagicMotion превосходит предыдущие методы по различным метрикам. Наша страница проекта доступна по адресу https://quanhaol.github.io/magicmotion-site.
Создание анимируемых аватаров головы обычно требует обширных данных для обучения. Чтобы сократить объем необходимых данных, естественным решением является использование существующих методов генерации статических аватаров, не требующих данных, таких как предобученные диффузионные модели с использованием семплирования по оценке (SDS), которые согласовывают аватары с псевдо-истинными выходами из диффузионной модели. Однако прямое дистиллирование 4D аватаров из видео, созданного диффузионной моделью, часто приводит к излишне сглаженным результатам из-за пространственных и временных несоответствий в сгенерированном видео. Для решения этой проблемы мы предлагаем Zero-1-to-A — надежный метод, который синтезирует набор данных с пространственной и временной согласованностью для реконструкции 4D аватаров с использованием видео-диффузионной модели. В частности, Zero-1-to-A итеративно строит наборы видео и оптимизирует анимируемые аватары прогрессивным образом, обеспечивая плавное и последовательное повышение качества аватаров в процессе обучения. Этот прогрессивный процесс обучения включает два этапа: (1) Обучение пространственной согласованности фиксирует выражения и обучается на видах спереди и сбоку, и (2) Обучение временной согласованности фиксирует виды и обучается на переходах от расслабленных к преувеличенным выражениям, генерируя 4D аватары от простого к сложному. Многочисленные эксперименты демонстрируют, что Zero-1-to-A улучшает точность, качество анимации и скорость рендеринга по сравнению с существующими методами на основе диффузии, предлагая решение для создания реалистичных аватаров. Код доступен по адресу: https://github.com/ZhenglinZhou/Zero-1-to-A.
В данной статье мы исследуем задачу генерации масштабных открытых сцен, начиная от замков и заканчивая небоскребами. В отличие от генерации интерьеров, которая была основным фокусом предыдущих работ, генерация открытых сцен представляет уникальные сложности, включая значительные вариации в высоте сцен и необходимость метода, способного быстро создавать большие ландшафты. Для решения этих задач мы предлагаем эффективный подход, который кодирует фрагменты сцен в виде однородных векторных наборов, обеспечивая лучшее сжатие и производительность по сравнению с пространственно структурированными латентными представлениями, используемыми в предыдущих методах. Кроме того, мы обучаем явную модель для неограниченной генерации (outpainting), которая улучшает согласованность по сравнению с предыдущими схемами на основе повторной выборки (inpainting), а также ускоряет генерацию за счет исключения дополнительных шагов диффузии. Для облегчения этой задачи мы создали NuiScene43 — небольшой, но высококачественный набор сцен, предварительно обработанных для совместного обучения. Примечательно, что при обучении на сценах различных стилей наша модель способна объединять разные среды, такие как сельские дома и городские небоскребы, в одной сцене, что подчеркивает потенциал нашего процесса подготовки данных для использования разнородных сцен в совместном обучении.
Классификация является ключевой задачей в машинном обучении. Недавние исследования показали, что, хотя мультимодальные большие языковые модели (MLLMs) изначально плохо справляются с классификацией изображений, их тонкая настройка с достаточным объемом данных может значительно улучшить их производительность, делая их сопоставимыми с современными моделями классификации (SOTA). Однако получение крупномасштабных размеченных данных является дорогостоящим. В данной работе мы исследуем тонкую настройку MLLM для классификации в условиях малого количества данных. Мы обнаружили, что Supervised Fine-Tuning (SFT) может вызывать серьезные проблемы переобучения и даже ухудшать производительность по сравнению с подходом zero-shot. Для решения этой задачи, вдохновленные недавними успехами в обучении с подкреплением на основе правил, мы предлагаем метод CLS-RL, который использует проверяемые сигналы в качестве награды для тонкой настройки MLLM. Мы выяснили, что CLS-RL превосходит SFT на большинстве наборов данных и демонстрирует значительно более высокую среднюю точность как в базовых, так и в условиях обучения с малым количеством данных. Более того, мы наблюдали феномен "бесплатного улучшения" для CLS-RL: когда модели настраиваются на определенном наборе данных, их производительность на других, отличных наборах данных также может улучшаться по сравнению с моделями zero-shot, даже если эти наборы данных различаются по распределению и названиям классов. Это свидетельствует о том, что методы на основе обучения с подкреплением эффективно обучают модели основам классификации. Наконец, вдохновленные недавними работами в области "мышления во время вывода", мы пересматриваем процесс "мышления" во время тонкой настройки, критический аспект методов на основе обучения с подкреплением, в контексте визуальной классификации. Мы задаемся вопросом, требуют ли такие задачи обширного процесса мышления во время настройки, предполагая, что это может фактически ухудшить производительность. На основе этой предпосылки мы представляем метод No-Thinking-CLS-RL, который минимизирует процессы мышления во время обучения, устанавливая награду за равную точность. Наши результаты показывают, что метод No-Thinking-CLS-RL, затрачивая значительно меньше времени на настройку, достигает превосходной производительности в рамках домена и обобщающей способности по сравнению с CLS-RL.
Мы представляем BigO(Bench) — новый бенчмарк для оценки способностей генеративных языковых моделей понимать и генерировать код с заданными временными и пространственными сложностями. Этот бенчмарк устраняет пробел в текущих методах оценки, которые часто упускают из виду способность моделей понимать и создавать код, ограниченный вычислительной сложностью. BigO(Bench) включает инструменты для вывода алгоритмической сложности любой функции на Python на основе профилировочных измерений, включая решения, созданные человеком или языковыми моделями. BigO(Bench) также содержит набор из 3 105 задач по программированию и 1 190 250 решений из соревнований по программированию, аннотированных с использованием выведенных (синтетических) меток временной и пространственной сложности из фреймворка сложности, а также соответствующих значений времени выполнения и использования памяти для большого набора размеров входных данных. Мы представляем результаты оценки нескольких современных языковых моделей на этом бенчмарке, выделяя их сильные и слабые стороны в работе с требованиями сложности. В частности, модели, основанные на рассуждениях в пространстве токенов, непревзойденны в генерации кода, но не в понимании сложности, что указывает на их возможную ограниченность в задачах, для которых во время обучения не было предусмотрено вознаграждения.
Мы представляем PORTAL — новый фреймворк для разработки искусственного интеллекта, способного играть в тысячи 3D-видеоигр с помощью генерации политик, управляемой языком. Преобразуя задачи принятия решений в задачи языкового моделирования, наш подход использует большие языковые модели (LLM) для генерации деревьев поведения, представленных на предметно-ориентированном языке (DSL). Этот метод устраняет вычислительные затраты, связанные с традиционными подходами обучения с подкреплением, сохраняя при этом стратегическую глубину и быструю адаптируемость. Наш фреймворк вводит гибридную структуру политик, сочетающую узлы на основе правил с компонентами нейронных сетей, что позволяет осуществлять как стратегическое рассуждение высокого уровня, так и точное управление на низком уровне. Двухканальный механизм обратной связи, включающий количественные игровые метрики и анализ с помощью моделей "визуальный язык", способствует итеративному улучшению политик как на тактическом, так и на стратегическом уровнях. Получаемые политики мгновенно развертываемы, интерпретируемы человеком и способны обобщать знания для работы в различных игровых средах. Экспериментальные результаты демонстрируют эффективность PORTAL в тысячах шутеров от первого лица (FPS), показывая значительные улучшения в эффективности разработки, обобщении политик и разнообразии поведения по сравнению с традиционными подходами. PORTAL представляет собой значительный шаг вперед в разработке игрового ИИ, предлагая практическое решение для создания сложных агентов, способных работать в тысячах коммерческих видеоигр с минимальными затратами на разработку. Результаты экспериментов на 3D-видеоиграх лучше всего просматривать на https://zhongwen.one/projects/portal.
Авторегрессионные модели продемонстрировали впечатляющие успехи в генерации изображений, адаптируя методы последовательного предсказания из области языкового моделирования. Однако применение этих подходов к изображениям требует дискретизации непрерывных данных пикселей с помощью методов векторного квантования, таких как VQ-VAE. Чтобы уменьшить ошибки квантования, присутствующие в VQ-VAE, в последних работах склоняются к использованию более крупных кодовых книг. Однако это соответственно увеличивает размер словаря, усложняя задачу авторегрессионного моделирования. Данная работа направлена на поиск способа использовать преимущества больших кодовых книг, не усложняя при этом авторегрессионное моделирование. В ходе эмпирического исследования мы обнаружили, что токены с похожими представлениями кодовых слов оказывают схожее влияние на итоговое сгенерированное изображение, что выявляет значительную избыточность в больших кодовых книгах. Основываясь на этом наблюдении, мы предлагаем предсказывать токены от грубого к детальному (CTF), что реализуется путем присвоения одинаковых грубых меток для похожих токенов. Наша структура состоит из двух этапов: (1) авторегрессионной модели, которая последовательно предсказывает грубые метки для каждого токена в последовательности, и (2) вспомогательной модели, которая одновременно предсказывает детализированные метки для всех токенов, учитывая их грубые метки. Эксперименты на ImageNet демонстрируют превосходную производительность нашего метода, достигая среднего улучшения на 59 баллов по шкале Inception Score по сравнению с базовыми подходами. Примечательно, что, несмотря на добавление дополнительного шага вывода, наш метод обеспечивает более высокую скорость генерации.
Сложный характер сегментации медицинских изображений требует моделей, специально разработанных для захвата детальных, специфичных для предметной области особенностей. Крупные базовые модели предлагают значительную гибкость, однако стоимость их тонкой настройки остается существенным препятствием. Методы параметрически эффективной тонкой настройки (Parameter-Efficient Fine-Tuning, PEFT), такие как Low-Rank Adaptation (LoRA), эффективно обновляют веса моделей с использованием низкоранговых матриц, но могут страдать от недообучения, если выбранный ранг недостаточен для захвата специфичных для предметной области нюансов. С другой стороны, методы, основанные на полном ранге с использованием сингулярного разложения (Singular Value Decomposition, SVD), обеспечивают всесторонние обновления, изменяя все сингулярные значения, однако часто им не хватает гибкости, и их производительность варьируется в зависимости от набора данных. Мы предлагаем SALT (Singular Value Adaptation with Low-Rank Transformation) — метод, который избирательно адаптирует наиболее влиятельные сингулярные значения с использованием обучаемых параметров масштаба и сдвига, дополняя это низкоранговым обновлением для оставшегося подпространства. Этот гибридный подход объединяет преимущества как LoRA, так и SVD, позволяя эффективную адаптацию без увеличения размера или глубины модели. Протестированный на 5 сложных медицинских наборах данных, начиная от 20 образцов и до 1000, SALT превосходит современные методы PEFT (LoRA и SVD) на 2% до 5% по метрике Dice, используя всего 3.9% обучаемых параметров, демонстрируя устойчивую адаптацию даже в условиях ограниченных ресурсов. Код для SALT доступен по адресу: https://github.com/BioMedIA-MBZUAI/SALT.
Крупные модели, объединяющие зрение и язык (Large Vision-Language Models, LVLM), демонстрируют впечатляющие результаты в задачах понимания и рассуждений, связанных с визуальными и текстовыми данными. Однако их поведение в отношении визуального понимания остается недостаточно изученным. Возникает фундаментальный вопрос: в какой степени LVLM полагаются на визуальные данные и какие области изображения влияют на их ответы? Интерпретация свободного генеративного поведения LVLM является нетривиальной задачей из-за их сложной визуальной архитектуры (например, множественные кодировщики и мультиразрешение) и выходных данных переменной длины. В данной работе мы расширяем существующие методы визуализации тепловых карт (например, iGOS++) для поддержки LVLM в задачах открытого визуального ответа на вопросы. Мы предлагаем метод выбора визуально значимых токенов, которые отражают связь между сгенерированными ответами и входным изображением. Кроме того, мы проводим всесторонний анализ современных LVLM на тестовых наборах, требующих визуальной информации для ответа. Наши результаты дают несколько важных инсайтов о поведении LVLM, включая связь между областью внимания и правильностью ответа, различия в визуальном внимании между архитектурами и влияние масштаба языковой модели на визуальное понимание. Код и данные доступны по адресу https://github.com/bytedance/LVLM_Interpretation.
Последние достижения в области крупных языковых моделей и их мультимодальных расширений продемонстрировали эффективность объединения генерации и понимания через авторегрессивное предсказание следующего токена. Однако, несмотря на критическую роль генерации и понимания трехмерных структур ({3D GU}) в ИИ для науки, эти задачи в основном развивались независимо, а авторегрессивные методы остаются недостаточно изученными. Чтобы устранить этот разрыв, мы представляем Uni-3DAR — унифицированную структуру, которая бесшовно интегрирует задачи {3D GU} через авторегрессивное предсказание. В основе Uni-3DAR лежит новая иерархическая токенизация, которая сжимает трехмерное пространство с использованием октодерева, используя присущую 3D-структурам разреженность. Затем применяется дополнительная токенизация для детализации структур, захватывая ключевые атрибуты, такие как типы атомов и точные пространственные координаты в микроскопических 3D-структурах. Мы также предлагаем две оптимизации для повышения эффективности. Первая — это стратегия двухуровневого сжатия поддеревьев, которая сокращает последовательность токенов октодерева до 8 раз. Вторая — механизм маскированного предсказания следующего токена, адаптированный для динамически изменяющихся позиций токенов, что значительно повышает производительность модели. Благодаря сочетанию этих стратегий, Uni-3DAR успешно объединяет разнообразные задачи {3D GU} в рамках единой авторегрессивной структуры. Многочисленные эксперименты на различных микроскопических задачах {3D GU}, включая молекулы, белки, полимеры и кристаллы, подтверждают ее эффективность и универсальность. В частности, Uni-3DAR значительно превосходит предыдущие модели диффузии, достигая относительного улучшения до 256\% при скорости вывода до 21,8 раз быстрее. Код доступен по адресу: https://github.com/dptech-corp/Uni-3DAR.
Генерация 3D молекул имеет ключевое значение для разработки лекарств и материаловедения, требуя от моделей обработки сложных мультимодальных данных, включая типы атомов, химические связи и 3D координаты. Основная задача заключается в интеграции этих модальностей различной формы с сохранением SE(3)-эквивариантности для 3D координат. Для достижения этого существующие подходы обычно поддерживают отдельные латентные пространства для инвариантных и эквивариантных модальностей, что снижает эффективность как обучения, так и генерации. В данной работе мы предлагаем Unified Variational Auto-Encoder for 3D Molecular Latent Diffusion Modeling (UAE-3D) — мультимодальный VAE, который сжимает 3D молекулы в латентные последовательности из единого латентного пространства, сохраняя при этом практически нулевую ошибку реконструкции. Это единое латентное пространство устраняет сложности обработки мультимодальности и эквивариантности при выполнении латентного диффузионного моделирования. Мы демонстрируем это, используя Diffusion Transformer — универсальную диффузионную модель без каких-либо молекулярных индуктивных предубеждений — для генерации латентных представлений. Эксперименты на наборах данных GEOM-Drugs и QM9 показывают, что наш метод значительно устанавливает новые стандарты как в de novo, так и в условной генерации 3D молекул, достигая лидирующих показателей по эффективности и качеству.
Популярные методы обучения на видеоданных в основном работают с фиксированным количеством токенов, выбранных из заранее заданной пространственно-временной сетки, что приводит к неоптимальному балансу между точностью и вычислительными затратами из-за присущей видео избыточности. Кроме того, они не обладают адаптивностью к различным вычислительным бюджетам для последующих задач, что затрудняет применение наиболее конкурентоспособных моделей в реальных сценариях. В связи с этим мы предлагаем новый подход к тестированию, называемый Оптимизация Токенов, который максимизирует входную информацию в рамках заданного бюджета, оптимизируя ограниченный по размеру набор входных токенов за счет их выбора из более подходящим образом сэмплированных видео. Для этого мы предлагаем новый инструмент аугментации под названием Flux. Благодаря гибкости в выборе сэмплирующей сетки и использованию отбора токенов, он легко интегрируется в большинство популярных фреймворков для обучения на видео, повышая устойчивость модели практически без дополнительных затрат. Мы интегрировали Flux в крупномасштабное предварительное обучение на видео, и полученная модель FluxViT устанавливает новые рекорды в широком спектре задач при стандартных затратах. Примечательно, что используя всего 1/4 токенов, она может соответствовать производительности предыдущих моделей с Оптимизацией Токенов, обеспечивая экономию почти в 90%. Все модели и данные доступны по адресу https://github.com/OpenGVLab/FluxViT.
Модели, работающие с визуальными и текстовыми данными (vision-language, VL), демонстрируют высокую производительность в различных задачах. Однако эти модели часто полагаются на одну конкретную модальность для прогнозирования, что приводит к "предвзятости доминирующей модальности". Такая предвзятость значительно ухудшает производительность, особенно когда одна из модальностей нарушена. В данном исследовании мы анализируем поведение моделей при наличии предвзятости доминирующей модальности и теоретически показываем, что несогласованные градиенты или различия в их величинах препятствуют сбалансированной сходимости функции потерь. На основе этих выводов мы предлагаем новый фреймворк, BalGrad, для смягчения предвзятости доминирующей модальности. Наш подход включает перевзвешивание градиентов между модальностями, корректировку градиента дивергенции Кульбака-Лейблера на основе вклада каждой модальности и проекцию градиентов между задачами для согласования направлений задач без конфликтов. Эксперименты на наборах данных UPMC Food-101, Hateful Memes и MM-IMDb подтверждают, что BalGrad эффективно снижает чрезмерную зависимость от конкретных модальностей при прогнозировании.
Настройка идентичности видео направлена на создание высококачественных видеороликов, которые сохраняют согласованность идентичности и демонстрируют значительную динамику на основе эталонных изображений пользователей. Однако существующие подходы сталкиваются с двумя ключевыми проблемами: ухудшением идентичности при увеличении продолжительности видео и снижением динамики в процессе обучения, что в основном связано с их зависимостью от традиционного обучения с использованием самовосстановления на статических изображениях. Для решения этих проблем мы представляем MagicID — новую структуру, разработанную для непосредственного содействия генерации видео с согласованной идентичностью и богатой динамикой, адаптированных под предпочтения пользователей. В частности, мы предлагаем создавать парные данные видео с явными наградами за идентичность и динамику для обучения на основе предпочтений, вместо того чтобы придерживаться традиционного самовосстановления. Для преодоления ограничений, связанных с настройкой данных предпочтений, мы вводим гибридную стратегию выборки. Этот подход сначала уделяет приоритетное внимание сохранению идентичности, используя статические видео, полученные из эталонных изображений, а затем улучшает качество динамики в генерируемых видео с помощью метода выборки на основе границы. Используя эти гибридные пары предпочтений, мы оптимизируем модель для соответствия разнице в наградах между парами настроенных предпочтений. Многочисленные эксперименты показывают, что MagicID успешно достигает согласованной идентичности и естественной динамики, превосходя существующие методы по различным метрикам.
С быстрым развитием моделей генерации видео (VGMs) становится крайне важным создание надежных и всеобъемлющих автоматических метрик для видео, созданных искусственным интеллектом (AIGVs). Существующие методы либо используют готовые модели, оптимизированные для других задач, либо полагаются на данные, полученные от человеческой оценки, для обучения специализированных оценщиков. Эти подходы ограничены конкретными аспектами оценки и сложно масштабируются с учетом растущих требований к более детализированной и комплексной оценке. Чтобы решить эту проблему, в данной работе исследуется возможность использования мультимодальных больших языковых моделей (MLLMs) в качестве унифицированного оценщика для AIGVs, используя их мощные возможности визуального восприятия и понимания языка. Для оценки производительности автоматических метрик в унифицированной оценке AIGV мы представляем бенчмарк под названием UVE-Bench. UVE-Bench собирает видео, созданные передовыми VGMs, и предоставляет парные аннотации человеческих предпочтений по 15 аспектам оценки. Используя UVE-Bench, мы тщательно оцениваем 16 MLLMs. Наши эмпирические результаты показывают, что, хотя передовые MLLMs (например, Qwen2VL-72B и InternVL2.5-78B) все еще отстают от человеческих оценщиков, они демонстрируют многообещающие способности в унифицированной оценке AIGVs, значительно превосходя существующие специализированные методы оценки. Кроме того, мы проводим углубленный анализ ключевых проектных решений, влияющих на производительность оценщиков на основе MLLMs, предлагая ценные инсайты для будущих исследований в области оценки AIGVs. Код доступен по адресу https://github.com/bytedance/UVE.
Мы представляем VideoRFSplat — модель прямого преобразования текста в 3D, которая использует модель генерации видео для создания реалистичного 3D Gaussian Splatting (3DGS) для неограниченных сцен реального мира. Для генерации разнообразных позиций камеры и неограниченного пространственного охвата сцен реального мира, обеспечивая при этом обобщение для произвольных текстовых запросов, предыдущие методы дообучают 2D генеративные модели для совместного моделирования позиций камеры и многовидовых изображений. Однако эти методы сталкиваются с нестабильностью при расширении 2D генеративных моделей для совместного моделирования из-за разрыва модальностей, что требует дополнительных моделей для стабилизации обучения и вывода. В данной работе мы предлагаем архитектуру и стратегию сэмплинга для совместного моделирования многовидовых изображений и позиций камеры при дообучении модели генерации видео. Наша ключевая идея заключается в двухпоточной архитектуре, которая подключает специализированную модель генерации позиций к предобученной модели генерации видео через коммуникационные блоки, генерируя многовидовые изображения и позиции камеры через отдельные потоки. Такой дизайн снижает взаимное влияние модальностей позиций и изображений. Кроме того, мы предлагаем асинхронную стратегию сэмплинга, которая ускоряет удаление шума для позиций камеры по сравнению с многовидовыми изображениями, позволяя быстро очищенным позициям управлять генерацией многовидовых изображений, уменьшая взаимную неоднозначность и повышая кросс-модальную согласованность. Обучаясь на нескольких крупномасштабных наборах данных реального мира (RealEstate10K, MVImgNet, DL3DV-10K, ACID), VideoRFSplat превосходит существующие методы прямого преобразования текста в 3D, которые сильно зависят от последующего уточнения через score distillation sampling, достигая превосходных результатов без такого уточнения.
Инструменты автодополнения кода на основе глубокого обучения (DL) произвели революцию в разработке программного обеспечения, обеспечивая продвинутую генерацию кода. Эти инструменты используют модели, обученные на огромных объемах кода из множества репозиториев, что позволяет им улавливать общие паттерны программирования. Однако влияние тонкой настройки (fine-tuning) таких моделей для конкретных организаций или разработчиков с целью повышения их производительности на соответствующих задачах остается малоизученным. В данной работе мы восполняем этот пробел, предоставляя убедительные эмпирические данные, отвечающие на этот вопрос. В частности, мы рассмотрели 136 разработчиков из двух организаций (Apache и Spring), две архитектуры моделей (T5 и Code Llama) и три размера моделей (60 млн, 750 млн и 7 млрд обучаемых параметров). Модели T5 (60 млн, 750 млн) были предварительно обучены и тонко настроены на более чем 2000 открытых проектов, исключая данные целевых организаций, и сравнены с версиями, тонко настроенными на наборах данных, специфичных для организаций и разработчиков. Для модели Code Llama (7 млрд) мы сравнили производительность предварительно обученной модели, доступной в открытом доступе, с той же моделью, тонко настроенной с помощью параметрически эффективной тонкой настройки на наборах данных, специфичных для организаций и разработчиков. Наши результаты показывают, что дополнительная тонкая настройка как на данных организации, так и на данных разработчика повышает предсказательные способности модели, причем первая демонстрирует особенно высокую производительность. Этот вывод обобщается для (i) двух целевых организаций (Apache и Spring) и (ii) моделей совершенно разного масштаба (от 60 млн до 7 млрд обучаемых параметров). Наконец, мы показываем, что модели DL, тонко настроенные на наборе данных организации, достигают той же производительности автодополнения, что и предварительно обученные модели кода, используемые "из коробки", но при этом в 10 раз меньше, что приводит к значительной экономии на развертывании и затратах на вывод (например, требуются менее мощные GPU).
Создание описаний изображений долгое время оставалось ключевой задачей в области визуального понимания, и недавние достижения в моделях, объединяющих зрение и язык (VLMs), значительно улучшили способность генерировать детализированные описания изображений. Однако оценка детализированных описаний изображений остается недостаточно изученной из-за устаревших метрик оценки и грубых аннотаций. В данной статье мы представляем DeCapBench вместе с новой метрикой, DCScore, специально разработанной для задач детализированного описания. DCScore оценивает галлюцинации и детальную полноту, разбивая ответы на наименьшие самодостаточные единицы, называемые примитивными информационными единицами, и оценивая их по отдельности. Наша оценка показывает, что DCScore лучше согласуется с человеческим суждением, чем другие метрики, основанные на правилах или моделях. В то же время, DeCapBench демонстрирует высокую корреляцию с результатами VLM-арены на задачах описания, превосходя существующие бенчмарки для моделей, объединяющих зрение и язык. Кроме того, мы представляем автоматический метод сбора детализированной обратной связи, FeedQuill, для оптимизации предпочтений на основе нашей продвинутой метрики, демонстрируя устойчивые возможности обобщения на автоматически сгенерированных данных предпочтений. Многочисленные эксперименты на нескольких VLMs показывают, что наш метод не только значительно снижает галлюцинации, но и улучшает производительность на различных бенчмарках, достигая превосходных результатов в детализированном описании и превосходя GPT-4o.
В данной статье представлен набор данных Deceptive Humor Dataset (DHD), новый ресурс для изучения юмора, основанного на сфабрикованных утверждениях и дезинформации. В эпоху широко распространенной дезинформации понимание того, как юмор переплетается с обманом, становится крайне важным. DHD состоит из юмористических комментариев, сгенерированных на основе ложных нарративов, включающих сфабрикованные утверждения и манипулированную информацию с использованием модели ChatGPT-4o. Каждый пример помечен уровнем сатиры, варьирующимся от 1 (тонкая сатира) до 3 (высокий уровень сатиры), и классифицирован в одну из пяти категорий юмора: Черный юмор, Ирония, Социальная критика, Игра слов и Абсурд. Набор данных охватывает несколько языков, включая английский, телугу, хинди, каннада, тамильский и их кодово-смешанные варианты (Te-En, Hi-En, Ka-En, Ta-En), что делает его ценным мультиязычным эталоном. Вводя DHD, мы создаем структурированную основу для анализа юмора в контексте обмана, прокладывая путь для нового направления исследований, которое изучает, как юмор не только взаимодействует с дезинформацией, но и влияет на ее восприятие и распространение. Мы устанавливаем сильные базовые показатели для предложенного набора данных, предоставляя основу для будущих исследований, направленных на тестирование и совершенствование моделей обнаружения обманчивого юмора.
Предварительное обучение с самоконтролем на основе предсказания следующего токена позволило крупным языковым моделям улавливать базовую структуру текста и привело к беспрецедентной производительности на множестве задач при масштабировании. Аналогично, автономное вождение генерирует огромные объемы пространственно-временных данных, намекая на возможность использования масштаба для изучения базовой геометрической и семантической структуры окружающей среды и ее эволюции во времени. В этом направлении мы предлагаем геометрический и семантический метод предварительного обучения с самоконтролем, GASP, который изучает унифицированное представление, предсказывая в любой запрошенной будущей точке пространства-времени: (1) общую занятость, отражающую эволюцию структуры 3D-сцены; (2) занятость эго-транспортного средства, моделирующую путь транспортного средства через среду; и (3) дистиллированные высокоуровневые признаки из базовой модели зрения. Моделируя геометрические и семантические 4D-поля занятости вместо сырых данных сенсоров, модель изучает структурированное, обобщаемое представление окружающей среды и ее эволюции во времени. Мы проверяем GASP на нескольких бенчмарках автономного вождения, демонстрируя значительные улучшения в прогнозировании семантической занятости, онлайн-картографировании и предсказании траектории эго-транспортного средства. Наши результаты показывают, что непрерывное предсказание 4D-геометрической и семантической занятости предоставляет масштабируемую и эффективную парадигму предварительного обучения для автономного вождения. Для кода и дополнительных визуализаций см. \href{https://research.zenseact.com/publications/gasp/.}
С ростом популярности генеративного ИИ синтез графических изображений на основе текстовых описаний становится перспективным приложением. Однако достижение высокой геометрической точности и редактируемости требует представления изображений в виде графических программ на языках, таких как TikZ, а согласованные обучающие данные (т.е. графические программы с описаниями) остаются редкими. В то же время большие объемы несогласованных графических программ и растровых изображений с описаниями более доступны. Мы объединяем эти разнородные источники данных, представляя TikZero, который разделяет генерацию графических программ и понимание текста, используя изображения в качестве промежуточного моста. Это позволяет независимо обучаться на графических программах и изображениях с описаниями и обеспечивает синтез графических программ на основе текста в режиме zero-shot во время вывода. Мы показываем, что наш метод значительно превосходит базовые подходы, которые могут работать только с графическими программами, согласованными с описаниями. Более того, при использовании согласованных графических программ в качестве дополнительного обучающего сигнала TikZero достигает или превосходит производительность значительно более крупных моделей, включая коммерческие системы, такие как GPT-4o. Наш код, наборы данных и выбранные модели доступны публично.
Соблюдение предписанного лечения имеет решающее значение для людей с хроническими заболеваниями, чтобы избежать дорогостоящих или неблагоприятных последствий для здоровья. Для определенных групп пациентов интенсивные изменения образа жизни жизненно важны для повышения приверженности к лечению. Точный прогноз приверженности к лечению может открыть пути к разработке инструмента для оперативного вмешательства, обеспечивая своевременную и персонализированную поддержку. С ростом популярности смартфонов и носимых устройств стало проще, чем когда-либо, разрабатывать и внедрять системы интеллектуального мониторинга активности. Однако эффективные системы прогнозирования приверженности к лечению на основе носимых датчиков до сих пор не получили широкого распространения. Мы устраняем этот пробел, предлагая систему Adherence Forecasting and Intervention with Machine Intelligence (AIMI). AIMI — это система прогнозирования приверженности, основанная на знаниях, которая использует датчики смартфона и историю приема лекарств для оценки вероятности пропуска приема назначенного препарата. Было проведено исследование с участием 27 человек, ежедневно принимавших лекарства для лечения сердечно-сосудистых заболеваний. Мы разработали модели прогнозирования на основе CNN и LSTM с различными комбинациями входных признаков и обнаружили, что модели LSTM могут прогнозировать приверженность к лечению с точностью 0,932 и F-1-мерой 0,936. Более того, в ходе серии экспериментов с использованием архитектур сверточных и рекуррентных нейронных сетей мы показали, что использование известных данных о будущем и персонализированное обучение повышают точность прогнозирования приверженности к лечению. Код доступен: https://github.com/ab9mamun/AIMI.