Ежедневно отобранные исследовательские статьи по ИИ с переводами
Маскированное моделирование изображений (MIM) с векторным квантованием (VQ) достигло значительных успехов как в самоконтролируемом предварительном обучении, так и в генерации изображений. Однако большинство существующих методов сталкиваются с трудностями в поиске баланса в общем латентном пространстве между качеством генерации, обучением представлений и эффективностью. Чтобы расширить границы этой парадигмы, мы предлагаем MergeVQ, который интегрирует методы объединения токенов в генеративные модели на основе VQ, чтобы устранить разрыв между генерацией изображений и обучением визуальных представлений в единой архитектуре. В процессе предварительного обучения MergeVQ разделяет топ-k семантику от латентного пространства с помощью модуля объединения токенов после блоков самовнимания в кодировщике для последующего квантования без поиска (LFQ) и глобального выравнивания, а затем восстанавливает их детализированные характеристики через кросс-внимание в декодере для реконструкции. Что касается второго этапа генерации, мы представляем MergeAR, который выполняет сжатие KV Cache для эффективного прогнозирования в растровом порядке. Многочисленные эксперименты на ImageNet подтверждают, что MergeVQ как генеративная модель с авторегрессией демонстрирует конкурентоспособные результаты как в задачах обучения визуальных представлений, так и в генерации изображений, сохраняя при этом высокую эффективность работы с токенами и скорость вывода. Код и модель будут доступны по адресу https://apexgen-x.github.io/MergeVQ.
Последние достижения в области синтеза изображений и видео открыли новые перспективы для генеративных игр. Особенно интригующим применением является преобразование персонажей из аниме-фильмов в интерактивные, играбельные сущности. Это позволяет игрокам погрузиться в динамичный мир аниме в роли своих любимых персонажей для симуляции жизни через языковые инструкции. Такие игры определяются как бесконечные, поскольку они устраняют предопределенные границы и фиксированные правила игрового процесса, где игроки могут взаимодействовать с игровым миром через открытые языковые команды и переживать постоянно развивающиеся сюжеты и окружение. Недавно был предложен новаторский подход для бесконечной симуляции жизни в аниме, использующий большие языковые модели (LLM) для преобразования многоходовых текстовых диалогов в языковые инструкции для генерации изображений. Однако этот подход игнорирует исторический визуальный контекст, что приводит к несогласованности игрового процесса. Кроме того, он генерирует только статические изображения, не включая динамику, необходимую для увлекательного игрового опыта. В данной работе мы предлагаем AnimeGamer, который построен на основе мультимодальных больших языковых моделей (MLLM) для генерации каждого игрового состояния, включая динамические анимационные сцены, изображающие движения персонажей и обновления их состояний, как показано на Рисунке 1. Мы вводим новые мультимодальные представления, учитывающие действия, для представления анимационных сцен, которые могут быть декодированы в высококачественные видеоклипы с использованием модели диффузии видео. Используя исторические представления анимационных сцен в качестве контекста и предсказывая последующие представления, AnimeGamer может генерировать игры с контекстуальной согласованностью и удовлетворительной динамикой. Обширные оценки с использованием как автоматизированных метрик, так и человеческих оценок демонстрируют, что AnimeGamer превосходит существующие методы в различных аспектах игрового опыта. Коды и контрольные точки доступны по адресу https://github.com/TencentARC/AnimeGamer.
Хотя современные методы анимации человека на основе изображений достигают реалистичного синтеза движений тела и лица, остаются существенные пробелы в детализированной целостной управляемости, многоуровневой адаптивности и долгосрочной временной согласованности, что снижает их выразительность и устойчивость. Мы предлагаем основанную на диффузионном трансформере (DiT) архитектуру DreamActor-M1 с гибридным управлением для преодоления этих ограничений. Для управления движением наши гибридные управляющие сигналы, объединяющие неявные представления лица, 3D-сферы головы и 3D-скелеты тела, обеспечивают устойчивый контроль над мимикой и движениями тела, создавая выразительные анимации с сохранением идентичности. Для адаптации к масштабу, чтобы справляться с различными позами тела и масштабами изображений — от портретов до полного обзора тела, — мы используем прогрессивную стратегию обучения на данных с различными разрешениями и масштабами. Для управления внешним видом мы интегрируем паттерны движения из последовательных кадров с дополнительными визуальными ссылками, обеспечивая долгосрочную временную согласованность для невидимых областей во время сложных движений. Эксперименты показывают, что наш метод превосходит современные подходы, демонстрируя выразительные результаты для генерации портретов, верхней части тела и полного обзора тела с устойчивой долгосрочной согласованностью. Страница проекта: https://grisoon.github.io/DreamActor-M1/.
Все больше внимания уделяется улучшению способностей к рассуждению у многомодальных больших языковых моделей (MLLMs). Как основа для ИИ-агентов, функционирующих в физическом мире, визуально-пространственный интеллект (VSI) на основе видео становится одной из наиболее важных способностей к рассуждению у MLLMs. В данной работе проводится первое глубокое исследование по улучшению визуально-пространственного рассуждения у MLLMs с помощью обучения, подобного R1-Zero. Технически, мы сначала выявляем, что способности к визуально-пространственному рассуждению у моделей Qwen2-VL малого и среднего размера не могут быть активированы с помощью подсказок "Цепочка мыслей" (CoT). Затем мы внедряем обучение GRPO для улучшения визуально-пространственного рассуждения, используя тщательно отобранный набор данных VSI-100k, следуя подходу DeepSeek-R1-Zero. В ходе исследования мы выявляем необходимость сохранения штрафа KL (даже с небольшим значением) в GRPO. Всего за 120 часов работы на GPU наша модель vsGRPO-2B, дообученная на основе Qwen2-VL-2B, превосходит базовую модель на 12.1% и опережает GPT-4o. Кроме того, наша модель vsGRPO-7B, дообученная на основе Qwen2-VL-7B, достигает производительности, сопоставимой с лучшей открытой моделью LLaVA-NeXT-Video-72B. Дополнительно мы сравниваем vsGRPO с базовыми подходами контролируемого дообучения и оптимизации прямых предпочтений и наблюдаем значительное превосходство в производительности. Код и набор данных будут доступны в ближайшее время.
DeepSeek-R1-Zero продемонстрировал, что масштабируемое обучение с подкреплением (RL) может напрямую улучшать способности к рассуждению у крупных языковых моделей (LLMs) без контролируемого тонкого настройки. В данной работе мы критически исследуем обучение, подобное R1-Zero, анализируя его два ключевых компонента: базовые модели и RL. Мы изучаем широкий спектр базовых моделей, включая DeepSeek-V3-Base, чтобы понять, как характеристики предварительного обучения влияют на производительность RL. Наш анализ показывает, что DeepSeek-V3-Base уже демонстрируют «момент озарения», в то время как базовые модели Qwen2.5 проявляют сильные способности к рассуждению даже без использования шаблонов подсказок, что указывает на возможные предубеждения в предварительном обучении. Кроме того, мы выявляем оптимизационное смещение в Group Relative Policy Optimization (GRPO), которое искусственно увеличивает длину ответов (особенно для неверных выводов) в процессе обучения. Для решения этой проблемы мы представляем Dr. GRPO — метод оптимизации без смещений, который повышает эффективность использования токенов, сохраняя при этом производительность в рассуждениях. Используя эти инсайты, мы предлагаем минималистичный рецепт R1-Zero, который достигает точности 43,3% на AIME 2024 с базовой моделью на 7B, устанавливая новый эталонный результат. Наш код доступен по адресу https://github.com/sail-sg/understand-r1-zero.
Академическое письмо требует как связного создания текста, так и точного цитирования соответствующей литературы. Хотя современные системы генерации с использованием извлечения информации (Retrieval-Augmented Generation, RAG) значительно улучшили фактическую точность в генерации текстов общего назначения, их способность адекватно поддерживать профессиональное академическое письмо остается ограниченной. В данной работе мы представляем ScholarCopilot — унифицированную структуру, предназначенную для улучшения существующих крупных языковых моделей в генерации профессиональных академических статей с точными и контекстуально релевантными цитатами. ScholarCopilot динамически определяет, когда необходимо извлекать научные ссылки, генерируя токен извлечения [RET], а затем использует его представление для поиска соответствующих цитат в базе данных. Извлеченные ссылки передаются в модель для улучшения процесса генерации. Мы совместно оптимизируем задачи генерации и цитирования в рамках единой структуры для повышения эффективности. Обучив модель на 500 тысячах статей из arXiv, мы достигли точности извлечения top-1 в 40,1% на нашем оценочном наборе данных, превзойдя базовые модели, такие как E5-Mistral-7B-Instruct (15,0%) и BM25 (9,8%). На наборе данных из 1000 образцов академического письма ScholarCopilot получил оценку 16,2/25 за качество генерации (измеряемое по релевантности, связности, академической строгости, полноте и инновационности), превзойдя модели с в 10 раз большим количеством параметров, такие как Qwen-2.5-72B-Instruct (15,8/25). Человеческие исследования также подтверждают превосходство ScholarCopilot в полноте цитирования, эффективности письма и общем пользовательском опыте, что подтверждает эффективность нашего подхода.
Восстановление 3D-сцен по разреженным видам является сложной задачей из-за её изначально некорректной постановки. Традиционные методы разработали специализированные решения (например, геометрическую регуляризацию или детерминированные модели прямого распространения), чтобы смягчить эту проблему. Однако они всё ещё сталкиваются с ухудшением производительности при минимальном перекрытии входных видов с недостаточной визуальной информацией. К счастью, современные модели генерации видео демонстрируют потенциал в решении этой задачи, так как они способны создавать видеоклипы с правдоподобными 3D-структурами. Благодаря использованию крупных предобученных моделей диффузии видео, некоторые передовые исследования начинают изучать потенциал генеративного приоритета видео и создавать 3D-сцены по разреженным видам. Несмотря на впечатляющие улучшения, они ограничены медленным временем вывода и отсутствием 3D-ограничений, что приводит к неэффективности и артефактам реконструкции, не соответствующим реальной геометрической структуре. В данной статье мы предлагаем VideoScene для дистилляции модели диффузии видео с целью генерации 3D-сцен за один шаг, стремясь создать эффективный инструмент для преодоления разрыва между видео и 3D. В частности, мы разрабатываем стратегию дистилляции 3D-осознанного скачка потока, чтобы пропустить избыточную информацию, требующую времени, и обучаем динамическую сеть политики шумоподавления для адаптивного определения оптимального шага скачка во время вывода. Многочисленные эксперименты демонстрируют, что наш VideoScene достигает более быстрых и качественных результатов генерации 3D-сцен по сравнению с предыдущими моделями диффузии видео, подчеркивая его потенциал как эффективного инструмента для будущих приложений преобразования видео в 3D. Страница проекта: https://hanyang-21.github.io/VideoScene
Модели диффузии видео (VDMs) значительно продвинулись в последние годы, позволяя генерировать высокореалистичные видео и привлекая внимание сообщества своим потенциалом в качестве симуляторов мира. Однако, несмотря на их возможности, VDMs часто не способны создавать физически правдоподобные видео из-за присущего им недостатка понимания физики, что приводит к некорректной динамике и последовательности событий. Чтобы устранить это ограничение, мы предлагаем новую двухэтапную структуру генерации видео из изображений, которая явно учитывает физику. На первом этапе мы используем Vision Language Model (VLM) в качестве грубого планировщика движения, интегрируя цепочку рассуждений и физически осознанное мышление для предсказания примерных траекторий/изменений движения, которые приближают реальную физическую динамику, обеспечивая при этом согласованность между кадрами. На втором этапе мы используем предсказанные траектории/изменения движения для управления генерацией видео с помощью VDM. Поскольку предсказанные траектории/изменения движения являются грубыми, во время вывода добавляется шум, чтобы предоставить VDM свободу в генерации движения с более мелкими деталями. Обширные экспериментальные результаты демонстрируют, что наша структура способна создавать физически правдоподобное движение, а сравнительные оценки подчеркивают заметное превосходство нашего подхода над существующими методами. Дополнительные видео результаты доступны на нашей странице проекта: https://madaoer.github.io/projects/physically_plausible_video_generation.
Мы представляем PaperBench — эталонный тест, оценивающий способность ИИ-агентов воспроизводить передовые исследования в области искусственного интеллекта. Агенты должны с нуля воспроизвести 20 статей, представленных на ICML 2024 в секциях Spotlight и Oral, включая понимание вклада статей, разработку кодовой базы и успешное выполнение экспериментов. Для объективной оценки мы разработали критерии, которые иерархически разбивают каждую задачу воспроизведения на более мелкие подзадачи с четкими критериями оценки. В общей сложности PaperBench содержит 8 316 индивидуально оцениваемых задач. Критерии разрабатываются совместно с авторами каждой статьи ICML для обеспечения точности и реалистичности. Чтобы обеспечить масштабируемую оценку, мы также разработали судью на основе LLM для автоматической оценки попыток воспроизведения в соответствии с критериями, а также оценили производительность нашего судьи, создав отдельный эталонный тест для судей. Мы протестировали несколько передовых моделей на PaperBench и обнаружили, что лучший из протестированных агентов, Claude 3.5 Sonnet (New) с использованием открытого исходного кода, достигает среднего балла за воспроизведение в 21,0\%. Наконец, мы привлекли ведущих аспирантов в области машинного обучения для выполнения части задач PaperBench и выяснили, что модели пока не превосходят человеческий базовый уровень. Мы открываем исходный код на https://github.com/openai/preparedness, чтобы способствовать дальнейшим исследованиям в области понимания инженерных возможностей ИИ-агентов.
Мы представляем Articulated Kinematics Distillation (AKD) — фреймворк для создания высококачественных анимаций персонажей, объединяющий преимущества скелетной анимации и современных генеративных моделей. AKD использует скелетное представление для ригнутых 3D-ассетов, значительно сокращая количество степеней свободы (DoFs) за счёт фокуса на управлении на уровне суставов, что обеспечивает эффективный и согласованный синтез движений. Благодаря Score Distillation Sampling (SDS) с использованием предобученных видео-диффузионных моделей, AKD извлекает сложные, сочленённые движения, сохраняя структурную целостность и преодолевая проблемы, с которыми сталкиваются 4D-нейронные поля деформации в поддержании согласованности формы. Этот подход естественным образом совместим с физически-обоснованной симуляцией, обеспечивая правдоподобные физические взаимодействия. Эксперименты показывают, что AKD достигает превосходной 3D-согласованности и качества движений по сравнению с существующими работами в области генерации текста в 4D. Страница проекта: https://research.nvidia.com/labs/dir/akd/
Мы представляем ILLUME+, который использует двойную визуальную токенизацию и диффузионный декодер для улучшения как глубокого семантического понимания, так и генерации изображений с высокой точностью. Существующие унифицированные модели сталкиваются с трудностями при одновременной реализации трех фундаментальных возможностей: понимания, генерации и редактирования. Модели, такие как Chameleon и EMU3, используют VQGAN для дискретизации изображений, но из-за недостатка глубокого семантического взаимодействия они отстают от специализированных моделей, таких как LLaVA, в задачах визуального понимания. Чтобы устранить это, LaViT и ILLUME применяют семантические кодировщики для токенизации, но они испытывают трудности с редактированием изображений из-за плохого сохранения текстур. В то же время серия Janus разделяет представление входных и выходных изображений, что ограничивает их способность плавно обрабатывать чередующиеся задачи понимания и генерации изображений и текста. В отличие от них, ILLUME+ представляет унифицированный двойной визуальный токенизатор DualViTok, который сохраняет как мелкозернистые текстуры, так и семантику, согласованную с текстом, и позволяет использовать стратегию представления изображений от грубого к детальному для многомодального понимания и генерации. Дополнительно мы используем диффузионную модель в качестве детокенизатора изображений для повышения качества генерации и эффективного супер-разрешения. ILLUME+ следует схеме непрерывного ввода и дискретного вывода в рамках унифицированной MLLM и применяет прогрессивную процедуру обучения, которая поддерживает динамическое разрешение для визуального токенизатора, MLLM и диффузионного декодера. Этот дизайн позволяет гибко и эффективно выполнять контекстно-зависимое редактирование и генерацию изображений в различных задачах. ILLUME+ (3B) демонстрирует конкурентоспособную производительность по сравнению с существующими унифицированными MLLM и специализированными моделями в многомодальных задачах понимания, генерации и редактирования. Благодаря своей высокой производительности, ILLUME+ предоставляет масштабируемую и универсальную основу для будущих многомодальных приложений. Страница проекта: https://illume-unified-mllm.github.io/.
Генерация высококачественных изображений людей с использованием методов преобразования текста в изображение (T2I) является важной, но сложной задачей. В отличие от генерации изображений общего характера, синтез изображений человека должен соответствовать строгим критериям, связанным с позой, анатомией и соответствием текстовым описаниям, что делает достижение реалистичных результатов особенно трудным. Недавние достижения в области T2I-генерации на основе диффузионных моделей показали перспективность, однако остаются проблемы в удовлетворении специфических требований, связанных с изображением человека. В данной статье мы представляем новый подход, специально разработанный для генерации изображений людей с использованием оптимизации прямых предпочтений (Direct Preference Optimization, DPO). В частности, мы предлагаем эффективный метод создания специализированного набора данных DPO для обучения моделей генерации изображений человека без необходимости дорогостоящего сбора обратной связи от людей. Мы также предлагаем модифицированную функцию потерь, которая улучшает процесс обучения DPO, минимизируя артефакты и повышая качество изображений. Наш метод демонстрирует свою универсальность и эффективность в генерации изображений людей, включая персонализированное преобразование текста в изображение. В ходе всесторонних оценок мы показываем, что наш подход значительно продвигает состояние генерации изображений человека, достигая превосходных результатов с точки зрения естественности анатомии, поз и соответствия тексту и изображению.
Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), расширяют возможности крупных языковых моделей (Large Language Models, LLMs), интегрируя визуальную информацию, однако они остаются уязвимыми к атакам jailbreak, особенно при обработке зашумленных или поврежденных изображений. Хотя существующие VLMs используют меры безопасности в процессе обучения для смягчения таких атак, уязвимости, связанные с визуальными данными, усиленными шумом, остаются без внимания. В данной работе мы выявляем, что отсутствие обучения с использованием шума приводит к критическим пробелам в безопасности: многие VLMs подвержены даже простым искажениям, таким как гауссовский шум. Для решения этой проблемы мы предлагаем Robust-VLGuard — мультимодальный набор данных для безопасности, содержащий согласованные / несогласованные пары изображение-текст, в сочетании с тонкой настройкой, усиленной шумом, которая снижает успешность атак, сохраняя функциональность VLM. Для более сильных атак на основе оптимизационных визуальных искажений мы предлагаем DiffPure-VLM, используя диффузионные модели для преобразования враждебных искажений в гауссовский шум, который может быть защищен VLMs с тонкой настройкой безопасности, усиленной шумом. Экспериментальные результаты показывают, что свойство сдвига распределения диффузионной модели хорошо согласуется с нашими тонко настроенными VLMs, значительно смягчая враждебные искажения различной интенсивности. Набор данных и код доступны по адресу https://github.com/JarvisUSTC/DiffPure-RobustVLM.
Хотя современные модели синтеза речи (TTS) с нулевым обучением значительно улучшили качество и выразительность речи, основные системы по-прежнему сталкиваются с проблемами, связанными с моделированием выравнивания текста и речи: 1) модели без явного моделирования выравнивания демонстрируют меньшую устойчивость, особенно для сложных предложений в практических приложениях; 2) модели, основанные на предопределённом выравнивании, ограничены естественностью принудительного выравнивания. В данной статье представлена MegaTTS 3 — система TTS, использующая инновационный алгоритм разреженного выравнивания, который управляет латентным диффузионным трансформером (DiT). В частности, мы предоставляем MegaTTS 3 границы разреженного выравнивания, чтобы снизить сложность выравнивания, не ограничивая пространство поиска, что позволяет достичь высокой естественности. Кроме того, мы применяем стратегию классификатор-свободного управления с множественными условиями для регулировки интенсивности акцента и используем технику кусочно-линейного исправленного потока для ускорения процесса генерации. Эксперименты показывают, что MegaTTS 3 достигает передового качества речи в задачах TTS с нулевым обучением и поддерживает гибкий контроль над интенсивностью акцента. Примечательно, что наша система способна генерировать высококачественную речь длительностью в одну минуту всего за 8 шагов сэмплирования. Аудиообразцы доступны по ссылке: https://sditdemo.github.io/sditdemo/.
Модели, работающие с визуальными и текстовыми данными (VLMs), склонны к галлюцинациям объектов, когда они ошибочно указывают на наличие определённых объектов на изображении. Существующие бенчмарки оценивают такие галлюцинации с использованием относительно небольших размеченных наборов данных. Однако этот подход i) недостаточен для оценки галлюцинаций, возникающих в условиях открытого мира, где VLMs широко применяются, и ii) не подходит для выявления систематических ошибок в VLMs. Мы предлагаем DASH (Detection and Assessment of Systematic Hallucinations), автоматизированный масштабируемый конвейер, предназначенный для выявления систематических галлюцинаций VLMs на реальных изображениях в условиях открытого мира. Ключевым компонентом является DASH-OPT для поиска на основе изображений, где мы оптимизируем на "многообразии естественных изображений", чтобы генерировать изображения, которые вводят VLM в заблуждение. Результат работы DASH включает кластеры реальных и семантически схожих изображений, для которых VLM галлюцинирует объект. Мы применяем DASH к моделям PaliGemma и двум версиям LLaVA-NeXT для 380 классов объектов и в общей сложности находим более 19 тыс. кластеров с 950 тыс. изображений. Мы изучаем перенос выявленных систематических галлюцинаций на другие VLMs и показываем, что дообучение PaliGemma с использованием специфичных для модели изображений, полученных с помощью DASH, снижает количество галлюцинаций объектов. Код и данные доступны по адресу https://YanNeu.github.io/DASH.
Архитектуры сетей для обработки изображений, включая сверточные нейронные сети и Vision Transformers, значительно продвинули область компьютерного зрения. Однако их сложные вычисления создают трудности для практического применения, особенно в задачах, требующих работы в реальном времени. Для решения этой проблемы исследователи изучили различные облегченные и эффективные архитектуры сетей. Тем не менее, существующие облегченные модели в основном полагаются на механизмы самовнимания и свертки для смешивания токенов. Эта зависимость накладывает ограничения на эффективность и производительность процессов восприятия и агрегации в облегченных сетях, затрудняя достижение баланса между качеством и эффективностью при ограниченных вычислительных ресурсах. В данной работе мы вдохновляемся динамической способностью человеческой зрительной системы к восприятию на различных масштабах и предлагаем стратегию «Видеть крупное, фокусироваться на мелком» для проектирования облегченных сетей обработки изображений. Мы представляем LS-свертку (Large-Small), которая сочетает восприятие с использованием больших ядер и агрегацию с использованием малых ядер. Она позволяет эффективно захватывать широкий спектр перцептивной информации и достигать точной агрегации признаков для динамических и сложных визуальных представлений, обеспечивая профессиональную обработку визуальной информации. На основе LS-свертки мы представляем LSNet — новое семейство облегченных моделей. Многочисленные эксперименты демонстрируют, что LSNet превосходит существующие облегченные сети по производительности и эффективности в различных задачах компьютерного зрения. Коды и модели доступны по адресу https://github.com/jameslahm/lsnet.
Модели пространства состояний (SSM) становятся привлекательной альтернативой трансформерам благодаря постоянному использованию памяти и высокой производительности. Однако масштабирование SSM на облачных сервисах или устройствах с ограниченными ресурсами затруднено из-за их требований к хранению и вычислительной мощности. Для решения этой проблемы квантование SSM с использованием форматов данных с низкой разрядностью может уменьшить размер модели и воспользоваться преимуществами аппаратного ускорения. Поскольку SSM подвержены ошибкам, вызванным квантованием, последние исследования сосредоточены на оптимизации конкретной модели или разрядности для повышения эффективности без ущерба для производительности. Тем не менее, различные конфигурации разрядности необходимы для разных сценариев, например, W4A8 для увеличения скорости декодирования при больших пакетах и W4A16 для повышения скорости генерации в приложениях с короткими запросами для одного пользователя. В связи с этим мы представляем Quamba2, совместимый с W8A8, W4A8 и W4A16 для архитектур Mamba1 и Mamba2, что отвечает растущему спросу на развертывание SSM на различных платформах. Основываясь на сохранении порядка каналов и устойчивости активаций в SSM, мы предлагаем оффлайн-подход для квантования входов линейной рекурсии в 8-битном формате путем сортировки и кластеризации для входного вектора x, в сочетании с квантованием по группам состояний для входно-зависимых параметров B и C. Чтобы обеспечить инвариантность вычислений на выходе SSM, мы переупорядочиваем веса оффлайн в соответствии с последовательностью кластеризации. Эксперименты показывают, что Quamba2-8B превосходит несколько современных методов квантования SSM и обеспечивает ускорение в 1.3 раза и 3 раза на этапах предварительного заполнения и генерации соответственно, при этом сокращая использование памяти в 4 раза с потерей точности всего на 1.6%. Оценка на MMLU демонстрирует универсальность и устойчивость нашего фреймворка. Код и квантованные модели будут доступны по адресу: https://github.com/enyac-group/Quamba.
Крупные языковые модели демонстрируют впечатляющие способности к рассуждению, но часто выдают ненадежные или ошибочные ответы. Существующие методы проверки, как правило, специфичны для конкретных моделей или ограничены определенными областями, требуют значительных вычислительных ресурсов и не обладают масштабируемостью для разнообразных задач рассуждения. Чтобы устранить эти ограничения, мы предлагаем VerifiAgent — унифицированного агента проверки, который интегрирует два уровня верификации: мета-верификацию, которая оценивает полноту и согласованность ответов модели, и инструментальную адаптивную проверку, где VerifiAgent автономно выбирает подходящие инструменты проверки в зависимости от типа рассуждения, включая математические, логические или рассуждения на основе здравого смысла. Такой адаптивный подход обеспечивает как эффективность, так и надежность в различных сценариях проверки. Экспериментальные результаты показывают, что VerifiAgent превосходит базовые методы проверки (например, дедуктивный верификатор, обратный верификатор) во всех задачах рассуждения. Кроме того, он может дополнительно повышать точность рассуждений, используя обратную связь от результатов проверки. VerifiAgent также эффективно применяется для масштабирования вывода, достигая лучших результатов с меньшим количеством сгенерированных образцов и затрат по сравнению с существующими моделями вознаграждения за процесс в области математических рассуждений. Код доступен по адресу: https://github.com/Jiuzhouh/VerifiAgent.
Были предложены различные методы пропуска слоев для ускорения генерации токенов в больших языковых моделях (LLM). Однако они упускают из виду фундаментальный вопрос: как меняются вычислительные требования в процессе генерации различных токенов? В данной работе мы представляем FlexiDepth — метод, который динамически регулирует количество слоев Transformer, используемых при генерации текста. Благодаря внедрению подключаемого маршрутизатора и адаптера, FlexiDepth позволяет адаптивно пропускать слои в LLM без изменения их исходных параметров. Внедрение FlexiDepth в модель Llama-3-8B позволяет пропускать 8 слоев из 32, при этом сохраняя полную производительность на уровне 100% по эталонным тестам. Экспериментальные результаты с использованием FlexiDepth демонстрируют, что вычислительные требования в LLM значительно варьируются в зависимости от типа токена. В частности, генерация повторяющихся токенов или фиксированных фраз требует меньшего количества слоев, тогда как создание токенов, связанных с вычислениями или высокой неопределенностью, требует большего количества слоев. Интересно, что этот адаптивный паттерн распределения слоев соответствует человеческой интуиции. Для продвижения исследований в этой области мы открыли исходный код FlexiDepth и опубликовали набор данных, фиксирующий паттерны распределения слоев в FlexiDepth, для дальнейшего изучения.
Мы представляем целенаправленную видео-диффузионную модель, которая генерирует видео на основе входного изображения, где актор взаимодействует с указанной целью, выполняя желаемое действие. Цель задается с помощью маски сегментации, а желаемое действие описывается текстовым запросом. В отличие от существующих управляемых моделей для преобразования изображения в видео, которые часто полагаются на плотные структурные или динамические подсказки для направления движений актора к цели, наша целенаправленная модель требует только простой маски для указания цели, используя обобщающие способности предварительно обученных моделей для создания правдоподобных действий. Это делает наш метод особенно эффективным для сценариев взаимодействия человека с объектом (HOI), где предоставление точных указаний на действия является сложной задачей, и дополнительно позволяет использовать видео-диффузионные модели для высокоуровневого планирования действий в таких приложениях, как робототехника. Мы создаем нашу целенаправленную модель, расширяя базовую модель для включения маски цели в качестве дополнительного входного параметра. Для обеспечения осведомленности о цели мы вводим специальный токен, который кодирует пространственную информацию цели в текстовом запросе. Затем мы дообучаем модель на нашем специально подготовленном наборе данных, используя новую функцию потерь на основе кросс-внимания, которая выравнивает карты кросс-внимания, связанные с этим токеном, с входной маской цели. Для дальнейшего повышения производительности мы выборочно применяем эту функцию потерь к наиболее семантически значимым блокам трансформеров и областям внимания. Экспериментальные результаты показывают, что наша целенаправленная модель превосходит существующие решения в генерации видео, где акторы точно взаимодействуют с указанными целями. Мы также демонстрируем ее эффективность в двух прикладных задачах: создании видеоконтента и синтезе 3D-движений для взаимодействия человека с объектом в условиях нулевого обучения.
Предыдущие исследования в области обнаружения данных вне распределения (OoDD) в основном были сосредоточены на моделях с одним модальностью. В последнее время с появлением крупномасштабных предобученных моделей, работающих с визуальными и текстовыми данными, таких как CLIP, появились методы OoDD, использующие такие мультимодальные представления через стратегии обучения с нулевым выстрелом (zero-shot) и подсказками (prompt learning). Однако эти методы обычно предполагают либо заморозку предобученных весов, либо их частичную настройку, что может быть неоптимальным для последующих наборов данных. В данной статье мы подчеркиваем, что мультимодальная тонкая настройка (MMFT) может достичь значительных результатов в OoDD. Несмотря на то, что некоторые недавние работы демонстрируют влияние методов тонкой настройки на OoDD, остается значительный потенциал для улучшения производительности. Мы исследуем ограничения наивных методов тонкой настройки, анализируя, почему они не могут полностью использовать предобученные знания. Наш эмпирический анализ предполагает, что эта проблема может быть связана с разрывом модальностей внутри встроений данных из распределения (ID). Для решения этой проблемы мы предлагаем целевую функцию обучения, которая улучшает кросс-модальное выравнивание, регулируя расстояния между вложениями изображений и текстов данных ID. Это изменение помогает лучше использовать предобученную текстовую информацию, более тесно выравнивая схожую семантику из разных модальностей (т.е. текста и изображения) в гиперсферическом пространстве представлений. Мы теоретически показываем, что предложенная регуляризация соответствует оценке максимального правдоподобия энергетической модели на гиперсфере. Используя наборы данных OoD из ImageNet-1k, мы демонстрируем, что наш метод в сочетании с пост-обработочными подходами OoDD, использующими предобученные знания (например, NegLabel), значительно превосходит существующие методы, достигая наилучших показателей OoDD и лидирующей точности на данных ID.
Крупные языковые модели (LLM) обладают потенциалом для преобразования медицины, однако реальные клинические сценарии содержат избыточную информацию, которая может снижать их эффективность. Появление вспомогательных технологий, таких как автоматическая транскрипция, которая генерирует черновые записи на основе живых взаимодействий с пациентами, может вносить дополнительный шум, что делает критически важным оценку способности LLM фильтровать релевантные данные. Для изучения этого вопроса мы разработали MedDistractQA — эталонный набор, использующий вопросы в стиле USMLE, в которые встроены смоделированные отвлекающие элементы, характерные для реальной практики. Наши результаты показывают, что отвлекающие утверждения (например, многозначные слова с медицинским значением, используемые в немедицинском контексте, или упоминания несвязанных состояний здоровья) могут снижать точность LLM до 17,9%. Часто предлагаемые решения для улучшения производительности моделей, такие как генерация с использованием извлечения данных (RAG) и тонкая настройка на медицинских данных, не устранили этот эффект, а в некоторых случаях даже вносили дополнительные искажения и ухудшали результаты. Наши данные свидетельствуют о том, что LLM изначально не обладают логическими механизмами, необходимыми для различения релевантной и нерелевантной клинической информации, что создает вызовы для их применения в реальных условиях. MedDistractQA и наши результаты подчеркивают необходимость разработки надежных стратегий для повышения устойчивости LLM к избыточной информации.