Ежедневно отобранные исследовательские статьи по ИИ с переводами
Yume стремится использовать изображения, текст или видео для создания интерактивного, реалистичного и динамичного мира, который позволяет исследование и управление с помощью периферийных устройств или нейронных сигналов. В этом отчете мы представляем предварительную версию метода \method, который создает динамичный мир из входного изображения и позволяет исследовать его с помощью действий на клавиатуре. Для достижения генерации высококачественного и интерактивного видеомира мы представляем тщательно разработанную структуру, состоящую из четырех основных компонентов: квантования движений камеры, архитектуры генерации видео, продвинутого сэмплера и ускорения модели. Сначала мы квантуем движения камеры для стабильного обучения и удобного взаимодействия с использованием клавиатурных вводов. Затем мы представляем Masked Video Diffusion Transformer~(MVDT) с модулем памяти для бесконечной генерации видео в авторегрессивном режиме. После этого в сэмплер добавляются Anti-Artifact Mechanism (AAM), не требующий обучения, и Time Travel Sampling на основе стохастических дифференциальных уравнений (TTS-SDE) для улучшения визуального качества и более точного управления. Кроме того, мы исследуем ускорение модели за счет синергетической оптимизации adversarial distillation и механизмов кэширования. Мы используем высококачественный набор данных для исследования мира \sekai для обучения \method, и он демонстрирует впечатляющие результаты в различных сценах и приложениях. Все данные, код и веса модели доступны на https://github.com/stdstu12/YUME. Yume будет обновляться ежемесячно для достижения своей первоначальной цели. Страница проекта: https://stdstu12.github.io/YUME-Project/.
Достижение человеческого уровня восприятия и рассуждений в мультимодальных больших языковых моделях (MLLM) остается ключевой задачей в области искусственного интеллекта. Хотя последние исследования в основном сосредоточены на улучшении способностей к рассуждению в MLLM, фундаментальный вопрос остается открытым: могут ли мультимодальные большие языковые модели действительно воспринимать мир так, как это делают люди? В данной работе акцент смещается с рассуждений на восприятие. Вместо создания специализированных тестов для оценки рассуждений мы представляем Тест Тьюринга для зрения (Turing Eye Test, TET) — сложный ориентированный на восприятие бенчмарк, состоящий из четырех диагностических задач, которые оценивают производительность MLLM на синтетических изображениях, которые люди обрабатывают интуитивно. Наши результаты показывают, что современные MLLM демонстрируют катастрофические провалы в наших задачах на восприятие, которые для людей являются тривиальными. Как обучение в контексте, так и тренировка на языковой основе, эффективной для предыдущих бенчмарков, не улучшают производительность в наших задачах, в то время как тонкая настройка визуального модуля позволяет быстро адаптироваться, что указывает на то, что наш бенчмарк ставит задачи для обобщения визуального модуля, а не для знаний и способностей к рассуждению языковой основы — ключевой разрыв между современными MLLM и человеческим восприятием. В этой версии мы публикуем репрезентативное подмножество задач TET и планируем представить более разнообразные задачи и методы для улучшения визуального обобщения в будущих работах.
Создание качественных презентационных слайдов может быть сложной задачей для неспециалистов из-за сложности навигации среди множества дизайнерских решений. Многочисленные автоматизированные инструменты могут предлагать макеты и цветовые схемы, но часто не способны дорабатывать свои собственные результаты, что является ключевым аспектом в реальных рабочих процессах. Мы предлагаем DesignLab, который разделяет процесс дизайна на две роли: рецензент дизайна, который выявляет проблемы, связанные с дизайном, и участник дизайна, который их исправляет. Такое разделение позволяет создать итерационный цикл, в котором рецензент постоянно обнаруживает проблемы, а участник их исправляет, что позволяет с каждой итерацией улучшать черновик, достигая ранее недоступного уровня качества. Мы дообучаем крупные языковые модели для этих ролей и моделируем промежуточные черновики, вводя контролируемые изменения, что позволяет рецензенту учиться распознавать ошибки дизайна, а участнику — исправлять их. Наши эксперименты показывают, что DesignLab превосходит существующие методы генерации дизайна, включая коммерческий инструмент, благодаря использованию итеративного подхода к дизайну, что позволяет создавать профессиональные и отточенные слайды.
Обучение с подкреплением с верифицируемыми наградами (RLVR) стало мощной парадигмой для улучшения способностей крупных языковых моделей (LLM) к рассуждению. Существующие исследования в основном сосредоточены на изолированных областях рассуждений, таких как решение математических задач, программирование или логическое мышление. Однако реальные сценарии рассуждений требуют интегрированного применения множества когнитивных навыков. Несмотря на это, взаимодействие между этими навыками в рамках обучения с подкреплением остается малоизученным. Чтобы устранить этот пробел, мы представляем систематическое исследование многодоменного рассуждения в рамках RLVR, уделяя особое внимание трем основным областям: математическому рассуждению, генерации кода и решению логических головоломок. Наше исследование включает четыре ключевых компонента: (1) Используя алгоритм GRPO и семейство моделей Qwen-2.5-7B, мы тщательно оцениваем улучшения моделей внутри доменов и их способность к обобщению между доменами при обучении на однодоменных данных. (2) Кроме того, мы исследуем сложные взаимодействия, включая взаимное усиление и конфликты, которые возникают при совместном обучении на данных из разных доменов. (3) Чтобы глубже понять влияние SFT на RL, мы также анализируем и сравниваем различия в производительности между базовыми и инструктивными моделями при одинаковых настройках RL. (4) Кроме того, мы углубляемся в важные детали обучения с подкреплением, систематически исследуя влияние стратегий обучения по учебному плану, вариаций в дизайне наград и языковых факторов. Результаты наших экспериментов предоставляют значительные инсайты в динамику взаимодействия доменов, выявляя ключевые факторы, влияющие как на специализированную, так и на обобщаемую производительность рассуждений. Эти выводы дают ценное руководство для оптимизации методологий RL с целью развития всесторонних, многодоменных способностей к рассуждению в LLM.
Последние достижения в области разреженных воксельных представлений значительно улучшили качество генерации 3D-контента, обеспечивая моделирование с высоким разрешением и детализированной геометрией. Однако существующие фреймворки страдают от серьезных вычислительных неэффективностей из-за квадратичной сложности механизмов внимания в их двухэтапных диффузионных конвейерах. В данной работе мы предлагаем Ultra3D, эффективный фреймворк для генерации 3D-моделей, который значительно ускоряет разреженное воксельное моделирование без ущерба для качества. Наш метод использует компактное представление VecSet для эффективной генерации грубой структуры объекта на первом этапе, сокращая количество токенов и ускоряя предсказание воксельных координат. Для уточнения латентных характеристик каждого вокселя на втором этапе мы вводим Part Attention, геометрически осознанный локализованный механизм внимания, который ограничивает вычисления внимания в пределах семантически согласованных регионов частей. Этот подход сохраняет структурную непрерывность, избегая ненужного глобального внимания, и достигает ускорения генерации латентных характеристик до 6.7 раз. Для поддержки этого механизма мы создаем масштабируемый конвейер аннотации частей, который преобразует исходные сетки в разреженные воксели с метками частей. Многочисленные эксперименты демонстрируют, что Ultra3D поддерживает генерацию 3D-моделей с высоким разрешением 1024 и достигает передовых показателей как в визуальной точности, так и в предпочтениях пользователей.
Агентный поиск, как более автономная и адаптивная парадигма расширения поиска, способствует эволюции интеллектуальных поисковых систем. Однако существующие оценочные рамки плохо соответствуют целям агентного поиска. Во-первых, сложные запросы, часто используемые в современных тестах, зачастую отклоняются от реалистичных сценариев поиска пользователей. Во-вторых, предыдущие подходы склонны вносить шум при извлечении эталонных данных для сквозной оценки, что приводит к искажённым оценкам на детальном уровне. В-третьих, большинство текущих рамок сосредоточено исключительно на качестве конечных ответов, игнорируя оценку итеративного процесса, присущего агентному поиску. Для устранения этих ограничений мы предлагаем RAVine — оценочную рамку, согласованную с реальностью, для агентных языковых моделей с поиском. RAVine ориентирована на многопараметрические запросы и развёрнутые ответы, которые лучше отражают намерения пользователей, и вводит стратегию построения атрибутируемых эталонных данных для повышения точности детальной оценки. Кроме того, RAVine анализирует взаимодействие модели с поисковыми инструментами на протяжении итеративного процесса и учитывает факторы эффективности. Мы тестируем ряд моделей с использованием RAVine и получаем несколько важных выводов, которые, как мы надеемся, внесут вклад в развитие агентных поисковых систем. Код и наборы данных доступны по адресу https://github.com/SwordFaith/RAVine.
Существующие крупные языковые модели (LLM), обученные с использованием обучения с подкреплением (RL) на основе неформальных языков (например, естественного языка), сталкиваются с серьёзной проблемой: их процессы верификации, которые предоставляют важные сигналы для обучения, не являются ни надёжными, ни масштабируемыми. Фактически, преобладающие крупные проприетарные модели едва ли способны генерировать верифицируемые программы. Многообещающей, но малоизученной альтернативой является рассуждение на основе формальных языков. Основание LLM на строгих формальных системах, где генеративные модели работают в пространствах формальных языков (например, Dafny), позволяет автоматически и математически доказуемо проверять их процессы рассуждения и результаты. Эта возможность имеет ключевое значение для достижения крупномасштабной и надёжной формальной верификации программного обеспечения. Обычной практикой является использование аннотированных человеком цепочек рассуждений и других человеческих априорных знаний для развития способностей LLM к рассуждению и написанию кода. К сожалению, предоставление таких априорных знаний для контроля сложных задач программирования становится неприемлемо трудоёмким. В данной работе мы систематически исследуем способы сокращения человеческих априорных знаний с использованием формального языка Dafny в качестве основной среды для нашего пилотного исследования. Наш подход в основном опирается на внедрение автоматического и масштабируемого конвейера курирования данных, а также тщательно продуманные методы RL, интегрированные с обратной связью от верификатора формального языка. Мы представляем DafnyComp — набор композиционных формальных программ с автоматически формализованными спецификациями для рассуждения на основе спецификаций. Наш этап контролируемого тонкого настройки (SFT) позволяет даже небольшим моделям (например, 0.5B) генерировать синтаксически корректный и верифицируемый код на Dafny, превосходя проприетарные модели. RL с регуляризацией дополнительно улучшает производительность, достигая более сильной обобщаемости на задачи вне домена и превосходя все сильные базовые модели на сложном наборе данных DafnyComp.
Крупные языковые модели (LLM) демонстрируют наилучшие результаты с тщательно составленными промптами, однако разработка промптов остается ручным, неоднородным и недоступным для неспециалистов процессом. Мы представляем Promptomatix — автоматизированную систему оптимизации промптов, которая преобразует описания задач на естественном языке в высококачественные промпты без необходимости ручной настройки или экспертных знаний в предметной области. Promptomatix поддерживает как легковесный оптимизатор на основе мета-промптов, так и компилятор на базе DSPy, а модульная архитектура позволяет в будущем расширять систему более продвинутыми фреймворками. Система анализирует намерения пользователя, генерирует синтетические обучающие данные, выбирает стратегии промптинга и уточняет промпты с учетом целевых показателей, оптимизированных по затратам. В ходе оценки на 5 категориях задач Promptomatix демонстрирует конкурентоспособные или превосходящие результаты по сравнению с существующими библиотеками, одновременно сокращая длину промптов и вычислительные затраты, что делает оптимизацию промптов масштабируемой и эффективной.
Высококачественные 3D-активы необходимы для различных приложений в компьютерной графике и 3D-зрении, но их количество остается ограниченным из-за значительных затрат на их создание. Чтобы решить эту проблему, мы представляем Elevate3D — новый фреймворк, который преобразует легкодоступные низкокачественные 3D-активы в более качественные. В основе Elevate3D лежит HFS-SDEdit — специализированный метод улучшения текстур, который значительно повышает их качество, сохраняя внешний вид и геометрию, одновременно устраняя дефекты. Кроме того, Elevate3D работает пошагово, чередуя улучшение текстур и геометрии. В отличие от предыдущих методов, которые в основном игнорировали улучшение геометрии, наш фреймворк использует геометрические подсказки из изображений, улучшенных с помощью HFS-SDEdit, применяя современные монокулярные предсказатели геометрии. Такой подход обеспечивает детальную и точную геометрию, которая идеально сочетается с улучшенной текстурой. Elevate3D превосходит последние конкурирующие методы, достигая передового качества в уточнении 3D-моделей, эффективно решая проблему нехватки высококачественных открытых 3D-активов.
Быстрое развитие моделей диффузии видео сталкивается с фундаментальными ограничениями в области временного моделирования, в частности, с жесткой синхронизацией эволюции кадров, накладываемой традиционными скалярными переменными временных шагов. Хотя специализированные адаптации и авторегрессивные модели пытались решить эти проблемы, они остаются ограниченными из-за вычислительной неэффективности, катастрофического забывания или узкой применимости. В данной работе мы представляем Pusa, революционную парадигму, которая использует векторную адаптацию временных шагов (VTA) для обеспечения детализированного временного контроля в рамках единой модели диффузии видео. Кроме того, VTA является неразрушающей адаптацией, что означает полное сохранение возможностей базовой модели. Настроив модель Wan2.1-T2V-14B с использованием VTA, мы достигаем беспрецедентной эффективности — превосходя производительность Wan-I2V-14B при затратах на обучение, не превышающих 1/200 (\500 против \geq 100,000), и размере набора данных, не превышающем 1/2500 (4K против \geq 10M образцов). Pusa не только устанавливает новый стандарт для генерации изображений в видео (I2V), достигая общего балла VBench-I2V 87.32\% (против 86.86\% у Wan-I2V-14B), но также открывает множество возможностей для выполнения многозадачных операций без дополнительного обучения, таких как генерация начальных и конечных кадров и расширение видео. При этом Pusa сохраняет способность к генерации видео из текста. Механистический анализ показывает, что наш подход сохраняет генеративные приоритеты базовой модели, точно внедряя временную динамику и избегая комбинаторного взрыва, присущего векторным временным шагам. Эта работа создает масштабируемую, эффективную и универсальную парадигму для следующего поколения синтеза видео, делая генерацию высококачественного видео доступной как для исследований, так и для промышленности. Код доступен по адресу: https://github.com/Yaofang-Liu/Pusa-VidGen.
Модели диффузии для генерации изображений по тексту (DMs) достигли значительных успехов в создании изображений. Однако сохраняются опасения относительно конфиденциальности данных и интеллектуальной собственности из-за их способности непреднамеренно запоминать и воспроизводить обучающие данные. Недавние усилия по смягчению этих рисков были сосредоточены на выявлении и удалении весов, ответственных за запуск воспроизведения, основываясь на предположении, что запоминание может быть локализовано. Наше исследование оценивает устойчивость этих подходов, основанных на удалении весов. Мы демонстрируем, что даже после удаления весов незначительные изменения текстовых эмбеддингов входных запросов достаточно для повторного запуска воспроизведения данных, что подчеркивает хрупкость этих защитных мер. Кроме того, мы оспариваем фундаментальное предположение о локализации запоминания, показывая, что воспроизведение может быть запущено из различных областей пространства текстовых эмбеддингов и следует разным путям в модели. Наши результаты указывают на недостаточность существующих стратегий смягчения и подчеркивают необходимость методов, которые действительно удаляют запомненное содержимое, а не пытаются подавить его извлечение. В качестве первого шага в этом направлении мы представляем новый метод состязательной тонкой настройки, который итеративно ищет триггеры воспроизведения и обновляет модель для повышения устойчивости. Наше исследование предоставляет новые взгляды на природу запоминания в текстово-изобразительных DMs и основу для создания более надежных и соответствующих нормам генеративных ИИ.