Ежедневно отобранные исследовательские статьи по ИИ с переводами
Крупные языковые модели (LLMs) достигли значительных успехов в обработке естественного языка. Последние достижения привели к разработке нового класса моделей, ориентированных на рассуждения; например, открытая модель DeepSeek-R1 достигла наилучших результатов, интегрируя глубокое мышление и сложные рассуждения. Несмотря на эти впечатляющие возможности, внутренние механизмы рассуждений таких моделей остаются малоизученными. В данной работе мы используем разреженные автоэнкодеры (Sparse Autoencoders, SAEs) — метод, позволяющий изучать разреженное разложение латентных представлений нейронной сети на интерпретируемые признаки, — для выявления признаков, которые управляют рассуждениями в моделях серии DeepSeek-R1. Сначала мы предлагаем подход для извлечения кандидатов на «признаки рассуждения» из представлений SAE. Мы проверяем эти признаки с помощью эмпирического анализа и методов интерпретируемости, демонстрируя их прямую связь со способностями модели к рассуждениям. Важно отметить, что мы показываем, что управление этими признаками систематически улучшает производительность рассуждений, предлагая первое механистическое объяснение рассуждений в LLMs. Код доступен по адресу: https://github.com/AIRI-Institute/SAE-Reasoning.
С увеличением масштаба обучающих данных, размера модели и вычислительных затрат генерация видео достигла впечатляющих результатов в цифровом творчестве, позволяя пользователям выражать креативность в различных областях. Недавно исследователи в области больших языковых моделей (LLM) расширили масштабирование до этапа тестирования, что может значительно улучшить производительность LLM за счет использования большего объема вычислений на этапе вывода. Вместо масштабирования базовых моделей видео через дорогостоящие затраты на обучение мы исследуем потенциал масштабирования на этапе тестирования (Test-Time Scaling, TTS) в генерации видео, стремясь ответить на вопрос: если модели генерации видео разрешено использовать значительный объем вычислений на этапе вывода, насколько может улучшиться качество генерации при сложном текстовом запросе. В данной работе мы переосмысливаем масштабирование на этапе тестирования в генерации видео как задачу поиска, чтобы выбирать более качественные траектории из пространства гауссовского шума к целевому распределению видео. В частности, мы строим пространство поиска с использованием верификаторов на этапе тестирования для предоставления обратной связи и эвристических алгоритмов для управления процессом поиска. Для заданного текстового запроса мы сначала исследуем интуитивную стратегию линейного поиска, увеличивая количество кандидатов шума на этапе вывода. Поскольку полное удаление шума для всех кадров одновременно требует значительных вычислительных затрат на этапе тестирования, мы разрабатываем более эффективный метод TTS для генерации видео под названием Tree-of-Frames (ToF), который адаптивно расширяет и обрезает ветви видео в авторегрессивном режиме. Многочисленные эксперименты на бенчмарках генерации видео по текстовым условиям демонстрируют, что увеличение объема вычислений на этапе тестирования последовательно приводит к значительному улучшению качества видео. Страница проекта: https://liuff19.github.io/Video-T1
Современная разработка игр сталкивается с серьезными вызовами в области креативности и затрат из-за предопределенного контента в традиционных игровых движках. Недавние прорывы в моделях генерации видео, способных синтезировать реалистичные и интерактивные виртуальные среды, открывают возможность для революции в создании игр. В данной позиционной статье мы предлагаем Interactive Generative Video (IGV) в качестве основы для Generative Game Engines (GGE), что позволит генерировать неограниченный новый контент в играх следующего поколения. GGE использует уникальные преимущества IGV, такие как синтез неограниченного высококачественного контента, моделирование физически осознанных миров, управляемая пользователем интерактивность, возможности долговременной памяти и причинно-следственные рассуждения. Мы представляем комплексную структуру, детализирующую основные модули GGE, и иерархическую дорожную карту зрелости (L0-L4) для руководства его развитием. Наша работа прокладывает новый путь для разработки игр в эпоху ИИ, представляя будущее, где генеративные системы, основанные на ИИ, коренным образом изменят способы создания и восприятия игр.
DeepSeek-R1 продемонстрировал, что длинные цепочки рассуждений (CoT) могут естественным образом возникать в рамках простого обучения с подкреплением (RL) с использованием правил для начисления наград, где обучение может начинаться непосредственно с базовых моделей — подход, называемый нулевым обучением с подкреплением (zero RL training). Большинство недавних попыток воспроизведения нулевого обучения с подкреплением сосредоточены на серии моделей Qwen2.5, что может быть нерепрезентативным, так как мы обнаружили, что базовые модели уже обладают сильными способностями к выполнению инструкций и саморефлексии. В данной работе мы исследуем нулевое обучение с подкреплением на 10 разнообразных базовых моделях, охватывающих различные семейства и размеры, включая LLama3-8B, Mistral-7B/24B, DeepSeek-Math-7B, Qwen2.5-math-7B и все модели Qwen2.5 от 0.5B до 32B. Используя несколько ключевых стратегий проектирования, таких как корректировка наград за формат и управление сложностью запросов, мы добились значительного улучшения как точности рассуждений, так и длины ответов в большинстве случаев. Однако, внимательно отслеживая динамику обучения, мы наблюдаем, что разные базовые модели демонстрируют различные паттерны в процессе обучения. Например, увеличение длины ответа не всегда коррелирует с появлением определенных когнитивных поведений, таких как проверка (т.е. "момент озарения"). Примечательно, что мы впервые наблюдаем "момент озарения" в небольших моделях, не относящихся к семейству Qwen. Мы делимся ключевыми решениями, которые позволяют успешно проводить нулевое обучение с подкреплением, а также нашими выводами и практиками. Для содействия дальнейшим исследованиям мы открываем исходный код, модели и инструменты анализа.
Интеграция геометрической реконструкции и генеративного моделирования остается ключевой задачей в разработке ИИ-систем, способных к человеческому пространственному мышлению. В данной статье представлен Aether — унифицированный фреймворк, который обеспечивает геометрически осознанное рассуждение в моделях мира за счет совместной оптимизации трех основных возможностей: (1) 4D динамической реконструкции, (2) предсказания видео с учетом действий и (3) визуального планирования, ориентированного на цели. Благодаря переплетенному обучению признаков Aether достигает синергетического обмена знаниями между задачами реконструкции, предсказания и планирования. Основанный на моделях генерации видео, наш фреймворк демонстрирует беспрецедентную обобщаемость от синтетических данных к реальным, несмотря на отсутствие данных из реального мира в процессе обучения. Более того, наш подход обеспечивает обобщение с нуля как в задачах следования действиям, так и в задачах реконструкции благодаря встроенному геометрическому моделированию. Примечательно, что даже без данных из реального мира его производительность в реконструкции значительно превосходит специализированные модели. Кроме того, Aether использует геометрически информированное пространство действий для плавного преобразования предсказаний в действия, что позволяет эффективно планировать автономные траектории. Мы надеемся, что наша работа вдохновит сообщество на исследование новых горизонтов в физически обоснованном моделировании мира и его приложениях.
Omnimatte ставит своей целью декомпозицию заданного видео на семантически значимые слои, включая фон и отдельные объекты вместе с их связанными эффектами, такими как тени и отражения. Существующие методы часто требуют обширного обучения или дорогостоящей оптимизации с самоконтролем. В данной статье мы представляем OmnimatteZero — подход, не требующий обучения, который использует готовые предобученные модели диффузии видео для создания omnimatte. Он может удалять объекты из видео, извлекать отдельные слои объектов вместе с их эффектами и комбинировать эти объекты с новыми видео. Мы достигаем этого, адаптируя техники инпантинга изображений с нулевым обучением для удаления объектов из видео — задачу, с которой они изначально не справляются эффективно. Затем мы показываем, что карты самовнимания захватывают информацию об объекте и его следах, и используем их для инпантинга эффектов объекта, оставляя чистый фон. Кроме того, с помощью простых операций в латентном пространстве слои объектов могут быть изолированы и бесшовно объединены с новыми слоями видео для создания новых видеороликов. Оценки показывают, что OmnimatteZero не только демонстрирует превосходную производительность в плане реконструкции фона, но и устанавливает новый рекорд по скорости среди подходов Omnimatte, достигая работы в реальном времени с минимальным временем обработки кадров.
Прогресс в научных открытиях редко является результатом единичного "Эврика"-момента, а скорее представляет собой продукт совместных усилий сотен ученых, постепенно работающих над общей целью. Хотя существующие рабочие процессы агентов способны автономно проводить исследования, они делают это изолированно, без возможности непрерывного улучшения предыдущих результатов. Для решения этих задач мы представляем AgentRxiv — фреймворк, который позволяет лабораториям агентов на основе больших языковых моделей (LLM) загружать и извлекать отчеты из общего сервера препринтов, чтобы сотрудничать, делиться идеями и итеративно развивать исследования друг друга. Мы поручаем лабораториям агентов разрабатывать новые методы рассуждения и формулирования запросов и обнаруживаем, что агенты, имеющие доступ к своим предыдущим исследованиям, достигают более значительного улучшения производительности по сравнению с агентами, работающими изолированно (относительное улучшение на 11,4% по сравнению с базовым уровнем на MATH-500). Мы также выясняем, что лучшая стратегия обобщается на бенчмарки в других областях (улучшение в среднем на 3,3%). Несколько лабораторий агентов, делящихся исследованиями через AgentRxiv, способны совместно работать над общей целью, продвигаясь быстрее, чем изолированные лаборатории, и достигая более высокой общей точности (относительное улучшение на 13,7% по сравнению с базовым уровнем на MATH-500). Эти результаты позволяют предположить, что автономные агенты могут играть роль в проектировании будущих систем ИИ совместно с людьми. Мы надеемся, что AgentRxiv позволит агентам сотрудничать в достижении исследовательских целей и поможет ученым ускорить процесс открытий.
Classifier-Free Guidance (CFG) — это широко используемая техника в диффузионных/потоковых моделях для повышения качества изображений и управляемости. В данной работе мы сначала аналитически исследуем влияние CFG на модели потокового согласования, обученные на гауссовских смесях, где можно вывести истинный поток. Мы наблюдаем, что на ранних этапах обучения, когда оценка потока неточна, CFG направляет выборки по неправильным траекториям. На основе этого наблюдения мы предлагаем CFG-Zero*, улучшенную версию CFG с двумя ключевыми вкладами: (a) оптимизированный масштаб, где скаляр оптимизируется для коррекции неточностей в оцененной скорости, что отражено в символе * в названии; и (b) zero-init, который предполагает обнуление первых нескольких шагов решателя ОДУ. Эксперименты на задачах генерации изображений из текста (Lumina-Next, Stable Diffusion 3 и Flux) и видео из текста (Wan-2.1) демонстрируют, что CFG-Zero* стабильно превосходит CFG, подчеркивая его эффективность в управлении моделями потокового согласования. (Код доступен на github.com/WeichenFan/CFG-Zero-star)
Крупные языковые модели (LLM) всё чаще используются в агентных системах, взаимодействующих с внешней средой. Однако LLM-агенты уязвимы к атакам внедрения промптов при обработке ненадёжных данных. В данной статье мы предлагаем CaMeL — надёжную защиту, которая создаёт защитный системный слой вокруг LLM, обеспечивая её безопасность даже в случаях, когда базовые модели могут быть подвержены атакам. Для работы CaMeL явно извлекает потоки управления и данных из (надёжного) запроса; таким образом, ненадёжные данные, полученные LLM, никогда не могут повлиять на поток выполнения программы. Для дальнейшего повышения безопасности CaMeL использует концепцию возможностей (capability), чтобы предотвратить утечку приватных данных через несанкционированные потоки данных. Мы демонстрируем эффективность CaMeL, успешно решая 67% задач с доказанной безопасностью в AgentDojo [NeurIPS 2024], недавнем бенчмарке для оценки безопасности агентных систем.
Оценка генеративных базовых моделей на задачах открытого многомодального понимания (MMU) и генерации (MMG) в различных модальностях (например, изображения, аудио, видео) представляет значительные сложности из-за сложности кросс-модальных взаимодействий. В связи с этим возникла идея использования многомодальных языковых моделей (MLLM) в качестве автоматических судей, что уже показало обнадеживающие результаты в оценке задач понимания визуально-текстовой информации. В данной статье мы расширяем подход MLLM-as-a-Judge на все модальности, предлагая унифицированный метод, вводя два бенчмарка: TaskAnything и JudgeAnything, для оценки общей производительности и судейских способностей MLLM в задачах любой-к-любой модальности. В частности, TaskAnything оценивает способности MMU и MMG в 15 категориях любой-к-любой модальности, используя 1500 запросов, отобранных из хорошо зарекомендовавших себя бенчмарков. Кроме того, JudgeAnything оценивает судейские способности 5 передовых моделей (например, GPT-4o и Gemini-2.0-Flash) с точки зрения парного сравнения и оценки баллов, предоставляя стандартизированную тестовую среду, которая включает человеческие суждения и детальные критерии. Наши обширные эксперименты показывают, что, хотя эти MLLM демонстрируют потенциал в оценке MMU (достигая в среднем 66.55% в настройке парного сравнения и 42.79% в настройке оценки баллов), они сталкиваются с серьезными трудностями в задачах MMG (в среднем только 53.37% в настройке парного сравнения и 30.05% в настройке оценки баллов), выявляя кросс-модальные предубеждения и проблемы с галлюцинациями. Для решения этих проблем мы представляем OmniArena, автоматизированную платформу для оценки омни-моделей и многомодальных моделей вознаграждения. Наша работа подчеркивает необходимость более справедливых протоколов оценки и более сильного согласования с человеческими предпочтениями. Исходный код и набор данных доступны по адресу: https://urrealhero.github.io/judgeanythingweb/.
Мы представляем FFN Fusion — метод оптимизации архитектуры, который сокращает последовательные вычисления в больших языковых моделях за счет выявления и использования естественных возможностей для параллелизации. Наше ключевое наблюдение заключается в том, что последовательности слоев Feed-Forward Network (FFN), особенно оставшиеся после удаления определенных слоев внимания, часто могут быть параллелизованы с минимальным влиянием на точность. Мы разработали принципиальную методологию для выявления и объединения таких последовательностей, преобразуя их в параллельные операции, которые значительно сокращают задержку вывода при сохранении поведения модели. Применив эти методы к модели Llama-3.1-405B-Instruct, мы создали Llama-Nemotron-Ultra-253B-Base (Ultra-253B-Base) — эффективную модель, которая скоро станет общедоступной и демонстрирует ускорение задержки вывода в 1.71 раза и снижение стоимости обработки одного токена в 35 раз при сохранении высокой производительности на тестовых наборах. В ходе обширных экспериментов с моделями от 49B до 253B параметров мы показываем, что FFN Fusion становится все более эффективным на больших масштабах и может дополнять существующие методы оптимизации, такие как квантование и обрезка. Наиболее интригующе то, что мы обнаружили, что даже полные блоки трансформера, содержащие как слои внимания, так и FFN, иногда могут быть параллелизованы, что открывает новые направления в проектировании нейронных архитектур.
Крупные модели, объединяющие зрение и язык (LVLMs), обычно следуют двухэтапной парадигме обучения — предварительное обучение и тонкая настройка с учителем. В последнее время оптимизация предпочтений, заимствованная из области обработки языка, стала эффективной стратегией пост-обучения для усиления возможностей LVLMs. Однако создание высококачественных данных с аннотациями предпочтений и разработка надежных моделей вознаграждения для имитации этих предпочтений являются как затратными, так и сложными задачами. Вдохновленные этим наблюдением, мы предлагаем Vision-R1 — новый алгоритм обучения с подкреплением, подобный R1, но с использованием визуального руководства для LVLMs, который вознаграждает модели на основе четкой визуальной обратной связи. Этот метод использует только тщательно отобранные данные инструкций, устраняя необходимость в специализированных моделях вознаграждения и ручном создании наборов данных предпочтений. Мы внедряем функцию вознаграждения, основанную на критериях, которая дополнительно интегрирует многомерную обратную связь для всесторонней оценки завершений модели в соответствии с логикой визуальной задачи. Кроме того, мы представляем стратегию постепенного уточнения правил, которая динамически корректирует критерии вознаграждения в процессе обучения, обеспечивая непрерывное улучшение модели и снижая риск манипуляции вознаграждением. Многочисленные эксперименты на тестах как в рамках распределения, так и за его пределами показывают, что тонкая настройка 7B LVLMs с использованием Vision-R1 приводит к стабильному повышению производительности, достигая улучшений до 50% и превосходя современные модели в 10 раз большего размера.
Современные генеративные модели, такие как авторегрессивные и диффузионные подходы, разлагают обучение распределениям высокоразмерных данных на серию более простых подзадач. Однако в процессе совместной оптимизации этих подзадач возникают внутренние конфликты, и существующие решения не способны устранить такие конфликты без ущерба для эффективности или масштабируемости. Мы предлагаем новый эквивариантный фреймворк для моделирования изображений, который изначально согласует цели оптимизации между подзадачами, используя трансляционную инвариантность естественных визуальных сигналов. Наш метод включает (1) построчную токенизацию, которая усиливает трансляционную симметрию вдоль горизонтальной оси, и (2) оконное причинное внимание, которое обеспечивает согласованность контекстных отношений между позициями. При оценке на задаче генерации изображений ImageNet с условием класса и разрешением 256x256 наш подход демонстрирует производительность, сопоставимую с современными авторегрессивными моделями, при использовании меньших вычислительных ресурсов. Систематический анализ показывает, что усиленная эквивариантность снижает межзадачные конфликты, значительно улучшая обобщение в условиях zero-shot и позволяя синтезировать изображения сверхбольшой длины. Данная работа представляет первый фреймворк для согласованного разложения задач в генеративном моделировании, предлагая новые идеи для эффективного разделения параметров и бесконфликтной оптимизации. Код и модели доступны по адресу https://github.com/drx-code/EquivariantModeling.
Крупные языковые модели (LLM) продемонстрировали впечатляющие способности к рассуждению при решении математических задач. Однако существующие подходы в основном сосредоточены на улучшении качества корректных обучающих данных, например, на извлечении высококачественных правильных решений из продвинутых моделей, игнорируя ценность, содержащуюся в данных об ошибках, что потенциально ограничивает способность модели к рефлексии. Хотя некоторые исследования пытаются использовать данные об ошибках, они часто включают сложные механизмы, такие как поиск по дереву с использованием метода Монте-Карло (MCTS) для исследования ошибочных узлов. В данной работе мы предлагаем улучшить способность LLM к рассуждению с помощью метода Learning from Errors for Mathematical Advancement (LEMMA). LEMMA создает данные, состоящие из некорректного решения с ошибочным шагом и рефлексивной связи с правильным решением для тонкой настройки. В частности, мы систематически анализируем типы ошибок, генерируемых моделью, и вводим метод усиления ошибок, основанный на их типах, для сбора разнообразных и репрезентативных ошибок. Правильные решения получаются либо путем исправления ошибок, либо путем генерации с нуля. Благодаря плавной рефлексивной связи, учитывающей особенности модели, ошибочное решение преобразуется в правильное. Путем тонкой настройки на созданном наборе данных модель способна самостоятельно исправлять ошибки в процессе генерации, не полагаясь на внешние модели критики. Экспериментальные результаты показывают, что LEMMA достигает значительного улучшения производительности по сравнению с другими сильными базовыми методами.
Масштабирование вычислительных ресурсов для предварительного обучения языковых моделей (LM) опережает рост объема текстов, написанных людьми, что вызывает опасения, что данные станут узким местом для масштабирования LM. Чтобы продолжить масштабирование предварительного обучения в условиях ограниченности данных, мы предлагаем, что явное моделирование и вывод скрытых мыслей, лежащих в основе процесса генерации текста, может значительно повысить эффективность использования данных при предварительном обучении. Интуитивно наш подход рассматривает веб-тексты как сжатый конечный результат многословного мыслительного процесса человека, при этом скрытые мысли содержат важные контекстуальные знания и шаги рассуждений, которые критически важны для эффективного обучения с ограниченными данными. Мы эмпирически демонстрируем эффективность нашего подхода на примере продолженного предварительного обучения с ограниченными данными для математики. Сначала мы показываем, что синтетические подходы к выводу скрытых мыслей значительно повышают эффективность использования данных, превосходя обучение на том же объеме исходных данных (5.7\% → 25.4\% на MATH). Кроме того, мы демонстрируем вывод скрытых мыслей без сильного учителя, где LM самостоятельно улучшает свою производительность, используя EM-алгоритм для итеративного повышения способностей обученной модели и качества данных для предварительного обучения, дополненных мыслями. Мы показываем, что LM с 1 миллиардом параметров может улучшать свою производительность как минимум на трех итерациях и значительно превосходить базовые модели, обученные на исходных данных, с увеличивающимся выигрышем от дополнительных вычислительных ресурсов при выполнении E-шага. Улучшения от масштабирования вывода и итераций EM открывают новые возможности для масштабирования предварительного обучения с ограниченными данными.
Преобразование естественного языка в SQL (NL2SQL) значительно продвинулось благодаря крупным языковым моделям (LLM). Однако эти модели часто зависят от закрытых систем и требуют значительных вычислительных ресурсов, что создает проблемы с конфиденциальностью данных и развертыванием. В то же время небольшие языковые модели (SLM) демонстрируют низкую производительность и несовместимость с существующими фреймворками в задачах NL2SQL. Для решения этих проблем мы представляем Feather-SQL — новый легковесный фреймворк, разработанный специально для SLM. Feather-SQL повышает выполнимость и точность SQL за счет 1) обрезки и связывания схемы, 2) генерации множественных путей и кандидатов. Кроме того, мы предлагаем парадигму 1+1 Model Collaboration, которая объединяет мощную универсальную чат-модель с тонко настроенным специалистом по SQL, сочетая сильные аналитические способности с высокой точностью генерации SQL. Экспериментальные результаты на наборе данных BIRD показывают, что Feather-SQL улучшает производительность NL2SQL для SLM, обеспечивая прирост около 10% для моделей без тонкой настройки. Предложенная парадигма повышает максимальную точность SLM до 54,76%, подтверждая ее эффективность.
3D Gaussian Splatting (3DGS) зарекомендовал себя как мощное представление для рендеринга в реальном времени с высокой производительностью, что открывает широкий спектр приложений. Однако представление 3D-сцен с использованием множества явных гауссовых примитивов приводит к значительным затратам на хранение и память. Недавние исследования показали, что высококачественный рендеринг может быть достигнут с существенно меньшим количеством гауссовых функций при использовании атрибутов высокой точности. Тем не менее, существующие методы сжатия 3DGS по-прежнему полагаются на относительно большое количество гауссовых функций, сосредотачиваясь в основном на сжатии атрибутов. Это связано с тем, что меньший набор гауссовых функций становится более чувствительным к сжатию атрибутов с потерями, что приводит к значительному ухудшению качества. Поскольку количество гауссовых функций напрямую связано с вычислительными затратами, важно эффективно сокращать их количество, а не только оптимизировать хранение. В данной статье мы предлагаем представление Optimized Minimal Gaussians (OMG), которое значительно сокращает объем хранения при использовании минимального количества примитивов. Во-первых, мы определяем уникальные гауссовы функции среди близлежащих, минимизируя избыточность без ущерба для качества. Во-вторых, мы предлагаем компактное и точное представление атрибутов, которое эффективно учитывает как непрерывность, так и нерегулярность среди примитивов. Кроме того, мы предлагаем технику субвекторного квантования для улучшенного представления нерегулярности, сохраняя быструю обучение с незначительным размером кодовой книги. Многочисленные эксперименты демонстрируют, что OMG сокращает требования к хранению почти на 50% по сравнению с предыдущими передовыми методами и позволяет достичь рендеринга с частотой более 600 кадров в секунду при сохранении высокого качества рендеринга. Наш исходный код доступен по адресу https://maincold2.github.io/omg/.
Диффузионные модели продемонстрировали впечатляющие возможности в генерации визуального контента, однако их развертывание остается сложной задачей из-за высоких вычислительных затрат на этапе вывода. Основная причина этой вычислительной нагрузки заключается в квадратичной сложности механизма самовнимания относительно разрешения изображения или видео. Хотя существующие методы ускорения часто идут на компромисс с качеством выходных данных или требуют дорогостоящего переобучения, мы отмечаем, что большинство диффузионных моделей предварительно обучаются на более низких разрешениях, что открывает возможность использования этих низкоразрешающих априорных данных для более эффективного вывода без ухудшения производительности. В данной работе мы представляем Bottleneck Sampling — метод, не требующий дополнительного обучения, который использует низкоразрешающие априорные данные для снижения вычислительных затрат при сохранении качества выходных данных. Bottleneck Sampling следует схеме шумоподавления "высокое-низкое-высокое": он выполняет шумоподавление на высоком разрешении на начальном и конечном этапах, а на промежуточных этапах работает на более низких разрешениях. Для минимизации артефактов сглаживания и наложения мы дополнительно уточняем точки перехода между разрешениями и адаптивно смещаем временные шаги шумоподавления на каждом этапе. Мы оцениваем Bottleneck Sampling на задачах генерации изображений и видео, где обширные эксперименты показывают, что он ускоряет вывод до 3 раз для генерации изображений и до 2,5 раз для генерации видео, при этом сохраняя качество выходных данных, сопоставимое с стандартным процессом выборки на полном разрешении, по множеству метрик оценки. Код доступен по адресу: https://github.com/tyfeld/Bottleneck-Sampling.
Последние достижения в области крупных языковых моделей для видео (LVLMs) подчеркивают их потенциал для мультимодального понимания, однако оценка их фактической достоверности в контексте видео остается важной нерешенной задачей. Чтобы восполнить этот пробел, мы представляем Video SimpleQA — первый всеобъемлющий бенчмарк, специально разработанный для оценки фактической достоверности LVLMs. Наша работа отличается от существующих видео-бенчмарков следующими ключевыми особенностями: 1) Требуемые знания: необходимость интеграции внешних знаний, выходящих за рамки явного повествования; 2) Фактографические вопросы: ориентация на объективные, неоспоримые события или отношения, избегая субъективной интерпретации; 3) Определенные и краткие ответы: ответы формулируются как однозначные и безусловно правильные в кратком формате, что позволяет автоматизировать оценку с использованием LLM-as-a-judge с минимальной вариативностью; 4) Проверка внешними источниками: все аннотации проходят строгую проверку по авторитетным внешним источникам для обеспечения надежности; 5) Требуется временное рассуждение: аннотированные типы вопросов охватывают как статическое понимание одного кадра, так и динамическое временное рассуждение, явно оценивая фактическую достоверность LVLMs в условиях длинных контекстных зависимостей. Мы провели масштабную оценку 41 современной LVLM и выделили следующие ключевые выводы: 1) Современные LVLMs демонстрируют значительные недостатки в соблюдении фактической достоверности, особенно для моделей с открытым исходным кодом. Лучшая модель Gemini-1.5-Pro достигает F-меры всего 54,4%; 2) Парадигмы вычислений во время тестирования показывают незначительный прирост производительности, что указывает на фундаментальные ограничения для улучшения фактической достоверности через постфактумные вычисления; 3) Генерация с использованием поиска демонстрирует стабильные улучшения за счет дополнительных временных затрат на вывод, представляя критический компромисс между эффективностью и производительностью.
В данной статье представлена AlphaSpace — новая методология, разработанная для улучшения пространственных способностей крупных языковых моделей (LLM) в навигации по трёхмерному декартову пространству. AlphaSpace использует стратегию семантической токенизации, кодируя информацию о высоте с помощью специализированных семантических токенов, и интегрирует преимущественно символические синтетические данные для рассуждений. Этот подход позволяет LLM точно манипулировать объектами, размещая их в определённых координатах [x, y, z]. Результаты экспериментов показывают, что AlphaSpace значительно превосходит существующие модели в подзадачах манипуляции, достигая общей точности 66,67% по сравнению с 37,5% у GPT-4o и 29,17% у Claude 3.5 Sonnet.
Генерация видео из текста (Text-to-Video, T2V) достигла значительных успехов благодаря моделям диффузии. Однако существующие методы по-прежнему сталкиваются с трудностями в точном связывании атрибутов, определении пространственных отношений и захвате сложных взаимодействий между несколькими объектами. Чтобы устранить эти ограничения, мы предлагаем MagicComp — метод, не требующий обучения, который улучшает композиционную генерацию T2V за счет двухэтапного уточнения. А именно: (1) На этапе кондиционирования мы вводим метод Semantic Anchor Disambiguation, который усиливает семантику, специфичную для объектов, и устраняет неоднозначность между объектами, постепенно внедряя направленные векторы семантических якорей в исходное текстовое представление; (2) На этапе денойзинга мы предлагаем Dynamic Layout Fusion Attention, который интегрирует априорные данные о расположении и адаптивное пространственное восприятие модели для гибкого связывания объектов с их пространственно-временными областями через модуляцию маскированного внимания. Кроме того, MagicComp является универсальным и независимым от модели подходом, который может быть легко интегрирован в существующие архитектуры T2V. Многочисленные эксперименты на T2V-CompBench и VBench демонстрируют, что MagicComp превосходит современные методы, подчеркивая его потенциал для таких приложений, как генерация видео на основе сложных запросов и с контролируемой траекторией. Страница проекта: https://hong-yu-zhang.github.io/MagicComp-Page/.
В данной статье мы представляем Diffusion-4K — новый фреймворк для прямой синтеза изображений сверхвысокого разрешения с использованием моделей диффузии текст-изображение. Основные достижения включают: (1) Бенчмарк Aesthetic-4K: для устранения отсутствия общедоступного набора данных для синтеза 4K-изображений мы создали Aesthetic-4K — всеобъемлющий бенчмарк для генерации изображений сверхвысокого разрешения. Мы собрали высококачественный 4K-набор данных с тщательно отобранными изображениями и подписями, сгенерированными GPT-4o. Дополнительно мы вводим метрики GLCM Score и Compression Ratio для оценки мелких деталей, а также комплексные меры, такие как FID, Aesthetics и CLIPScore, для всесторонней оценки изображений сверхвысокого разрешения. (2) Тонкая настройка на основе вейвлетов: мы предлагаем подход тонкой настройки на основе вейвлетов для прямого обучения с фотореалистичными 4K-изображениями, применимый к различным латентным моделям диффузии, демонстрируя его эффективность в синтезе высокодетализированных 4K-изображений. В результате Diffusion-4K демонстрирует впечатляющие результаты в синтезе высококачественных изображений и следовании текстовым запросам, особенно при использовании современных крупномасштабных моделей диффузии (например, SD3-2B и Flux-12B). Обширные экспериментальные результаты нашего бенчмарка подтверждают превосходство Diffusion-4K в синтезе изображений сверхвысокого разрешения.
Крупные языковые модели (LLMs) значительно продвинули различные области, особенно программирование, математическое рассуждение и решение логических задач. Однако остается важный вопрос: сохраняются ли эти способности к математическому рассуждению, когда LLMs сталкиваются с математическими задачами, адаптированными к культурным контекстам? В частности, как LLMs справляются с математическими задачами, встроенными в культурные контексты, которые слабо представлены в основных масштабных данных для обучения ИИ? Чтобы изучить это, мы создали шесть синтетических культурных наборов данных на основе GSM8K — широко используемого бенчмарка для оценки математических навыков LLMs. Сохраняя математическую логику и числовые значения оригинального тестового набора GSM8K, мы изменили культурные элементы, такие как имена людей, продукты питания, названия мест и т.д. Эти культурно адаптированные наборы данных предоставляют более надежную основу для оценки математического рассуждения LLMs в изменяющихся культурных контекстах. Наши результаты показывают, что LLMs испытывают трудности с математическими задачами при изменении культурных ссылок, даже если лежащая в основе математическая структура остается неизменной. Меньшие модели демонстрируют более значительное снижение производительности по сравнению с крупными моделями. Интересно, что наши результаты также свидетельствуют о том, что культурная осведомленность может улучшать математическое рассуждение. Даже модели без явной математической подготовки, но с опытом в соответствующих культурных контекстах, иногда превосходят более крупные, математически подготовленные модели в решении культурно встроенных математических задач. Это исследование подчеркивает влияние культурного контекста на способности LLMs к математическому рассуждению, указывая на необходимость более разнообразных и репрезентативных данных для обучения, чтобы повысить устойчивость в реальных приложениях. Наборы данных бенчмарка и скрипт для воспроизведения результатов доступны по адресу: https://github.com/akarim23131/Lost_in_Cultural_Translation.
Недавний экспоненциальный рост крупных языковых моделей (LLM) в значительной степени опирался на системы, основанные на GPU. Однако CPU начинают рассматриваться как гибкая и более экономичная альтернатива, особенно для задач вывода и логического рассуждения. Архитектура RISC-V быстро набирает популярность в этой области благодаря своей открытой и независимой от поставщиков системе команд (ISA). Тем не менее, аппаратное обеспечение RISC-V для работы с LLM и соответствующая программная экосистема пока не полностью зрелы и оптимизированы, что связано с необходимостью специфической настройки для данной области. Данная статья направлена на заполнение этого пробела, сосредоточившись на оптимизации вывода LLM на процессоре Sophon SG2042 — первом коммерчески доступном многоядерном CPU на базе RISC-V с поддержкой векторной обработки. На двух современных LLM, оптимизированных для логического рассуждения — DeepSeek R1 Distill Llama 8B и DeepSeek R1 Distill QWEN 14B — мы достигаем скорости генерации токенов 4,32/2,29 токенов в секунду и обработки промптов 6,54/3,68 токенов в секунду, что обеспечивает ускорение до 2,9x/3,0x по сравнению с базовым уровнем.
Ответы на нефактоидные вопросы (NFQA) представляют собой значительную проблему из-за их открытого характера, разнообразия намерений и необходимости многомерного рассуждения, что делает традиционные подходы к фактоидным вопросам, включая генерацию с усилением поиска (RAG), недостаточными. В отличие от фактоидных вопросов, нефактоидные вопросы (NFQ) не имеют однозначных ответов и требуют синтеза информации из нескольких источников по различным аспектам рассуждения. Для устранения этих ограничений мы представляем Typed-RAG — типозависимую многомерную декомпозиционную структуру в рамках парадигмы RAG для NFQA. Typed-RAG классифицирует NFQ на различные типы, такие как дискуссия, опыт и сравнение, и применяет аспектную декомпозицию для уточнения стратегий поиска и генерации. Разделяя многомерные NFQ на одномерные подзапросы и агрегируя результаты, Typed-RAG генерирует более информативные и контекстуально релевантные ответы. Для оценки Typed-RAG мы представляем Wiki-NFQA — эталонный набор данных, охватывающий различные типы NFQ. Результаты экспериментов показывают, что Typed-RAG превосходит базовые подходы, подчеркивая важность типозависимой декомпозиции для эффективного поиска и генерации в NFQA. Наш код и набор данных доступны по адресу https://github.com/TeamNLP/Typed-RAG{https://github.com/TeamNLP/Typed-RAG}.
Генерация видео из текста (Text-to-Video, T2V) привлекает значительное внимание благодаря своей способности синтезировать реалистичные видео на основе текстовых описаний. Однако существующие модели сталкиваются с трудностями в балансировке вычислительной эффективности и высокого визуального качества, особенно на устройствах с ограниченными ресурсами, таких как интегрированные графические процессоры (iGPU) и мобильные телефоны. Большинство предыдущих работ уделяет приоритетное внимание визуальной точности, упуская из виду необходимость создания более компактных и эффективных моделей, подходящих для реального применения. Для решения этой проблемы мы предлагаем облегченную T2V-платформу под названием Hummingbird, которая оптимизирует существующие модели и улучшает визуальное качество за счет обучения с визуальной обратной связью. Наш подход сокращает размер U-Net с 1,4 миллиарда до 0,7 миллиарда параметров, значительно повышая эффективность при сохранении высокого качества генерации видео. Кроме того, мы представляем новый конвейер обработки данных, который использует большие языковые модели (LLM) и модели оценки качества видео (VQA) для улучшения качества текстовых запросов и видеоданных. Для поддержки обучения, управляемого пользователем, и настройки стилей мы публикуем полный код обучения, включая обработку данных и обучение модели. Многочисленные эксперименты показывают, что наш метод обеспечивает ускорение в 31 раз по сравнению с современными моделями, такими как VideoCrafter2, а также достигает наивысшего общего балла на VBench. Более того, наш метод поддерживает генерацию видео длиной до 26 кадров, устраняя ограничения существующих U-Net-методов в создании длинных видео. Примечательно, что весь процесс обучения требует всего четырех графических процессоров, но при этом демонстрирует производительность, сопоставимую с ведущими существующими методами. Hummingbird представляет собой практичное и эффективное решение для T2V-генерации, сочетающее высокую производительность, масштабируемость и гибкость для реальных приложений.
Результаты предварительного обучения больших языковых моделей (LLM) в значительной степени зависят от стратегий инициализации весов и контроля дисперсии. Хотя важность контроля начальной дисперсии хорошо задокументирована для нейронных сетей в целом, литература, посвященная инициализации и управлению её ростом в процессе предварительного обучения LLM, остается относительно скудной. В данной статье мы представляем схему инициализации весов Layer Index Rescaling (LIR) и стратегию контроля дисперсии Target Variance Rescaling (TVR). Эксперименты на модели LLaMA с 1 миллиардом параметров демонстрируют, что улучшенное управление дисперсией с использованием этих методов приводит к значительному повышению производительности на последующих задачах (до 4,6% на стандартных бенчмарках предварительного обучения) и снижает экстремальные значения активаций, тем самым смягчая проблемы, связанные с квантованием и обучением с низкой точностью. Наш код доступен по адресу: https://github.com/bluorion-com/weight_rescaling.
Мы представляем MetaSpatial — первую платформу на основе обучения с подкреплением (RL), предназначенную для улучшения 3D-пространственного мышления в моделях, объединяющих зрение и язык (VLMs), что позволяет генерировать 3D-сцены в реальном времени без необходимости жестко заданных оптимизаций. MetaSpatial решает две ключевые проблемы: (i) отсутствие внутреннего 3D-пространственного мышления в VLMs, что ограничивает их способность создавать реалистичные компоновки, и (ii) неэффективность традиционного тонкого настройки (SFT) для задач генерации компоновок, поскольку идеальные аннотации для обучения недоступны. Нашим ключевым нововведением является механизм оптимизации на основе многошагового RL, который интегрирует физически обоснованные ограничения и оценку визуализированных изображений, обеспечивая согласованность, физическую правдоподобность и эстетическую целостность генерируемых 3D-компоновок. Методологически MetaSpatial представляет адаптивный итеративный процесс рассуждений, в ходе которого VLM уточняет пространственные расположения на нескольких шагах, анализируя визуализированные результаты, постепенно улучшая согласованность сцены. Эмпирические оценки показывают, что MetaSpatial значительно повышает пространственную согласованность и стабильность форматирования моделей различных масштабов. После обучения размещение объектов становится более реалистичным, выровненным и функционально согласованным, что подтверждает эффективность RL для 3D-пространственного мышления в приложениях метавселенной, AR/VR, цифровых двойников и разработки игр. Наш код, данные и обучающий конвейер доступны по адресу https://github.com/PzySeere/MetaSpatial.
Хотя инструкции на естественном языке предлагают интуитивный способ управления автоматизированным редактированием изображений, модели глубокого обучения часто сталкиваются с трудностями в достижении высококачественных результатов, что в значительной степени связано с проблемами создания больших и качественных обучающих наборов данных. Предыдущие работы обычно полагались на генеративные модели "текст-в-изображение" (T2I) для создания пар исходных и отредактированных изображений, которые имитируют входные/выходные данные модели, управляемой инструкциями. Однако эти пары изображений часто не соответствуют указанным инструкциям из-за ограничений T2I-моделей, что негативно сказывается на моделях, обученных на таких наборах данных. Чтобы решить эту проблему, мы представляем Instruct-CLIP — метод самообучения, который изучает семантические изменения между исходными и отредактированными изображениями для уточнения и лучшего согласования инструкций в существующих наборах данных. Кроме того, мы адаптируем Instruct-CLIP для работы с зашумленными латентными изображениями и шагами диффузии, что позволяет использовать его для обучения латентных диффузионных моделей (LDMs) [19] и эффективно обеспечивать согласованность между инструкцией редактирования и изменениями изображения в латентном пространстве на любом этапе диффузионного процесса. Мы используем Instruct-CLIP для исправления набора данных InstructPix2Pix и получаем более 120 тыс. уточненных образцов, которые затем применяем для тонкой настройки их модели с использованием нашей новой функции потерь на основе Instruct-CLIP. Полученная модель способна создавать правки, которые лучше соответствуют заданным инструкциям. Наш код и набор данных доступны по адресу https://github.com/SherryXTChen/Instruct-CLIP.git.
Языковые модели недавно вышли на уровень рассуждений, однако именно через мультимодальное рассуждение мы можем полностью раскрыть потенциал для достижения более всеобъемлющих, человеко-подобных когнитивных способностей. Данный обзор предлагает систематический анализ современных подходов к мультимодальному рассуждению, классифицируя их на два уровня: языко-центричное мультимодальное рассуждение и совместное мультимодальное рассуждение. Первый включает однократное визуальное восприятие и активное визуальное восприятие, где зрение в основном играет вспомогательную роль в языковом рассуждении. Второй предполагает генерацию действий и обновление состояния в процессе рассуждения, что позволяет более динамичное взаимодействие между модальностями. Кроме того, мы анализируем техническую эволюцию этих методов, обсуждаем их внутренние проблемы и представляем ключевые эталонные задачи и метрики для оценки производительности мультимодального рассуждения. Наконец, мы предлагаем взгляды на будущие направления исследований с двух перспектив: (i) от визуально-языкового рассуждения к омнимодальному рассуждению и (ii) от мультимодального рассуждения к мультимодальным агентам. Этот обзор направлен на предоставление структурированного обзора, который вдохновит дальнейшие достижения в исследованиях мультимодального рассуждения.
Дискретные визуальные токенизаторы преобразуют изображения в последовательность токенов, что позволяет осуществлять генерацию изображений на основе токенов, аналогично языковым моделям. Однако этот процесс изначально сложен, так как требует как сжатия визуальных сигналов в компактное представление, так и их дискретизации в фиксированный набор кодов. Традиционные дискретные токенизаторы обычно обучают эти две задачи совместно, что часто приводит к нестабильному обучению, низкой загрузке кодовой книги и ограниченному качеству реконструкции. В данной работе мы представляем CODA (COntinuous-to-Discrete Adaptation) — фреймворк, который разделяет сжатие и дискретизацию. Вместо обучения дискретных токенизаторов с нуля, CODA адаптирует готовые непрерывные VAE (вариационные автоэнкодеры), уже оптимизированные для перцептуального сжатия, в дискретные токенизаторы с помощью тщательно разработанного процесса дискретизации. Основное внимание уделяя дискретизации, CODA обеспечивает стабильное и эффективное обучение, сохраняя при этом высокую визуальную точность непрерывных VAE. Экспериментально, при бюджете обучения в 6 раз меньше, чем у стандартного VQGAN, наш подход достигает впечатляющей загрузки кодовой книги в 100% и значительных показателей реконструкции FID (rFID) 0.43 и 1.34 для сжатия в 8 и 16 раз на бенчмарке ImageNet 256×256.
В последнее время был достигнут значительный прогресс в технологии генерации видео, что привлекло широкое внимание исследователей. Для применения этой технологии в задачах, требующих ограниченных ресурсов, исследователи обычно дообучают предварительно обученные модели с использованием методов эффективной настройки параметров, таких как Adapter или Lora. Хотя эти методы позволяют переносить знания из исходной области в целевую, меньшее количество обучаемых параметров приводит к слабой способности к адаптации, а знания из исходной области могут вызвать отклонение процесса вывода от целевой области. В данной статье мы утверждаем, что в условиях ограниченных ресурсов обучение меньшей модели генерации видео с нуля с использованием всего лишь миллионов образцов может превзойти эффективную настройку параметров на более крупных моделях в прикладных задачах: ключ заключается в эффективном использовании данных и стратегии обучения. В качестве примера рассмотрим генерацию анимированных стикеров (ASG). Сначала мы создаем дискретную сеть генерации кадров для стикеров с низкой частотой кадров, гарантируя, что ее параметры соответствуют требованиям обучения модели в условиях ограниченных ресурсов. Для обеспечения данных для моделей, обучаемых с нуля, мы предлагаем стратегию использования данных на основе двойной маски, которая повышает доступность и расширяет разнообразие ограниченных данных. Для облегчения сходимости в условиях двойной маски мы предлагаем метод адаптивного обучения по сложности, который разлагает энтропию образца на статическую и адаптивную составляющие, чтобы получать образцы от простых к сложным. Эксперименты показывают, что наш ресурсоэффективный фреймворк обучения с двойной маской количественно и качественно превосходит методы эффективной настройки параметров, такие как I2V-Adapter и SimDA, подтверждая жизнеспособность нашего подхода в прикладных задачах при ограниченных ресурсах. Код будет доступен.
Появление крупных языковых моделей и их применение в качестве ИИ-агентов значительно продвинуло современные бенчмарки генерации кода, трансформируя задачи современной разработки программного обеспечения. Однако даже с моделями рассуждений, вычисляемыми во время тестирования, эти системы по-прежнему сталкиваются с трудностями при решении сложных задач в области программной инженерии. В данной работе представлена система CURA — агент для понимания и рассуждения над кодом, улучшенный с помощью вербального процессуального контроля (VPS), который демонстрирует улучшение на 3,65% по сравнению с базовыми моделями на сложных бенчмарках, таких как BigCodeBench. Более того, CURA в сочетании с моделью o3-mini и методами VPS достигает наилучших результатов на сегодняшний день. Эта работа представляет собой шаг вперед в интеграции архитектур, основанных на рассуждениях, с генерацией кода на основе языковых моделей, позволяя языковым моделям использовать агентные рассуждения для решения сложных задач программной инженерии.
Мы представляем задачу "забывания" человеческих движений с целью предотвращения синтеза токсичных анимаций при сохранении общей производительности генерации движений по тексту. Забывание токсичных движений является сложной задачей, так как они могут быть сгенерированы как из явных текстовых запросов, так и из неявных токсичных комбинаций безопасных движений (например, "удар" — это "замах и движение ногой"). Мы предлагаем первый бенчмарк для забывания движений, отфильтровывая токсичные движения из крупных и современных наборов данных для генерации движений по тексту HumanML3D и Motion-X. Мы предлагаем базовые подходы, адаптируя передовые методы забывания изображений для обработки пространственно-временных сигналов. Наконец, мы представляем новую модель забывания движений, основанную на замене латентных кодов, которую мы называем LCR. LCR не требует обучения и подходит для дискретных латентных пространств современных диффузионных моделей генерации движений по тексту. LCR проста и стабильно превосходит базовые подходы как качественно, так и количественно. Страница проекта: https://www.pinlab.org/hmu{https://www.pinlab.org/hmu}.
Коррекция баланса белого (WB) в сценах с несколькими источниками освещения остается сложной задачей в области компьютерного зрения. Недавние методы исследовали подходы, основанные на слиянии, где нейронная сеть линейно комбинирует несколько версий входного изображения в формате sRGB, каждая из которых обработана с предустановленными настройками WB. Однако мы показываем, что эти методы неоптимальны для типичных сценариев с несколькими источниками освещения. Кроме того, существующие методы слияния опираются на наборы данных WB в формате sRGB, которые не содержат специализированных изображений с несколькими источниками освещения, что ограничивает как обучение, так и оценку. Для решения этих проблем мы представляем два ключевых вклада. Во-первых, мы предлагаем эффективную модель на основе трансформеров, которая эффективно учитывает пространственные зависимости между предустановками WB в формате sRGB, значительно улучшая линейные методы слияния. Во-вторых, мы представляем крупномасштабный набор данных с несколькими источниками освещения, содержащий более 16 000 изображений в формате sRGB, обработанных с пятью различными настройками WB, а также изображения с корректированным балансом белого. Наш метод демонстрирует улучшение до 100% по сравнению с существующими техниками на новом наборе данных для слияния изображений с несколькими источниками освещения.
Хотя современные методы повышения разрешения изображений (super-resolution, SR) постоянно улучшают воспринимаемое качество своих результатов, они часто оказываются неубедительными в количественных оценках. Это несоответствие приводит к растущему недоверию к существующим метрикам оценки SR. Хотя оценка изображений зависит как от метрики, так и от эталонного изображения (ground truth, GT), исследователи обычно не рассматривают роль GT, поскольку они общепринято считаются «идеальными» эталонами. Однако из-за того, что данные собирались в ранние годы и отсутствовал контроль над другими видами искажений, мы отмечаем, что GT в существующих наборах данных SR могут иметь относительно низкое качество, что приводит к смещённым оценкам. Следуя этому наблюдению, в данной статье мы задаёмся следующими вопросами: Можно ли полностью доверять GT-изображениям в существующих наборах данных SR для оценки моделей? Как качество GT влияет на эту оценку? И как проводить справедливые оценки, если GT не идеальны? Чтобы ответить на эти вопросы, статья представляет два основных вклада. Во-первых, путём систематического анализа семи современных моделей SR на трёх наборах данных реального мира мы показываем, что качество GT может последовательно влиять на результаты SR для разных моделей, и модели могут демонстрировать существенно разные результаты, когда качество GT контролируется. Во-вторых, мы предлагаем новую метрику воспринимаемого качества, называемую Relative Quality Index (RQI), которая измеряет относительное расхождение качества пар изображений, тем самым устраняя смещённые оценки, вызванные ненадёжными GT. Наша модель демонстрирует значительно лучшее соответствие с мнениями людей. Мы ожидаем, что наша работа предоставит сообществу SR ценные инсайты о том, как следует разрабатывать будущие наборы данных, модели и метрики.
Крупные визуально-языковые модели (VLM), такие как GPT-4, достигли значительных успехов в различных областях. Однако исследований по генерации 3D-интерьеров с использованием VLM крайне мало. В данной статье эта задача рассматривается как проблема планирования, ограниченная пространственными и композиционными правилами. Для решения этой задачи с помощью VLM мы предлагаем новый алгоритм глобально-локального поиска по дереву. На глобальном уровне метод последовательно размещает каждый объект и исследует несколько вариантов размещения в процессе каждого шага, где пространство задачи представлено в виде дерева. Чтобы уменьшить глубину дерева, мы декомпозируем структуру сцены иерархически, а именно на уровне комнаты, уровня региона, уровня напольных объектов и уровня поддерживаемых объектов. Алгоритм независимо генерирует напольные объекты в разных регионах и поддерживаемые объекты, размещенные на различных напольных объектах. На локальном уровне мы также декомпозируем подзадачу — размещение каждого объекта — на несколько шагов. Алгоритм осуществляет поиск по дереву пространства задачи. Чтобы использовать VLM для определения позиций объектов, мы дискретизируем вид сверху в виде плотной сетки и заполняем каждую ячейку различными эмодзи, чтобы сделать ячейки различимыми. Мы передаем VLM сетку с эмодзи, и модель генерирует разумное местоположение объекта, описывая позицию с помощью названий эмодзи. Количественные и качественные результаты экспериментов показывают, что наш подход создает более правдоподобные 3D-сцены по сравнению с современными методами. Наш исходный код доступен по адресу https://github.com/dw-dengwei/TreeSearchGen.
Монокулярное оценивание глубины (MDE) стало ключевой задачей в области компьютерного зрения, поддерживая множество реальных приложений. Однако развертывание точных моделей оценки глубины на устройствах с ограниченными ресурсами, особенно на специализированных интегральных схемах (ASIC), является сложной задачей из-за высоких требований к вычислительным ресурсам и памяти. Последние достижения в области базового оценивания глубины демонстрируют впечатляющие результаты, но еще больше усложняют развертывание на ASIC. Для решения этой проблемы мы предлагаем QuartDepth, который использует посттренировочное квантование для квантования моделей MDE с аппаратным ускорением для ASIC. Наш подход включает квантование как весов, так и активаций до 4-битной точности, что уменьшает размер модели и вычислительные затраты. Для снижения ухудшения производительности мы вводим алгоритм полировки и компенсации активаций, применяемый до и после квантования активаций, а также метод реконструкции весов для минимизации ошибок при квантовании весов. Кроме того, мы разрабатываем гибкий и программируемый аппаратный ускоритель, поддерживающий слияние ядер и программируемость пользовательских инструкций, что повышает пропускную способность и эффективность. Экспериментальные результаты показывают, что наш фреймворк достигает конкурентоспособной точности, обеспечивая быстрое выполнение и более высокую энергоэффективность на ASIC, сокращая разрыв между высокопроизводительным оцениванием глубины и практической применимостью на устройствах с ограниченными ресурсами. Код: https://github.com/shawnricecake/quart-depth
Развитие технологий дистанционного зондирования повысило пространственное разрешение спутниковых изображений, что способствует созданию более детализированных визуальных представлений для разнообразных интерпретаций. Однако существующие методы демонстрируют ограниченные возможности обобщения для различных приложений. Хотя некоторые современные базовые модели показывают потенциал, они сталкиваются с недостаточной адаптивностью к кросс-задачам и в основном обрабатывают изображения низкого разрешения ограниченного размера, что не позволяет в полной мере использовать данные высокого разрешения или учитывать семантику крупных сцен. Ключевым моментом является то, что спутниковые изображения принципиально отличаются от естественных изображений, так как ключевые объекты переднего плана (например, морские объекты, искусственные сооружения) часто занимают минимальную пространственную долю (~1%) и имеют разреженное распределение. Эффективное моделирование обобщаемых знаний для кросс-задач на основе длинных 2D-токенов (~100 000) представляет собой значительную проблему, но остается критически важным для понимания спутниковых изображений. Вдохновленные механизмами избирательного внимания, присущими человеческой зрительной системе, мы предлагаем DynamicVis — динамическую базовую модель визуального восприятия для спутниковых изображений. Этот фреймворк интегрирует новую динамическую основу для восприятия регионов, основанную на модели избирательного пространства состояний, которая стратегически балансирует извлечение локальных деталей с интеграцией глобального контекста, обеспечивая вычислительно эффективное кодирование крупномасштабных данных при сохранении масштабируемости архитектуры. Для улучшения передачи знаний между задачами мы вводим парадигму обучения с множеством экземпляров, использующую мета-эмбеддинговые представления, обученные на миллионных аннотациях на уровне регионов. Оценки на девяти последующих задачах демонстрируют универсальность модели. DynamicVis достигает многоуровневого моделирования признаков с исключительной эффективностью, обрабатывая изображения размером (2048x2048) пикселей с задержкой 97 мс (6% от ViT) и использованием 833 МБ видеопамяти GPU (3% от ViT).