HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

39 papers found

Я охватил все аспекты: интерпретация признаков рассуждения в крупных языковых моделях с помощью разреженных автокодировщиков
I Have Covered All the Bases Here: Interpreting Reasoning Features in Large Language Models via Sparse Autoencoders

Mar 24

ByAndrey Galichin, Alexey Dontsov, Polina Druzhinina, Anton Razzhigaev, Oleg Y. Rogov, Elena Tutubalina, Ivan Oseledets

120

Крупные языковые модели (LLMs) достигли значительных успехов в обработке естественного языка. Последние достижения привели к разработке нового класса моделей, ориентированных на рассуждения; например, открытая модель DeepSeek-R1 достигла наилучших результатов, интегрируя глубокое мышление и сложные рассуждения. Несмотря на эти впечатляющие возможности, внутренние механизмы рассуждений таких моделей остаются малоизученными. В данной работе мы используем разреженные автоэнкодеры (Sparse Autoencoders, SAEs) — метод, позволяющий изучать разреженное разложение латентных представлений нейронной сети на интерпретируемые признаки, — для выявления признаков, которые управляют рассуждениями в моделях серии DeepSeek-R1. Сначала мы предлагаем подход для извлечения кандидатов на «признаки рассуждения» из представлений SAE. Мы проверяем эти признаки с помощью эмпирического анализа и методов интерпретируемости, демонстрируя их прямую связь со способностями модели к рассуждениям. Важно отметить, что мы показываем, что управление этими признаками систематически улучшает производительность рассуждений, предлагая первое механистическое объяснение рассуждений в LLMs. Код доступен по адресу: https://github.com/AIRI-Institute/SAE-Reasoning.

Video-T1: Масштабирование во время тестирования для генерации видео
Video-T1: Test-Time Scaling for Video Generation

Mar 24

ByFangfu Liu, Hanyang Wang, Yimo Cai, Kaiyan Zhang, Xiaohang Zhan, Yueqi Duan

С увеличением масштаба обучающих данных, размера модели и вычислительных затрат генерация видео достигла впечатляющих результатов в цифровом творчестве, позволяя пользователям выражать креативность в различных областях. Недавно исследователи в области больших языковых моделей (LLM) расширили масштабирование до этапа тестирования, что может значительно улучшить производительность LLM за счет использования большего объема вычислений на этапе вывода. Вместо масштабирования базовых моделей видео через дорогостоящие затраты на обучение мы исследуем потенциал масштабирования на этапе тестирования (Test-Time Scaling, TTS) в генерации видео, стремясь ответить на вопрос: если модели генерации видео разрешено использовать значительный объем вычислений на этапе вывода, насколько может улучшиться качество генерации при сложном текстовом запросе. В данной работе мы переосмысливаем масштабирование на этапе тестирования в генерации видео как задачу поиска, чтобы выбирать более качественные траектории из пространства гауссовского шума к целевому распределению видео. В частности, мы строим пространство поиска с использованием верификаторов на этапе тестирования для предоставления обратной связи и эвристических алгоритмов для управления процессом поиска. Для заданного текстового запроса мы сначала исследуем интуитивную стратегию линейного поиска, увеличивая количество кандидатов шума на этапе вывода. Поскольку полное удаление шума для всех кадров одновременно требует значительных вычислительных затрат на этапе тестирования, мы разрабатываем более эффективный метод TTS для генерации видео под названием Tree-of-Frames (ToF), который адаптивно расширяет и обрезает ветви видео в авторегрессивном режиме. Многочисленные эксперименты на бенчмарках генерации видео по текстовым условиям демонстрируют, что увеличение объема вычислений на этапе тестирования последовательно приводит к значительному улучшению качества видео. Страница проекта: https://liuff19.github.io/Video-T1

Позиция: Интерактивное генеративное видео как игровой движок следующего поколения
Position: Interactive Generative Video as Next-Generation Game Engine

Mar 21

ByJiwen Yu, Yiran Qin, Haoxuan Che, Quande Liu, Xintao Wang, Pengfei Wan, Di Zhang, Xihui Liu

Современная разработка игр сталкивается с серьезными вызовами в области креативности и затрат из-за предопределенного контента в традиционных игровых движках. Недавние прорывы в моделях генерации видео, способных синтезировать реалистичные и интерактивные виртуальные среды, открывают возможность для революции в создании игр. В данной позиционной статье мы предлагаем Interactive Generative Video (IGV) в качестве основы для Generative Game Engines (GGE), что позволит генерировать неограниченный новый контент в играх следующего поколения. GGE использует уникальные преимущества IGV, такие как синтез неограниченного высококачественного контента, моделирование физически осознанных миров, управляемая пользователем интерактивность, возможности долговременной памяти и причинно-следственные рассуждения. Мы представляем комплексную структуру, детализирующую основные модули GGE, и иерархическую дорожную карту зрелости (L0-L4) для руководства его развитием. Наша работа прокладывает новый путь для разработки игр в эпоху ИИ, представляя будущее, где генеративные системы, основанные на ИИ, коренным образом изменят способы создания и восприятия игр.

SimpleRL-Zoo: Исследование и управление нулевым обучением с подкреплением для базовых моделей в открытой среде
SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild

Mar 24

ByWeihao Zeng, Yuzhen Huang, Qian Liu, Wei Liu, Keqing He, Zejun Ma, Junxian He

DeepSeek-R1 продемонстрировал, что длинные цепочки рассуждений (CoT) могут естественным образом возникать в рамках простого обучения с подкреплением (RL) с использованием правил для начисления наград, где обучение может начинаться непосредственно с базовых моделей — подход, называемый нулевым обучением с подкреплением (zero RL training). Большинство недавних попыток воспроизведения нулевого обучения с подкреплением сосредоточены на серии моделей Qwen2.5, что может быть нерепрезентативным, так как мы обнаружили, что базовые модели уже обладают сильными способностями к выполнению инструкций и саморефлексии. В данной работе мы исследуем нулевое обучение с подкреплением на 10 разнообразных базовых моделях, охватывающих различные семейства и размеры, включая LLama3-8B, Mistral-7B/24B, DeepSeek-Math-7B, Qwen2.5-math-7B и все модели Qwen2.5 от 0.5B до 32B. Используя несколько ключевых стратегий проектирования, таких как корректировка наград за формат и управление сложностью запросов, мы добились значительного улучшения как точности рассуждений, так и длины ответов в большинстве случаев. Однако, внимательно отслеживая динамику обучения, мы наблюдаем, что разные базовые модели демонстрируют различные паттерны в процессе обучения. Например, увеличение длины ответа не всегда коррелирует с появлением определенных когнитивных поведений, таких как проверка (т.е. "момент озарения"). Примечательно, что мы впервые наблюдаем "момент озарения" в небольших моделях, не относящихся к семейству Qwen. Мы делимся ключевыми решениями, которые позволяют успешно проводить нулевое обучение с подкреплением, а также нашими выводами и практиками. Для содействия дальнейшим исследованиям мы открываем исходный код, модели и инструменты анализа.

Aether: Геометрически-осознанное унифицированное моделирование мира
Aether: Geometric-Aware Unified World Modeling

Mar 24

ByAether Team, Haoyi Zhu, Yifan Wang, Jianjun Zhou, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Chunhua Shen, Jiangmiao Pang, Tong He

Интеграция геометрической реконструкции и генеративного моделирования остается ключевой задачей в разработке ИИ-систем, способных к человеческому пространственному мышлению. В данной статье представлен Aether — унифицированный фреймворк, который обеспечивает геометрически осознанное рассуждение в моделях мира за счет совместной оптимизации трех основных возможностей: (1) 4D динамической реконструкции, (2) предсказания видео с учетом действий и (3) визуального планирования, ориентированного на цели. Благодаря переплетенному обучению признаков Aether достигает синергетического обмена знаниями между задачами реконструкции, предсказания и планирования. Основанный на моделях генерации видео, наш фреймворк демонстрирует беспрецедентную обобщаемость от синтетических данных к реальным, несмотря на отсутствие данных из реального мира в процессе обучения. Более того, наш подход обеспечивает обобщение с нуля как в задачах следования действиям, так и в задачах реконструкции благодаря встроенному геометрическому моделированию. Примечательно, что даже без данных из реального мира его производительность в реконструкции значительно превосходит специализированные модели. Кроме того, Aether использует геометрически информированное пространство действий для плавного преобразования предсказаний в действия, что позволяет эффективно планировать автономные траектории. Мы надеемся, что наша работа вдохновит сообщество на исследование новых горизонтов в физически обоснованном моделировании мира и его приложениях.

OmnimatteZero: Обучение без обучения для работы в реальном времени с Omnimatte на основе предварительно обученных моделей диффузии видео
OmnimatteZero: Training-free Real-time Omnimatte with Pre-trained Video Diffusion Models

Mar 23

ByDvir Samuel, Matan Levy, Nir Darshan, Gal Chechik, Rami Ben-Ari

Omnimatte ставит своей целью декомпозицию заданного видео на семантически значимые слои, включая фон и отдельные объекты вместе с их связанными эффектами, такими как тени и отражения. Существующие методы часто требуют обширного обучения или дорогостоящей оптимизации с самоконтролем. В данной статье мы представляем OmnimatteZero — подход, не требующий обучения, который использует готовые предобученные модели диффузии видео для создания omnimatte. Он может удалять объекты из видео, извлекать отдельные слои объектов вместе с их эффектами и комбинировать эти объекты с новыми видео. Мы достигаем этого, адаптируя техники инпантинга изображений с нулевым обучением для удаления объектов из видео — задачу, с которой они изначально не справляются эффективно. Затем мы показываем, что карты самовнимания захватывают информацию об объекте и его следах, и используем их для инпантинга эффектов объекта, оставляя чистый фон. Кроме того, с помощью простых операций в латентном пространстве слои объектов могут быть изолированы и бесшовно объединены с новыми слоями видео для создания новых видеороликов. Оценки показывают, что OmnimatteZero не только демонстрирует превосходную производительность в плане реконструкции фона, но и устанавливает новый рекорд по скорости среди подходов Omnimatte, достигая работы в реальном времени с минимальным временем обработки кадров.

AgentRxiv: На пути к совместному автономному исследованию
AgentRxiv: Towards Collaborative Autonomous Research

Mar 23

BySamuel Schmidgall, Michael Moor

Прогресс в научных открытиях редко является результатом единичного "Эврика"-момента, а скорее представляет собой продукт совместных усилий сотен ученых, постепенно работающих над общей целью. Хотя существующие рабочие процессы агентов способны автономно проводить исследования, они делают это изолированно, без возможности непрерывного улучшения предыдущих результатов. Для решения этих задач мы представляем AgentRxiv — фреймворк, который позволяет лабораториям агентов на основе больших языковых моделей (LLM) загружать и извлекать отчеты из общего сервера препринтов, чтобы сотрудничать, делиться идеями и итеративно развивать исследования друг друга. Мы поручаем лабораториям агентов разрабатывать новые методы рассуждения и формулирования запросов и обнаруживаем, что агенты, имеющие доступ к своим предыдущим исследованиям, достигают более значительного улучшения производительности по сравнению с агентами, работающими изолированно (относительное улучшение на 11,4% по сравнению с базовым уровнем на MATH-500). Мы также выясняем, что лучшая стратегия обобщается на бенчмарки в других областях (улучшение в среднем на 3,3%). Несколько лабораторий агентов, делящихся исследованиями через AgentRxiv, способны совместно работать над общей целью, продвигаясь быстрее, чем изолированные лаборатории, и достигая более высокой общей точности (относительное улучшение на 13,7% по сравнению с базовым уровнем на MATH-500). Эти результаты позволяют предположить, что автономные агенты могут играть роль в проектировании будущих систем ИИ совместно с людьми. Мы надеемся, что AgentRxiv позволит агентам сотрудничать в достижении исследовательских целей и поможет ученым ускорить процесс открытий.

Judge Anything: MLLM как универсальный судья для любых модальностей
Judge Anything: MLLM as a Judge Across Any Modality

Mar 21

ByShu Pu, Yaochen Wang, Dongping Chen, Yuhang Chen, Guohao Wang, Qi Qin, Zhongyi Zhang, Zhiyuan Zhang, Zetong Zhou, Shuang Gong, Yi Gui, Yao Wan, Philip S. Yu

Оценка генеративных базовых моделей на задачах открытого многомодального понимания (MMU) и генерации (MMG) в различных модальностях (например, изображения, аудио, видео) представляет значительные сложности из-за сложности кросс-модальных взаимодействий. В связи с этим возникла идея использования многомодальных языковых моделей (MLLM) в качестве автоматических судей, что уже показало обнадеживающие результаты в оценке задач понимания визуально-текстовой информации. В данной статье мы расширяем подход MLLM-as-a-Judge на все модальности, предлагая унифицированный метод, вводя два бенчмарка: TaskAnything и JudgeAnything, для оценки общей производительности и судейских способностей MLLM в задачах любой-к-любой модальности. В частности, TaskAnything оценивает способности MMU и MMG в 15 категориях любой-к-любой модальности, используя 1500 запросов, отобранных из хорошо зарекомендовавших себя бенчмарков. Кроме того, JudgeAnything оценивает судейские способности 5 передовых моделей (например, GPT-4o и Gemini-2.0-Flash) с точки зрения парного сравнения и оценки баллов, предоставляя стандартизированную тестовую среду, которая включает человеческие суждения и детальные критерии. Наши обширные эксперименты показывают, что, хотя эти MLLM демонстрируют потенциал в оценке MMU (достигая в среднем 66.55% в настройке парного сравнения и 42.79% в настройке оценки баллов), они сталкиваются с серьезными трудностями в задачах MMG (в среднем только 53.37% в настройке парного сравнения и 30.05% в настройке оценки баллов), выявляя кросс-модальные предубеждения и проблемы с галлюцинациями. Для решения этих проблем мы представляем OmniArena, автоматизированную платформу для оценки омни-моделей и многомодальных моделей вознаграждения. Наша работа подчеркивает необходимость более справедливых протоколов оценки и более сильного согласования с человеческими предпочтениями. Исходный код и набор данных доступны по адресу: https://urrealhero.github.io/judgeanythingweb/.

CFG-Zero: Улучшенное управление без классификатора для моделей согласования потоков
CFG-Zero: Improved Classifier-Free Guidance for Flow Matching Models

Mar 24

ByWeichen Fan, Amber Yijia Zheng, Raymond A. Yeh, Ziwei Liu

Classifier-Free Guidance (CFG) — это широко используемая техника в диффузионных/потоковых моделях для повышения качества изображений и управляемости. В данной работе мы сначала аналитически исследуем влияние CFG на модели потокового согласования, обученные на гауссовских смесях, где можно вывести истинный поток. Мы наблюдаем, что на ранних этапах обучения, когда оценка потока неточна, CFG направляет выборки по неправильным траекториям. На основе этого наблюдения мы предлагаем CFG-Zero*, улучшенную версию CFG с двумя ключевыми вкладами: (a) оптимизированный масштаб, где скаляр оптимизируется для коррекции неточностей в оцененной скорости, что отражено в символе * в названии; и (b) zero-init, который предполагает обнуление первых нескольких шагов решателя ОДУ. Эксперименты на задачах генерации изображений из текста (Lumina-Next, Stable Diffusion 3 и Flux) и видео из текста (Wan-2.1) демонстрируют, что CFG-Zero* стабильно превосходит CFG, подчеркивая его эффективность в управлении моделями потокового согласования. (Код доступен на github.com/WeichenFan/CFG-Zero-star)

Победа над инъекциями в промпты на уровне проектирования
Defeating Prompt Injections by Design

Mar 24

ByEdoardo Debenedetti, Ilia Shumailov, Tianqi Fan, Jamie Hayes, Nicholas Carlini, Daniel Fabian, Christoph Kern, Chongyang Shi, Andreas Terzis, Florian Tramèr

Крупные языковые модели (LLM) всё чаще используются в агентных системах, взаимодействующих с внешней средой. Однако LLM-агенты уязвимы к атакам внедрения промптов при обработке ненадёжных данных. В данной статье мы предлагаем CaMeL — надёжную защиту, которая создаёт защитный системный слой вокруг LLM, обеспечивая её безопасность даже в случаях, когда базовые модели могут быть подвержены атакам. Для работы CaMeL явно извлекает потоки управления и данных из (надёжного) запроса; таким образом, ненадёжные данные, полученные LLM, никогда не могут повлиять на поток выполнения программы. Для дальнейшего повышения безопасности CaMeL использует концепцию возможностей (capability), чтобы предотвратить утечку приватных данных через несанкционированные потоки данных. Мы демонстрируем эффективность CaMeL, успешно решая 67% задач с доказанной безопасностью в AgentDojo [NeurIPS 2024], недавнем бенчмарке для оценки безопасности агентных систем.

Vision-R1: Эволюция автономного согласования в крупных визуально-языковых моделях с использованием визуально-направленного обучения с подкреплением
Vision-R1: Evolving Human-Free Alignment in Large Vision-Language Models via Vision-Guided Reinforcement Learning

Mar 23

ByYufei Zhan, Yousong Zhu, Shurong Zheng, Hongyin Zhao, Fan Yang, Ming Tang, Jinqiao Wang

Крупные модели, объединяющие зрение и язык (LVLMs), обычно следуют двухэтапной парадигме обучения — предварительное обучение и тонкая настройка с учителем. В последнее время оптимизация предпочтений, заимствованная из области обработки языка, стала эффективной стратегией пост-обучения для усиления возможностей LVLMs. Однако создание высококачественных данных с аннотациями предпочтений и разработка надежных моделей вознаграждения для имитации этих предпочтений являются как затратными, так и сложными задачами. Вдохновленные этим наблюдением, мы предлагаем Vision-R1 — новый алгоритм обучения с подкреплением, подобный R1, но с использованием визуального руководства для LVLMs, который вознаграждает модели на основе четкой визуальной обратной связи. Этот метод использует только тщательно отобранные данные инструкций, устраняя необходимость в специализированных моделях вознаграждения и ручном создании наборов данных предпочтений. Мы внедряем функцию вознаграждения, основанную на критериях, которая дополнительно интегрирует многомерную обратную связь для всесторонней оценки завершений модели в соответствии с логикой визуальной задачи. Кроме того, мы представляем стратегию постепенного уточнения правил, которая динамически корректирует критерии вознаграждения в процессе обучения, обеспечивая непрерывное улучшение модели и снижая риск манипуляции вознаграждением. Многочисленные эксперименты на тестах как в рамках распределения, так и за его пределами показывают, что тонкая настройка 7B LVLMs с использованием Vision-R1 приводит к стабильному повышению производительности, достигая улучшений до 50% и превосходя современные модели в 10 раз большего размера.

FFN Fusion: Переосмысление последовательных вычислений в больших языковых моделях
FFN Fusion: Rethinking Sequential Computation in Large Language Models

Mar 24

ByAkhiad Bercovich, Mohammad Dabbah, Omri Puny, Ido Galil, Amnon Geifman, Yonatan Geifman, Izhak Golan, Ehud Karpas, Itay Levy, Zach Moshe, Najeeb Nabwani, Tomer Ronen, Itamar Schen, Elad Segal, Ido Shahaf, Oren Tropp, Ran Zilberstein, Ran El-Yaniv

Мы представляем FFN Fusion — метод оптимизации архитектуры, который сокращает последовательные вычисления в больших языковых моделях за счет выявления и использования естественных возможностей для параллелизации. Наше ключевое наблюдение заключается в том, что последовательности слоев Feed-Forward Network (FFN), особенно оставшиеся после удаления определенных слоев внимания, часто могут быть параллелизованы с минимальным влиянием на точность. Мы разработали принципиальную методологию для выявления и объединения таких последовательностей, преобразуя их в параллельные операции, которые значительно сокращают задержку вывода при сохранении поведения модели. Применив эти методы к модели Llama-3.1-405B-Instruct, мы создали Llama-Nemotron-Ultra-253B-Base (Ultra-253B-Base) — эффективную модель, которая скоро станет общедоступной и демонстрирует ускорение задержки вывода в 1.71 раза и снижение стоимости обработки одного токена в 35 раз при сохранении высокой производительности на тестовых наборах. В ходе обширных экспериментов с моделями от 49B до 253B параметров мы показываем, что FFN Fusion становится все более эффективным на больших масштабах и может дополнять существующие методы оптимизации, такие как квантование и обрезка. Наиболее интригующе то, что мы обнаружили, что даже полные блоки трансформера, содержащие как слои внимания, так и FFN, иногда могут быть параллелизованы, что открывает новые направления в проектировании нейронных архитектур.

Эквивариантное моделирование изображений
Equivariant Image Modeling

Mar 24

ByRuixiao Dong, Mengde Xu, Zigang Geng, Li Li, Han Hu, Shuyang Gu

Современные генеративные модели, такие как авторегрессивные и диффузионные подходы, разлагают обучение распределениям высокоразмерных данных на серию более простых подзадач. Однако в процессе совместной оптимизации этих подзадач возникают внутренние конфликты, и существующие решения не способны устранить такие конфликты без ущерба для эффективности или масштабируемости. Мы предлагаем новый эквивариантный фреймворк для моделирования изображений, который изначально согласует цели оптимизации между подзадачами, используя трансляционную инвариантность естественных визуальных сигналов. Наш метод включает (1) построчную токенизацию, которая усиливает трансляционную симметрию вдоль горизонтальной оси, и (2) оконное причинное внимание, которое обеспечивает согласованность контекстных отношений между позициями. При оценке на задаче генерации изображений ImageNet с условием класса и разрешением 256x256 наш подход демонстрирует производительность, сопоставимую с современными авторегрессивными моделями, при использовании меньших вычислительных ресурсов. Систематический анализ показывает, что усиленная эквивариантность снижает межзадачные конфликты, значительно улучшая обобщение в условиях zero-shot и позволяя синтезировать изображения сверхбольшой длины. Данная работа представляет первый фреймворк для согласованного разложения задач в генеративном моделировании, предлагая новые идеи для эффективного разделения параметров и бесконфликтной оптимизации. Код и модели доступны по адресу https://github.com/drx-code/EquivariantModeling.

ЛЕММА: Обучение на ошибках для математического прогресса в больших языковых моделях
LEMMA: Learning from Errors for MatheMatical Advancement in LLMs

Mar 21

ByZhuoshi Pan, Yu Li, Honglin Lin, Qizhi Pei, Zinan Tang, Wei Wu, Chenlin Ming, H. Vicky Zhao, Conghui He, Lijun Wu

Крупные языковые модели (LLM) продемонстрировали впечатляющие способности к рассуждению при решении математических задач. Однако существующие подходы в основном сосредоточены на улучшении качества корректных обучающих данных, например, на извлечении высококачественных правильных решений из продвинутых моделей, игнорируя ценность, содержащуюся в данных об ошибках, что потенциально ограничивает способность модели к рефлексии. Хотя некоторые исследования пытаются использовать данные об ошибках, они часто включают сложные механизмы, такие как поиск по дереву с использованием метода Монте-Карло (MCTS) для исследования ошибочных узлов. В данной работе мы предлагаем улучшить способность LLM к рассуждению с помощью метода Learning from Errors for Mathematical Advancement (LEMMA). LEMMA создает данные, состоящие из некорректного решения с ошибочным шагом и рефлексивной связи с правильным решением для тонкой настройки. В частности, мы систематически анализируем типы ошибок, генерируемых моделью, и вводим метод усиления ошибок, основанный на их типах, для сбора разнообразных и репрезентативных ошибок. Правильные решения получаются либо путем исправления ошибок, либо путем генерации с нуля. Благодаря плавной рефлексивной связи, учитывающей особенности модели, ошибочное решение преобразуется в правильное. Путем тонкой настройки на созданном наборе данных модель способна самостоятельно исправлять ошибки в процессе генерации, не полагаясь на внешние модели критики. Экспериментальные результаты показывают, что LEMMA достигает значительного улучшения производительности по сравнению с другими сильными базовыми методами.

Video SimpleQA: К оценке фактической точности в крупных языковых моделях для видео
Video SimpleQA: Towards Factuality Evaluation in Large Video Language Models

Mar 24

ByMeng Cao, Pengfei Hu, Yingyao Wang, Jihao Gu, Haoran Tang, Haoze Zhao, Jiahua Dong, Wangbo Yu, Ge Zhang, Ian Reid, Xiaodan Liang

Последние достижения в области крупных языковых моделей для видео (LVLMs) подчеркивают их потенциал для мультимодального понимания, однако оценка их фактической достоверности в контексте видео остается важной нерешенной задачей. Чтобы восполнить этот пробел, мы представляем Video SimpleQA — первый всеобъемлющий бенчмарк, специально разработанный для оценки фактической достоверности LVLMs. Наша работа отличается от существующих видео-бенчмарков следующими ключевыми особенностями: 1) Требуемые знания: необходимость интеграции внешних знаний, выходящих за рамки явного повествования; 2) Фактографические вопросы: ориентация на объективные, неоспоримые события или отношения, избегая субъективной интерпретации; 3) Определенные и краткие ответы: ответы формулируются как однозначные и безусловно правильные в кратком формате, что позволяет автоматизировать оценку с использованием LLM-as-a-judge с минимальной вариативностью; 4) Проверка внешними источниками: все аннотации проходят строгую проверку по авторитетным внешним источникам для обеспечения надежности; 5) Требуется временное рассуждение: аннотированные типы вопросов охватывают как статическое понимание одного кадра, так и динамическое временное рассуждение, явно оценивая фактическую достоверность LVLMs в условиях длинных контекстных зависимостей. Мы провели масштабную оценку 41 современной LVLM и выделили следующие ключевые выводы: 1) Современные LVLMs демонстрируют значительные недостатки в соблюдении фактической достоверности, особенно для моделей с открытым исходным кодом. Лучшая модель Gemini-1.5-Pro достигает F-меры всего 54,4%; 2) Парадигмы вычислений во время тестирования показывают незначительный прирост производительности, что указывает на фундаментальные ограничения для улучшения фактической достоверности через постфактумные вычисления; 3) Генерация с использованием поиска демонстрирует стабильные улучшения за счет дополнительных временных затрат на вывод, представляя критический компромисс между эффективностью и производительностью.

Обучение через рассуждение на основе скрытых мыслей
Reasoning to Learn from Latent Thoughts

Mar 24

ByYangjun Ruan, Neil Band, Chris J. Maddison, Tatsunori Hashimoto

Масштабирование вычислительных ресурсов для предварительного обучения языковых моделей (LM) опережает рост объема текстов, написанных людьми, что вызывает опасения, что данные станут узким местом для масштабирования LM. Чтобы продолжить масштабирование предварительного обучения в условиях ограниченности данных, мы предлагаем, что явное моделирование и вывод скрытых мыслей, лежащих в основе процесса генерации текста, может значительно повысить эффективность использования данных при предварительном обучении. Интуитивно наш подход рассматривает веб-тексты как сжатый конечный результат многословного мыслительного процесса человека, при этом скрытые мысли содержат важные контекстуальные знания и шаги рассуждений, которые критически важны для эффективного обучения с ограниченными данными. Мы эмпирически демонстрируем эффективность нашего подхода на примере продолженного предварительного обучения с ограниченными данными для математики. Сначала мы показываем, что синтетические подходы к выводу скрытых мыслей значительно повышают эффективность использования данных, превосходя обучение на том же объеме исходных данных (5.7\% → 25.4\% на MATH). Кроме того, мы демонстрируем вывод скрытых мыслей без сильного учителя, где LM самостоятельно улучшает свою производительность, используя EM-алгоритм для итеративного повышения способностей обученной модели и качества данных для предварительного обучения, дополненных мыслями. Мы показываем, что LM с 1 миллиардом параметров может улучшать свою производительность как минимум на трех итерациях и значительно превосходить базовые модели, обученные на исходных данных, с увеличивающимся выигрышем от дополнительных вычислительных ресурсов при выполнении E-шага. Улучшения от масштабирования вывода и итераций EM открывают новые возможности для масштабирования предварительного обучения с ограниченными данными.

Feather-SQL: Облегченный фреймворк NL2SQL с парадигмой совместной работы двух моделей для малых языковых моделей
Feather-SQL: A Lightweight NL2SQL Framework with Dual-Model Collaboration Paradigm for Small Language Models

Mar 22

ByWenqi Pei, Hailing Xu, Hengyuan Zhao, Shizheng Hou, Han Chen, Zining Zhang, Pingyi Luo, Bingsheng He

Преобразование естественного языка в SQL (NL2SQL) значительно продвинулось благодаря крупным языковым моделям (LLM). Однако эти модели часто зависят от закрытых систем и требуют значительных вычислительных ресурсов, что создает проблемы с конфиденциальностью данных и развертыванием. В то же время небольшие языковые модели (SLM) демонстрируют низкую производительность и несовместимость с существующими фреймворками в задачах NL2SQL. Для решения этих проблем мы представляем Feather-SQL — новый легковесный фреймворк, разработанный специально для SLM. Feather-SQL повышает выполнимость и точность SQL за счет 1) обрезки и связывания схемы, 2) генерации множественных путей и кандидатов. Кроме того, мы предлагаем парадигму 1+1 Model Collaboration, которая объединяет мощную универсальную чат-модель с тонко настроенным специалистом по SQL, сочетая сильные аналитические способности с высокой точностью генерации SQL. Экспериментальные результаты на наборе данных BIRD показывают, что Feather-SQL улучшает производительность NL2SQL для SLM, обеспечивая прирост около 10% для моделей без тонкой настройки. Предложенная парадигма повышает максимальную точность SLM до 54,76%, подтверждая ее эффективность.

Оптимизированное минимальное 3D-размытие по Гауссу
Optimized Minimal 3D Gaussian Splatting

Mar 21

ByJoo Chan Lee, Jong Hwan Ko, Eunbyung Park

3D Gaussian Splatting (3DGS) зарекомендовал себя как мощное представление для рендеринга в реальном времени с высокой производительностью, что открывает широкий спектр приложений. Однако представление 3D-сцен с использованием множества явных гауссовых примитивов приводит к значительным затратам на хранение и память. Недавние исследования показали, что высококачественный рендеринг может быть достигнут с существенно меньшим количеством гауссовых функций при использовании атрибутов высокой точности. Тем не менее, существующие методы сжатия 3DGS по-прежнему полагаются на относительно большое количество гауссовых функций, сосредотачиваясь в основном на сжатии атрибутов. Это связано с тем, что меньший набор гауссовых функций становится более чувствительным к сжатию атрибутов с потерями, что приводит к значительному ухудшению качества. Поскольку количество гауссовых функций напрямую связано с вычислительными затратами, важно эффективно сокращать их количество, а не только оптимизировать хранение. В данной статье мы предлагаем представление Optimized Minimal Gaussians (OMG), которое значительно сокращает объем хранения при использовании минимального количества примитивов. Во-первых, мы определяем уникальные гауссовы функции среди близлежащих, минимизируя избыточность без ущерба для качества. Во-вторых, мы предлагаем компактное и точное представление атрибутов, которое эффективно учитывает как непрерывность, так и нерегулярность среди примитивов. Кроме того, мы предлагаем технику субвекторного квантования для улучшенного представления нерегулярности, сохраняя быструю обучение с незначительным размером кодовой книги. Многочисленные эксперименты демонстрируют, что OMG сокращает требования к хранению почти на 50% по сравнению с предыдущими передовыми методами и позволяет достичь рендеринга с частотой более 600 кадров в секунду при сохранении высокого качества рендеринга. Наш исходный код доступен по адресу https://maincold2.github.io/omg/.

Ускорение диффузии без обучения с использованием выборки через узкие места
Training-free Diffusion Acceleration with Bottleneck Sampling

Mar 24

ByYe Tian, Xin Xia, Yuxi Ren, Shanchuan Lin, Xing Wang, Xuefeng Xiao, Yunhai Tong, Ling Yang, Bin Cui

Диффузионные модели продемонстрировали впечатляющие возможности в генерации визуального контента, однако их развертывание остается сложной задачей из-за высоких вычислительных затрат на этапе вывода. Основная причина этой вычислительной нагрузки заключается в квадратичной сложности механизма самовнимания относительно разрешения изображения или видео. Хотя существующие методы ускорения часто идут на компромисс с качеством выходных данных или требуют дорогостоящего переобучения, мы отмечаем, что большинство диффузионных моделей предварительно обучаются на более низких разрешениях, что открывает возможность использования этих низкоразрешающих априорных данных для более эффективного вывода без ухудшения производительности. В данной работе мы представляем Bottleneck Sampling — метод, не требующий дополнительного обучения, который использует низкоразрешающие априорные данные для снижения вычислительных затрат при сохранении качества выходных данных. Bottleneck Sampling следует схеме шумоподавления "высокое-низкое-высокое": он выполняет шумоподавление на высоком разрешении на начальном и конечном этапах, а на промежуточных этапах работает на более низких разрешениях. Для минимизации артефактов сглаживания и наложения мы дополнительно уточняем точки перехода между разрешениями и адаптивно смещаем временные шаги шумоподавления на каждом этапе. Мы оцениваем Bottleneck Sampling на задачах генерации изображений и видео, где обширные эксперименты показывают, что он ускоряет вывод до 3 раз для генерации изображений и до 2,5 раз для генерации видео, при этом сохраняя качество выходных данных, сопоставимое с стандартным процессом выборки на полном разрешении, по множеству метрик оценки. Код доступен по адресу: https://github.com/tyfeld/Bottleneck-Sampling.

AlphaSpace: Обеспечение роботизированных действий через семантическую токенизацию и символическое рассуждение
AlphaSpace: Enabling Robotic Actions through Semantic Tokenization and Symbolic Reasoning

Mar 24

ByAlan Dao, Dinh Bach Vu, Bui Quang Huy

В данной статье представлена AlphaSpace — новая методология, разработанная для улучшения пространственных способностей крупных языковых моделей (LLM) в навигации по трёхмерному декартову пространству. AlphaSpace использует стратегию семантической токенизации, кодируя информацию о высоте с помощью специализированных семантических токенов, и интегрирует преимущественно символические синтетические данные для рассуждений. Этот подход позволяет LLM точно манипулировать объектами, размещая их в определённых координатах [x, y, z]. Результаты экспериментов показывают, что AlphaSpace значительно превосходит существующие модели в подзадачах манипуляции, достигая общей точности 66,67% по сравнению с 37,5% у GPT-4o и 29,17% у Claude 3.5 Sonnet.

MagicComp: Двухэтапное уточнение без обучения для композиционной генерации видео
MagicComp: Training-free Dual-Phase Refinement for Compositional Video Generation

Mar 18

ByHongyu Zhang, Yufan Deng, Shenghai Yuan, Peng Jin, Zesen Cheng, Yian Zhao, Chang Liu, Jie Chen

Генерация видео из текста (Text-to-Video, T2V) достигла значительных успехов благодаря моделям диффузии. Однако существующие методы по-прежнему сталкиваются с трудностями в точном связывании атрибутов, определении пространственных отношений и захвате сложных взаимодействий между несколькими объектами. Чтобы устранить эти ограничения, мы предлагаем MagicComp — метод, не требующий обучения, который улучшает композиционную генерацию T2V за счет двухэтапного уточнения. А именно: (1) На этапе кондиционирования мы вводим метод Semantic Anchor Disambiguation, который усиливает семантику, специфичную для объектов, и устраняет неоднозначность между объектами, постепенно внедряя направленные векторы семантических якорей в исходное текстовое представление; (2) На этапе денойзинга мы предлагаем Dynamic Layout Fusion Attention, который интегрирует априорные данные о расположении и адаптивное пространственное восприятие модели для гибкого связывания объектов с их пространственно-временными областями через модуляцию маскированного внимания. Кроме того, MagicComp является универсальным и независимым от модели подходом, который может быть легко интегрирован в существующие архитектуры T2V. Многочисленные эксперименты на T2V-CompBench и VBench демонстрируют, что MagicComp превосходит современные методы, подчеркивая его потенциал для таких приложений, как генерация видео на основе сложных запросов и с контролируемой траекторией. Страница проекта: https://hong-yu-zhang.github.io/MagicComp-Page/.

Diffusion-4K: Синтез изображений сверхвысокого разрешения с использованием латентных диффузионных моделей
Diffusion-4K: Ultra-High-Resolution Image Synthesis with Latent Diffusion Models

Mar 24

ByJinjin Zhang, Qiuyu Huang, Junjie Liu, Xiefan Guo, Di Huang

В данной статье мы представляем Diffusion-4K — новый фреймворк для прямой синтеза изображений сверхвысокого разрешения с использованием моделей диффузии текст-изображение. Основные достижения включают: (1) Бенчмарк Aesthetic-4K: для устранения отсутствия общедоступного набора данных для синтеза 4K-изображений мы создали Aesthetic-4K — всеобъемлющий бенчмарк для генерации изображений сверхвысокого разрешения. Мы собрали высококачественный 4K-набор данных с тщательно отобранными изображениями и подписями, сгенерированными GPT-4o. Дополнительно мы вводим метрики GLCM Score и Compression Ratio для оценки мелких деталей, а также комплексные меры, такие как FID, Aesthetics и CLIPScore, для всесторонней оценки изображений сверхвысокого разрешения. (2) Тонкая настройка на основе вейвлетов: мы предлагаем подход тонкой настройки на основе вейвлетов для прямого обучения с фотореалистичными 4K-изображениями, применимый к различным латентным моделям диффузии, демонстрируя его эффективность в синтезе высокодетализированных 4K-изображений. В результате Diffusion-4K демонстрирует впечатляющие результаты в синтезе высококачественных изображений и следовании текстовым запросам, особенно при использовании современных крупномасштабных моделей диффузии (например, SD3-2B и Flux-12B). Обширные экспериментальные результаты нашего бенчмарка подтверждают превосходство Diffusion-4K в синтезе изображений сверхвысокого разрешения.

Потерянные в культурном переводе: Испытывают ли большие языковые модели трудности с математикой в различных культурных контекстах?
Lost in Cultural Translation: Do LLMs Struggle with Math Across Cultural Contexts?

Mar 23

ByAabid Karim, Abdul Karim, Bhoomika Lohana, Matt Keon, Jaswinder Singh, Abdul Sattar

Крупные языковые модели (LLMs) значительно продвинули различные области, особенно программирование, математическое рассуждение и решение логических задач. Однако остается важный вопрос: сохраняются ли эти способности к математическому рассуждению, когда LLMs сталкиваются с математическими задачами, адаптированными к культурным контекстам? В частности, как LLMs справляются с математическими задачами, встроенными в культурные контексты, которые слабо представлены в основных масштабных данных для обучения ИИ? Чтобы изучить это, мы создали шесть синтетических культурных наборов данных на основе GSM8K — широко используемого бенчмарка для оценки математических навыков LLMs. Сохраняя математическую логику и числовые значения оригинального тестового набора GSM8K, мы изменили культурные элементы, такие как имена людей, продукты питания, названия мест и т.д. Эти культурно адаптированные наборы данных предоставляют более надежную основу для оценки математического рассуждения LLMs в изменяющихся культурных контекстах. Наши результаты показывают, что LLMs испытывают трудности с математическими задачами при изменении культурных ссылок, даже если лежащая в основе математическая структура остается неизменной. Меньшие модели демонстрируют более значительное снижение производительности по сравнению с крупными моделями. Интересно, что наши результаты также свидетельствуют о том, что культурная осведомленность может улучшать математическое рассуждение. Даже модели без явной математической подготовки, но с опытом в соответствующих культурных контекстах, иногда превосходят более крупные, математически подготовленные модели в решении культурно встроенных математических задач. Это исследование подчеркивает влияние культурного контекста на способности LLMs к математическому рассуждению, указывая на необходимость более разнообразных и репрезентативных данных для обучения, чтобы повысить устойчивость в реальных приложениях. Наборы данных бенчмарка и скрипт для воспроизведения результатов доступны по адресу: https://github.com/akarim23131/Lost_in_Cultural_Translation.

V-Seek: Ускорение логических рассуждений в крупных языковых моделях на серверных платформах с открытой архитектурой RISC-V
V-Seek: Accelerating LLM Reasoning on Open-hardware Server-class RISC-V Platforms

Mar 21

ByJavier J. Poveda Rodrigo, Mohamed Amine Ahmdi, Alessio Burrello, Daniele Jahier Pagliari, Luca Benini

Недавний экспоненциальный рост крупных языковых моделей (LLM) в значительной степени опирался на системы, основанные на GPU. Однако CPU начинают рассматриваться как гибкая и более экономичная альтернатива, особенно для задач вывода и логического рассуждения. Архитектура RISC-V быстро набирает популярность в этой области благодаря своей открытой и независимой от поставщиков системе команд (ISA). Тем не менее, аппаратное обеспечение RISC-V для работы с LLM и соответствующая программная экосистема пока не полностью зрелы и оптимизированы, что связано с необходимостью специфической настройки для данной области. Данная статья направлена на заполнение этого пробела, сосредоточившись на оптимизации вывода LLM на процессоре Sophon SG2042 — первом коммерчески доступном многоядерном CPU на базе RISC-V с поддержкой векторной обработки. На двух современных LLM, оптимизированных для логического рассуждения — DeepSeek R1 Distill Llama 8B и DeepSeek R1 Distill QWEN 14B — мы достигаем скорости генерации токенов 4,32/2,29 токенов в секунду и обработки промптов 6,54/3,68 токенов в секунду, что обеспечивает ускорение до 2,9x/3,0x по сравнению с базовым уровнем.

Typed-RAG: Тип-ориентированная многомерная декомпозиция для ответов на нефактоидные вопросы
Typed-RAG: Type-aware Multi-Aspect Decomposition for Non-Factoid Question Answering

Mar 20

ByDongGeon Lee, Ahjeong Park, Hyeri Lee, Hyeonseo Nam, Yunho Maeng

Ответы на нефактоидные вопросы (NFQA) представляют собой значительную проблему из-за их открытого характера, разнообразия намерений и необходимости многомерного рассуждения, что делает традиционные подходы к фактоидным вопросам, включая генерацию с усилением поиска (RAG), недостаточными. В отличие от фактоидных вопросов, нефактоидные вопросы (NFQ) не имеют однозначных ответов и требуют синтеза информации из нескольких источников по различным аспектам рассуждения. Для устранения этих ограничений мы представляем Typed-RAG — типозависимую многомерную декомпозиционную структуру в рамках парадигмы RAG для NFQA. Typed-RAG классифицирует NFQ на различные типы, такие как дискуссия, опыт и сравнение, и применяет аспектную декомпозицию для уточнения стратегий поиска и генерации. Разделяя многомерные NFQ на одномерные подзапросы и агрегируя результаты, Typed-RAG генерирует более информативные и контекстуально релевантные ответы. Для оценки Typed-RAG мы представляем Wiki-NFQA — эталонный набор данных, охватывающий различные типы NFQ. Результаты экспериментов показывают, что Typed-RAG превосходит базовые подходы, подчеркивая важность типозависимой декомпозиции для эффективного поиска и генерации в NFQA. Наш код и набор данных доступны по адресу https://github.com/TeamNLP/Typed-RAG{https://github.com/TeamNLP/Typed-RAG}.

AMD-Hummingbird: В направлении эффективной модели преобразования текста в видео
AMD-Hummingbird: Towards an Efficient Text-to-Video Model

Mar 24

ByTakashi Isobe, He Cui, Dong Zhou, Mengmeng Ge, Dong Li, Emad Barsoum

Генерация видео из текста (Text-to-Video, T2V) привлекает значительное внимание благодаря своей способности синтезировать реалистичные видео на основе текстовых описаний. Однако существующие модели сталкиваются с трудностями в балансировке вычислительной эффективности и высокого визуального качества, особенно на устройствах с ограниченными ресурсами, таких как интегрированные графические процессоры (iGPU) и мобильные телефоны. Большинство предыдущих работ уделяет приоритетное внимание визуальной точности, упуская из виду необходимость создания более компактных и эффективных моделей, подходящих для реального применения. Для решения этой проблемы мы предлагаем облегченную T2V-платформу под названием Hummingbird, которая оптимизирует существующие модели и улучшает визуальное качество за счет обучения с визуальной обратной связью. Наш подход сокращает размер U-Net с 1,4 миллиарда до 0,7 миллиарда параметров, значительно повышая эффективность при сохранении высокого качества генерации видео. Кроме того, мы представляем новый конвейер обработки данных, который использует большие языковые модели (LLM) и модели оценки качества видео (VQA) для улучшения качества текстовых запросов и видеоданных. Для поддержки обучения, управляемого пользователем, и настройки стилей мы публикуем полный код обучения, включая обработку данных и обучение модели. Многочисленные эксперименты показывают, что наш метод обеспечивает ускорение в 31 раз по сравнению с современными моделями, такими как VideoCrafter2, а также достигает наивысшего общего балла на VBench. Более того, наш метод поддерживает генерацию видео длиной до 26 кадров, устраняя ограничения существующих U-Net-методов в создании длинных видео. Примечательно, что весь процесс обучения требует всего четырех графических процессоров, но при этом демонстрирует производительность, сопоставимую с ведущими существующими методами. Hummingbird представляет собой практичное и эффективное решение для T2V-генерации, сочетающее высокую производительность, масштабируемость и гибкость для реальных приложений.

Контроль дисперсии через масштабирование весов при предварительном обучении больших языковых моделей
Variance Control via Weight Rescaling in LLM Pre-training

Mar 21

ByLouis Owen, Abhay Kumar, Nilabhra Roy Chowdhury, Fabian Güra

Результаты предварительного обучения больших языковых моделей (LLM) в значительной степени зависят от стратегий инициализации весов и контроля дисперсии. Хотя важность контроля начальной дисперсии хорошо задокументирована для нейронных сетей в целом, литература, посвященная инициализации и управлению её ростом в процессе предварительного обучения LLM, остается относительно скудной. В данной статье мы представляем схему инициализации весов Layer Index Rescaling (LIR) и стратегию контроля дисперсии Target Variance Rescaling (TVR). Эксперименты на модели LLaMA с 1 миллиардом параметров демонстрируют, что улучшенное управление дисперсией с использованием этих методов приводит к значительному повышению производительности на последующих задачах (до 4,6% на стандартных бенчмарках предварительного обучения) и снижает экстремальные значения активаций, тем самым смягчая проблемы, связанные с квантованием и обучением с низкой точностью. Наш код доступен по адресу: https://github.com/bluorion-com/weight_rescaling.

MetaSpatial: Усиление пространственного мышления в 3D для визуально-языковых моделей в метавселенной
MetaSpatial: Reinforcing 3D Spatial Reasoning in VLMs for the Metaverse

Mar 24

ByZhenyu Pan, Han Liu

Мы представляем MetaSpatial — первую платформу на основе обучения с подкреплением (RL), предназначенную для улучшения 3D-пространственного мышления в моделях, объединяющих зрение и язык (VLMs), что позволяет генерировать 3D-сцены в реальном времени без необходимости жестко заданных оптимизаций. MetaSpatial решает две ключевые проблемы: (i) отсутствие внутреннего 3D-пространственного мышления в VLMs, что ограничивает их способность создавать реалистичные компоновки, и (ii) неэффективность традиционного тонкого настройки (SFT) для задач генерации компоновок, поскольку идеальные аннотации для обучения недоступны. Нашим ключевым нововведением является механизм оптимизации на основе многошагового RL, который интегрирует физически обоснованные ограничения и оценку визуализированных изображений, обеспечивая согласованность, физическую правдоподобность и эстетическую целостность генерируемых 3D-компоновок. Методологически MetaSpatial представляет адаптивный итеративный процесс рассуждений, в ходе которого VLM уточняет пространственные расположения на нескольких шагах, анализируя визуализированные результаты, постепенно улучшая согласованность сцены. Эмпирические оценки показывают, что MetaSpatial значительно повышает пространственную согласованность и стабильность форматирования моделей различных масштабов. После обучения размещение объектов становится более реалистичным, выровненным и функционально согласованным, что подтверждает эффективность RL для 3D-пространственного мышления в приложениях метавселенной, AR/VR, цифровых двойников и разработки игр. Наш код, данные и обучающий конвейер доступны по адресу https://github.com/PzySeere/MetaSpatial.

Instruct-CLIP: Улучшение редактирования изображений на основе инструкций с автоматической доработкой данных с использованием контрастного обучения
Instruct-CLIP: Improving Instruction-Guided Image Editing with Automated Data Refinement Using Contrastive Learning

Mar 24

BySherry X. Chen, Misha Sra, Pradeep Sen

Хотя инструкции на естественном языке предлагают интуитивный способ управления автоматизированным редактированием изображений, модели глубокого обучения часто сталкиваются с трудностями в достижении высококачественных результатов, что в значительной степени связано с проблемами создания больших и качественных обучающих наборов данных. Предыдущие работы обычно полагались на генеративные модели "текст-в-изображение" (T2I) для создания пар исходных и отредактированных изображений, которые имитируют входные/выходные данные модели, управляемой инструкциями. Однако эти пары изображений часто не соответствуют указанным инструкциям из-за ограничений T2I-моделей, что негативно сказывается на моделях, обученных на таких наборах данных. Чтобы решить эту проблему, мы представляем Instruct-CLIP — метод самообучения, который изучает семантические изменения между исходными и отредактированными изображениями для уточнения и лучшего согласования инструкций в существующих наборах данных. Кроме того, мы адаптируем Instruct-CLIP для работы с зашумленными латентными изображениями и шагами диффузии, что позволяет использовать его для обучения латентных диффузионных моделей (LDMs) [19] и эффективно обеспечивать согласованность между инструкцией редактирования и изменениями изображения в латентном пространстве на любом этапе диффузионного процесса. Мы используем Instruct-CLIP для исправления набора данных InstructPix2Pix и получаем более 120 тыс. уточненных образцов, которые затем применяем для тонкой настройки их модели с использованием нашей новой функции потерь на основе Instruct-CLIP. Полученная модель способна создавать правки, которые лучше соответствуют заданным инструкциям. Наш код и набор данных доступны по адресу https://github.com/SherryXTChen/Instruct-CLIP.git.

Разум с глазами: от языковых рассуждений к мультимодальным рассуждениям
Mind with Eyes: from Language Reasoning to Multimodal Reasoning

Mar 23

ByZhiyu Lin, Yifei Gao, Xian Zhao, Yunfan Yang, Jitao Sang

Языковые модели недавно вышли на уровень рассуждений, однако именно через мультимодальное рассуждение мы можем полностью раскрыть потенциал для достижения более всеобъемлющих, человеко-подобных когнитивных способностей. Данный обзор предлагает систематический анализ современных подходов к мультимодальному рассуждению, классифицируя их на два уровня: языко-центричное мультимодальное рассуждение и совместное мультимодальное рассуждение. Первый включает однократное визуальное восприятие и активное визуальное восприятие, где зрение в основном играет вспомогательную роль в языковом рассуждении. Второй предполагает генерацию действий и обновление состояния в процессе рассуждения, что позволяет более динамичное взаимодействие между модальностями. Кроме того, мы анализируем техническую эволюцию этих методов, обсуждаем их внутренние проблемы и представляем ключевые эталонные задачи и метрики для оценки производительности мультимодального рассуждения. Наконец, мы предлагаем взгляды на будущие направления исследований с двух перспектив: (i) от визуально-языкового рассуждения к омнимодальному рассуждению и (ii) от мультимодального рассуждения к мультимодальным агентам. Этот обзор направлен на предоставление структурированного обзора, который вдохновит дальнейшие достижения в исследованиях мультимодального рассуждения.

CODA: Перепрофилирование непрерывных вариационных автокодировщиков для дискретной токенизации
CODA: Repurposing Continuous VAEs for Discrete Tokenization

Mar 22

ByZeyu Liu, Zanlin Ni, Yeguo Hua, Xin Deng, Xiao Ma, Cheng Zhong, Gao Huang

Дискретные визуальные токенизаторы преобразуют изображения в последовательность токенов, что позволяет осуществлять генерацию изображений на основе токенов, аналогично языковым моделям. Однако этот процесс изначально сложен, так как требует как сжатия визуальных сигналов в компактное представление, так и их дискретизации в фиксированный набор кодов. Традиционные дискретные токенизаторы обычно обучают эти две задачи совместно, что часто приводит к нестабильному обучению, низкой загрузке кодовой книги и ограниченному качеству реконструкции. В данной работе мы представляем CODA (COntinuous-to-Discrete Adaptation) — фреймворк, который разделяет сжатие и дискретизацию. Вместо обучения дискретных токенизаторов с нуля, CODA адаптирует готовые непрерывные VAE (вариационные автоэнкодеры), уже оптимизированные для перцептуального сжатия, в дискретные токенизаторы с помощью тщательно разработанного процесса дискретизации. Основное внимание уделяя дискретизации, CODA обеспечивает стабильное и эффективное обучение, сохраняя при этом высокую визуальную точность непрерывных VAE. Экспериментально, при бюджете обучения в 6 раз меньше, чем у стандартного VQGAN, наш подход достигает впечатляющей загрузки кодовой книги в 100% и значительных показателей реконструкции FID (rFID) 0.43 и 1.34 для сжатия в 8 и 16 раз на бенчмарке ImageNet 256×256.

RDTF: Ресурсоэффективная двухмасочная обучающая структура для генерации многофреймовых анимированных стикеров
RDTF: Resource-efficient Dual-mask Training Framework for Multi-frame Animated Sticker Generation

Mar 22

ByZhiqiang Yuan, Ting Zhang, Ying Deng, Jiapei Zhang, Yeshuang Zhu, Zexi Jia, Jie Zhou, Jinchao Zhang

В последнее время был достигнут значительный прогресс в технологии генерации видео, что привлекло широкое внимание исследователей. Для применения этой технологии в задачах, требующих ограниченных ресурсов, исследователи обычно дообучают предварительно обученные модели с использованием методов эффективной настройки параметров, таких как Adapter или Lora. Хотя эти методы позволяют переносить знания из исходной области в целевую, меньшее количество обучаемых параметров приводит к слабой способности к адаптации, а знания из исходной области могут вызвать отклонение процесса вывода от целевой области. В данной статье мы утверждаем, что в условиях ограниченных ресурсов обучение меньшей модели генерации видео с нуля с использованием всего лишь миллионов образцов может превзойти эффективную настройку параметров на более крупных моделях в прикладных задачах: ключ заключается в эффективном использовании данных и стратегии обучения. В качестве примера рассмотрим генерацию анимированных стикеров (ASG). Сначала мы создаем дискретную сеть генерации кадров для стикеров с низкой частотой кадров, гарантируя, что ее параметры соответствуют требованиям обучения модели в условиях ограниченных ресурсов. Для обеспечения данных для моделей, обучаемых с нуля, мы предлагаем стратегию использования данных на основе двойной маски, которая повышает доступность и расширяет разнообразие ограниченных данных. Для облегчения сходимости в условиях двойной маски мы предлагаем метод адаптивного обучения по сложности, который разлагает энтропию образца на статическую и адаптивную составляющие, чтобы получать образцы от простых к сложным. Эксперименты показывают, что наш ресурсоэффективный фреймворк обучения с двойной маской количественно и качественно превосходит методы эффективной настройки параметров, такие как I2V-Adapter и SimDA, подтверждая жизнеспособность нашего подхода в прикладных задачах при ограниченных ресурсах. Код будет доступен.

Вербальный процесс контроля способствует повышению эффективности агентов, занимающихся программированием.
Verbal Process Supervision Elicits Better Coding Agents

Mar 24

ByHao-Yuan Chen, Cheng-Pong Huang, Jui-Ming Yao

Появление крупных языковых моделей и их применение в качестве ИИ-агентов значительно продвинуло современные бенчмарки генерации кода, трансформируя задачи современной разработки программного обеспечения. Однако даже с моделями рассуждений, вычисляемыми во время тестирования, эти системы по-прежнему сталкиваются с трудностями при решении сложных задач в области программной инженерии. В данной работе представлена система CURA — агент для понимания и рассуждения над кодом, улучшенный с помощью вербального процессуального контроля (VPS), который демонстрирует улучшение на 3,65% по сравнению с базовыми моделями на сложных бенчмарках, таких как BigCodeBench. Более того, CURA в сочетании с моделью o3-mini и методами VPS достигает наилучших результатов на сегодняшний день. Эта работа представляет собой шаг вперед в интеграции архитектур, основанных на рассуждениях, с генерацией кода на основе языковых моделей, позволяя языковым моделям использовать агентные рассуждения для решения сложных задач программной инженерии.

Разобучение движений человека
Human Motion Unlearning

Mar 24

ByEdoardo De Matteis, Matteo Migliarini, Alessio Sampieri, Indro Spinelli, Fabio Galasso

Мы представляем задачу "забывания" человеческих движений с целью предотвращения синтеза токсичных анимаций при сохранении общей производительности генерации движений по тексту. Забывание токсичных движений является сложной задачей, так как они могут быть сгенерированы как из явных текстовых запросов, так и из неявных токсичных комбинаций безопасных движений (например, "удар" — это "замах и движение ногой"). Мы предлагаем первый бенчмарк для забывания движений, отфильтровывая токсичные движения из крупных и современных наборов данных для генерации движений по тексту HumanML3D и Motion-X. Мы предлагаем базовые подходы, адаптируя передовые методы забывания изображений для обработки пространственно-временных сигналов. Наконец, мы представляем новую модель забывания движений, основанную на замене латентных кодов, которую мы называем LCR. LCR не требует обучения и подходит для дискретных латентных пространств современных диффузионных моделей генерации движений по тексту. LCR проста и стабильно превосходит базовые подходы как качественно, так и количественно. Страница проекта: https://www.pinlab.org/hmu{https://www.pinlab.org/hmu}.

Пересмотр методов слияния изображений для коррекции баланса белого при многократном освещении
Revisiting Image Fusion for Multi-Illuminant White-Balance Correction

Mar 18

ByDavid Serrano-Lozano, Aditya Arora, Luis Herranz, Konstantinos G. Derpanis, Michael S. Brown, Javier Vazquez-Corral

Коррекция баланса белого (WB) в сценах с несколькими источниками освещения остается сложной задачей в области компьютерного зрения. Недавние методы исследовали подходы, основанные на слиянии, где нейронная сеть линейно комбинирует несколько версий входного изображения в формате sRGB, каждая из которых обработана с предустановленными настройками WB. Однако мы показываем, что эти методы неоптимальны для типичных сценариев с несколькими источниками освещения. Кроме того, существующие методы слияния опираются на наборы данных WB в формате sRGB, которые не содержат специализированных изображений с несколькими источниками освещения, что ограничивает как обучение, так и оценку. Для решения этих проблем мы представляем два ключевых вклада. Во-первых, мы предлагаем эффективную модель на основе трансформеров, которая эффективно учитывает пространственные зависимости между предустановками WB в формате sRGB, значительно улучшая линейные методы слияния. Во-вторых, мы представляем крупномасштабный набор данных с несколькими источниками освещения, содержащий более 16 000 изображений в формате sRGB, обработанных с пятью различными настройками WB, а также изображения с корректированным балансом белого. Наш метод демонстрирует улучшение до 100% по сравнению с существующими техниками на новом наборе данных для слияния изображений с несколькими источниками освещения.

Переосмысление оценки изображений в задаче супер-разрешения
Rethinking Image Evaluation in Super-Resolution

Mar 17

ByShaolin Su, Josep M. Rocafort, Danna Xue, David Serrano-Lozano, Lei Sun, Javier Vazquez-Corral

Хотя современные методы повышения разрешения изображений (super-resolution, SR) постоянно улучшают воспринимаемое качество своих результатов, они часто оказываются неубедительными в количественных оценках. Это несоответствие приводит к растущему недоверию к существующим метрикам оценки SR. Хотя оценка изображений зависит как от метрики, так и от эталонного изображения (ground truth, GT), исследователи обычно не рассматривают роль GT, поскольку они общепринято считаются «идеальными» эталонами. Однако из-за того, что данные собирались в ранние годы и отсутствовал контроль над другими видами искажений, мы отмечаем, что GT в существующих наборах данных SR могут иметь относительно низкое качество, что приводит к смещённым оценкам. Следуя этому наблюдению, в данной статье мы задаёмся следующими вопросами: Можно ли полностью доверять GT-изображениям в существующих наборах данных SR для оценки моделей? Как качество GT влияет на эту оценку? И как проводить справедливые оценки, если GT не идеальны? Чтобы ответить на эти вопросы, статья представляет два основных вклада. Во-первых, путём систематического анализа семи современных моделей SR на трёх наборах данных реального мира мы показываем, что качество GT может последовательно влиять на результаты SR для разных моделей, и модели могут демонстрировать существенно разные результаты, когда качество GT контролируется. Во-вторых, мы предлагаем новую метрику воспринимаемого качества, называемую Relative Quality Index (RQI), которая измеряет относительное расхождение качества пар изображений, тем самым устраняя смещённые оценки, вызванные ненадёжными GT. Наша модель демонстрирует значительно лучшее соответствие с мнениями людей. Мы ожидаем, что наша работа предоставит сообществу SR ценные инсайты о том, как следует разрабатывать будущие наборы данных, модели и метрики.

Глобально-локальный поиск по дереву для генерации 3D-сцен с использованием языковых инструкций
Global-Local Tree Search for Language Guided 3D Scene Generation

Mar 24

ByWei Deng, Mengshi Qi, Huadong Ma

Крупные визуально-языковые модели (VLM), такие как GPT-4, достигли значительных успехов в различных областях. Однако исследований по генерации 3D-интерьеров с использованием VLM крайне мало. В данной статье эта задача рассматривается как проблема планирования, ограниченная пространственными и композиционными правилами. Для решения этой задачи с помощью VLM мы предлагаем новый алгоритм глобально-локального поиска по дереву. На глобальном уровне метод последовательно размещает каждый объект и исследует несколько вариантов размещения в процессе каждого шага, где пространство задачи представлено в виде дерева. Чтобы уменьшить глубину дерева, мы декомпозируем структуру сцены иерархически, а именно на уровне комнаты, уровня региона, уровня напольных объектов и уровня поддерживаемых объектов. Алгоритм независимо генерирует напольные объекты в разных регионах и поддерживаемые объекты, размещенные на различных напольных объектах. На локальном уровне мы также декомпозируем подзадачу — размещение каждого объекта — на несколько шагов. Алгоритм осуществляет поиск по дереву пространства задачи. Чтобы использовать VLM для определения позиций объектов, мы дискретизируем вид сверху в виде плотной сетки и заполняем каждую ячейку различными эмодзи, чтобы сделать ячейки различимыми. Мы передаем VLM сетку с эмодзи, и модель генерирует разумное местоположение объекта, описывая позицию с помощью названий эмодзи. Количественные и качественные результаты экспериментов показывают, что наш подход создает более правдоподобные 3D-сцены по сравнению с современными методами. Наш исходный код доступен по адресу https://github.com/dw-dengwei/TreeSearchGen.

QuartDepth: Посттренировочная квантизация для оценки глубины в реальном времени на периферийных устройствах
QuartDepth: Post-Training Quantization for Real-Time Depth Estimation on the Edge

Mar 20

ByXuan Shen, Weize Ma, Jing Liu, Changdi Yang, Rui Ding, Quanyi Wang, Henghui Ding, Wei Niu, Yanzhi Wang, Pu Zhao, Jun Lin, Jiuxiang Gu

Монокулярное оценивание глубины (MDE) стало ключевой задачей в области компьютерного зрения, поддерживая множество реальных приложений. Однако развертывание точных моделей оценки глубины на устройствах с ограниченными ресурсами, особенно на специализированных интегральных схемах (ASIC), является сложной задачей из-за высоких требований к вычислительным ресурсам и памяти. Последние достижения в области базового оценивания глубины демонстрируют впечатляющие результаты, но еще больше усложняют развертывание на ASIC. Для решения этой проблемы мы предлагаем QuartDepth, который использует посттренировочное квантование для квантования моделей MDE с аппаратным ускорением для ASIC. Наш подход включает квантование как весов, так и активаций до 4-битной точности, что уменьшает размер модели и вычислительные затраты. Для снижения ухудшения производительности мы вводим алгоритм полировки и компенсации активаций, применяемый до и после квантования активаций, а также метод реконструкции весов для минимизации ошибок при квантовании весов. Кроме того, мы разрабатываем гибкий и программируемый аппаратный ускоритель, поддерживающий слияние ядер и программируемость пользовательских инструкций, что повышает пропускную способность и эффективность. Экспериментальные результаты показывают, что наш фреймворк достигает конкурентоспособной точности, обеспечивая быстрое выполнение и более высокую энергоэффективность на ASIC, сокращая разрыв между высокопроизводительным оцениванием глубины и практической применимостью на устройствах с ограниченными ресурсами. Код: https://github.com/shawnricecake/quart-depth

DynamicVis: Эффективная и универсальная визуальная базовая модель для анализа изображений дистанционного зондирования
DynamicVis: An Efficient and General Visual Foundation Model for Remote Sensing Image Understanding

Mar 20

ByKeyan Chen, Chenyang Liu, Bowen Chen, Wenyuan Li, Zhengxia Zou, Zhenwei Shi

Развитие технологий дистанционного зондирования повысило пространственное разрешение спутниковых изображений, что способствует созданию более детализированных визуальных представлений для разнообразных интерпретаций. Однако существующие методы демонстрируют ограниченные возможности обобщения для различных приложений. Хотя некоторые современные базовые модели показывают потенциал, они сталкиваются с недостаточной адаптивностью к кросс-задачам и в основном обрабатывают изображения низкого разрешения ограниченного размера, что не позволяет в полной мере использовать данные высокого разрешения или учитывать семантику крупных сцен. Ключевым моментом является то, что спутниковые изображения принципиально отличаются от естественных изображений, так как ключевые объекты переднего плана (например, морские объекты, искусственные сооружения) часто занимают минимальную пространственную долю (~1%) и имеют разреженное распределение. Эффективное моделирование обобщаемых знаний для кросс-задач на основе длинных 2D-токенов (~100 000) представляет собой значительную проблему, но остается критически важным для понимания спутниковых изображений. Вдохновленные механизмами избирательного внимания, присущими человеческой зрительной системе, мы предлагаем DynamicVis — динамическую базовую модель визуального восприятия для спутниковых изображений. Этот фреймворк интегрирует новую динамическую основу для восприятия регионов, основанную на модели избирательного пространства состояний, которая стратегически балансирует извлечение локальных деталей с интеграцией глобального контекста, обеспечивая вычислительно эффективное кодирование крупномасштабных данных при сохранении масштабируемости архитектуры. Для улучшения передачи знаний между задачами мы вводим парадигму обучения с множеством экземпляров, использующую мета-эмбеддинговые представления, обученные на миллионных аннотациях на уровне регионов. Оценки на девяти последующих задачах демонстрируют универсальность модели. DynamicVis достигает многоуровневого моделирования признаков с исключительной эффективностью, обрабатывая изображения размером (2048x2048) пикселей с задержкой 97 мс (6% от ViT) и использованием 833 МБ видеопамяти GPU (3% от ViT).