Ежедневно отобранные исследовательские статьи по ИИ с переводами
Sora продемонстрировала огромный потенциал архитектуры Diffusion Transformer (DiT) в генерации видео с одной сценой. Однако более сложная задача генерации видео с несколькими сценами, которая открывает более широкие возможности применения, остается относительно малоизученной. Чтобы восполнить этот пробел, мы предлагаем Mask^2DiT — новый подход, который устанавливает детальное, однозначное соответствие между сегментами видео и их текстовыми аннотациями. В частности, мы вводим симметричную бинарную маску на каждом уровне внимания в архитектуре DiT, гарантируя, что каждая текстовая аннотация применяется исключительно к соответствующему сегменту видео, сохраняя при этом временную согласованность между визуальными токенами. Этот механизм внимания обеспечивает точное выравнивание текста и визуального контента на уровне сегментов, позволяя архитектуре DiT эффективно справляться с задачами генерации видео с фиксированным количеством сцен. Чтобы дополнительно наделить архитектуру DiT способностью генерировать новые сцены на основе существующих, мы внедряем условную маску на уровне сегментов, которая учитывает предшествующие сегменты видео при генерации каждого нового сегмента, тем самым обеспечивая авторегрессивное расширение сцен. Как качественные, так и количественные эксперименты подтверждают, что Mask^2DiT превосходно поддерживает визуальную согласованность между сегментами, одновременно обеспечивая семантическое соответствие между каждым сегментом и его текстовым описанием. Страница нашего проекта доступна по адресу: https://tianhao-qi.github.io/Mask2DiTProject.
В данном отчете мы представляем Qwen2.5-Omni, сквозную мультимодальную модель, способную воспринимать различные модальности, включая текст, изображения, аудио и видео, одновременно генерируя текстовые и речевые ответы в потоковом режиме. Для обеспечения потоковой обработки мультимодальных входных данных как аудио, так и визуальные кодировщики используют блочный подход к обработке. Для синхронизации временных меток видео с аудио мы организуем аудио и видео последовательно в чередующемся порядке и предлагаем новый метод позиционного кодирования, названный TMRoPE (Time-aligned Multimodal RoPE). Для одновременной генерации текста и речи без взаимного влияния между этими модальностями мы предлагаем архитектуру Thinker-Talker. В этой структуре Thinker выполняет функцию крупной языковой модели, отвечающей за генерацию текста, а Talker представляет собой двухканальную авторегрессионную модель, которая напрямую использует скрытые представления из Thinker для генерации аудио токенов на выходе. Обе модели Thinker и Talker разработаны для сквозного обучения и вывода. Для декодирования аудио токенов в потоковом режиме мы вводим скользящее окно DiT, которое ограничивает рецептивное поле с целью уменьшения начальной задержки пакета. Qwen2.5-Omni сопоставим по производительности с моделью аналогичного размера Qwen2.5-VL и превосходит Qwen2-Audio. Кроме того, Qwen2.5-Omni демонстрирует передовые результаты на мультимодальных тестах, таких как Omni-Bench. Примечательно, что производительность Qwen2.5-Omni в задачах сквозного следования речевым инструкциям сопоставима с его возможностями при работе с текстовыми входами, что подтверждается тестами, такими как MMLU и GSM8K. Что касается генерации речи, потоковый Talker Qwen2.5-Omni превосходит большинство существующих потоковых и не потоковых альтернатив по устойчивости и естественности.
В данном отчете представлен Wan — комплексный и открытый набор базовых моделей для работы с видео, призванный расширить границы генерации видеоконтента. Основанный на популярной парадигме диффузионных трансформеров, Wan достигает значительных успехов в генеративных возможностях благодаря ряду инноваций, включая нашу новую VAE, масштабируемые стратегии предварительного обучения, тщательную подготовку крупномасштабных данных и автоматизированные метрики оценки. Эти вклады в совокупности повышают производительность и универсальность модели. В частности, Wan характеризуется четырьмя ключевыми особенностями: Лидирующая производительность: Модель Wan на 14 миллиардов параметров, обученная на огромном наборе данных, включающем миллиарды изображений и видео, демонстрирует законы масштабирования в генерации видео как в отношении данных, так и размера модели. Она стабильно превосходит существующие открытые модели, а также передовые коммерческие решения на множестве внутренних и внешних тестов, показывая явное и значительное превосходство в производительности. Универсальность: Wan предлагает две мощные модели — на 1,3 и 14 миллиардов параметров — для эффективности и производительности соответственно. Она также охватывает множество прикладных задач, включая генерацию видео из изображений, редактирование видео по инструкциям и создание персонализированных видео, охватывая до восьми различных задач. Эффективность для потребительского уровня: Модель на 1,3 миллиарда параметров демонстрирует исключительную эффективность использования ресурсов, требуя всего 8,19 ГБ видеопамяти, что делает её совместимой с широким спектром потребительских графических процессоров. Открытость: Мы открываем исходный код всей серии Wan, включая все модели, с целью способствовать развитию сообщества, занимающегося генерацией видео. Эта открытость направлена на значительное расширение творческих возможностей в производстве видео в индустрии и предоставление академическому сообществу высококачественных базовых моделей для работы с видео. Весь код и модели доступны по адресу https://github.com/Wan-Video/Wan2.1.
Мы представляем Gemma 3 — мультимодальное дополнение к семейству легковесных открытых моделей Gemma, масштабируемых от 1 до 27 миллиардов параметров. Эта версия добавляет способность понимания визуальной информации, расширяет охват языков и увеличивает длину контекста — до как минимум 128 тысяч токенов. Мы также изменили архитектуру модели, чтобы уменьшить объем памяти KV-кэша, который имеет тенденцию резко возрастать при работе с длинным контекстом. Это достигнуто за счет увеличения соотношения локальных и глобальных слоев внимания и сокращения диапазона локального внимания. Модели Gemma 3 обучаются с использованием дистилляции и демонстрируют превосходную производительность по сравнению с Gemma 2 как для предварительно обученных, так и для дообученных на инструкциях версий. В частности, наш новый подход к пост-обучению значительно улучшает математические способности, качество чата, следование инструкциям и мультиязычные возможности, делая Gemma3-4B-IT конкурентоспособной с Gemma2-27B-IT, а Gemma3-27B-IT сопоставимой с Gemini-1.5-Pro по результатам бенчмарков. Мы выпускаем все наши модели для сообщества.
Хотя современные модели "зрение-язык-действие", обученные на разнообразных роботизированных данных, демонстрируют многообещающие способности к обобщению при ограниченном объеме внутридоменных данных, их зависимость от компактных головных модулей для предсказания дискретных или непрерывных действий ограничивает адаптируемость к гетерогенным пространствам действий. Мы представляем Dita, масштабируемую структуру, которая использует архитектуры Transformer для непосредственного устранения шума в непрерывных последовательностях действий через унифицированный мультимодальный процесс диффузии. В отличие от предыдущих методов, которые основывают устранение шума на объединенных вложениях через поверхностные сети, Dita применяет контекстное условие — обеспечивая детальное согласование между очищенными действиями и сырыми визуальными токенами из исторических наблюдений. Этот подход явно моделирует изменения действий и нюансы окружающей среды. Масштабируя модуль устранения шума действий наряду с масштабируемостью Transformer, Dita эффективно интегрирует данные из различных воплощений, охватывая разнообразные перспективы камер, сцены наблюдений, задачи и пространства действий. Такая синергия повышает устойчивость к различным вариациям и способствует успешному выполнению долгосрочных задач. Оценки на обширных тестах демонстрируют передовые или сопоставимые результаты в симуляции. Примечательно, что Dita достигает устойчивой адаптации в реальном мире к вариациям окружающей среды и сложным долгосрочным задачам через 10-кратную тонкую настройку, используя только входные данные с камер от третьего лица. Архитектура устанавливает универсальную, легковесную и открытую базовую линию для обучения обобщенных роботизированных политик. Страница проекта: https://robodita.github.io.
Мы представляем Open Deep Search (ODS), чтобы сократить растущий разрыв между проприетарными решениями для поиска на основе ИИ, такими как Sonar Reasoning Pro от Perplexity и GPT-4o Search Preview от OpenAI, и их открытыми аналогами. Основное нововведение ODS заключается в расширении возможностей рассуждения последних открытых крупных языковых моделей (LLM) с помощью агентов рассуждения, которые могут разумно использовать инструменты веб-поиска для ответа на запросы. Конкретно, ODS состоит из двух компонентов, работающих с базовой LLM, выбранной пользователем: Open Search Tool и Open Reasoning Agent. Open Reasoning Agent интерпретирует поставленную задачу и выполняет её, организуя последовательность действий, включая вызов инструментов, одним из которых является Open Search Tool. Open Search Tool — это новый инструмент веб-поиска, который превосходит проприетарные аналоги. Вместе с мощными открытыми LLM для рассуждений, такими как DeepSeek-R1, ODS практически соответствует, а иногда и превосходит существующие передовые базовые решения на двух бенчмарках: SimpleQA и FRAMES. Например, на бенчмарке оценки FRAMES ODS улучшает точность лучшего существующего базового решения недавно выпущенного GPT-4o Search Preview на 9,7%. ODS — это универсальная структура для бесшовного расширения любых LLM — например, DeepSeek-R1, которая достигает 82,4% на SimpleQA и 30,1% на FRAMES — с возможностями поиска и рассуждения для достижения передовых показателей: 88,3% на SimpleQA и 75,3% на FRAMES.
Многошаговое пространственное рассуждение предполагает понимание и анализ пространственных отношений на протяжении нескольких последовательных шагов, что крайне важно для решения сложных практических задач, таких как манипуляции роботов, автономная навигация и автоматизированная сборка. Чтобы оценить, насколько хорошо современные мультимодальные большие языковые модели (MLLMs) освоили эту фундаментальную способность, мы представляем LEGO-Puzzles — масштабируемый бенчмарк, разработанный для оценки как пространственного понимания, так и последовательного рассуждения в MLLMs с помощью задач, основанных на LEGO. LEGO-Puzzles включает 1100 тщательно отобранных визуальных вопросно-ответных (VQA) примеров, охватывающих 11 различных задач — от базового пространственного понимания до сложного многошагового рассуждения. На основе LEGO-Puzzles мы проводим всестороннюю оценку современных MLLMs и выявляем значительные ограничения в их способностях к пространственному рассуждению: даже самые мощные MLLMs могут ответить лишь примерно на половину тестовых случаев, тогда как участники-люди достигают точности свыше 90\%. Помимо задач VQA, мы оцениваем способности MLLMs генерировать изображения LEGO в соответствии с иллюстрациями сборки. Наши эксперименты показывают, что только Gemini-2.0-Flash и GPT-4o демонстрируют ограниченную способность следовать этим инструкциям, в то время как другие MLLMs либо воспроизводят входное изображение, либо генерируют совершенно нерелевантные результаты. В целом, LEGO-Puzzles выявляет критические недостатки в пространственном понимании и способностях к последовательному рассуждению у существующих MLLMs и подчеркивает необходимость дальнейшего прогресса в области мультимодального пространственного рассуждения.
Последние достижения в области крупных мультимодальных моделей привели к появлению впечатляющих универсальных возможностей в цифровых сферах, однако их перенос на физические агенты, такие как роботы, остается значительной проблемой. В данном отчете представлено новое семейство моделей искусственного интеллекта, специально разработанных для робототехники и основанных на базе Gemini 2.0. Мы представляем Gemini Robotics — продвинутую универсальную модель Vision-Language-Action (VLA), способную напрямую управлять роботами. Gemini Robotics выполняет плавные и реактивные движения для решения широкого спектра сложных задач манипуляции, демонстрируя устойчивость к вариациям типов и положений объектов, работе в неизвестных средах, а также следованию разнообразным инструкциям с открытым словарным запасом. Мы показываем, что с дополнительной тонкой настройкой Gemini Robotics может быть адаптирована для новых возможностей, включая решение долгосрочных, высокоточных задач, обучение новым краткосрочным задачам на основе всего 100 демонстраций и адаптацию к совершенно новым конфигурациям роботов. Это стало возможным благодаря тому, что Gemini Robotics построена на основе модели Gemini Robotics-ER, второй модели, представленной в этой работе. Gemini Robotics-ER (Embodied Reasoning) расширяет мультимодальные способности рассуждения Gemini в физический мир, улучшая пространственное и временное понимание. Это обеспечивает возможности, актуальные для робототехники, включая обнаружение объектов, указание, прогнозирование траекторий и захватов, а также соответствие между несколькими видами и прогнозирование 3D ограничивающих рамок. Мы демонстрируем, как это новое сочетание может поддерживать различные приложения в робототехнике. Также мы обсуждаем и решаем важные вопросы безопасности, связанные с этим новым классом базовых моделей для робототехники. Семейство Gemini Robotics представляет собой значительный шаг на пути к созданию универсальных роботов, реализующих потенциал ИИ в физическом мире.
Classifier-Free Guidance (CFG) — это фундаментальная техника при обучении условных диффузионных моделей. Обычная практика для обучения на основе CFG заключается в использовании одной сети для одновременного изучения как условного, так и безусловного предсказания шума, с небольшим уровнем dropout для условности. Однако мы наблюдаем, что совместное обучение безусловного шума с ограниченной пропускной способностью в процессе обучения приводит к плохим априорным оценкам для безусловного случая. Более того, эти некачественные предсказания безусловного шума становятся серьезной причиной ухудшения качества условной генерации. Вдохновленные тем фактом, что большинство условных моделей на основе CFG обучаются путем тонкой настройки базовой модели с лучшей безусловной генерацией, мы сначала показываем, что простое замещение безусловного шума в CFG на предсказанный базовой моделью может значительно улучшить условную генерацию. Кроме того, мы демонстрируем, что для замены безусловного шума может быть использована диффузионная модель, отличная от той, на которой обучалась тонко настроенная модель. Мы экспериментально подтверждаем наше утверждение на ряде условных моделей на основе CFG для генерации как изображений, так и видео, включая Zero-1-to-3, Versatile Diffusion, DiT, DynamiCrafter и InstructPix2Pix.
Синергия между генеративными и дискриминирующими моделями привлекает всё больше внимания. В то время как дискриминирующая модель Contrastive Language-Image Pre-Training (CLIP) демонстрирует превосходство в работе с высокоуровневой семантикой, она испытывает трудности с восприятием детализированных визуальных особенностей. Обычно для улучшения представлений генеративные модели используют визуальные признаки CLIP в качестве условий для реконструкции. Однако базовые принципы этого подхода остаются недостаточно изученными. В данной работе мы эмпирически обнаружили, что визуально идеальные генерации не всегда оптимальны для улучшения представлений. Ключевой аспект заключается в эффективном извлечении детализированных знаний из генеративных моделей при минимизации нерелевантной информации. Для изучения критических факторов мы исследуем три аспекта: (1) Механизмы кондиционирования: Мы выяснили, что даже небольшое количество локальных токенов может значительно снизить сложность реконструкции, приводя к коллапсу обучения. Таким образом, мы пришли к выводу, что использование только глобальных визуальных токенов в качестве условий является наиболее эффективной стратегией. (2) Конфигурации шумоподавления: Мы заметили, что сквозное обучение вносит избыточную информацию. Для решения этой проблемы мы предлагаем двухэтапную стратегию обучения, которая фокусируется на изучении полезных визуальных знаний. Кроме того, мы демонстрируем, что легковесные модели шумоподавления могут привести к значительным улучшениям. (3) Парадигмы генерации: Мы исследуем как непрерывные, так и дискретные модели шумоподавления с положительными результатами, подтверждая универсальность нашего метода. Благодаря глубокому исследованию мы разработали эффективный метод, названный GenHancer, который стабильно превосходит предыдущие подходы на бенчмарке MMVP-VLM, например, на 6,0% для OpenAICLIP. Улучшенная модель CLIP может быть интегрирована в мультимодальные крупные языковые модели для повышения производительности в задачах, ориентированных на визуальные данные. Все модели и код доступны публично.
В последнее время передовые модели генерации изображений из текста, такие как Flux и Ideogram 2.0, достигли значительного прогресса в визуализации текста на уровне предложений. В данной статье мы сосредоточимся на более сложных сценариях визуализации текста на уровне статей и рассмотрим новую задачу генерации высококачественного бизнес-контента, включая инфографику и слайды, на основе предоставленных пользователем описательных промптов уровня статьи и сверхплотных макетов. Основные проблемы заключаются в следующем: значительно большая длина контекста и недостаток высококачественных данных бизнес-контента. В отличие от большинства предыдущих работ, которые сосредоточены на ограниченном числе подрегионов и промптах уровня предложения, обеспечение точного соответствия сверхплотным макетам с десятками или даже сотнями подрегионов в бизнес-контенте представляет собой гораздо более сложную задачу. Мы делаем два ключевых технических вклада: (i) создание масштабируемого набора данных высококачественного бизнес-контента, а именно Infographics-650K, оснащенного сверхплотными макетами и промптами с использованием послойной схемы генерации инфографики с усилением поиска; и (ii) схему кросс-внимания, управляемую макетом, которая внедряет десятки промптов для каждого региона в набор латентных пространств обрезанных регионов в соответствии со сверхплотными макетами и гибко уточняет каждый подрегион во время вывода с использованием условного CFG на основе макета. Мы демонстрируем впечатляющие результаты нашей системы по сравнению с предыдущими SOTA-системами, такими как Flux и SD3, на нашем наборе промптов BizEval. Кроме того, мы проводим тщательные эксперименты с абляцией, чтобы подтвердить эффективность каждого компонента. Мы надеемся, что созданные нами Infographics-650K и BizEval вдохновят более широкое сообщество на продвижение прогресса в области генерации бизнес-контента.
Мы представляем LogQuant — революционную технику 2-битного квантования для KV-кэша в процессе вывода больших языковых моделей (LLM), которая обеспечивает значительную экономию памяти при сохранении превосходной производительности. Предыдущие методы либо предполагали, что более поздние токены более важны, либо пытались предсказать важные токены на основе ранних паттернов внимания. Однако оба подхода могут приводить к узким местам в производительности или частым ошибкам предсказания. LogQuant использует иной подход. Применяя логарифмический механизм фильтрации, он выборочно сжимает KV-кэш по всему контексту, достигая лучшей производительности при том же или даже меньшем объеме памяти по сравнению с существующими методами. В тестах он увеличивает пропускную способность на 25% и размер пакета на 60% без увеличения потребления памяти. Для сложных задач, таких как решение математических задач и завершение кода, LogQuant повышает точность на 40–200% при том же уровне сжатия, превосходя аналогичные методы. LogQuant легко интегрируется с популярными фреймворками для вывода, такими как библиотека transformers на Python. Реализация доступна по адресу: https://github.com/Concyclics/LogQuantKV.
Мы представляем MCTS-RAG — новый подход, который повышает способность небольших языковых моделей к рассуждению в задачах, требующих глубоких знаний, за счёт использования генерации, усиленной поиском (RAG), для предоставления релевантного контекста, и метода поиска по дереву Монте-Карло (MCTS) для уточнения путей рассуждения. MCTS-RAG динамически интегрирует поиск и рассуждение через итеративный процесс принятия решений. В отличие от стандартных методов RAG, которые обычно извлекают информацию независимо от рассуждений и, следовательно, интегрируют знания неоптимально, или традиционного MCTS, который полагается исключительно на внутренние знания модели без использования внешних фактов, MCTS-RAG сочетает структурированное рассуждение с адаптивным поиском. Этот интегрированный подход улучшает принятие решений, снижает вероятность галлюцинаций и обеспечивает повышенную точность фактов и согласованность ответов. Экспериментальные результаты на нескольких наборах данных, требующих рассуждений и глубоких знаний (например, ComplexWebQA, GPQA и FoolMeTwice), показывают, что наш метод позволяет небольшим языковым моделям достигать производительности, сопоставимой с передовыми LLM, такими как GPT-4, за счёт эффективного масштабирования вычислений на этапе вывода, устанавливая новый стандарт для рассуждений в небольших моделях.
Диффузионные модели достигли значительных успехов в области генерации видео. Однако их итеративная природа, связанная с удалением шума, требует большого количества шагов вывода для создания видео, что делает процесс медленным и вычислительно затратным. В данной работе мы начинаем с детального анализа проблем, присущих существующим методам дистилляции диффузионных моделей, и предлагаем новый эффективный метод, названный AccVideo, для сокращения количества шагов вывода с целью ускорения видео-диффузионных моделей с использованием синтетического набора данных. Мы используем предобученную видео-диффузионную модель для генерации множества допустимых траекторий удаления шума в качестве нашего синтетического набора данных, что исключает использование бесполезных точек данных в процессе дистилляции. На основе синтетического набора данных мы разрабатываем траекторно-ориентированное руководство с малым количеством шагов, которое использует ключевые точки данных из траекторий удаления шума для обучения отображения "шум-видео", что позволяет генерировать видео за меньшее количество шагов. Кроме того, поскольку синтетический набор данных захватывает распределение данных на каждом шаге диффузии, мы вводим стратегию состязательного обучения для согласования выходного распределения ученической модели с распределением нашего синтетического набора данных, тем самым повышая качество видео. Многочисленные эксперименты демонстрируют, что наша модель достигает 8.5-кратного улучшения скорости генерации по сравнению с учительской моделью при сохранении сопоставимой производительности. По сравнению с предыдущими методами ускорения, наш подход способен генерировать видео более высокого качества и разрешения, а именно: 5 секунд, 720x1280, 24 кадра в секунду.
Переход от рассуждений Системы 1 к Системе 2 в крупных языковых моделях (LLM) ознаменовал значительные успехи в решении сложных задач за счет осознанного, итеративного мышления. Однако этот прогресс часто достигается ценой эффективности, поскольку модели склонны "переосмысливать", генерируя избыточные шаги рассуждений без пропорционального улучшения качества выходных данных. Рассуждения "от длинного к короткому" (Long-to-Short, L2S) появились как перспективное решение этой проблемы, стремясь сбалансировать глубину рассуждений с практической эффективностью. Хотя существующие подходы, такие как контролируемая тонкая настройка (SFT), обучение с подкреплением (RL) и инженерия промптов, показали потенциал, они либо требуют значительных вычислительных ресурсов, либо нестабильны. Слияние моделей, напротив, предлагает экономичную и надежную альтернативу, объединяя быстрые когнитивные способности моделей Системы 1 с методичными рассуждениями моделей Системы 2. В данной работе мы представляем всестороннее эмпирическое исследование слияния моделей для L2S-рассуждений, изучая различные методологии, включая слияние на основе векторов задач, SVD и активаций. Наши эксперименты показывают, что слияние моделей может сократить среднюю длину ответа до 55%, сохраняя или даже улучшая базовую производительность. Мы также выявляем сильную корреляцию между масштабом модели и эффективностью слияния на основе обширных оценок моделей с 1,5B/7B/14B/32B параметрами. Кроме того, мы исследуем способность объединенной модели к самокритике и самокоррекции, а также ее адаптивную длину ответа в зависимости от сложности задачи. Наши результаты подчеркивают слияние моделей как высокоэффективную и действенную парадигму для L2S-рассуждений, предлагая практическое решение проблемы "переосмысления" при сохранении надежности рассуждений Системы 2. Эта работа доступна на GitHub: https://github.com/hahahawu/Long-to-Short-via-Model-Merging.
Последние достижения в области крупных мультимодальных моделей (LMM) демонстрируют перспективы их применения в системах автономного вождения (ADS). Однако их прямое использование в ADS сталкивается с такими проблемами, как непонимание правил дорожного движения, сложные дорожные условия и разнообразные состояния транспортных средств. Для решения этих задач мы предлагаем использовать метод редактирования знаний, который позволяет вносить целенаправленные изменения в поведение модели без необходимости полного переобучения. Одновременно мы представляем ADS-Edit — мультимодальный набор данных для редактирования знаний, специально разработанный для ADS, который включает различные реальные сценарии, множество типов данных и комплексные метрики оценки. Мы провели всесторонние эксперименты и получили несколько интересных выводов. Мы надеемся, что наша работа внесет вклад в дальнейшее развитие приложений для редактирования знаний в области автономного вождения. Код и данные доступны по адресу https://github.com/zjunlp/EasyEdit.
Модели с процессно-ориентированным вознаграждением (PRMs) представляют собой детализированные функции, которые предоставляют пошаговую обратную связь на ответы модели, способствуя эффективному выбору траекторий рассуждений для сложных задач. Несмотря на их преимущества, оценка PRMs остается недостаточно изученной, особенно в мультимодальной области. Чтобы восполнить этот пробел, в данной работе сначала проводится сравнительный анализ современных крупных языковых моделей для обработки изображений (VLLMs) в двух ролях: как моделей с выходным вознаграждением (ORMs) и как процессно-ориентированных моделей вознаграждения (PRMs) на нескольких наборах данных для задач "визуальный язык". Результаты показывают, что ни ORM, ни PRM не демонстрируют стабильного превосходства во всех задачах, а более мощные VLLMs не обязательно обеспечивают лучшее качество вознаграждения. Для дальнейшего развития оценки мы представляем ViLBench — набор данных для задач "визуальный язык", который требует интенсивного использования процессно-ориентированных сигналов вознаграждения. Примечательно, что GPT-4o от OpenAI с использованием цепочки рассуждений (CoT) достигает точности всего 27,3%, что подчеркивает сложность этого набора данных для современных VLLMs. Наконец, мы предварительно демонстрируем многообещающий подход к сокращению разрыва между общими VLLMs и моделями вознаграждения — собрав 73,6 тыс. данных процессно-ориентированного вознаграждения для задач "визуальный язык" с использованием улучшенного алгоритма поиска по дереву, наша модель объемом 3 млрд параметров достигает среднего улучшения на 3,3% по сравнению со стандартным CoT и до 2,5% по сравнению с её ненатренированной версией на ViLBench, выбирая генерации OpenAI o1. Мы публикуем реализацию по адресу https://ucsc-vlaa.github.io/ViLBench вместе с нашим кодом, моделью и данными.
Модели компьютерного зрения демонстрируют и усиливают смещения в широком спектре наборов данных и задач. Существующие методы количественной оценки смещений в моделях классификации в основном сосредоточены на распределении данных и производительности модели на подгруппах, упуская из виду внутренние механизмы работы модели. Мы представляем метрику Attention-IoU (Attention Intersection over Union) и связанные с ней показатели, которые используют карты внимания для выявления смещений во внутренних представлениях модели и определения особенностей изображений, потенциально вызывающих эти смещения. Сначала мы проверяем Attention-IoU на синтетическом наборе данных Waterbirds, показывая, что метрика точно измеряет смещения модели. Затем мы анализируем набор данных CelebA, обнаруживая, что Attention-IoU выявляет корреляции, выходящие за рамки различий в точности. Исследуя отдельные атрибуты через защищенный атрибут "Мужчина", мы изучаем различные способы представления смещений в CelebA. Наконец, путем субдискретизации обучающего набора для изменения корреляций атрибутов мы демонстрируем, что Attention-IoU выявляет потенциальные смешивающие переменные, отсутствующие в метках набора данных.
Во многих приложениях робототехники и VR/AR быстрые движения камеры вызывают сильное размытие в движении, что приводит к сбоям существующих методов оценки положения камеры. В данной работе мы предлагаем новый подход, который использует размытие в движении как важный сигнал для оценки движения, а не рассматривает его как нежелательный артефакт. Наш метод работает путем предсказания плотного поля движения и монохромной карты глубины непосредственно из одного изображения с размытием в движении. Затем мы восстанавливаем мгновенную скорость камеры, решая задачу линейного метода наименьших квадратов в предположении малых движений. По сути, наш метод создает измерение, подобное данным IMU, которое надежно фиксирует быстрые и резкие движения камеры. Для обучения нашей модели мы создаем масштабный набор данных с реалистичным синтетическим размытием в движении на основе ScanNet++v2 и дополнительно улучшаем модель, обучая ее на реальных данных с использованием полностью дифференцируемого конвейера. Обширные оценки на реальных тестовых наборах показывают, что наш метод достигает наилучших оценок угловой и поступательной скорости, превосходя современные методы, такие как MASt3R и COLMAP.
Дистилляция знаний может стать экономически эффективной техникой для передачи знаний в больших языковых моделях, если выходные логиты учителя могут быть предварительно вычислены и кэшированы. Однако успешное применение этого метода на этапе предварительного обучения остается в значительной степени неисследованным. В данной работе мы доказываем, что наивные подходы к разреженной дистилляции знаний, такие как кэширование топ-K вероятностей, хотя и интуитивно понятны, предоставляют смещенные оценки распределения вероятностей учителя для ученика, что приводит к неоптимальной производительности и калибровке. Мы предлагаем метод, основанный на важностном сэмплировании, под названием `Random Sampling Knowledge Distillation`, который предоставляет несмещенные оценки, сохраняет градиент в ожидании и требует хранения значительно более разреженных логитов. Наш метод позволяет ускорить обучение моделей-учеников с минимальными накладными расходами (<10%) по сравнению с обучением на основе перекрестной энтропии, при этом сохраняя конкурентоспособную производительность по сравнению с полной дистилляцией для моделей различных размеров — от 300 миллионов до 3 миллиардов параметров.
Последние достижения в области авторегрессионных и диффузионных моделей привели к значительному улучшению качества генерации изображений с короткими текстовыми надписями. Однако создание связного длинного текста в изображениях, такого как параграфы в слайдах или документах, остается серьезной проблемой для современных генеративных моделей. Мы представляем первую работу, специально посвященную генерации изображений с длинным текстом, устраняя критический пробел в существующих системах "текст-в-изображение", которые обычно обрабатывают только короткие фразы или отдельные предложения. В результате всестороннего анализа современных авторегрессионных моделей генерации мы выявили, что токенизатор изображений является ключевым узким местом, ограничивающим качество генерации текста. Для решения этой проблемы мы предлагаем новый текстоориентированный бинарный токенизатор, оптимизированный для захвата детальных особенностей текста в сценах. Используя наш токенизатор, мы разработали \ModelName, мультимодальную авторегрессионную модель, которая превосходно справляется с генерацией изображений с длинным текстом, обеспечивая беспрецедентную точность. Наша модель предлагает высокую степень управляемости, позволяя настраивать свойства текста, такие как стиль шрифта, размер, цвет и выравнивание. Многочисленные эксперименты демонстрируют, что \ModelName значительно превосходит SD3.5 Large~sd3 и GPT4o~gpt4o с DALL-E 3~dalle3 в точной, последовательной и гибкой генерации длинного текста. Помимо технических достижений, \ModelName открывает захватывающие возможности для инновационных приложений, таких как генерация документов и презентаций PowerPoint с чередующимся текстом, устанавливая новый рубеж в области генерации изображений с длинным текстом.
Обучение с подкреплением (RL) является важным компонентом посттренировки больших языковых моделей (LLM). Однако существующие on-policy алгоритмы, используемые для посттренировки, по своей природе несовместимы с использованием буферов воспроизведения опыта, которые могут быть масштабируемо заполнены распределенными off-policy акторами для улучшения исследования по мере увеличения вычислительных ресурсов. Мы предлагаем эффективно использовать преимущества буферов воспроизведения с помощью Trajectory Balance with Asynchrony (TBA), масштабируемой системы RL для LLM. В отличие от существующих подходов, TBA использует большую долю вычислительных ресурсов на поиск, постоянно генерируя off-policy данные для центрального буфера воспроизведения. Узел обучения одновременно выбирает данные из этого буфера на основе вознаграждения или новизны для обновления политики с использованием Trajectory Balance (TB), целевой функции RL, направленной на разнообразие, введенной для GFlowNets. TBA предлагает три ключевых преимущества: (1) разделение обучения и поиска, что ускоряет время обучения в 4 раза и более; (2) улучшенное разнообразие благодаря масштабируемому off-policy выбору данных; и (3) масштабируемый поиск в условиях редких вознаграждений. На задачах математического рассуждения, настройки предпочтений и автоматизированного red-teaming (разнообразных и репрезентативных задач посттренировки) TBA демонстрирует улучшения в скорости и производительности по сравнению с сильными базовыми методами.
Оценка 3D/6D поз на уровне категорий является важным шагом на пути к всестороннему пониманию 3D сцен, что открывает широкий спектр применений в робототехнике и воплощенном искусственном интеллекте. В последних работах исследовались нейронные модели мешей, которые подходят к решению различных 2D и 3D задач с точки зрения анализа через синтез. Несмотря на значительно повышенную устойчивость к частичной окклюзии и сдвигам доменов, эти методы сильно зависели от 3D аннотаций для контрастивного обучения частей, что ограничивало их узким набором категорий и затрудняло эффективное масштабирование. В данной работе мы представляем DINeMo, новую нейронную модель мешей, которая обучается без 3D аннотаций, используя псевдокорреспонденции, полученные из крупных визуальных базовых моделей. Мы применяем двунаправленный метод генерации псевдокорреспонденций, который создает псевдокорреспонденции, используя как локальные признаки внешнего вида, так и глобальную контекстную информацию. Экспериментальные результаты на наборах данных автомобилей демонстрируют, что наш DINeMo значительно превосходит предыдущие методы оценки 3D поз с нулевым и малым количеством примеров, сокращая разрыв с полностью контролируемыми методами на 67.3%. Наш DINeMo также эффективно и результативно масштабируется при включении большего количества неразмеченных изображений в процессе обучения, что демонстрирует преимущества перед методами контролируемого обучения, зависящими от 3D аннотаций. Страница проекта доступна по адресу https://analysis-by-synthesis.github.io/DINeMo/.
Оценка движения в видео является ключевой задачей компьютерного зрения с множеством приложений, включая управляемую генерацию видео и робототехнику. Современные решения в основном обучаются на синтетических данных или требуют настройки эвристик для конкретных ситуаций, что ограничивает возможности таких моделей в реальных условиях. Несмотря на недавние достижения в области крупномасштабного самообучения на основе видео, использование таких представлений для оценки движения остается недостаточно изученным. В данной работе мы разрабатываем Opt-CWM — метод самообучения для оценки потока и окклюзии на основе предварительно обученной модели предсказания следующего кадра. Opt-CWM работает путем оптимизации контрфактических проб, извлекающих информацию о движении из базовой видео-модели, что позволяет избежать необходимости в фиксированных эвристиках при обучении на неограниченных видео-входах. Мы достигаем наилучших результатов в оценке движения на реальных видео, не требуя размеченных данных.
Модели, основанные на оценках (score-based) или диффузии, генерируют высококачественные табличные данные, превосходя модели на основе GAN и VAE. Однако эти методы требуют значительного времени для обучения. В данной статье мы представляем RecTable, который использует моделирование с помощью исправленного потока (rectified flow), применяемого, например, в задачах генерации изображений из текста и видео из текста. RecTable отличается простой архитектурой, состоящей из нескольких блоков с гейтированными линейными слоями (gated linear unit). Кроме того, наши стратегии обучения также просты и включают смешанное распределение шума и логит-нормальное распределение временных шагов. Наши эксперименты показывают, что RecTable демонстрирует конкурентоспособные результаты по сравнению с несколькими современными моделями на основе диффузии и оценок, при этом сокращая необходимое время обучения. Наш код доступен по адресу https://github.com/fmp453/rectable.
Анализ структуры документа, также известный как анализ макета документа, играет ключевую роль в понимании как физического расположения, так и логической структуры документов, что важно для задач поиска информации, автоматического реферирования, извлечения знаний и других. Иерархический анализ структуры документа (Hierarchical Document Structure Analysis, HDSA) направлен на восстановление иерархической структуры документов, созданных с использованием программного обеспечения для разработки, поддерживающего иерархические схемы. Предыдущие исследования в основном следовали двум подходам: один сосредоточен на решении отдельных подзадач HDSA, таких как обнаружение таблиц или предсказание порядка чтения, а другой использует унифицированную структуру с несколькими ветвями или модулями, каждый из которых предназначен для решения конкретной задачи. В данной работе мы предлагаем унифицированный подход к предсказанию отношений для HDSA, названный UniHDSA, который рассматривает различные подзадачи HDSA как задачи предсказания отношений и объединяет метки предсказания отношений в единое пространство меток. Это позволяет одному модулю предсказания отношений одновременно решать несколько задач, будь то анализ структуры на уровне страницы или документа. Для проверки эффективности UniHDSA мы разработали мультимодальную сквозную систему на основе архитектур Transformer. Результаты многочисленных экспериментов показывают, что наш подход достигает наилучших результатов на эталонном наборе данных для иерархического анализа структуры документа Comp-HRDoc, а также демонстрирует конкурентоспособные результаты на крупном наборе данных для анализа макета документа DocLayNet, что подтверждает превосходство нашего метода во всех подзадачах. Эталонный набор данных Comp-HRDoc и конфигурации UniHDSA доступны по адресу https://github.com/microsoft/CompHRDoc.
Прогнозирование выживаемости при раке молочной железы в вычислительной патологии представляет собой значительную проблему из-за гетерогенности опухоли. Например, различные области одной и той же опухоли на патологическом изображении могут демонстрировать различные морфологические и молекулярные характеристики. Это затрудняет извлечение репрезентативных признаков из изображений целых срезов (WSI), которые действительно отражают агрессивный потенциал опухоли и вероятные исходы выживаемости. В данной статье мы представляем PathoHR, новый подход для точного прогнозирования выживаемости при раке молочной железы, который улучшает изображения любого размера, чтобы обеспечить более эффективное обучение признакам. Наш подход включает (1) интеграцию модульного высокоразрешающего Vision Transformer (ViT) для улучшения представления фрагментов WSI, что позволяет более детально и полно извлекать признаки, (2) систематическую оценку нескольких современных метрик сходства для сравнения признаков, извлеченных из WSI, оптимизируя процесс обучения представлений для лучшего захвата характеристик опухоли, (3) демонстрацию того, что меньшие фрагменты изображений, улучшенные с использованием предложенного подхода, могут достигать эквивалентной или превосходящей точности прогнозирования по сравнению с исходными большими фрагментами, при этом значительно снижая вычислительные затраты. Экспериментальные результаты подтверждают, что PathoHR предлагает потенциальный способ интеграции улучшенного разрешения изображений с оптимизированным обучением признаков для продвижения вычислительной патологии, открывая перспективное направление для более точного и эффективного прогнозирования выживаемости при раке молочной железы. Код будет доступен по адресу https://github.com/AIGeeksGroup/PathoHR.
Традиционно помощники в написании текстов (например, Grammarly, Microsoft Copilot) создают разнообразные подписи к изображениям, используя синтаксические и семантические вариации для описания элементов изображения. Однако подписи, написанные людьми, делают акцент на передаче ключевого сообщения наряду с визуальными описаниями, используя прагматические подсказки. Для повышения прагматического разнообразия важно исследовать альтернативные способы передачи этих сообщений в сочетании с визуальным контентом. Для решения этой задачи мы предлагаем RONA — новую стратегию подсказок для мультимодальных больших языковых моделей (MLLM), которая использует когерентные отношения как ось вариации. Мы демонстрируем, что RONA генерирует подписи с лучшим общим разнообразием и соответствием эталонным данным по сравнению с базовыми MLLM в различных областях. Наш код доступен по адресу: https://github.com/aashish2000/RONA.