Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы предлагаем SlowFast-LLaVA (или SF-LLaVA в кратком виде), модель обучения без обучения для видео большой языковой модели (LLM), которая может одновременно улавливать детальную пространственную семантику и долгосрочный временной контекст, не превышая бюджет токенов обычно используемых LLM. Это достигается путем использования двухпоточного медленного и быстрого дизайна входов для видео LLM для эффективной агрегации функций из выбранных видеокадров. Конкретно, медленный путь извлекает функции с низкой частотой кадров, сохраняя максимальное количество пространственных деталей (например, с 24x24 токенами), а быстрый путь работает с высокой частотой кадров, но использует больший пространственный шаг пулинга (например, дискретизация 6x) для фокусировки на движущихся подсказках. В результате этот дизайн позволяет нам адекватно улавливать как пространственные, так и временные функции, которые полезны для понимания деталей вдоль видео. Экспериментальные результаты показывают, что SF-LLaVA превосходит существующие методы обучения без обучения на широком спектре видеозадач. На некоторых бенчмарках он достигает сопоставимой или даже лучшей производительности по сравнению с передовыми видео LLM, которые донастраиваются на видео наборах данных.
Большие языковые модели (LLM), ориентированные на различные масштабы и размеры развертывания, в настоящее время создаются путем обучения каждой варианте с нуля; это требует значительных вычислительных ресурсов. В данной статье мы исследуем, может ли обрезка существующей LLM с последующим повторным обучением на долю (<3%) исходных данных обучения стать подходящей альтернативой повторному полному обучению. Для этого мы разрабатываем набор практических и эффективных методов сжатия для LLM, объединяющих обрезку глубины, ширины, внимания и MLP с повторным обучением на основе дистилляции знаний; мы приходим к этим методам через детальное эмпирическое исследование стратегий обрезки для каждой оси, методов комбинирования осей, стратегий дистилляции и методов поиска оптимальных сжатых архитектур. Мы используем этот руководство для сжатия семейства LLM Nemotron-4 в 2-4 раза, и сравниваем их производительность с моделями схожего размера на различных задачах языкового моделирования. Получение моделей 8B и 4B из уже предварительно обученной модели 15B с использованием нашего подхода требует до 40 раз меньшего количества обучающих токенов на модель по сравнению с обучением с нуля; это приводит к экономии вычислительных затрат в 1.8 раза для обучения полного семейства моделей (15B, 8B и 4B). Модели Minitron показывают улучшение показателей MMLU до 16% по сравнению с обучением с нуля, выполняют сопоставимо с другими моделями сообщества, такими как Mistral 7B, Gemma 7B и Llama-3 8B, и превосходят передовые техники сжатия из литературы. Мы предоставили в открытый доступ веса модели Minitron на Huggingface, а также соответствующий дополнительный материал, включая примеры кода, доступные на GitHub.
Огромный масштаб современных базовых моделей ограничивает доступ к ним ученым, поскольку настраиваемые эксперименты с крупными моделями требуют дорогостоящего оборудования и сложной инженерной работы, что является непрактичным для большинства исследователей. Для решения этих проблем мы представляем NNsight, пакет на языке Python с открытым исходным кодом, обладающий простым и гибким API, который позволяет осуществлять вмешательства в любую модель PyTorch путем построения вычислительных графов. Мы также представляем NDIF, совместную исследовательскую платформу, предоставляющую исследователям доступ к базовым LLMs масштаба фундаментальных моделей через API NNsight. Код, документация и учебные пособия доступны на сайте https://www.nnsight.net.
Понимание механизмов знаний в больших языковых моделях (LLM) критически важно для продвижения в сторону надежного ИИ общего интеллекта. В данной статье рассматривается анализ механизмов знаний с использованием новой таксономии, включающей использование и эволюцию знаний. Использование знаний углубляется в механизм запоминания, понимания и применения, а также создания. Эволюция знаний фокусируется на динамическом развитии знаний внутри индивидуальных и групповых LLM. Более того, мы обсуждаем, что LLM узнали, причины хрупкости параметрических знаний и потенциальные "тёмные знания" (гипотезы), которые будут вызывать трудности в решении. Мы надеемся, что данная работа поможет понять знания в LLM и предоставит идеи для будущих исследований.
Большие мультимодальные модели (LMM) обладают значительным потенциалом в различных областях, начиная от персональной помощи в повседневных задачах до сложных приложений, таких как медицинская диагностика. Однако их возможности имеют ограничения в области видеоигр, такие как сложности с пониманием сцен, галлюцинации и неточные описания контента видеоигр, особенно в моделях с открытым исходным кодом. В данной статье описывается разработка VideoGameBunny, модели в стиле LLaVA на основе Bunny, специально адаптированной для понимания изображений из видеоигр. Мы предоставляем промежуточные контрольные точки, журналы обучения и обширный набор данных, включающий 185 259 изображений из видеоигр из 413 названий, а также 389 565 пар изображение-инструкция, включающих подписи к изображениям, вопросы-ответы и JSON-представление 16 элементов 136 974 изображений. Наши эксперименты показывают, что наши данные высокого качества, связанные с играми, имеют потенциал сделать относительно небольшую модель более эффективной, чем гораздо более крупная передовая модель LLaVa-1.6-34b (которая имеет более чем в 4 раза больше параметров). Наше исследование прокладывает путь для будущих исследований в области понимания видеоигр по задачам, таким как игра, комментирование и отладка. Код и данные доступны по адресу https://videogamebunny.github.io/
Многоагентное обучение с подкреплением (MARL) недавно проявило себя в решении сложных кооперативных и конкурентных многоагентных задач в различных средах, в основном, с небольшим числом агентов и полной наблюдаемостью. Более того, ряд важных задач, связанных с робототехникой, таких как многороботная навигация и избегание препятствий, которые традиционно решались с помощью классических немодифицируемых методов (например, эвристический поиск), в настоящее время предлагается решать с использованием методов на основе обучения или гибридных методов. Однако в этой области сложно, чтобы не сказать невозможно, провести справедливое сравнение между классическими, на основе обучения и гибридными подходами из-за отсутствия унифицированной платформы, поддерживающей как обучение, так и оценку. В этой связи мы представляем POGEMA, набор комплексных инструментов, который включает быструю среду для обучения, генератор экземпляров задач, коллекцию предопределенных экземпляров, набор инструментов для визуализации и инструмент для проведения бенчмаркинга, позволяющий автоматизированную оценку. Мы представляем и определяем протокол оценки, определяющий ряд метрик, связанных с областью, вычисляемых на основе основных показателей оценки (таких как процент успеха и длина пути), позволяющий справедливое многократное сравнение. Представлены результаты такого сравнения, включающие различные современные методы MARL, основанные на поиске и гибридные методы.
Большие мультимодальные модели (LMM) обрабатывают все более длинные и богатые входные данные. Несмотря на прогресс, доступно немного общедоступных бенчмарков для измерения такого развития. Для устранения этого пробела мы представляем LongVideoBench, бенчмарк вопросно-ответной системы, который предлагает входные данные, чередующие видео и язык, продолжительностью до часа. Наш бенчмарк включает 3 763 видео различной длины, собранных из интернета, с их субтитрами по разнообразным темам, разработанный для всесторонней оценки LMM в понимании мультимодальных данных на длительный срок. Для достижения этой цели мы интерпретируем основное испытание как точное извлечение и рассуждение над детальной мультимодальной информацией из длинных входных данных. Таким образом, мы формулируем новую задачу вопросно-ответной системы для видео, названную "референтное рассуждение". Конкретно, в рамках вопроса содержится запрос, ссылающийся на связанные видеоконтексты, называемый упомянутым контекстом. Затем модель должна рассуждать о соответствующих деталях видео из упомянутого контекста. Следуя парадигме референтного рассуждения, мы составляем 6 678 человеко-аннотированных вопросов с множественным выбором в 17 детализированных категориях, создавая один из наиболее всесторонних бенчмарков для понимания видео длительного формата. Оценки показывают, что LongVideoBench представляет существенные вызовы даже для самых передовых собственных моделей (например, GPT-4o, Gemini-1.5-Pro, GPT-4-Turbo), в то время как их открытые аналоги показывают еще большую разницу в производительности. Кроме того, наши результаты показывают, что производительность модели на бенчмарке улучшается только тогда, когда они способны обрабатывать больше кадров, позиционируя LongVideoBench как ценный бенчмарк для оценки мультимодальных LMM длинного контекста будущего поколения.
Обучение с подкреплением на основе обратной связи от человека (RLHF) является ключевым фактором качества и безопасности в современных крупных языковых моделях. Тем не менее, удивительно простой и эффективный стратегией на этапе вывода является выбор лучшего из N сгенерированных вариантов, называемый Best-of-N sampling. В данной статье мы предлагаем метод Best-of-N Distillation (BOND), новый алгоритм RLHF, который стремится эмулировать Best-of-N, но без значительных вычислительных затрат на этапе вывода. Конкретно, BOND является алгоритмом сопоставления распределений, который заставляет распределение сгенерированных вариантов от политики приближаться к распределению Best-of-N. Мы используем дивергенцию Джеффриса (линейную комбинацию прямой и обратной KL) для балансировки между покрытием мод и поиском мод, и выводим итеративную формулировку, использующую подвижный якорь для эффективности. Мы демонстрируем эффективность нашего подхода и нескольких дизайнерских решений через эксперименты по абстрактному резюмированию и моделям Gemma. Выравнивание политик Gemma с BOND превосходит другие алгоритмы RLHF, улучшая результаты на нескольких бенчмарках.
Хотя нейронные поля радиантности (NeRF) продемонстрировали исключительное качество, их длительное время обучения остается ограничением. Обобщенные и основанные на многовидовой структуре (MVS) NeRF, хоть и способны сократить время обучения, часто приводят к компромиссам в качестве. В данной статье представлен новый подход под названием BoostMVSNeRFs для улучшения качества визуализации MVS-NeRF в крупномасштабных сценах. Сначала мы выявляем ограничения методов MVS-NeRF, такие как ограниченное покрытие области обзора и артефакты из-за ограниченного числа входных видов. Затем мы решаем эти ограничения, предлагая новый метод, который выбирает и объединяет несколько объемных изображений стоимости во время объемной визуализации. Наш метод не требует обучения и может адаптироваться к любым методам MVS-NeRF в прямом проходе для улучшения качества визуализации. Более того, наш подход также обучаем на конечных данных, что позволяет настраивать его на конкретные сцены. Мы демонстрируем эффективность нашего метода через эксперименты на крупномасштабных наборах данных, показывая значительное улучшение качества визуализации в крупномасштабных сценах и неограниченных наружных сценариях. Мы выкладываем исходный код BoostMVSNeRFs по адресу https://su-terry.github.io/BoostMVSNeRFs/.
Модели диффузии запутывают генерацию контента и стиля в процессе удаления шума, что приводит к нежелательным изменениям контента при прямом применении к задачам стилизации. Существующие методы испытывают затруднения в эффективном управлении моделью диффузии для соответствия требованиям на уровне эстетики при стилизации. В данной статье мы представляем Artist, подход к обучению без участия, который эстетически управляет генерацией контента и стиля предварительно обученной модели диффузии для стилизации под воздействием текста. Наш ключевой инсайт заключается в разделении удаления шума контента и стиля на отдельные процессы диффузии с обменом информацией между ними. Мы предлагаем простые, но эффективные методы управления контентом и стилем, которые подавляют генерацию контента, не имеющего отношения к стилю, что приводит к гармоничным результатам стилизации. Обширные эксперименты демонстрируют, что наш метод превосходит в достижении требований на уровне эстетики при стилизации, сохраняя сложные детали в изображении контента и хорошо сочетаясь с образцом стиля. Кроме того, мы демонстрируем высокую управляемость силы стилизации с различных точек зрения. Код будет опубликован, домашняя страница проекта: https://DiffusionArtist.github.io
Несмотря на то, что модели сопоставления потоков и модели диффузии стали мощными генеративными парадигмами для непрерывных переменных, таких как изображения и видео, их применение к высокоразмерным дискретным данным, таким как язык, все еще ограничено. В данной работе мы представляем Дискретное Сопоставление Потоков, новую дискретную генеративную парадигму, специально разработанную для создания дискретных данных. Дискретное Сопоставление Потоков вносит несколько ключевых вкладов: (i) оно работает с общим семейством вероятностных путей, интерполирующих между исходными и целевыми распределениями; (ii) оно позволяет использовать общую формулу для выборки из этих вероятностных путей с использованием изученных апостериорных распределений, таких как вероятностный денойзер (предсказание x) и предсказание шума (предсказание эпсилон); (iii) практически, сосредотачиваясь на конкретных вероятностных путях, определенных с различными планировщиками, значительно улучшается генеративная перплексия по сравнению с предыдущими дискретными моделями диффузии и потока; и (iv) масштабируя модели Дискретного Сопоставления Потоков до 1.7 миллиарда параметров, мы достигаем 6.7% Pass@1 и 13.4% Pass@10 на HumanEval и 6.7% Pass@1 и 20.6% Pass@10 на бенчмарках кодирования 1-shot MBPP. Наш подход способен генерировать дискретные данные высокого качества в неавторегрессионном стиле, значительно сокращая разрыв между авторегрессионными моделями и моделями дискретного потока.
Генерация трехмерных сцен пользуется большим спросом в различных областях, включая виртуальную реальность, игровую индустрию и кино. Благодаря мощным генеративным возможностям моделей распространения текста в изображение, обеспечивающих надежные априорные данные, создание трехмерных сцен только по текстовым подсказкам стало возможным, тем самым значительно продвигая исследования в области генерации трехмерных сцен на основе текста. Для получения наблюдений с разных ракурсов от двумерных моделей распространения, преобладающие методы обычно используют модель распространения для генерации начального локального изображения, за которым последует итеративное дорисовывание локального изображения с использованием моделей распространения для постепенной генерации сцен. Тем не менее, эти подходы на основе дорисовывания склонны к созданию глобально несогласованных результатов генерации сцен без высокой степени завершенности, что ограничивает их более широкое применение. Для решения этих проблем мы представляем HoloDreamer, фреймворк, который сначала генерирует панораму высокой четкости в качестве голистической инициализации полной трехмерной сцены, а затем использует трехмерное гауссово сглаживание (3D-GS) для быстрой реконструкции трехмерной сцены, тем самым облегчая создание согласованных по виду и полностью закрытых трехмерных сцен. В частности, мы предлагаем Генерацию Стилизованной Эквиректангулярной Панорамы, конвейер, который объединяет несколько моделей распространения для обеспечения стилизованной и детализированной генерации эквиректангулярной панорамы из сложных текстовых подсказок. Затем представлено Улучшенное Двухэтапное Восстановление Панорамы, проводящее двухэтапную оптимизацию 3D-GS для заполнения отсутствующей области и улучшения целостности сцены. Обширные эксперименты показали, что наш метод превосходит предыдущие работы по общей визуальной согласованности и гармонии, а также по качеству реконструкции и устойчивости рендеринга при создании полностью закрытых сцен.
Искусственные общие интеллектуальные системы (ИИ) строятся на огромных массивах общедоступных веб-данных, собранных в корпуса, такие как C4, RefinedWeb и Dolma. На наш взгляд, мы проводим первую крупномасштабную, продолжительную проверку протоколов согласия для веб-доменов, лежащих в основе корпусов обучения ИИ. Наша проверка 14 000 веб-доменов предоставляет обширное представление о доступных для сканирования веб-данных и о том, как меняются предпочтения согласия на их использование со временем. Мы наблюдаем распространение специфических для ИИ пунктов ограничений для использования, острые различия в ограничениях для разработчиков ИИ, а также общие несоответствия между выраженными намерениями веб-сайтов в их Условиях обслуживания и файле robots.txt. Мы диагностируем это как симптомы неэффективных веб-протоколов, не предназначенных для справления с широким переосмыслением интернета для ИИ. Наши продолжительные анализы показывают, что за один год (2023-2024) произошел быстрый нарастающий тренд ограничений данных из веб-источников, что привело к полному ограничению использования примерно 5%+ всех токенов в C4 или более 28% наиболее активно поддерживаемых, критически важных источников в C4. Для ограничений сканирования Условий обслуживания теперь полностью ограничено 45% C4. Если эти ограничения будут соблюдены или применены, они быстро нарушат разнообразие, актуальность и законы масштабирования для общих интеллектуальных систем. Мы надеемся проиллюстрировать возникающий кризис в согласии на данные, закрывающий доступ к значительной части открытого веба, не только для коммерческого ИИ, но и для некоммерческого ИИ и академических целей.
Модели диффузии достигли значительного прогресса в анимации изображений благодаря мощным генеративным возможностям. Однако поддержание пространственно-временной согласованности с детальной информацией из статического входного изображения со временем (например, стиль, фон и объект статического входного изображения) и обеспечение плавности в анимированных видеорассказах, направляемых текстовыми подсказками, по-прежнему остаются сложными задачами. В данной статье мы представляем Cinemo, новый подход к анимации изображений с целью достижения лучшей управляемости движения, а также более сильной временной согласованности и плавности. В общем, мы предлагаем три эффективные стратегии на этапах обучения и вывода Cinemo для достижения нашей цели. На этапе обучения Cinemo сосредотачивается на изучении распределения остатков движения, а не на прямом предсказании последующего с помощью модели диффузии движения. Кроме того, предлагается стратегия на основе индекса структурной схожести для обеспечения Cinemo лучшей управляемости интенсивностью движения. На этапе вывода вводится техника очистки шума на основе дискретного косинусного преобразования для смягчения резких изменений движения. Такие три стратегии позволяют Cinemo производить высококачественные, согласованные, плавные и управляемые результаты движения. По сравнению с предыдущими методами Cinemo предлагает более простую и точную управляемость пользователем. Обширные эксперименты с несколькими современными методами, включая как коммерческие инструменты, так и исследовательские подходы, по различным метрикам, демонстрируют эффективность и превосходство нашего предложенного подхода.
Наградное донастройка является ключевым для согласования языковых политик с заданными поведенческими целями (например, креативностью и безопасностью). Одним из основных вызовов здесь является разработка управляемых языковых моделей, которые балансируют между несколькими (конфликтующими) целями гибким и эффективным способом. В данной статье представлена Условная Языковая Политика (CLP), общая концепция для донастройки языковых моделей на несколько целей. Основываясь на методах многозадачного обучения и эффективной донастройки параметров, CLP может обучать управляемые модели, которые эффективно балансируют между конфликтующими целями во время вывода. Важно отметить, что для этого не требуется обучение или поддержание нескольких моделей для достижения различных балансов между целями. Через обширный набор экспериментов и абляций мы показываем, что фреймворк CLP обучает управляемые модели, превосходящие и доминирующие по Парето над текущими передовыми подходами к многокритериальной донастройке.
Основанные на мощи LLM, многочисленные мультимодальные крупные языковые модели (MLLM) недавно достигли выдающихся результатов на различных задачах видео-языкового восприятия на множестве платформ. Однако большинство существующих MLLM и платформ в основном сосредоточены на сценариях ввода одного изображения, оставляя без должного внимания производительность MLLM при работе с реалистичными сценариями нескольких изображений. Хотя несколько платформ учитывают несколько изображений, их измерения и выборки для оценки крайне ограничены. Поэтому в данной статье мы предлагаем новую платформу MIBench для всесторонней оценки тонких способностей MLLM в сценариях с несколькими изображениями. Конкретно, MIBench категоризирует способности к работе с несколькими изображениями на три сценария: мультимодальные инструкции с несколькими изображениями (MII), поиск мультимодальных знаний (MKS) и мультимодальное обучение в контексте (MIC), и создает 13 задач с общим числом 13 тыс. аннотированных образцов. При создании данных для MII и MKS мы извлекаем правильные варианты из ручных аннотаций и создаем сложных отвлекающих элементов для получения вопросов с выбором ответа. Для MIC, чтобы обеспечить глубокую оценку, мы устанавливаем четыре подзадачи и преобразуем исходные наборы данных в форматы обучения в контексте. Мы оцениваем несколько открытых и закрытых исходных MLLM на предложенной платформе MIBench. Результаты показывают, что хотя текущие модели отлично справляются с задачами на одиночных изображениях, они проявляют значительные недостатки при работе с несколькими изображениями, такие как запутанное тонкое восприятие, ограниченное мультимодальное рассуждение и нестабильное обучение в контексте. Аннотированные данные в MIBench доступны по ссылке https://huggingface.co/datasets/StarBottle/MIBench.
Языковые агенты, построенные на основе языковых моделей (ЯМ), представляют собой системы, способные взаимодействовать с сложными средами, такими как открытая сеть Интернет. В данной работе мы исследуем, могут ли такие агенты выполнять реалистичные и времязатратные задачи в сети, например, мониторинг рынков недвижимости или поиск соответствующих близлежащих предприятий. Мы представляем AssistantBench, сложный новый бенчмарк, состоящий из 214 реалистичных задач, которые могут быть автоматически оценены, охватывая различные сценарии и области. Мы обнаружили, что AssistantBench выявляет ограничения текущих систем, включая языковые модели и модели языка с увеличенным поиском, поскольку ни одна модель не достигает точности более 25 пунктов. В то время как языковые модели закрытого типа показывают хорошие результаты, они имеют низкую точность, поскольку склонны галлюцинировать факты. Современные веб-агенты достигают оценки близкой к нулю. Кроме того, мы представляем SeePlanAct (SPA), нового веб-агента, который значительно превосходит предыдущих агентов, и ансамбль SPA и моделей закрытого типа показывает лучшую общую производительность. Более того, мы анализируем неудачи текущих систем и выделяем, что навигация по сети остается значительным вызовом.
Существующие модели текст в музыку могут создавать аудио высокого качества с большим разнообразием. Однако текстовые подсказки в одиночку не могут точно контролировать временные музыкальные особенности, такие как аккорды и ритм сгенерированной музыки. Для решения этой проблемы мы представляем MusiConGen, модель текст в музыку на основе трансформера, условно зависящую от времени, которая строится на основе предварительно обученной структуры MusicGen. Наше новшество заключается в эффективном механизме донастройки, адаптированном для графических процессоров потребительского уровня, который интегрирует автоматически извлеченный ритм и аккорды в качестве условного сигнала. Во время вывода условие может быть либо музыкальными особенностями, извлеченными из опорного аудиосигнала, либо пользовательски определенной символьной последовательностью аккордов, BPM и текстовыми подсказками. Наша оценка производительности на двух наборах данных -- один извлеченный из особенностей и другой из пользовательски созданных входных данных -- демонстрирует, что MusiConGen может генерировать реалистичную фоновую музыку, которая хорошо соответствует указанным условиям. Мы предоставляем код и контрольные точки модели с открытым исходным кодом, а также предоставляем аудио примеры онлайн, https://musicongen.github.io/musicongen_demo/.
Мы представляем LocoTrack, высокоточную и эффективную модель, разработанную для задачи отслеживания любой точки (TAP) в видеопоследовательностях. Предыдущие подходы к этой задаче часто полагаются на локальные 2D карты корреляции для установления соответствий от точки на исходном изображении к локальной области на целевом изображении, что часто затрудняет ситуацию с однородными областями или повторяющимися элементами, что приводит к неоднозначностям в соответствии. LocoTrack преодолевает этот вызов с помощью нового подхода, который использует соответствия всех пар областей, то есть локальная 4D корреляция, для установления точных соответствий, с двусторонним соответствием и гладкостью соответствия, значительно повышающими устойчивость к неоднозначностям. Мы также внедрили легкий кодировщик корреляции для улучшения вычислительной эффективности и компактную архитектуру Трансформера для интеграции долгосрочной временной информации. LocoTrack достигает непревзойденной точности на всех бенчмарках TAP-Vid и работает со скоростью почти в 6 раз быстрее, чем текущий передовой уровень.
Генерация макета является основной задачей интеллектуального дизайна, которая требует интеграции визуальной эстетики и гармоничного выражения доставки контента. Однако существующие методы по-прежнему сталкиваются с проблемами в создании точных и визуально привлекательных макетов, включая блокировку, перекрытие или пространственное неправильное выравнивание между макетами, что тесно связано со структурой пространства графических макетов. Мы обнаружили, что эти методы слишком сосредоточены на информации о контенте и лишены ограничений на пространственную структуру макета, что приводит к дисбалансу в обучении функциям, связанным с содержанием и графикой. Для решения этой проблемы мы предлагаем Генерацию макета с балансом контента и графики с использованием модели диффузии на основе трансформера (CGB-DM). Конкретно, мы сначала разрабатываем регулятор, который балансирует предсказанный вес контента и графики, преодолевая тенденцию уделять больше внимания контенту на холсте. Во-вторых, мы вводим графическое ограничение на ограничивающий прямоугольник выдачи для дальнейшего улучшения выравнивания геометрических особенностей между представлениями макета и изображениями. Кроме того, мы адаптируем модель диффузии на основе трансформера в качестве основы, чьи мощные возможности генерации обеспечивают качество в генерации макета. Обширные экспериментальные результаты показывают, что наш метод достиг состояния искусства как в количественных, так и в качественных оценках. Наша модельная структура также может быть расширена на другие области графического дизайна.
Тепловое изображение имеет различные применения, от агроконтроля до инспекции зданий и изображения в условиях плохой видимости, таких как в темноте, тумане и дожде. Однако восстановление тепловых сцен в 3D представляет несколько вызовов из-за сравнительно низкого разрешения и ограниченных характеристик в длинноволновых инфракрасных (LWIR) изображениях. Для преодоления этих препятствий мы предлагаем единый фреймворк для восстановления сцен из набора LWIR и RGB изображений, используя мультиспектральное излучение для представления сцены, видимой как видимыми, так и инфракрасными камерами, тем самым используя информацию по обоим спектрам. Мы калибруем RGB и инфракрасные камеры относительно друг друга в качестве предварительного шага с использованием простой калибровочной мишени. Мы демонстрируем наш метод на реальных наборах RGB и LWIR фотографий, сделанных с ручной тепловой камеры, показывая эффективность нашего метода в представлении сцены в видимом и инфракрасном спектрах. Мы показываем, что наш метод способен на тепловое суперразрешение, а также визуальное удаление препятствий для выявления объектов, скрытых в RGB или тепловых каналах. Пожалуйста, посетите https://yvette256.github.io/thermalnerf для видеорезультатов, а также нашего кода и набора данных.
Мы представляем Темпоральные остаточные якобианы в качестве нового представления для обеспечения передачи движения на основе данных. Наш подход не предполагает доступ к каким-либо системам жесткости или промежуточным ключевым кадрам формы, производит геометрически и временно согласованные движения и может использоваться для передачи длинных последовательностей движения. Центральными элементами нашего подхода являются две сцепленные нейронные сети, которые индивидуально предсказывают локальные геометрические и временные изменения, которые впоследствии интегрируются пространственно и временно для создания конечных анимированных сеток. Обе сети обучаются совместно, дополняют друг друга в производстве пространственных и временных сигналов и прямо надзираются с трехмерной позиционной информацией. Во время вывода, в отсутствие ключевых кадров, наш метод в основном решает проблему экстраполяции движения. Мы тестируем нашу настройку на разнообразных сетках (синтетических и отсканированных формах), чтобы продемонстрировать ее превосходство в создании реалистичных и естественно выглядящих анимаций на невидимых формах тела по сравнению с альтернативами SoTA. Дополнительное видео и код доступны на https://temporaljacobians.github.io/.
Данная статья представляет GET-Zero, архитектуру модели и процедуру обучения для изучения политики управления, осознающей воплощение, способной немедленно адаптироваться к новым изменениям в аппаратуре без повторного обучения. Для этого мы представляем Графовый Трансформер Воплощения (GET), модель трансформера, которая использует связность графа воплощения в качестве изученного структурного смещения в механизме внимания. Мы используем клонирование поведения для дистилляции данных демонстрации от экспертных политик, специфичных для воплощения, в модель GET, осознающую воплощение, которая зависит от конфигурации аппаратуры робота для принятия решений по управлению. Мы проводим кейс-исследование на задаче вращения объекта в руке с помощью различных конфигураций четырехпалой роботизированной руки с удаленными сочленениями и увеличением длины звена. Использование модели GET вместе с потерей самомоделирования позволяет GET-Zero обобщать на невидимые вариации в структуре графа и длине звена, обеспечивая улучшение на 20% по сравнению с базовыми методами. Весь код и результаты качественного видео доступны на https://get-zero-paper.github.io
Недавние достижения в области крупных мультимодальных моделей (LMM) привели к значительному прогрессу в области визуального вопросно-ответного моделирования на основе одного изображения. Однако эти модели сталкиваются с существенными проблемами, когда ставятся перед задачей обработки запросов, охватывающих обширные коллекции изображений, подобные реальным сценариям, таким как поиск по большим фотоальбомам, поиск конкретной информации в интернете или мониторинг изменений окружающей среды с помощью спутниковых изображений. В данной статье исследуется задача визуального вопросно-ответного моделирования на основе нескольких изображений (MIQA): при наличии большого набора изображений и естественного языкового запроса задача заключается в генерации соответствующего и обоснованного ответа. Мы предлагаем новый общедоступный бенчмарк, названный "Визуальные Стога Сена (VHs)", специально разработанный для оценки возможностей LMM в визуальном поиске и рассуждениях над наборами несвязанных изображений, где мы проводим всесторонние оценки, демонстрируя, что даже надежные модели с закрытым исходным кодом сталкиваются с существенными трудностями. Для преодоления этих недостатков мы представляем MIRAGE (Мульти-Изображенческое Расширенное Поисково-Вопросно-Ответное Моделирование), новую систему поиска/вопросно-ответного моделирования, разработанную для LMM, которая решает проблемы MIQA с заметным повышением эффективности и точности по сравнению с базовыми методами. Наша оценка показывает, что MIRAGE превосходит модели GPT-4o с закрытым исходным кодом на бенчмарке VHs на до 11% и обеспечивает улучшение эффективности до 3.4 раза по сравнению с подходами с многоэтапным фокусом на текст.