Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем Byte Latent Transformer (BLT) - новую архитектуру байтового языковой модели (LLM), которая впервые достигает производительности на уровне моделей на основе токенизации с существенными улучшениями в эффективности вывода и устойчивости. BLT кодирует байты в динамически изменяемые патчи, которые служат основными единицами вычислений. Патчи сегментируются на основе энтропии следующего байта, выделяя больше вычислительных ресурсов и емкости модели там, где увеличение сложности данных требуется. Мы представляем первое исследование масштабирования моделей на уровне байтов с контролем FLOP до 8 миллиардов параметров и 4 триллионов обучающих байтов. Наши результаты демонстрируют возможность масштабирования моделей, обученных на сырых байтах без фиксированного словаря. Как обучение, так и эффективность вывода улучшаются благодаря динамическому выбору длинных патчей, когда данные предсказуемы, а также качественным улучшениям в рассуждениях и обобщении на длинные хвосты. В целом, при фиксированных затратах на вывод, BLT показывает значительно лучшее масштабирование по сравнению с моделями на основе токенизации, одновременно увеличивая как размер патча, так и модели.
Большие языковые модели (LLM) обладают замечательными генеративными способностями, но часто страдают от галлюцинаций. Генерация с использованием поиска (RAG) предлагает эффективное решение, интегрируя внешние знания, однако существующие методы все еще сталкиваются с несколькими ограничениями: дополнительные затраты на развертывание отдельных поисковиков, избыточные входные токены из извлеченных текстовых фрагментов и отсутствие совместной оптимизации поиска и генерации. Для решения этих проблем мы предлагаем RetroLLM, унифицированную структуру, интегрирующую поиск и генерацию в единый, цельный процесс, позволяя LLM напрямую генерировать детализированные доказательства из корпуса с ограниченным декодированием. Более того, для смягчения ложного обрезания в процессе ограниченной генерации доказательств, мы вводим (1) иерархические ограничения FM-индекса, которые генерируют ограниченные корпусом подсказки для идентификации подмножества соответствующих документов перед генерацией доказательств, уменьшая нерелевантное пространство декодирования; и (2) стратегию ограниченного декодирования с просмотром вперед, которая учитывает релевантность будущих последовательностей для улучшения точности доказательств. Обширные эксперименты на пяти наборах данных вопрос-ответ открытой области демонстрируют превосходное качество работы RetroLLM как на задачах внутри области, так и вне ее. Код доступен по ссылке https://github.com/sunnynexus/RetroLLM.
Недавние достижения в области визуальных генеративных моделей позволили создавать изображения и видео высокого качества, открывая разнообразные применения. Однако оценка этих моделей часто требует выборки сотен или тысяч изображений или видео, что делает процесс вычислительно затратным, особенно для моделей на основе диффузии с врожденно медленной выборкой. Более того, существующие методы оценки полагаются на жесткие конвейеры, которые не учитывают конкретные потребности пользователей и предоставляют числовые результаты без ясных объяснений. В отличие от этого, люди могут быстро сформировать представление о возможностях модели, наблюдая всего несколько образцов. Для имитации этого мы предлагаем рамочное решение Evaluation Agent, которое использует стратегии, подобные человеческим, для эффективной, динамичной, многоходовой оценки, используя всего несколько образцов за раунд, предлагая при этом детальные, настроенные на пользователя анализы. Оно предлагает четыре ключевых преимущества: 1) эффективность, 2) немедленную оценку, адаптированную к различным потребностям пользователей, 3) объяснимость за пределами одиночных числовых оценок и 4) масштабируемость для различных моделей и инструментов. Эксперименты показывают, что Evaluation Agent сокращает время оценки до 10% от традиционных методов, предоставляя сравнимые результаты. Рамочное решение Evaluation Agent полностью открытое для продвижения исследований в области визуальных генеративных моделей и их эффективной оценки.
Редактирование изображений значительно продвинулось с развитием моделей диффузии, использующих как методы на основе инверсии, так и методы на основе инструкций. Однако текущие подходы на основе инверсии испытывают трудности с крупными модификациями (например, добавлением или удалением объектов) из-за структурированной природы шума инверсии, что затрудняет существенные изменения. Тем временем методы на основе инструкций часто ограничивают пользователей операциями "черного ящика", что ограничивает прямое взаимодействие для указания областей редактирования и интенсивности. Для решения этих ограничений мы предлагаем BrushEdit, новую парадигму редактирования изображений на основе заполнения пропусков с управлением инструкциями, которая использует мультимодельные большие языковые модели (MLLM) и модели заполнения изображений для обеспечения автономного, удобного для пользователя и интерактивного свободного редактирования по инструкциям. Конкретно, мы разрабатываем систему, позволяющую свободное редактирование по инструкциям путем интеграции MLLM и двухветвевой модели заполнения изображений в агентно-кооперативной структуре для выполнения классификации категорий редактирования, идентификации основных объектов, получения маски и заполнения области редактирования. Обширные эксперименты показывают, что наша структура эффективно сочетает MLLM и модели заполнения, достигая превосходных показателей по семи метрикам, включая сохранение области маски и согласованность эффекта редактирования.
Настройка инструкций широко используется для раскрытия полного потенциала крупных языковых моделей. Особенно важны сложные и разнообразные инструкции, поскольку они могут эффективно выравнивать модели с различными последующими задачами. Однако текущие подходы к созданию крупномасштабных инструкций в основном предпочитают мощные модели, такие как GPT-4 или те, у которых более 70 миллиардов параметров, под эмпирическим предположением, что такие более крупные языковые модели (LLM) по своей природе обладают улучшенными возможностями. В данном исследовании мы оспариваем это распространенное предположение и проводим глубокое исследование потенциала более маленьких языковых моделей (SLM) в контексте эволюции инструкций. Обширные эксперименты в трех сценариях эволюции инструкций показывают, что более маленькие языковые модели (SLM) могут синтезировать более эффективные инструкции, чем LLM. Дополнительный анализ показывает, что SLM обладают более широким пространством вывода во время эволюции инструкций, что приводит к более сложным и разнообразным вариантам. Мы также замечаем, что существующие метрики не сосредотачиваются на влиянии инструкций. Поэтому мы предлагаем Инструкцию Сложности-Осознанную IFD (IC-IFD), которая вводит сложность инструкций в исходный IFD-показатель для более точной оценки эффективности данных инструкций. Наш исходный код доступен по ссылке: https://github.com/HypherX/Evolution-Analysis.
Автоматическое окрашивание черно-белой последовательности изображений с сохранением характера и идентификации объектов является сложной задачей с высоким спросом на рынке, например, в окрашивании мультфильмов или комиксов. Несмотря на прогресс в визуальном окрашивании с использованием масштабных генеративных моделей, таких как модели диффузии, остаются проблемы с управляемостью и согласованностью идентификации, что делает текущие решения непригодными для промышленного применения. Для решения этой проблемы мы предлагаем ColorFlow, трехэтапную диффузионную структуру, специально разработанную для окрашивания последовательности изображений в промышленных приложениях. В отличие от существующих методов, требующих настройки под каждую идентификацию или явное извлечение встроенной идентификации, мы предлагаем новый надежный и обобщенный конвейер для окрашивания с помощью поискового усиления. Наш конвейер также имеет двухветвевую конструкцию: одна ветвь для извлечения цветовой идентичности и другая для окрашивания, используя преимущества моделей диффузии. Мы используем механизм самовнимания в моделях диффузии для эффективного контекстного обучения и сопоставления цветовой идентичности. Для оценки нашей модели мы представляем ColorFlow-Bench, обширный набор тестов для окрашивания на основе ссылок. Результаты показывают, что ColorFlow превосходит существующие модели по нескольким метрикам, устанавливая новый стандарт в последовательном окрашивании изображений и потенциально принося пользу индустрии искусства. Мы публикуем наши коды и модели на странице нашего проекта: https://zhuang2002.github.io/ColorFlow/.
Мы представляем Causal Diffusion как авторегрессионный (AR) аналог моделей Диффузии. Это фреймворк прогнозирования следующего токена(ов), который дружелюбен как к дискретным, так и к непрерывным модальностям, и совместим с существующими моделями прогнозирования следующего токена, такими как LLaMA и GPT. В то время как недавние работы пытаются объединить диффузию с AR моделями, мы показываем, что введение последовательной факторизации в модель диффузии может значительно улучшить ее производительность и обеспечить плавный переход между режимами генерации AR и диффузии. Таким образом, мы предлагаем CausalFusion - декодерный трансформер, который двойно факторизует данные по последовательным токенам и уровням шума диффузии, что приводит к лучшим результатам на бенчмарке генерации ImageNet, а также позволяет использовать преимущества AR для генерации произвольного количества токенов для контекстного рассуждения. Мы также демонстрируем мультимодальные возможности CausalFusion через совместную модель генерации изображений и подписей, а также показываем способность CausalFusion к манипуляциям изображениями в контексте без предварительного обучения. Мы надеемся, что данная работа сможет предоставить сообществу новый взгляд на обучение мультимодельных моделей на дискретных и непрерывных данных.
Следование инструкциям является фундаментальной способностью языковых моделей, требующей от модели распознавания даже самых тонких требований в инструкциях и их точного отражения в выходных данных. Такая способность хорошо подходит для и часто оптимизируется обучением предпочтений. Однако существующие методы часто непосредственно выбирают несколько независимых ответов от модели при создании пар предпочтений. Такая практика может внести вариации контента, не имеющие отношения к тому, была ли инструкция точно выполнена (например, различные выражения о том же семантическом значении), мешая достижению цели обучения моделей распознавать ключевые различия, приводящие к улучшению следования инструкциям. В свете этого мы представляем SPaR, фреймворк самоигры, интегрирующий самоусовершенствование с помощью древовидного поиска для получения действительных и сравнимых пар предпочтений, свободных от отвлечений. Играя против самого себя, модель LLM использует стратегию древовидного поиска для улучшения своих предыдущих ответов с учетом инструкции, минимизируя ненужные вариации. Наши эксперименты показывают, что модель LLaMA3-8B, обученная за три итерации под руководством SPaR, превосходит GPT-4-Turbo на бенчмарке IFEval, не теряя общих возможностей. Более того, SPaR демонстрирует многообещающую масштабируемость и переносимость, значительно улучшая модели, такие как GLM-4-9B и LLaMA3-70B. Мы также выявляем, как масштабирование вывода в древовидном поиске повлияет на производительность модели. Наш код и данные доступны публично по адресу https://github.com/thu-coai/SPaR.
Эта статья затрагивает сложный вопрос: как эффективно создавать трехмерные сцены высокого качества и широкого охвата из одного произвольного изображения? Существующие методы сталкиваются с несколькими ограничениями, такими как необходимость многократного просмотра данных, затратное оптимизирование для каждой сцены, низкое качество изображения в фонах и искаженные восстановления в невидимых областях. Мы предлагаем новый конвейер для преодоления этих ограничений. Конкретно, мы представляем модель реконструкции большого масштаба, которая использует латенты из модели диффузии видео для прогнозирования трехмерных гауссовых сплетений для сцен в прямом проходе. Модель диффузии видео разработана для создания видео, точно следуя указанным траекториям камеры, что позволяет ей генерировать сжатые видео-латенты, содержащие информацию с многих точек зрения, сохраняя при этом трехмерную согласованность. Мы обучаем модель трехмерной реконструкции работать в пространстве видео-латентов с прогрессивной стратегией обучения, обеспечивая эффективную генерацию трехмерных сцен высокого качества, широкого охвата и универсальности. Обширные оценки на различных наборах данных показывают, что наша модель значительно превосходит существующие методы для генерации трехмерных сцен с одним видом, особенно с изображениями вне области. Впервые мы демонстрируем, что модель трехмерной реконструкции может быть эффективно построена на латентном пространстве модели диффузии для реализации эффективной генерации трехмерных сцен.
Оценка физических свойств для визуальных данных является важной задачей в области компьютерного зрения, графики и робототехники, лежащей в основе таких приложений, как дополненная реальность, физическое моделирование и робототехнический захват. Однако эта область остается мало исследованной из-за врожденных неоднозначностей в оценке физических свойств. Для решения этих проблем мы представляем GaussianProperty, обучающуюся без обучения систему, которая назначает физические свойства материалов трехмерным гауссовым функциям. Конкретно, мы интегрируем возможность сегментации SAM с возможностью распознавания GPT-4V(ision) для формулирования глобально-локального модуля рассуждения о физических свойствах для двумерных изображений. Затем мы проецируем физические свойства с многозрительных двумерных изображений на трехмерные гауссовы функции с помощью стратегии голосования. Мы демонстрируем, что трехмерные гауссовы функции с аннотациями физических свойств позволяют применять их в физически основанных динамических симуляциях и робототехническом захвате. Для физически основанных динамических симуляций мы используем метод материальной точки (MPM) для реалистичных динамических симуляций. Для захвата роботом мы разрабатываем стратегию прогнозирования силы захвата, которая оценивает безопасный диапазон силы, необходимой для захвата объекта на основе оцененных физических свойств. Обширные эксперименты по сегментации материалов, физически основанным динамическим симуляциям и робототехническому захвату подтверждают эффективность нашего предложенного метода, подчеркивая его важную роль в понимании физических свойств по визуальным данным. Онлайн-демонстрация, код, дополнительные примеры и аннотированные наборы данных доступны на https://Gaussian-Property.github.io.
Захват геометрической и материальной информации изображений остается фундаментальным вызовом в компьютерном зрении и графике. Традиционные методы на основе оптимизации часто требуют часов вычислительного времени для восстановления геометрии, свойств материала и окружающего освещения из плотных многовидовых входных данных, при этом все еще борются с врожденными неоднозначностями между освещением и материалом. С другой стороны, методы на основе обучения используют богатые априорные данные о материалах из существующих наборов данных трехмерных объектов, но сталкиваются с проблемами поддержания согласованности между видами. В данной статье мы представляем IDArb, модель на основе диффузии, разработанную для выполнения внутреннего разложения на произвольном количестве изображений при изменяющемся освещении. Наш метод достигает точной и согласованной многовидовой оценки нормалей поверхности и свойств материала. Это достигается благодаря новому модулю внимания между видами и доменами и стратегии обучения с учетом освещения и адаптивной к виду. Кроме того, мы представляем ARB-Objaverse, новый набор данных, который предоставляет масштабные многовидовые внутренние данные и рендеринги при различных условиях освещения, обеспечивая надежное обучение. Обширные эксперименты показывают, что IDArb превосходит современные методы как качественно, так и количественно. Более того, наш подход облегчает ряд последующих задач, включая переосвещение одиночного изображения, фотометрическую стереоскопию и трехмерную реконструкцию, подчеркивая его широкие применения в создании реалистичного трехмерного контента.
Видео-замена лиц становится все более популярной в различных приложениях, однако существующие методы в основном сосредотачиваются на статических изображениях и испытывают трудности с видео-заменой лиц из-за временной согласованности и сложных сценариев. В данной статье мы представляем первую основанную на диффузии концепцию, специально разработанную для видео-замены лиц. Наш подход вводит новую гибридную обучающую структуру изображение-видео, которая использует как обширные данные статических изображений, так и временные видео-последовательности, решая врожденные ограничения обучения только на видео. Структура включает специально разработанную модель диффузии, совмещенную с VidFaceVAE, которая эффективно обрабатывает оба типа данных для лучшего сохранения временной согласованности созданных видео. Для дальнейшего разделения признаков личности и позы мы создаем набор данных Attribute-Identity Disentanglement Triplet (AIDT), где каждая тройка содержит три лицевых изображения, причем два изображения имеют одну и ту же позу, а два других - одну и ту же личность. Улучшенный комплексный набор данных с дополнительным заслонением также повышает устойчивость к заслонкам. Кроме того, мы интегрируем техники трехмерной реконструкции в качестве входного условия для нашей сети для обработки больших изменений поз. Обширные эксперименты показывают, что наша структура достигает превосходных результатов в сохранении идентичности, временной согласованности и визуального качества по сравнению с существующими методами, требуя при этом меньшего количества шагов вывода. Наш подход эффективно смягчает основные проблемы видео-замены лиц, включая временное мерцание, сохранение идентичности, устойчивость к заслонкам и изменениям поз.
Большие языковые модели (LLM) продемонстрировали исключительную производительность в широком спектре задач обработки естественного языка. Однако их значительные размеры представляют существенные вызовы, особенно в вычислительных требованиях и скорости вывода из-за квадратичной сложности. В данной работе мы выявили ключевой паттерн: определенные, казалось бы, бессмысленные специальные токены (т.е. разделители) вносят диспропорциональный вклад в оценки внимания по сравнению с семантически значимыми токенами. Это наблюдение подразумевает, что информацию сегментов между этими разделительными токенами можно эффективно сжать в сами разделительные токены без значительной потери информации. Руководствуясь этими наблюдениями, мы представляем SepLLM - гибкую систему, которая ускоряет вывод, сжимая эти сегменты и устраняя избыточные токены. Кроме того, мы реализуем эффективные ядра для ускорения обучения. Экспериментальные результаты в различных настройках - без обучения, обучение с нуля и после обучения - демонстрируют эффективность SepLLM. Особенно стоит отметить, что, используя базовую модель Llama-3-8B, SepLLM достигает более чем 50% сокращения кэша KV на тесте GSM8K-CoT, сохраняя при этом сопоставимую производительность. Более того, в потоковых настройках SepLLM эффективно обрабатывает последовательности до 4 миллионов токенов и более, сохраняя при этом последовательные возможности моделирования языка.
Причёска является индикатором отдельной личности, однако существующие методы генерации аватаров не учитывают практическое моделирование волос из-за общего или запутанного представления. Мы предлагаем StrandHead, новый метод генерации аватаров головы в 3D из текста, способный создавать разделённые 3D волосы с представлением прядей. Не используя 3D данные для наблюдения, мы демонстрируем, что реалистичные волосяные пряди могут быть созданы из подсказок путём упрощения 2D генеративных моделей диффузии. Для этого мы предлагаем ряд надёжных априорных знаний о начальной форме, геометрических примитивах и статистических особенностях прически, что приводит к стабильной оптимизации и высокой производительности в соответствии с текстом. Обширные эксперименты показывают, что StrandHead достигает передового уровня в реалистичности и разнообразии созданных 3D голов и волос. Созданные 3D волосы также могут легко использоваться в Unreal Engine для физического моделирования и других приложений. Код будет доступен по адресу https://xiaokunsun.github.io/StrandHead.github.io.
Большие языковые модели (LLM) представляют собой ключевой сдвиг в обработке естественного языка (NLP), обладая передовыми возможностями генерации текста, перевода и областно-специфического рассуждения. Закрытые модели, такие как GPT-4, основанные на собственных наборах данных и обширных вычислительных ресурсах, лидируют сегодня с передовым качеством работы. Однако их "черный ящик" и ограниченная доступность критикуются за то, что это затрудняет воспроизводимость и справедливое развитие искусственного интеллекта. В отличие от этого, инициативы с открытым исходным кодом, такие как LLaMA и BLOOM, придерживаются принципов демократизации через разработку, основанную на сообществе, и вычислительную эффективность. Эти модели значительно сократили разрыв в производительности, особенно в лингвистическом разнообразии и областно-специфических приложениях, предоставляя доступные инструменты для исследователей и разработчиков по всему миру. Следует отметить, что обе парадигмы опираются на фундаментальные архитектурные инновации, такие как фреймворк Transformer от Васвани и др. (2017). Закрытые модели отличаются эффективным масштабированием, в то время как модели с открытым исходным кодом адаптируются к реальным приложениям на недостаточно представленных языках и областях. Техники, такие как адаптация низкого ранга (LoRA) и настройка инструкций, позволяют моделям с открытым исходным кодом достигать конкурентоспособных результатов несмотря на ограниченные ресурсы. Неоспоримо, напряженность между закрытыми и открытыми подходами подчеркивает более широкий дебат о прозрачности по сравнению с собственным контролем в области искусственного интеллекта. Этические соображения дополнительно подчеркивают этот разрыв. Закрытые системы ограничивают внешнюю проверку, в то время как модели с открытым исходным кодом способствуют воспроизводимости и сотрудничеству, но лишены стандартизированных рамок документирования аудита для смягчения предвзятостей. Гибридные подходы, использующие преимущества обеих парадигм, вероятно, определят будущее инноваций в области LLM, обеспечивая доступность, конкурентоспособную техническую производительность и этичное внедрение.
Традиционные методы управления роботами на основе обучения с подкреплением часто ориентированы на конкретные задачи и не способны обобщать информацию по различным средам или невидимым объектам и инструкциям. Визуально-языковые модели (VLM) демонстрируют высокое понимание сцен и способности к планированию, однако им не хватает возможности создания действенных стратегий, адаптированных к конкретным робототехническим воплощениям. Для решения этой проблемы были разработаны модели визуально-языкового-действия (VLA), однако они сталкиваются с трудностями в долгосрочном пространственном рассуждении и планировании задач на основе обоснованных данных. В данной работе мы предлагаем модель воплощенного мультимодального действия с цепочкой обоснованных мыслей и пространственным рассуждением с предварительным просмотром, Emma-X. Emma-X использует наш набор данных иерархического воплощения, основанный на BridgeV2, содержащий 60 000 траекторий манипуляции робота, автоматически аннотированных обоснованным рассуждением о задаче и пространственным руководством. Кроме того, мы представляем стратегию сегментации траекторий на основе состояний схвата и траекторий движения, которая может помочь смягчить галлюцинации при генерации обоснованных данных о подзадачах. Экспериментальные результаты показывают, что Emma-X достигает превосходных результатов по сравнению с конкурентными базовыми моделями, особенно в реальных робототехнических задачах, требующих пространственного рассуждения.
Для повышения эффективности и эффективности базовой модели наша идея заключается в комбинировании преобразования последовательности и преобразования состояния. Во-первых, мы доказываем доступность встраивания вращающегося положения в алгоритм дуальности пространства состояний, что снижает непонимание гибридного квадратичного причинного самовнимания и дуальности пространства состояний более чем на 4%, чтобы гарантировать, что комбинирование преобразования последовательности объединяет кодирование позиции. Во-вторых, мы предлагаем динамическое внимание с маской, которое поддерживает 100% точность в более сложной многозапросной ассоциативной задаче воспоминания, улучшая более чем на 150% по сравнению с квадратичным причинным самовниманием и дуальностью пространства состояний, чтобы гарантировать, что комбинирование преобразования последовательности выборочно фильтрует соответствующую информацию. В-третьих, мы разрабатываем кросс-доменный смешанный экспертов, что делает вычислительную скорость извлечения экспертов с более чем 1024 экспертами в 8-10 раз быстрее, чем смесь экспертов, чтобы гарантировать, что комбинирование преобразования состояния быстро извлекает смесь. Наконец, мы обобщаем эти матричные алгоритмы, которые могут составить базовую модель: Замечательные Матрицы, которые могут быть конкурентами популярным архитектурам моделей.
Растущий спрос на иммерсивные приложения дополненной и виртуальной реальности и пространственный интеллект увеличил потребность в создании видео сцен на высоком уровне и 360{\deg} панорамных видео. Однако большинство моделей видеодиффузии ограничены низким разрешением и соотношением сторон, что ограничивает их применимость к синтезу динамического контента на уровне сцены. В данной работе мы предлагаем DynamicScaler, решающий эти проблемы путем обеспечения пространственно масштабируемого и панорамного синтеза динамических сцен, сохраняющего согласованность по всему панорамному пространству произвольного размера. Конкретно, мы представляем средство Offset Shifting Denoiser, облегчающее эффективное, синхронное и согласованное шумоподавление панорамных динамических сцен с помощью модели диффузии с фиксированным разрешением через безшовное вращающееся окно, которое обеспечивает плавные переходы границ и согласованность по всему панорамному пространству, учитывая изменяющиеся разрешения и соотношения сторон. Кроме того, мы используем механизм Global Motion Guidance для обеспечения как верности локальных деталей, так и непрерывности глобального движения. Обширные эксперименты демонстрируют, что наш метод достигает превосходного качества контента и движения в генерации видео на уровне панорамных сцен, предлагая обучение-независимое, эффективное и масштабируемое решение для создания иммерсивных динамических сцен с постоянным потреблением VRAM независимо от разрешения выходного видео. Наша страница проекта доступна по адресу https://dynamic-scaler.pages.dev/.
Синтез новых видов из видеороликов в естественной среде представляет собой сложную задачу из-за динамики сцены и отсутствия многовидовых подсказок. Для решения этой проблемы мы предлагаем SplineGS, динамическую 3D-систему гауссовского сплетения (3DGS) без использования COLMAP для высококачественной реконструкции и быстрого визуализации из монокулярных видеороликов. В центре этой системы находится новый метод Motion-Adaptive Spline (MAS), который представляет непрерывные динамические 3D-гауссовские траектории с использованием кубических сплайнов Эрмита с небольшим количеством контрольных точек. Для MAS мы вводим метод обрезки контрольных точек Motion-Adaptive Control points Pruning (MACP) для моделирования деформации каждого динамического 3D-гауссовского объекта при различных движениях, постепенно обрезая контрольные точки, сохраняя целостность динамического моделирования. Кроме того, мы представляем совместную стратегию оптимизации для оценки параметров камеры и атрибутов 3D-гауссовских объектов, используя фотометрическую и геометрическую согласованность. Это устраняет необходимость предварительной обработки структуры движения и повышает устойчивость SplineGS в реальных условиях. Эксперименты показывают, что SplineGS значительно превосходит современные методы в качестве синтеза новых видов для динамичных сцен из монокулярных видеороликов, обеспечивая ускорение визуализации в тысячи раз.
Переиспользование предварительно обученных моделей диффузии доказало свою эффективность для NVS. Однако эти методы в основном ограничены одним объектом; применение таких методов напрямую к композиционным сценариям с несколькими объектами дает худшие результаты, особенно неправильное размещение объектов и несогласованную форму и внешний вид при новых видовых точках зрения. Как улучшить и систематически оценить согласованность между видами таких моделей остается недостаточно исследованным. Для решения этой проблемы мы предлагаем MOVIS для улучшения структурного осознания модели диффузии, зависящей от вида, для многокомпонентного NVS в терминах входных данных модели, вспомогательных задач и стратегии обучения. Во-первых, мы вводим структурно осознанные признаки, включая глубину и маску объекта, в денойзинг U-Net для улучшения понимания моделью экземпляров объектов и их пространственных отношений. Во-вторых, мы вводим вспомогательную задачу, требующую от модели одновременного предсказания масок объектов для новых видов, дополнительно улучшая способность модели различать и размещать объекты. Наконец, мы проводим глубокий анализ процесса диффузионного сэмплирования и тщательно разрабатываем расписание выборки по временным шагам, направленное на структуру, во время обучения, которое балансирует обучение глобального размещения объектов и восстановление деталей с тонкой детализацией. Для систематической оценки правдоподобности синтезированных изображений мы предлагаем оценивать согласованность между видами и размещение объектов для новых видов наряду с существующими метриками NVS на уровне изображения. Обширные эксперименты на сложных синтетических и реалистичных наборах данных демонстрируют, что наш метод обладает сильными обобщающими способностями и производит последовательный синтез новых видов, подчеркивая его потенциал для руководства будущими задачами NVS с учетом трехмерных объектов.
Алгоритмы обучения с подкреплением (RL) нацелены на балансировку между использованием текущей лучшей стратегии и исследованием новых вариантов, которые могут привести к более высоким вознаграждениям. Большинство распространенных алгоритмов RL используют ненаправленное исследование, т.е. выбирают случайные последовательности действий. Исследование также может быть направленным с использованием внутренних вознаграждений, таких как любопытство или эпистемическая неопределенность модели. Однако эффективное балансирование задач и внутренних вознаграждений является сложной задачей и часто зависит от задачи. В данной работе мы представляем фреймворк MaxInfoRL для балансировки внутреннего и внешнего исследования. MaxInfoRL направляет исследование на информативные переходы, максимизируя внутренние вознаграждения, такие как прирост информации о базовой задаче. При комбинировании с исследованием Больцмана, этот подход естественным образом балансирует максимизацию функции ценности с энтропией по состояниям, вознаграждениям и действиям. Мы показываем, что наш подход достигает сублинейного регрета в упрощенной среде многоруких бандитов. Затем мы применяем эту общую формулировку к различным методам RL без модели для непрерывных пространств состояний-действий, создавая новые алгоритмы, которые достигают превосходной производительности в сложных задачах и сценариях, таких как задачи визуального управления.
Для использования потенциала недавних достижений в области обучения по подражанию для мобильной манипуляции потребуется сбор большого количества демонстраций под руководством человека. В данной статье предлагается дизайн с открытым исходным кодом для недорогого, надежного и гибкого мобильного манипулятора, способного поддерживать произвольные манипуляторы и обеспечивать широкий спектр задач мобильной манипуляции в реальных условиях домашнего хозяйства. Ключевой особенностью нашего дизайна является использование силовых колес для обеспечения полной голономности мобильной базы, способной управлять всеми плоскими степенями свободы независимо и одновременно. Эта особенность делает базу более маневренной и упрощает многие задачи мобильной манипуляции, устраняя кинематические ограничения, создающие сложные и затратные движения в неголономных базах. Мы оснастили нашего робота интуитивным интерфейсом телефонной телеоперации для удобного сбора данных для обучения по подражанию. В наших экспериментах мы используем этот интерфейс для сбора данных и показываем, что полученные обученные стратегии успешно выполняют различные типичные задачи мобильной манипуляции в домашнем хозяйстве.
Несмотря на свою компетентность в общих задачах, многомодальные модели с большим языковым объемом (MLLM) испытывают трудности с автоматическим решением геометрических задач (GPS), которое требует понимания диаграмм, интерпретации символов и выполнения сложного рассуждения. Это ограничение возникает из-за их предварительного обучения на естественных изображениях и текстах, а также из-за отсутствия автоматизированной верификации в процессе решения задач. Более того, текущие геометрические специалисты ограничены своими задаче-специфичными конструкциями, что делает их менее эффективными для более широких геометрических задач. В этой связи мы представляем GeoX, многомодальную крупную модель, сосредоточенную на геометрическом понимании и рассуждениях. Учитывая значительные различия между геометрическими диаграммами-символами и естественными изображениями-текстом, мы вводим унимодальное предварительное обучение для развития кодера диаграмм и декодера символов, улучшая понимание геометрических изображений и корпусов. Кроме того, мы представляем выравнивание геометрии-языка, эффективную парадигму предварительного обучения, которая сокращает разрыв между унимодальными геометрическими экспертами. Мы предлагаем трансформер Генератор-и-Выборка (GS-Former) для генерации дискриминирующих запросов и устранения неинформативных представлений из неравномерно распределенных геометрических сигналов. Наконец, GeoX получает преимущество от настройки визуальных инструкций, давая ему возможность принимать геометрические изображения и вопросы в качестве входных данных и генерировать проверяемые решения. Эксперименты показывают, что GeoX превосходит как общих специалистов, так и геометрических специалистов на общепризнанных бенчмарках, таких как GeoQA, UniGeo, Geometry3K и PGPS9k.
Мы предлагаем WHISPER-GPT: генеративную модель большого языка (LLM) для речи и музыки, которая позволяет нам работать одновременно с непрерывными аудио представлениями и дискретными токенами как часть единой архитектуры. Наблюдается значительный рост в генеративных моделях аудио, речи и музыки, которые используют дискретные аудио токены, полученные из алгоритмов нейрокомпрессии, например, ENCODEC. Однако одним из основных недостатков этого подхода является обработка длины контекста. Она значительно возрастает для архитектуры высокой точности генерации, если нужно учитывать все аудио-содержимое на различных частотах для предсказания следующего токена. Совмещая непрерывное аудио представление, такое как спектрограмма, и дискретные акустические токены, мы сохраняем лучшее из обоих миров: имеем всю необходимую информацию из аудио в определенный момент времени в одном токене, но позволяем LLM предсказывать будущий токен для сэмплирования и других преимуществ, которые предоставляет дискретное пространство. Мы показываем, как наша архитектура улучшает показатели непонятности и отрицательной логарифмической правдоподобности для предсказания следующего токена по сравнению с токен-основанным LLM для речи и музыки.
Вертикальное федеративное обучение (VFL) направлено на обеспечение совместного обучения моделей глубокого обучения с сохранением защиты конфиденциальности. Однако процесс VFL все еще имеет компоненты, уязвимые для атак со стороны злонамеренных сторон. В нашей работе мы рассматриваем атаки на восстановление признаков, распространенный риск, направленный на компрометацию входных данных. Мы теоретически утверждаем, что атаки на восстановление признаков не могут привести к успеху без знания априорного распределения данных. Следовательно, мы демонстрируем, что даже простые преобразования архитектуры модели могут значительно повлиять на защиту входных данных во время VFL. Подтверждая эти результаты экспериментально, мы показываем, что модели на основе MLP устойчивы к атакам на восстановление признаков, считающимися передовыми.
Недавние достижения в моделях диффузии революционизируют генерацию изображений, однако представляют риски неправомерного использования, таких как воспроизведение произведений искусства или создание дипфейков. Существующие методы защиты изображений, хотя и эффективны, испытывают трудности в балансировании эффективности защиты, невидимости и задержки, что ограничивает их практическое использование. Мы предлагаем предварительное обучение с помехами для сокращения задержки и предлагаем подход смешивания помех, который динамически адаптируется к входным изображениям для минимизации снижения производительности. Наша новая стратегия обучения вычисляет потерю защиты в нескольких пространствах признаков VAE, в то время как адаптивная целевая защита на этапе вывода повышает устойчивость и невидимость. Эксперименты показывают сравнимую производительность защиты с улучшенной невидимостью и значительно сокращенным временем вывода. Код и демонстрация доступны по ссылке https://webtoon.github.io/impasto
Быстрое развитие технологий обработки естественного языка (NLP), таких как настроенные на инструкции большие языковые модели (LLM), требует разработки современных протоколов оценки с обратной связью от людей и машин. Мы представляем Evalica, набор инструментов с открытым исходным кодом, который облегчает создание надежных и воспроизводимых рейтингов моделей. В данной статье представлен ее дизайн, оценена производительность и продемонстрирована ее применимость через веб-интерфейс, интерфейс командной строки и Python API.
Недавние достижения в области робототехнических базовых моделей позволили разработать общие стратегии, способные адаптироваться к различным задачам. Хотя эти модели проявляют впечатляющую гибкость, их производительность в значительной степени зависит от качества обучающих данных. В данной работе мы предлагаем метод Reinforcement Learning Distilled Generalists (RLDG), который использует обучение с подкреплением для генерации высококачественных обучающих данных для настройки общих стратегий. Через обширные эксперименты в реальном мире по точным манипуляционным задачам, таким как вставка и сборка разъемов, мы демонстрируем, что общие стратегии, обученные с использованием данных, сгенерированных RL, последовательно превосходят те, которые обучены с помощью демонстраций человека, достигая до 40% более высоких показателей успешности и лучшей обобщаемости на новые задачи. Мы также предоставляем подробный анализ, который показывает, что улучшение производительности обусловлено как оптимизированными распределениями действий, так и улучшенным охватом состояний. Наши результаты свидетельствуют о том, что комбинирование задачно-специфического обучения с обобщенной дистилляцией стратегий предлагает многообещающий подход для разработки более способных и эффективных систем робототехнической манипуляции, которые сохраняют гибкость базовых моделей, достигая при этом производительности специализированных контроллеров. Видео и код можно найти на нашем веб-сайте проекта https://generalist-distillation.github.io