Ежедневно отобранные исследовательские статьи по ИИ с переводами
Недавние модели масштабного распространения генерируют изображения высокого качества, но испытывают трудности в изучении новых, персонализированных художественных стилей, что ограничивает создание уникальных стилевых шаблонов. Наилучшим подходом является донастройка с использованием опорных изображений, однако часто она слепо использует цели и распределения уровня шума, использованные для предварительного обучения, что приводит к неоптимальному выравниванию стилей. Мы предлагаем сэмплер SNR, дружественный к стилю, который агрессивно сдвигает распределение сигнал-шум (SNR) в сторону более высоких уровней шума во время донастройки для фокусировки на уровнях шума, где проявляются стилевые особенности. Это позволяет моделям лучше улавливать уникальные стили и генерировать изображения с более высоким стилевым выравниванием. Наш метод позволяет моделям распространения изучать и обмениваться новыми "стилевыми шаблонами", улучшая создание персонализированного контента. Мы продемонстрировали возможность генерировать стили, такие как персональные акварельные картины, минималистические плоские мультфильмы, 3D-рендеринги, многофункциональные изображения и мемы с текстом, тем самым расширяя область стилевой генерации.
Пост-тренировка языковой модели применяется для улучшения поведения и разблокировки новых навыков в широком диапазоне недавних языковых моделей, однако открытые рецепты для применения этих техник отстают от проприетарных. Основные данные обучения и рецепты для пост-тренировки одновременно являются наиболее важными элементами пазла и частью с наименьшей прозрачностью. Для устранения этого разрыва мы представляем T\"ULU 3, семейство современных пост-тренированных моделей, вместе с данными, кодом и рецептами обучения, служащими в качестве всеобъемлющего руководства по современным техникам пост-тренировки. T\"ULU 3, основанный на базовых моделях Llama 3.1, достигает результатов, превосходящих версии Instruct Llama 3.1, Qwen 2.5, Mistral, а также закрытые модели, такие как GPT-4o-mini и Claude 3.5-Haiku. Алгоритмы обучения для наших моделей включают надзорное дообучение (SFT), прямую оптимизацию предпочтений (DPO) и новый метод, который мы называем Обучением с подтверждаемыми наградами на основе обучения с подкреплением (RLVR). С помощью T\"ULU 3 мы представляем схему оценки многозадачной пост-тренировки с разработкой и оценкой на невидимых данных, стандартные реализации бенчмарков и значительную деконтаминацию существующих открытых наборов данных на этих бенчмарках. Мы завершаем анализом и обсуждением методов обучения, которые не надежно улучшили производительность. Помимо весов модели T\"ULU 3 и демонстрации, мы публикуем полный рецепт, включая наборы данных для разнообразных основных навыков, надежный инструментарий для курирования и оценки данных, код и инфраструктуру обучения, а также, что самое важное, подробный отчет для воспроизведения и дальнейшей адаптации подхода T\"ULU 3 к другим областям.
В данной статье мы представляем OminiControl - высокоуниверсальную и параметроэффективную структуру, интегрирующую условия изображения в предварительно обученные модели Диффузионного Трансформера (DiT). В основе OminiControl лежит механизм повторного использования параметров, позволяющий DiT кодировать условия изображения, используя себя в качестве мощного основания, и обрабатывать их с помощью гибких мультимодальных процессоров внимания. В отличие от существующих методов, которые сильно полагаются на дополнительные модули кодировщика с комплексными архитектурами, OminiControl (1) эффективно и эффективно интегрирует внедренные условия изображения только с добавлением ~0.1% дополнительных параметров, и (2) решает широкий спектр задач условного форматирования изображения единообразным образом, включая генерацию, управляемую объектами, и пространственно выровненные условия, такие как края, глубина и другие. Замечательно, что эти возможности достигаются путем обучения на изображениях, сгенерированных самим DiT, что особенно полезно для генерации, управляемой объектами. Обширные оценки показывают, что OminiControl превосходит существующие модели на основе UNet и адаптированные модели DiT как в генерации, управляемой объектами, так и в условной генерации с пространственным выравниванием. Кроме того, мы предоставляем наш набор данных для обучения, Subjects200K, разнообразную коллекцию из более чем 200 000 изображений, согласованных по идентификации, а также эффективный процесс синтеза данных для продвижения исследований в области согласованной генерации объектов.
Старение лица - это сложный процесс, сильно зависящий от множества факторов, таких как пол, этническая принадлежность, образ жизни и т. д., что делает его чрезвычайно сложным для изучения глобального старения с целью точного прогнозирования старения для любого индивида. Существующие техники часто производят реалистичные и правдоподобные результаты старения, однако переотображенные изображения часто не похожи на внешность человека в целевом возрасте и, следовательно, требуют персонализации. Во многих практических применениях виртуального старения, например, в визуальных эффектах в кино и телешоу, доступ к личной фотоколлекции пользователя, отражающей старение в небольшом временном интервале (20-40 лет), часто доступен. Однако наивные попытки персонализировать глобальные техники старения на личных фотоколлекциях часто оказываются неудачными. Поэтому мы предлагаем MyTimeMachine (MyTM), который объединяет глобальное старение с личной фотоколлекцией (используя всего 50 изображений) для изучения персонализированного преобразования возраста. Мы представляем новую сеть адаптеров, которая объединяет персонализированные признаки старения с глобальными признаками старения и генерирует переотображенное изображение с использованием StyleGAN2. Мы также вводим три функции потерь для персонализации сети адаптеров с потерей персонализированного старения, регуляризацией экстраполяции и адаптивной регуляризацией w-нормы. Наш подход также может быть расширен на видео, достигая высококачественных, сохраняющих идентичность и временно согласованных эффектов старения, которые напоминают реальный внешний вид в целевые возрасты, демонстрируя его превосходство над современными подходами.
Большие языковые модели подвержены неправильному использованию вне темы, когда пользователи могут побуждать эти модели выполнять задачи, выходящие за рамки их предназначения. Существующие ограничения, которые часто опираются на отобранные примеры или специальные классификаторы, страдают от высоких показателей ложноположительных результатов, ограниченной адаптивности и невозможности требовать реальных данных, которые недоступны на этапе предпроизводства. В данной статье мы представляем гибкую методологию разработки ограничений без использования данных, которая решает эти проблемы. Путем тщательного определения качественного пространства проблемы и передачи этого LLM для генерации разнообразных подсказок мы создаем синтетический набор данных для оценки и обучения ограничений вне темы, превосходящих эвристические подходы. Кроме того, представляя задачу как классификацию того, является ли подсказка пользователя соответствующей системной подсказке, наши ограничения эффективно обобщаются на другие категории неправильного использования, включая обход защиты и вредоносные подсказки. Наконец, мы дополнительно вносим вклад в область, предоставляя в открытый доступ как синтетический набор данных, так и модели ограничений вне темы, обеспечивая ценные ресурсы для разработки ограничений в средах предпроизводства и поддержки будущих исследований и разработок в области безопасности LLM.
Большие языковые модели (LLM) и модели языка и зрения (VLM) обладают обширными знаниями и проявляют многообещающие способности к рассуждениям; однако они все еще испытывают трудности в успешном выполнении задач в сложных и динамичных средах. Реальные задачи требуют обработки сложных взаимодействий, продвинутого пространственного мышления, долгосрочного планирования и непрерывного исследования новых стратегий - областей, в которых нам не хватает эффективных методологий для всесторонней оценки этих способностей. Для решения этого пробела мы представляем BALROG, новый бенчмарк, разработанный для оценки агентных способностей LLM и VLM через разнообразный набор сложных игр. Наш бенчмарк включает в себя ряд существующих сред обучения с подкреплением с разными уровнями сложности, включая задачи, которые решаются неспециалистами за секунды, и крайне сложные, которые могут потребовать годы для освоения (например, среда обучения NetHack). Мы разрабатываем тонкие метрики для измерения производительности и проводим обширную оценку нескольких популярных открытых и закрытых LLM и VLM. Наши результаты показывают, что текущие модели добиваются частичного успеха в более легких играх, но испытывают значительные трудности с более сложными задачами. Особенно мы наблюдаем серьезные недостатки в принятии решений на основе зрительных данных, поскольку модели показывают более плохие результаты, когда им предоставляются визуальные представления сред. Мы выпускаем BALROG в качестве открытого и удобного для пользователя бенчмарка для содействия будущим исследованиям и разработкам в сообществе агентов.
Недавние достижения в области крупных мультимодальных моделей (Large Multimodal Models, LMMs) привели к значительным прорывам как в академической среде, так и в промышленности. Одним из возникающих вопросов является то, как мы, как люди, можем понять их внутренние нейронные представления. Настоящая статья делает первый шаг к решению этого вопроса, представляя универсальную методику для выявления и интерпретации семантики внутри LMMs. Конкретно, 1) мы сначала применяем Разреженный автокодировщик (Sparse Autoencoder, SAE) для разделения представлений на понятные человеку особенности. 2) Затем мы представляем автоматическую методику интерпретации для интерпретации открытой семантической особенности, выученной в SAE самими LMMs. Мы используем эту методику для анализа модели LLaVA-NeXT-8B с использованием модели LLaVA-OV-72B, демонстрируя, что эти особенности могут эффективно управлять поведением модели. Наши результаты способствуют более глубокому пониманию причин, почему LMMs преуспевают в конкретных задачах, включая тесты на эмоциональный интеллект, и проливают свет на характер их ошибок, а также потенциальные стратегии для их исправления. Эти выводы предлагают новые идеи о внутренних механизмах LMMs и указывают на параллели с когнитивными процессами человеческого мозга.
Развитие моделей больших мультимодальных языковых моделей (LVLM) значительно улучшило мультимодальное понимание, однако остаются вызовы в задачах видеоразмышлений из-за недостатка качественных крупномасштабных наборов данных. Существующие наборы данных видеовопросов-ответов (VideoQA) часто зависят от дорогостоящих ручных аннотаций с недостаточной детализацией или автоматических методов создания с избыточным анализом кадр за кадром, что ограничивает их масштабируемость и эффективность для сложного рассуждения. Для решения этих вызовов мы представляем VideoEspresso, новый набор данных, который содержит пары VideoQA, сохраняющие важные пространственные детали и временную согласованность, а также мультимодальные аннотации промежуточных шагов рассуждения. Наша методика создания использует семантически осознанный метод для сокращения избыточности, за которым следует генерация пар вопрос-ответ с использованием GPT-4o. Мы также разрабатываем аннотации видео "Цепочка Мысли" (CoT), чтобы обогатить процессы рассуждения, направляя GPT-4o на извлечение логических связей из пар вопрос-ответ и видеоконтента. Для использования потенциала высококачественных пар VideoQA мы предлагаем гибридную рамочную модель сотрудничества LVLM, включающую Селектор Кадров и LVLM с двухэтапной настройкой рассуждения по инструкциям. Эта модель адаптивно выбирает основные кадры и выполняет рассуждения CoT с использованием мультимодальных доказательств. Протестированная на нашем предложенном бенчмарке с 14 задачами против 9 популярных LVLM, наш метод превосходит существующие базовые уровни по большинству задач, демонстрируя превосходные возможности видеорассуждения. Наш код и набор данных будут опубликованы по адресу: https://github.com/hshjerry/VideoEspresso
Эффективная токенизация видео остается вызовом при обучении моделей зрения, способных обрабатывать длинные видеоролики. Одним из перспективных направлений является разработка токенизатора, способного кодировать длинные видеоролики, поскольку это позволит токенизатору лучше использовать временную согласованность видео для токенизации. Однако обучение существующих токенизаторов на длинных видеороликах часто сопряжено с огромными затратами на обучение, поскольку они обучаются восстанавливать все кадры сразу. В данной статье мы представляем CoordTok, видео-токенизатор, который изучает отображение от координатных представлений к соответствующим фрагментам входных видеороликов, вдохновленный последними достижениями в области 3D генеративных моделей. В частности, CoordTok кодирует видео в факторизованные трехплоские представления и восстанавливает фрагменты, соответствующие случайно выбранным координатам (x, y, t). Это позволяет обучать крупные модели токенизаторов напрямую на длинных видеороликах без необходимости излишних ресурсов для обучения. Наши эксперименты показывают, что CoordTok может значительно сократить количество токенов для кодирования длинных видеороликов. Например, CoordTok может закодировать видео из 128 кадров с разрешением 128 на 128 в 1280 токенов, в то время как базовые модели требуют 6144 или 8192 токена для достижения аналогичного качества восстановления. Мы также показываем, что эта эффективная токенизация видео позволяет обучать память-эффективный тренировочный диффузионный трансформер, который может генерировать 128 кадров сразу.
Область синтеза нового вида значительно продвинулась благодаря развитию методов радиационного поля. Однако большинство техник радиационного поля гораздо лучше справляются с интерполяцией нового вида, чем с экстраполяцией нового вида, когда синтезируемые новые виды значительно выходят за пределы наблюдаемых обучающих видов. Мы разработали ViewExtrapolator, подход к синтезу нового вида, который использует генеративные априорные знания Stable Video Diffusion (SVD) для реалистичной экстраполяции нового вида. Перепроектировав процесс шумоподавления SVD, ViewExtrapolator улучшает артефактные виды, созданные радиационными полями, значительно повышая четкость и реализм синтезированных новых видов. ViewExtrapolator является универсальным экстраполятором нового вида, который может работать с различными типами 3D-рендеринга, такими как виды, созданные из облаков точек, когда доступен только один вид или монокулярное видео. Кроме того, для работы ViewExtrapolator не требуется тонкая настройка SVD, что делает его как экономичным по данным, так и по вычислениям. Обширные эксперименты демонстрируют превосходство ViewExtrapolator в экстраполяции нового вида. Страница проекта: https://kunhao-liu.github.io/ViewExtrapolator/.
Недавние модели диффузии текста в видео (T2V) продемонстрировали впечатляющие возможности генерации в различных областях. Однако эти модели часто создают видео с несоответствиями текстовым подсказкам, особенно когда подсказки описывают сложные сцены с несколькими объектами и атрибутами. Для решения этой проблемы мы представляем VideoRepair, новую модель-агностическую, не требующую обучения, структуру улучшения видео, которая автоматически определяет мелкие несоответствия текста и видео и генерирует явные пространственные и текстовые обратные связи, позволяя модели диффузии T2V выполнять целевые локализованные улучшения. VideoRepair состоит из четырех этапов: на (1) оценке видео мы обнаруживаем несоответствия, генерируя детализированные вопросы оценки и отвечая на них с помощью MLLM. На (2) планировании улучшений мы идентифицируем точно сгенерированные объекты и затем создаем локализованные подсказки для улучшения других областей в видео. Затем на (3) декомпозиции регионов мы сегментируем правильно сгенерированную область с помощью объединенного модуля опоры. Мы воссоздаем видео, корректируя несоответствующие регионы, сохраняя при этом правильные регионы на (4) локализованном улучшении. На двух популярных бенчмарках генерации видео (EvalCrafter и T2V-CompBench) VideoRepair значительно превосходит недавние базовые уровни по различным метрикам выравнивания текста и видео. Мы предоставляем всесторонний анализ компонентов VideoRepair и качественные примеры.
Мобильная манипуляция "в естественной среде" нацелена на развертывание роботов в разнообразных реальных средах, что требует от робота (1) обладать навыками, которые обобщаются на различные конфигурации объектов; (2) быть способным к выполнению задач с долгосрочным планом в разнообразных средах; и (3) выполнять сложные манипуляции, выходящие за рамки простого взятия и установки. Роботы на четырех ногах с манипуляторами обещают расширить рабочее пространство и обеспечить надежное передвижение, однако существующие результаты не исследуют такую возможность. В данной статье предлагается WildLMa с тремя компонентами для решения этих проблем: (1) адаптация обученного контроллера низкого уровня для телооперации с использованием VR и проходимости; (2) WildLMa-Skill - библиотека обобщаемых визуомоторных навыков, полученных путем имитационного обучения или эвристики; и (3) WildLMa-Planner - интерфейс обученных навыков, позволяющий планировщикам LLM координировать навыки для задач с долгосрочным планом. Мы демонстрируем важность высококачественных обучающих данных, достигая более высокой успешности захвата по сравнению с существующими базовыми моделями RL, используя всего несколько демонстраций. WildLMa использует CLIP для обучения по имитации, зависящего от языка, что эмпирически обобщается на объекты, не учтенные в обучающих демонстрациях. Помимо обширной количественной оценки, мы качественно демонстрируем практические применения робота, такие как уборка мусора в коридорах университета или на открытых территориях, управление артикулированными объектами и перестановка предметов на книжной полке.
Сегментация облаков является важной задачей в интерпретации изображений с помощью дистанционного зондирования, поскольку ее точность напрямую влияет на эффективность последующей обработки и анализа данных. Недавно модели основы зрения (VFM) продемонстрировали мощные обобщающие способности в различных визуальных задачах. В данной статье мы представляем параметрически эффективный адаптивный подход, названный Cloud-Adapter, разработанный для улучшения точности и надежности сегментации облаков. Наш метод использует VFM, предварительно обученную на данных общего назначения, которая остается замороженной, исключая необходимость в дополнительном обучении. Cloud-Adapter включает легковесный модуль пространственного восприятия, который изначально использует сверточную нейронную сеть (ConvNet) для извлечения плотных пространственных представлений. Эти многомасштабные признаки затем агрегируются и служат контекстными входами для модуля адаптации, который модулирует замороженные трансформаторные слои в VFM. Экспериментальные результаты показывают, что подход Cloud-Adapter, использующий всего лишь 0.6% обучаемых параметров замороженной основы, достигает существенного увеличения производительности. Cloud-Adapter последовательно достигает передовой производительности (SOTA) на широком спектре наборов данных по сегментации облаков из различных источников спутников, серий сенсоров, уровней обработки данных, сценариев покрытия земли и гранулярности аннотаций. Мы выпустили исходный код и предварительно обученные модели на https://github.com/XavierJiezou/Cloud-Adapter для поддержки дальнейших исследований.
В последние годы исследования в области взаимодействия человека с роботами сосредоточены на разработке роботов, способных понимать сложные человеческие инструкции и выполнять задачи в динамичных и разнообразных средах. Эти системы имеют широкий спектр применений, от личной помощи до промышленной робототехники, подчеркивая важность гибкого, естественного и безопасного взаимодействия роботов с людьми. В данной статье представлена передовая архитектура для планирования действий роботов, которая интегрирует коммуникацию, восприятие и планирование с Моделями Больших Языковых Моделей (LLM). Наша система разработана для того, чтобы переводить команды, выраженные естественным языком, в исполнимые действия робота, интегрируя информацию об окружающей среде и динамически обновляя планы на основе обратной связи в реальном времени. Модуль Планирования является ядром системы, где LLM, встроенные в модифицированную структуру ReAct, используются для интерпретации и выполнения команд пользователей. Используя свои обширные предварительно обученные знания, LLM могут эффективно обрабатывать запросы пользователей без необходимости внедрения новых знаний о изменяющейся среде. Модифицированная структура ReAct дополнительно расширяет пространство выполнения, предоставляя восприятие окружающей среды в реальном времени и результаты физических действий. Путем сочетания надежных и динамических семантических карт в виде графов с управляющими компонентами и объяснениями неудач, данная архитектура улучшает адаптивность робота, выполнение задач и бесшовное взаимодействие с людьми в общих и динамичных средах. Через интеграцию непрерывных циклов обратной связи с окружающей средой система может динамически корректировать план для учета неожиданных изменений, оптимизируя способность робота выполнять задачи. С использованием набора данных предыдущего опыта возможно предоставление подробной обратной связи о неудаче. Обновляя контекст LLM для следующей итерации с предложениями о том, как преодолеть проблему.