Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

TÜLU 3: Расширение границ в посттренировке открытой языковой модели
TÜLU 3: Pushing Frontiers in Open Language Model Post-Training

Nov 22

ByNathan Lambert, Jacob Morrison, Valentina Pyatkin, Shengyi Huang, Hamish Ivison, Faeze Brahman, Lester James V. Miranda, Alisa Liu, Nouha Dziri, Shane Lyu, Yuling Gu, Saumya Malik, Victoria Graf, Jena D. Hwang, Jiangjiang Yang, Ronan Le Bras, Oyvind Tafjord, Chris Wilhelm, Luca Soldaini, Noah A. Smith, Yizhong Wang, Pradeep Dasigi, Hannaneh Hajishirzi

Пост-тренировка языковой модели применяется для улучшения поведения и разблокировки новых навыков в широком диапазоне недавних языковых моделей, однако открытые рецепты для применения этих техник отстают от проприетарных. Основные данные обучения и рецепты для пост-тренировки одновременно являются наиболее важными элементами пазла и частью с наименьшей прозрачностью. Для устранения этого разрыва мы представляем T\"ULU 3, семейство современных пост-тренированных моделей, вместе с данными, кодом и рецептами обучения, служащими в качестве всеобъемлющего руководства по современным техникам пост-тренировки. T\"ULU 3, основанный на базовых моделях Llama 3.1, достигает результатов, превосходящих версии Instruct Llama 3.1, Qwen 2.5, Mistral, а также закрытые модели, такие как GPT-4o-mini и Claude 3.5-Haiku. Алгоритмы обучения для наших моделей включают надзорное дообучение (SFT), прямую оптимизацию предпочтений (DPO) и новый метод, который мы называем Обучением с подтверждаемыми наградами на основе обучения с подкреплением (RLVR). С помощью T\"ULU 3 мы представляем схему оценки многозадачной пост-тренировки с разработкой и оценкой на невидимых данных, стандартные реализации бенчмарков и значительную деконтаминацию существующих открытых наборов данных на этих бенчмарках. Мы завершаем анализом и обсуждением методов обучения, которые не надежно улучшили производительность. Помимо весов модели T\"ULU 3 и демонстрации, мы публикуем полный рецепт, включая наборы данных для разнообразных основных навыков, надежный инструментарий для курирования и оценки данных, код и инфраструктуру обучения, а также, что самое важное, подробный отчет для воспроизведения и дальнейшей адаптации подхода T\"ULU 3 к другим областям.

OminiControl: Минимальное и универсальное управление для Диффузионного Трансформера
OminiControl: Minimal and Universal Control for Diffusion Transformer

Nov 22

ByZhenxiong Tan, Songhua Liu, Xingyi Yang, Qiaochu Xue, Xinchao Wang

В данной статье мы представляем OminiControl - высокоуниверсальную и параметроэффективную структуру, интегрирующую условия изображения в предварительно обученные модели Диффузионного Трансформера (DiT). В основе OminiControl лежит механизм повторного использования параметров, позволяющий DiT кодировать условия изображения, используя себя в качестве мощного основания, и обрабатывать их с помощью гибких мультимодальных процессоров внимания. В отличие от существующих методов, которые сильно полагаются на дополнительные модули кодировщика с комплексными архитектурами, OminiControl (1) эффективно и эффективно интегрирует внедренные условия изображения только с добавлением ~0.1% дополнительных параметров, и (2) решает широкий спектр задач условного форматирования изображения единообразным образом, включая генерацию, управляемую объектами, и пространственно выровненные условия, такие как края, глубина и другие. Замечательно, что эти возможности достигаются путем обучения на изображениях, сгенерированных самим DiT, что особенно полезно для генерации, управляемой объектами. Обширные оценки показывают, что OminiControl превосходит существующие модели на основе UNet и адаптированные модели DiT как в генерации, управляемой объектами, так и в условной генерации с пространственным выравниванием. Кроме того, мы предоставляем наш набор данных для обучения, Subjects200K, разнообразную коллекцию из более чем 200 000 изображений, согласованных по идентификации, а также эффективный процесс синтеза данных для продвижения исследований в области согласованной генерации объектов.

Модель текст в изображение большого масштаба с заполнением - это генератор изображений, управляемый предметом, с нулевой обучающей выборкой.
Large-Scale Text-to-Image Model with Inpainting is a Zero-Shot Subject-Driven Image Generator

Nov 23

ByChaehun Shin, Jooyoung Choi, Heeseung Kim, Sungroh Yoon

Генерация изображений на основе текста, ориентированная на объект, направлена на создание изображений нового объекта в желаемом контексте путем точного захвата как визуальных характеристик объекта, так и семантического содержания текстовой подсказки. Традиционные методы полагаются на трудоемкую настройку для выравнивания объекта, в то время как недавние нулевые подходы используют мгновенное подсказывание изображения, часто жертвуя выравниванием объекта. В данной статье мы представляем Diptych Prompting, новый нулевой подход, который переосмысливает как задачу заполнения пропусков с точным выравниванием объекта, используя возникающее свойство генерации диптихов в масштабных моделях текст-изображение. Diptych Prompting устанавливает неполный диптих с эталонным изображением в левой панели и выполняет заполнение пропусков, зависящее от текста, в правой панели. Мы также предотвращаем нежелательное проникновение контента, удаляя фон на эталонном изображении, и улучшаем мелкие детали в созданном объекте, улучшая веса внимания между панелями во время заполнения пропусков. Экспериментальные результаты подтверждают, что наш подход значительно превосходит методы мгновенного подсказывания изображения, что приводит к изображениям, которые визуально предпочтительны для пользователей. Кроме того, наш метод поддерживает не только генерацию, ориентированную на объект, но и генерацию стилизованных изображений и редактирование изображений, ориентированное на объект, демонстрируя универсальность в различных приложениях генерации изображений. Страница проекта: https://diptychprompting.github.io/

Образец SNR-дискриминатора для генерации, управляемой стилем.
Style-Friendly SNR Sampler for Style-Driven Generation

Nov 22

ByJooyoung Choi, Chaehun Shin, Yeongtak Oh, Heeseung Kim, Sungroh Yoon

Недавние модели масштабного распространения генерируют изображения высокого качества, но испытывают трудности в изучении новых, персонализированных художественных стилей, что ограничивает создание уникальных стилевых шаблонов. Наилучшим подходом является донастройка с использованием опорных изображений, однако часто она слепо использует цели и распределения уровня шума, использованные для предварительного обучения, что приводит к неоптимальному выравниванию стилей. Мы предлагаем сэмплер SNR, дружественный к стилю, который агрессивно сдвигает распределение сигнал-шум (SNR) в сторону более высоких уровней шума во время донастройки для фокусировки на уровнях шума, где проявляются стилевые особенности. Это позволяет моделям лучше улавливать уникальные стили и генерировать изображения с более высоким стилевым выравниванием. Наш метод позволяет моделям распространения изучать и обмениваться новыми "стилевыми шаблонами", улучшая создание персонализированного контента. Мы продемонстрировали возможность генерировать стили, такие как персональные акварельные картины, минималистические плоские мультфильмы, 3D-рендеринги, многофункциональные изображения и мемы с текстом, тем самым расширяя область стилевой генерации.

Гибкая методология разработки ограничителей для крупных языковых моделей, применяемая для обнаружения неактуальных запросов.
A Flexible Large Language Models Guardrail Development Methodology Applied to Off-Topic Prompt Detection

Nov 20

ByGabriel Chua, Shing Yee Chan, Shaun Khoo

Большие языковые модели подвержены неправильному использованию вне темы, когда пользователи могут побуждать эти модели выполнять задачи, выходящие за рамки их предназначения. Существующие ограничения, которые часто опираются на отобранные примеры или специальные классификаторы, страдают от высоких показателей ложноположительных результатов, ограниченной адаптивности и невозможности требовать реальных данных, которые недоступны на этапе предпроизводства. В данной статье мы представляем гибкую методологию разработки ограничений без использования данных, которая решает эти проблемы. Путем тщательного определения качественного пространства проблемы и передачи этого LLM для генерации разнообразных подсказок мы создаем синтетический набор данных для оценки и обучения ограничений вне темы, превосходящих эвристические подходы. Кроме того, представляя задачу как классификацию того, является ли подсказка пользователя соответствующей системной подсказке, наши ограничения эффективно обобщаются на другие категории неправильного использования, включая обход защиты и вредоносные подсказки. Наконец, мы дополнительно вносим вклад в область, предоставляя в открытый доступ как синтетический набор данных, так и модели ограничений вне темы, обеспечивая ценные ресурсы для разработки ограничений в средах предпроизводства и поддержки будущих исследований и разработок в области безопасности LLM.

Мой Временной Аппарат: Индивидуализированное Преобразование Возраста Лица
MyTimeMachine: Personalized Facial Age Transformation

Nov 21

ByLuchao Qi, Jiaye Wu, Bang Gong, Annie N. Wang, David W. Jacobs, Roni Sengupta

Старение лица - это сложный процесс, сильно зависящий от множества факторов, таких как пол, этническая принадлежность, образ жизни и т. д., что делает его чрезвычайно сложным для изучения глобального старения с целью точного прогнозирования старения для любого индивида. Существующие техники часто производят реалистичные и правдоподобные результаты старения, однако переотображенные изображения часто не похожи на внешность человека в целевом возрасте и, следовательно, требуют персонализации. Во многих практических применениях виртуального старения, например, в визуальных эффектах в кино и телешоу, доступ к личной фотоколлекции пользователя, отражающей старение в небольшом временном интервале (20-40 лет), часто доступен. Однако наивные попытки персонализировать глобальные техники старения на личных фотоколлекциях часто оказываются неудачными. Поэтому мы предлагаем MyTimeMachine (MyTM), который объединяет глобальное старение с личной фотоколлекцией (используя всего 50 изображений) для изучения персонализированного преобразования возраста. Мы представляем новую сеть адаптеров, которая объединяет персонализированные признаки старения с глобальными признаками старения и генерирует переотображенное изображение с использованием StyleGAN2. Мы также вводим три функции потерь для персонализации сети адаптеров с потерей персонализированного старения, регуляризацией экстраполяции и адаптивной регуляризацией w-нормы. Наш подход также может быть расширен на видео, достигая высококачественных, сохраняющих идентичность и временно согласованных эффектов старения, которые напоминают реальный внешний вид в целевые возрасты, демонстрируя его превосходство над современными подходами.

BALROG: Оценка агентного логико-лингвистического и визуально-лингвистического мышления в играх
BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games

Nov 20

ByDavide Paglieri, Bartłomiej Cupiał, Samuel Coward, Ulyana Piterbarg, Maciej Wolczyk, Akbir Khan, Eduardo Pignatelli, Łukasz Kuciński, Lerrel Pinto, Rob Fergus, Jakob Nicolaus Foerster, Jack Parker-Holder, Tim Rocktäschel

Большие языковые модели (LLM) и модели языка и зрения (VLM) обладают обширными знаниями и проявляют многообещающие способности к рассуждениям; однако они все еще испытывают трудности в успешном выполнении задач в сложных и динамичных средах. Реальные задачи требуют обработки сложных взаимодействий, продвинутого пространственного мышления, долгосрочного планирования и непрерывного исследования новых стратегий - областей, в которых нам не хватает эффективных методологий для всесторонней оценки этих способностей. Для решения этого пробела мы представляем BALROG, новый бенчмарк, разработанный для оценки агентных способностей LLM и VLM через разнообразный набор сложных игр. Наш бенчмарк включает в себя ряд существующих сред обучения с подкреплением с разными уровнями сложности, включая задачи, которые решаются неспециалистами за секунды, и крайне сложные, которые могут потребовать годы для освоения (например, среда обучения NetHack). Мы разрабатываем тонкие метрики для измерения производительности и проводим обширную оценку нескольких популярных открытых и закрытых LLM и VLM. Наши результаты показывают, что текущие модели добиваются частичного успеха в более легких играх, но испытывают значительные трудности с более сложными задачами. Особенно мы наблюдаем серьезные недостатки в принятии решений на основе зрительных данных, поскольку модели показывают более плохие результаты, когда им предоставляются визуальные представления сред. Мы выпускаем BALROG в качестве открытого и удобного для пользователя бенчмарка для содействия будущим исследованиям и разработкам в сообществе агентов.

Большие мультимодальные модели могут интерпретировать признаки в больших мультимодальных моделях.
Large Multi-modal Models Can Interpret Features in Large Multi-modal Models

Nov 22

ByKaichen Zhang, Yifei Shen, Bo Li, Ziwei Liu

Недавние достижения в области крупных мультимодальных моделей (Large Multimodal Models, LMMs) привели к значительным прорывам как в академической среде, так и в промышленности. Одним из возникающих вопросов является то, как мы, как люди, можем понять их внутренние нейронные представления. Настоящая статья делает первый шаг к решению этого вопроса, представляя универсальную методику для выявления и интерпретации семантики внутри LMMs. Конкретно, 1) мы сначала применяем Разреженный автокодировщик (Sparse Autoencoder, SAE) для разделения представлений на понятные человеку особенности. 2) Затем мы представляем автоматическую методику интерпретации для интерпретации открытой семантической особенности, выученной в SAE самими LMMs. Мы используем эту методику для анализа модели LLaVA-NeXT-8B с использованием модели LLaVA-OV-72B, демонстрируя, что эти особенности могут эффективно управлять поведением модели. Наши результаты способствуют более глубокому пониманию причин, почему LMMs преуспевают в конкретных задачах, включая тесты на эмоциональный интеллект, и проливают свет на характер их ошибок, а также потенциальные стратегии для их исправления. Эти выводы предлагают новые идеи о внутренних механизмах LMMs и указывают на параллели с когнитивными процессами человеческого мозга.

VideoEspresso: крупномасштабный набор данных Chain-of-Thought для тонкой видео-рассуждения через выбор основных кадров
VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection

Nov 22

BySonghao Han, Wei Huang, Hairong Shi, Le Zhuo, Xiu Su, Shifeng Zhang, Xu Zhou, Xiaojuan Qi, Yue Liao, Si Liu

Развитие моделей больших мультимодальных языковых моделей (LVLM) значительно улучшило мультимодальное понимание, однако остаются вызовы в задачах видеоразмышлений из-за недостатка качественных крупномасштабных наборов данных. Существующие наборы данных видеовопросов-ответов (VideoQA) часто зависят от дорогостоящих ручных аннотаций с недостаточной детализацией или автоматических методов создания с избыточным анализом кадр за кадром, что ограничивает их масштабируемость и эффективность для сложного рассуждения. Для решения этих вызовов мы представляем VideoEspresso, новый набор данных, который содержит пары VideoQA, сохраняющие важные пространственные детали и временную согласованность, а также мультимодальные аннотации промежуточных шагов рассуждения. Наша методика создания использует семантически осознанный метод для сокращения избыточности, за которым следует генерация пар вопрос-ответ с использованием GPT-4o. Мы также разрабатываем аннотации видео "Цепочка Мысли" (CoT), чтобы обогатить процессы рассуждения, направляя GPT-4o на извлечение логических связей из пар вопрос-ответ и видеоконтента. Для использования потенциала высококачественных пар VideoQA мы предлагаем гибридную рамочную модель сотрудничества LVLM, включающую Селектор Кадров и LVLM с двухэтапной настройкой рассуждения по инструкциям. Эта модель адаптивно выбирает основные кадры и выполняет рассуждения CoT с использованием мультимодальных доказательств. Протестированная на нашем предложенном бенчмарке с 14 задачами против 9 популярных LVLM, наш метод превосходит существующие базовые уровни по большинству задач, демонстрируя превосходные возможности видеорассуждения. Наш код и набор данных будут опубликованы по адресу: https://github.com/hshjerry/VideoEspresso

Эффективная токенизация длинного видео с использованием координатно-основанной восстановления патчей.
Efficient Long Video Tokenization via Coordinated-based Patch Reconstruction

Nov 22

ByHuiwon Jang, Sihyun Yu, Jinwoo Shin, Pieter Abbeel, Younggyo Seo

Эффективная токенизация видео остается вызовом при обучении моделей зрения, способных обрабатывать длинные видеоролики. Одним из перспективных направлений является разработка токенизатора, способного кодировать длинные видеоролики, поскольку это позволит токенизатору лучше использовать временную согласованность видео для токенизации. Однако обучение существующих токенизаторов на длинных видеороликах часто сопряжено с огромными затратами на обучение, поскольку они обучаются восстанавливать все кадры сразу. В данной статье мы представляем CoordTok, видео-токенизатор, который изучает отображение от координатных представлений к соответствующим фрагментам входных видеороликов, вдохновленный последними достижениями в области 3D генеративных моделей. В частности, CoordTok кодирует видео в факторизованные трехплоские представления и восстанавливает фрагменты, соответствующие случайно выбранным координатам (x, y, t). Это позволяет обучать крупные модели токенизаторов напрямую на длинных видеороликах без необходимости излишних ресурсов для обучения. Наши эксперименты показывают, что CoordTok может значительно сократить количество токенов для кодирования длинных видеороликов. Например, CoordTok может закодировать видео из 128 кадров с разрешением 128 на 128 в 1280 токенов, в то время как базовые модели требуют 6144 или 8192 токена для достижения аналогичного качества восстановления. Мы также показываем, что эта эффективная токенизация видео позволяет обучать память-эффективный тренировочный диффузионный трансформер, который может генерировать 128 кадров сразу.

Новаторское экстраполирование видов с использованием видео-диффузионных априорных данных
Novel View Extrapolation with Video Diffusion Priors

Nov 21

ByKunhao Liu, Ling Shao, Shijian Lu

Область синтеза нового вида значительно продвинулась благодаря развитию методов радиационного поля. Однако большинство техник радиационного поля гораздо лучше справляются с интерполяцией нового вида, чем с экстраполяцией нового вида, когда синтезируемые новые виды значительно выходят за пределы наблюдаемых обучающих видов. Мы разработали ViewExtrapolator, подход к синтезу нового вида, который использует генеративные априорные знания Stable Video Diffusion (SVD) для реалистичной экстраполяции нового вида. Перепроектировав процесс шумоподавления SVD, ViewExtrapolator улучшает артефактные виды, созданные радиационными полями, значительно повышая четкость и реализм синтезированных новых видов. ViewExtrapolator является универсальным экстраполятором нового вида, который может работать с различными типами 3D-рендеринга, такими как виды, созданные из облаков точек, когда доступен только один вид или монокулярное видео. Кроме того, для работы ViewExtrapolator не требуется тонкая настройка SVD, что делает его как экономичным по данным, так и по вычислениям. Обширные эксперименты демонстрируют превосходство ViewExtrapolator в экстраполяции нового вида. Страница проекта: https://kunhao-liu.github.io/ViewExtrapolator/.

VideoRepair: Улучшение генерации видео по тексту с помощью оценки смещения и локальной доработки
VideoRepair: Improving Text-to-Video Generation via Misalignment Evaluation and Localized Refinement

Nov 22

ByDaeun Lee, Jaehong Yoon, Jaemin Cho, Mohit Bansal

Недавние модели диффузии текста в видео (T2V) продемонстрировали впечатляющие возможности генерации в различных областях. Однако эти модели часто создают видео с несоответствиями текстовым подсказкам, особенно когда подсказки описывают сложные сцены с несколькими объектами и атрибутами. Для решения этой проблемы мы представляем VideoRepair, новую модель-агностическую, не требующую обучения, структуру улучшения видео, которая автоматически определяет мелкие несоответствия текста и видео и генерирует явные пространственные и текстовые обратные связи, позволяя модели диффузии T2V выполнять целевые локализованные улучшения. VideoRepair состоит из четырех этапов: на (1) оценке видео мы обнаруживаем несоответствия, генерируя детализированные вопросы оценки и отвечая на них с помощью MLLM. На (2) планировании улучшений мы идентифицируем точно сгенерированные объекты и затем создаем локализованные подсказки для улучшения других областей в видео. Затем на (3) декомпозиции регионов мы сегментируем правильно сгенерированную область с помощью объединенного модуля опоры. Мы воссоздаем видео, корректируя несоответствующие регионы, сохраняя при этом правильные регионы на (4) локализованном улучшении. На двух популярных бенчмарках генерации видео (EvalCrafter и T2V-CompBench) VideoRepair значительно превосходит недавние базовые уровни по различным метрикам выравнивания текста и видео. Мы предоставляем всесторонний анализ компонентов VideoRepair и качественные примеры.

WildLMa: Долгосрочная локо-манипуляция в дикой среде
WildLMa: Long Horizon Loco-Manipulation in the Wild

Nov 22

ByRi-Zhao Qiu, Yuchen Song, Xuanbin Peng, Sai Aneesh Suryadevara, Ge Yang, Minghuan Liu, Mazeyu Ji, Chengzhe Jia, Ruihan Yang, Xueyan Zou, Xiaolong Wang

Мобильная манипуляция "в естественной среде" нацелена на развертывание роботов в разнообразных реальных средах, что требует от робота (1) обладать навыками, которые обобщаются на различные конфигурации объектов; (2) быть способным к выполнению задач с долгосрочным планом в разнообразных средах; и (3) выполнять сложные манипуляции, выходящие за рамки простого взятия и установки. Роботы на четырех ногах с манипуляторами обещают расширить рабочее пространство и обеспечить надежное передвижение, однако существующие результаты не исследуют такую возможность. В данной статье предлагается WildLMa с тремя компонентами для решения этих проблем: (1) адаптация обученного контроллера низкого уровня для телооперации с использованием VR и проходимости; (2) WildLMa-Skill - библиотека обобщаемых визуомоторных навыков, полученных путем имитационного обучения или эвристики; и (3) WildLMa-Planner - интерфейс обученных навыков, позволяющий планировщикам LLM координировать навыки для задач с долгосрочным планом. Мы демонстрируем важность высококачественных обучающих данных, достигая более высокой успешности захвата по сравнению с существующими базовыми моделями RL, используя всего несколько демонстраций. WildLMa использует CLIP для обучения по имитации, зависящего от языка, что эмпирически обобщается на объекты, не учтенные в обучающих демонстрациях. Помимо обширной количественной оценки, мы качественно демонстрируем практические применения робота, такие как уборка мусора в коридорах университета или на открытых территориях, управление артикулированными объектами и перестановка предметов на книжной полке.

Адаптация моделей основного зрения для надежной сегментации облаков в изображениях дистанционного зондирования.
Adapting Vision Foundation Models for Robust Cloud Segmentation in Remote Sensing Images

Nov 20

ByXuechao Zou, Shun Zhang, Kai Li, Shiying Wang, Junliang Xing, Lei Jin, Congyan Lang, Pin Tao

Сегментация облаков является важной задачей в интерпретации изображений с помощью дистанционного зондирования, поскольку ее точность напрямую влияет на эффективность последующей обработки и анализа данных. Недавно модели основы зрения (VFM) продемонстрировали мощные обобщающие способности в различных визуальных задачах. В данной статье мы представляем параметрически эффективный адаптивный подход, названный Cloud-Adapter, разработанный для улучшения точности и надежности сегментации облаков. Наш метод использует VFM, предварительно обученную на данных общего назначения, которая остается замороженной, исключая необходимость в дополнительном обучении. Cloud-Adapter включает легковесный модуль пространственного восприятия, который изначально использует сверточную нейронную сеть (ConvNet) для извлечения плотных пространственных представлений. Эти многомасштабные признаки затем агрегируются и служат контекстными входами для модуля адаптации, который модулирует замороженные трансформаторные слои в VFM. Экспериментальные результаты показывают, что подход Cloud-Adapter, использующий всего лишь 0.6% обучаемых параметров замороженной основы, достигает существенного увеличения производительности. Cloud-Adapter последовательно достигает передовой производительности (SOTA) на широком спектре наборов данных по сегментации облаков из различных источников спутников, серий сенсоров, уровней обработки данных, сценариев покрытия земли и гранулярности аннотаций. Мы выпустили исходный код и предварительно обученные модели на https://github.com/XavierJiezou/Cloud-Adapter для поддержки дальнейших исследований.

Один, чтобы править ими всеми: естественный язык для связи, восприятия и действия.
One to rule them all: natural language to bind communication, perception and action

Nov 22

BySimone Colombani, Dimitri Ognibene, Giuseppe Boccignone

В последние годы исследования в области взаимодействия человека с роботами сосредоточены на разработке роботов, способных понимать сложные человеческие инструкции и выполнять задачи в динамичных и разнообразных средах. Эти системы имеют широкий спектр применений, от личной помощи до промышленной робототехники, подчеркивая важность гибкого, естественного и безопасного взаимодействия роботов с людьми. В данной статье представлена передовая архитектура для планирования действий роботов, которая интегрирует коммуникацию, восприятие и планирование с Моделями Больших Языковых Моделей (LLM). Наша система разработана для того, чтобы переводить команды, выраженные естественным языком, в исполнимые действия робота, интегрируя информацию об окружающей среде и динамически обновляя планы на основе обратной связи в реальном времени. Модуль Планирования является ядром системы, где LLM, встроенные в модифицированную структуру ReAct, используются для интерпретации и выполнения команд пользователей. Используя свои обширные предварительно обученные знания, LLM могут эффективно обрабатывать запросы пользователей без необходимости внедрения новых знаний о изменяющейся среде. Модифицированная структура ReAct дополнительно расширяет пространство выполнения, предоставляя восприятие окружающей среды в реальном времени и результаты физических действий. Путем сочетания надежных и динамических семантических карт в виде графов с управляющими компонентами и объяснениями неудач, данная архитектура улучшает адаптивность робота, выполнение задач и бесшовное взаимодействие с людьми в общих и динамичных средах. Через интеграцию непрерывных циклов обратной связи с окружающей средой система может динамически корректировать план для учета неожиданных изменений, оптимизируя способность робота выполнять задачи. С использованием набора данных предыдущего опыта возможно предоставление подробной обратной связи о неудаче. Обновляя контекст LLM для следующей итерации с предложениями о том, как преодолеть проблему.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

TÜLU 3: Расширение границ в посттренировке открытой языковой модели
TÜLU 3: Pushing Frontiers in Open Language Model Post-Training

Nov 22

OminiControl: Минимальное и универсальное управление для Диффузионного Трансформера
OminiControl: Minimal and Universal Control for Diffusion Transformer

Nov 22

ByZhenxiong Tan, Songhua Liu, Xingyi Yang, Qiaochu Xue, Xinchao Wang

Модель текст в изображение большого масштаба с заполнением - это генератор изображений, управляемый предметом, с нулевой обучающей выборкой.
Large-Scale Text-to-Image Model with Inpainting is a Zero-Shot Subject-Driven Image Generator

Nov 23

ByChaehun Shin, Jooyoung Choi, Heeseung Kim, Sungroh Yoon

Образец SNR-дискриминатора для генерации, управляемой стилем.
Style-Friendly SNR Sampler for Style-Driven Generation

Nov 22

ByJooyoung Choi, Chaehun Shin, Yeongtak Oh, Heeseung Kim, Sungroh Yoon

Гибкая методология разработки ограничителей для крупных языковых моделей, применяемая для обнаружения неактуальных запросов.
A Flexible Large Language Models Guardrail Development Methodology Applied to Off-Topic Prompt Detection

Nov 20

ByGabriel Chua, Shing Yee Chan, Shaun Khoo

Мой Временной Аппарат: Индивидуализированное Преобразование Возраста Лица
MyTimeMachine: Personalized Facial Age Transformation

Nov 21

ByLuchao Qi, Jiaye Wu, Bang Gong, Annie N. Wang, David W. Jacobs, Roni Sengupta

BALROG: Оценка агентного логико-лингвистического и визуально-лингвистического мышления в играх
BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games

Nov 20

Большие мультимодальные модели могут интерпретировать признаки в больших мультимодальных моделях.
Large Multi-modal Models Can Interpret Features in Large Multi-modal Models

Nov 22

ByKaichen Zhang, Yifei Shen, Bo Li, Ziwei Liu

VideoEspresso: крупномасштабный набор данных Chain-of-Thought для тонкой видео-рассуждения через выбор основных кадров
VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection

Nov 22

BySonghao Han, Wei Huang, Hairong Shi, Le Zhuo, Xiu Su, Shifeng Zhang, Xu Zhou, Xiaojuan Qi, Yue Liao, Si Liu

Эффективная токенизация длинного видео с использованием координатно-основанной восстановления патчей.
Efficient Long Video Tokenization via Coordinated-based Patch Reconstruction

Nov 22

ByHuiwon Jang, Sihyun Yu, Jinwoo Shin, Pieter Abbeel, Younggyo Seo

Новаторское экстраполирование видов с использованием видео-диффузионных априорных данных
Novel View Extrapolation with Video Diffusion Priors

Nov 21

ByKunhao Liu, Ling Shao, Shijian Lu

VideoRepair: Улучшение генерации видео по тексту с помощью оценки смещения и локальной доработки
VideoRepair: Improving Text-to-Video Generation via Misalignment Evaluation and Localized Refinement

Nov 22

ByDaeun Lee, Jaehong Yoon, Jaemin Cho, Mohit Bansal

WildLMa: Долгосрочная локо-манипуляция в дикой среде
WildLMa: Long Horizon Loco-Manipulation in the Wild

Nov 22

ByRi-Zhao Qiu, Yuchen Song, Xuanbin Peng, Sai Aneesh Suryadevara, Ge Yang, Minghuan Liu, Mazeyu Ji, Chengzhe Jia, Ruihan Yang, Xueyan Zou, Xiaolong Wang

Адаптация моделей основного зрения для надежной сегментации облаков в изображениях дистанционного зондирования.
Adapting Vision Foundation Models for Robust Cloud Segmentation in Remote Sensing Images

Nov 20

ByXuechao Zou, Shun Zhang, Kai Li, Shiying Wang, Junliang Xing, Lei Jin, Congyan Lang, Pin Tao

Один, чтобы править ими всеми: естественный язык для связи, восприятия и действия.
One to rule them all: natural language to bind communication, perception and action

Nov 22

BySimone Colombani, Dimitri Ognibene, Giuseppe Boccignone