Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Расширение границ производительности мульти-модельных моделей с открытым исходным кодом с помощью масштабирования модели, данных и времени тестирования.
Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling

Dec 6, 2024

Zhe Chen, Weiyun Wang, Yue Cao, Yangzhou Liu, Zhangwei Gao, Erfei Cui, Jinguo Zhu, Shenglong Ye, Hao Tian, Zhaoyang Liu, Lixin Gu, Xuehui Wang, Qingyun Li, Yimin Ren, Zixuan Chen, Jiapeng Luo, Jiahao Wang, Tan Jiang, Bo Wang, Conghui He, Botian Shi, Xingcheng Zhang, Han Lv, Yi Wang, Wenqi Shao, Pei Chu, Zhongying Tu, Tong He, Zhiyong Wu, Huipeng Deng, Jiaye Ge, Kai Chen, Min Dou, Lewei Lu, Xizhou Zhu, Tong Lu, Dahua Lin, Yu Qiao, Jifeng Dai, Wenhai Wang

1606

Мы представляем InternVL 2.5 - передовую серию мультимодальных крупных языковых моделей (MLLM), основанную на InternVL 2.0, сохраняющую ее основную архитектуру модели и внедряющую значительные улучшения в стратегии обучения и тестирования, а также в качестве данных. В данной работе мы глубоко исследуем взаимосвязь между масштабированием модели и производительностью, систематически изучая тенденции производительности в области визуальных кодировщиков, языковых моделей, размеров наборов данных и конфигураций времени тестирования. Проведя обширные оценки на широком спектре бенчмарков, включая междисциплинарное рассуждение, понимание документов, мультиизображения/видеопонимание, понимание реального мира, обнаружение мультимодальных галлюцинаций, визуальное привязывание, мультиязычные возможности и чистую обработку языка, InternVL 2.5 демонстрирует конкурентоспособную производительность, не уступая ведущим коммерческим моделям, таким как GPT-4o и Claude-3.5-Sonnet. Значительно, наша модель является первой открытой мультимодальной MLLM, превосходящей 70% на бенчмарке MMMU, достигая улучшения на 3,7 пункта благодаря рассуждениям Chain-of-Thought (CoT) и демонстрируя сильный потенциал для масштабирования во время тестирования. Мы надеемся, что эта модель внесет вклад в сообщество с открытым исходным кодом, устанавливая новые стандарты для разработки и применения мультимодальных систем искусственного интеллекта. Демонстрация HuggingFace см. по ссылке https://huggingface.co/spaces/OpenGVLab/InternVL

EXAONE 3.5: Серия крупных моделей языка для реальных сценариев использования
EXAONE 3.5: Series of Large Language Models for Real-world Use Cases

Dec 6, 2024

LG AI Research, Soyoung An, Kyunghoon Bae, Eunbi Choi, Kibong Choi, Stanley Jungkyu Choi, Seokhee Hong, Junwon Hwang, Hyojin Jeon, Gerrard Jeongwon Jo, Hyunjik Jo, Jiyeon Jung, Yountae Jung, Hyosang Kim, Joonkee Kim, Seonghwan Kim, Soyeon Kim, Sunkyoung Kim, Yireun Kim, Yongil Kim, Youchul Kim, Edward Hwayoung Lee, Haeju Lee, Honglak Lee, Jinsik Lee, Kyungmin Lee, Woohyung Lim, Sangha Park, Sooyoun Park, Yongmin Park, Sihoon Yang, Heuiyeen Yeen, Hyeongu Yun

515

Данный технический отчет представляет языковые модели EXAONE 3.5, настроенные на инструкции, разработанные и выпущенные LG AI Research. Языковые модели EXAONE 3.5 предлагаются в трех конфигурациях: 32B, 7.8B и 2.4B. Эти модели обладают несколькими выдающимися возможностями: 1) исключительные способности следования инструкциям в реальных сценариях, достигая самых высоких показателей по семи бенчмаркам, 2) выдающееся понимание длинного контекста, достигая лучших результатов в четырех бенчмарках, и 3) конкурентоспособные результаты по сравнению с передовыми открытыми моделями схожих размеров по девяти общим бенчмаркам. Языковые модели EXAONE 3.5 доступны для исследовательских целей и могут быть загружены с https://huggingface.co/LGAI-EXAONE. Для коммерческого использования, пожалуйста, свяжитесь с официальным контактным лицом LG AI Research: contact_us@lgresearch.ai.

LiFT: Использование обратной связи человека для выравнивания модели текст-видео.
LiFT: Leveraging Human Feedback for Text-to-Video Model Alignment

Dec 6, 2024

Yibin Wang, Zhiyu Tan, Junyan Wang, Xiaomeng Yang, Cheng Jin, Hao Li

493

Недавние достижения в области генеративных моделей текст-в-видео (T2V) показали впечатляющие возможности. Однако эти модели все еще недостаточны для согласования синтезированных видеороликов с человеческими предпочтениями (например, точное отражение текстовых описаний), что является особенно сложной задачей, поскольку человеческие предпочтения по своей природе субъективны и трудно формализуются как объективные функции. В данной статье предлагается метод LiFT, новый метод настройки с использованием обратной связи от людей для согласования модели T2V. Конкретно, мы сначала создаем набор данных аннотаций оценок людей, LiFT-HRA, состоящий примерно из 10 тыс. аннотаций, каждая из которых включает оценку и соответствующее обоснование. На основе этого мы обучаем модель вознаграждения LiFT-Critic для эффективного изучения функции вознаграждения, которая служит прокси для человеческого суждения, измеряя соответствие между предоставленными видеороликами и ожиданиями людей. Наконец, мы используем изученную функцию вознаграждения для согласования модели T2V путем максимизации правдоподобия с учетом вознаграждения. В качестве кейс-стади мы применяем наш конвейер к CogVideoX-2B, показывая, что настроенная модель превосходит CogVideoX-5B по всем 16 метрикам, подчеркивая потенциал обратной связи от людей в улучшении согласования и качества синтезированных видеороликов.

MAmmoTH-VL: Вызов мультимодального мышления с настройкой инструкций в масштабе
MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale

Dec 6, 2024

Jarvis Guo, Tuney Zheng, Yuelin Bai, Bo Li, Yubo Wang, King Zhu, Yizhi Li, Graham Neubig, Wenhu Chen, Xiang Yue

482

Многомодельные языковые модели (MLLM), основанные на открытом исходном коде, продемонстрировали значительный потенциал в широком спектре многомодальных задач. Однако их способности к рассуждениям остаются ограниченными из-за существующих наборов данных для настройки инструкций, которые в основном были адаптированы из академических наборов данных, таких как VQA, AI2D и ChartQA. Эти наборы данных ориентированы на упрощенные задачи и предоставляют только ответы на уровне фраз без каких-либо промежуточных обоснований. Для решения этих проблем мы представляем масштабный и экономичный метод построения крупномасштабного многомодального набора данных для настройки инструкций с обширными промежуточными обоснованиями, разработанный для вызова рассуждений CoT. Используя только открытые модели, мы создаем набор данных, содержащий 12 млн пар инструкция-ответ для охвата разнообразных задач, требующих рассуждений, с детальными и достоверными обоснованиями. Эксперименты показывают, что обучение MLLM на этом наборе данных значительно улучшает способности к рассуждениям, достигая передового уровня производительности на бенчмарках, таких как MathVerse (+8,1%), MMMU-Pro (+7%) и MuirBench (+13,3%). Кроме того, модель демонстрирует заметные улучшения до 4% на бенчмарках, не требующих рассуждений. Анализ отсечения дополнительно подчеркивает важность ключевых компонентов, таких как переписывание и самофильтрация, в процессе построения набора данных.

SwiftEdit: мгновенное редактирование изображений с помощью текста через одноступенчатую диффузию
SwiftEdit: Lightning Fast Text-Guided Image Editing via One-Step Diffusion

Dec 5, 2024

Trong-Tung Nguyen, Quang Nguyen, Khoi Nguyen, Anh Tran, Cuong Pham

4211

Недавние достижения в области редактирования изображений с помощью текста позволяют пользователям выполнять редактирование изображений через простой текстовый ввод, используя обширные априорные знания многоэтапных моделей преобразования текста в изображение на основе диффузии. Однако эти методы часто не удовлетворяют требования скорости, необходимой для приложений в реальном мире и на устройствах из-за дорогостоящего многоэтапного процесса инверсии и выборки. В ответ на это мы представляем SwiftEdit, простой, но очень эффективный инструмент редактирования, который обеспечивает мгновенное редактирование изображений с помощью текста (за 0,23 секунды). Продвижение SwiftEdit заключается в его двух новаторских вкладах: фреймворке инверсии одного шага, который позволяет восстановление изображения за один шаг путем инверсии, и технике редактирования с маской с нашим предложенным механизмом масштабирования внимания для выполнения локализованного редактирования изображения. Проведены обширные эксперименты для демонстрации эффективности и эффективности SwiftEdit. В частности, SwiftEdit обеспечивает мгновенное редактирование изображений с помощью текста, что намного быстрее, чем предыдущие многоэтапные методы (как минимум в 50 раз быстрее), сохраняя при этом конкурентоспособные результаты редактирования. Наша страница проекта: https://swift-edit.github.io/

APOLLO: Память, аналогичная SGD, производительность на уровне AdamW
APOLLO: SGD-like Memory, AdamW-level Performance

Dec 6, 2024

Hanqing Zhu, Zhenyu Zhang, Wenyan Cong, Xi Liu, Sem Park, Vikas Chandra, Bo Long, David Z. Pan, Zhangyang Wang, Jinwon Lee

392

Большие языковые модели (LLM) известны своим высоким потреблением памяти во время обучения, особенно при использовании популярного оптимизатора AdamW. Эта нагрузка на память требует использования большего количества или более мощных графических процессоров или уменьшения размеров пакетов, что ограничивает масштабируемость и производительность обучения. Для решения этой проблемы были предложены различные оптимизаторы, эффективные с точки зрения использования памяти оптимизаторов, однако они сталкиваются с критическими вызовами: (i) зависимость от дорогостоящих операций SVD; (ii) значительные компромиссы в производительности по сравнению с AdamW; и (iii) все еще значительные накладные расходы на память оптимизатора для поддержания конкурентоспособной производительности. В данной работе мы выявляем, что правило адаптации скорости обучения AdamW может быть эффективно упрощено как структурированное обновление скорости обучения. Исходя из этого наблюдения, мы предлагаем метод Approximated Gradient Scaling для оптимизации памяти LLM (APOLLO), который аппроксимирует масштабирование скорости обучения с использованием вспомогательного оптимизатора низкого ранга на основе чистой случайной проекции. Это структурированное правило обновления скорости обучения делает APOLLO очень устойчивым к дальнейшему снижению потребления памяти, обеспечивая сравнимую производительность предварительного обучения. Даже его вариант с рангом 1, APOLLO-Mini, достигает более высокой производительности предварительного обучения по сравнению с AdamW с расходами памяти на уровне SGD. Обширные эксперименты показывают, что серия APOLLO выполняет задачу на уровне или лучше, чем AdamW, обеспечивая при этом большие экономии памяти путем почти полного устранения оптимизационных состояний AdamW. Эти экономии обеспечивают значительные преимущества на уровне системы: (1) Увеличенная производительность: в 3 раза большая производительность на установке 8xA100-80GB по сравнению с AdamW за счет поддержки пакетов в 4 раза большего размера. (2) Улучшенная масштабируемость модели: Предварительное обучение LLaMA-13B с примитивным DDP на A100-80GB GPU без оптимизаций на уровне системы. (3) Предварительное обучение, дружественное к графическим процессорам низкого уровня: Предварительное обучение LLaMA-7B на одном GPU с использованием менее 12 ГБ памяти с квантованием весов.

Мото: Латентный токен движения как связующий язык для манипуляции роботом
Moto: Latent Motion Token as the Bridging Language for Robot Manipulation

Dec 5, 2024

Yi Chen, Yuying Ge, Yizhuo Li, Yixiao Ge, Mingyu Ding, Ying Shan, Xihui Liu

232

Недавние достижения в области крупных языковых моделей, предварительно обученных на обширных корпусах, показали значительный успех в различных задачах обработки естественного языка с минимальной донастройкой. Этот успех открывает новые перспективы для робототехники, которая долгое время ограничивалась высокой стоимостью данных с разметкой действий. Мы спрашиваем: учитывая обилие видеоданных, содержащих знания, связанные с взаимодействием, доступных как богатый "корпус", можно ли эффективно применить подобный подход к генеративному предварительному обучению для улучшения обучения роботов? Основным вызовом является определение эффективного представления для авторегрессивного предварительного обучения, которое бы способствовало задачам робототехники. Вдохновленные способом, которым люди усваивают новые навыки, наблюдая динамические окружающие среды, мы предполагаем, что эффективное обучение роботов должно акцентироваться на знаниях, связанных с движением, тесно связанных с низкоуровневыми действиями и не зависящих от аппаратного обеспечения, облегчая передачу усвоенных движений на фактические действия робота. Для этого мы представляем Moto, который преобразует видеоконтент в последовательности латентных токенов движения с помощью Латентного Токенизатора Движения, изучая связующий "язык" движения из видео в неупорядоченном режиме. Мы предварительно обучаем Moto-GPT через авторегрессию токенов движения, позволяя ему улавливать разнообразные знания о визуальном движении. После предварительного обучения Moto-GPT демонстрирует обещающую способность производить семантически интерпретируемые токены движения, предсказывать правдоподобные траектории движения и оценивать рациональность траектории через вероятность вывода. Для передачи усвоенных движений на реальные действия робота мы реализуем стратегию совместной донастройки, которая плавно соединяет предсказание латентных токенов движения и управление реальным роботом. Обширные эксперименты показывают, что донастроенный Moto-GPT проявляет превосходную устойчивость и эффективность на бенчмарках по манипуляции роботов, подчеркивая его эффективность в передаче знаний из видеоданных на задачи визуальной манипуляции нижестоящего уровня.

GenMAC: Композиционная генерация текста в видео с многовекторным сотрудничеством.
GenMAC: Compositional Text-to-Video Generation with Multi-Agent Collaboration

Dec 5, 2024

Kaiyi Huang, Yukun Huang, Xuefei Ning, Zinan Lin, Yu Wang, Xihui Liu

222

Модели генерации видео по тексту продемонстрировали значительный прогресс в последние годы. Однако они все еще испытывают трудности с созданием сложных динамичных сцен на основе композиционных текстовых подсказок, таких как привязка атрибутов для нескольких объектов, временная динамика, связанная с различными объектами, и взаимодействие между объектами. Нашей основной мотивацией является то, что сложные задачи могут быть разложены на более простые, каждая из которых обрабатывается специализированным агентом MLLM. Несколько агентов могут сотрудничать для достижения коллективного интеллекта для сложных целей. Мы предлагаем GenMAC, итеративную мультиагентную структуру, которая позволяет композиционной генерации видео по тексту. Совместный рабочий процесс включает три этапа: Проектирование, Генерация и Переработка, с итеративным циклом между этапами Генерации и Переработки для постепенной проверки и улучшения созданных видео. Этап Переработки является наиболее сложным этапом, который направлен на проверку созданных видео, предложение коррекций и переработку текстовых подсказок, макетов кадров и масштабов руководства для следующей итерации генерации. Чтобы избежать галлюцинаций отдельного агента MLLM, мы декомпозируем этот этап на четыре последовательно выполняемых агента на основе MLLM: агент проверки, агент предложения, агент коррекции и агент структурирования вывода. Более того, чтобы справиться с разнообразными сценариями композиционной генерации видео по тексту, мы разрабатываем механизм саморегулирования для адаптивного выбора соответствующего агента коррекции из коллекции агентов коррекции, каждый из которых специализируется на одном сценарии. Обширные эксперименты демонстрируют эффективность GenMAC, достигая передового уровня производительности в композиционной генерации видео по тексту.

CompCap: Улучшение мультимодальных больших языковых моделей с композитными подписями.
CompCap: Improving Multimodal Large Language Models with Composite Captions

Dec 6, 2024

Xiaohui Chen, Satya Narayan Shukla, Mahmoud Azab, Aashu Singh, Qifan Wang, David Yang, ShengYun Peng, Hanchao Yu, Shen Yan, Xuewen Zhang, Baosheng He

194

Насколько хорошо могут понимать мультимодальные модели языка большого размера (MLLM) композитные изображения? Композитные изображения (CIs) - это синтетические визуальные материалы, созданные путем объединения нескольких визуальных элементов, таких как диаграммы, постеры или скриншоты, а не захваченные непосредственно камерой. В то время как CIs широко распространены в прикладных областях, недавние достижения в области MLLM в основном сосредоточены на интерпретации естественных изображений (NIs). Наше исследование показывает, что текущие MLLM сталкиваются с существенными трудностями в точном понимании CIs, часто испытывая затруднения с извлечением информации или выполнением сложного рассуждения на основе этих изображений. Мы обнаружили, что существующие обучающие данные для CIs в основном оформлены для задач вопрос-ответ (например, в наборах данных, таких как ChartQA и ScienceQA), в то время как высококачественные наборы данных изображений с подписями, критически важные для надежного выравнивания зрения и языка, доступны только для NIs. Для устранения этого разрыва мы представляем Composite Captions (CompCap), гибкую структуру, которая использует модели языка большого размера (LLMs) и средства автоматизации для синтеза CIs с точными и подробными подписями. Используя CompCap, мы составляем набор данных CompCap-118K, содержащий 118 тыс. пар изображение-подпись по шести типам CI. Мы проверяем эффективность CompCap-118K путем надзорного дообучения MLLM трех размеров: xGen-MM-inst.-4B и LLaVA-NeXT-Vicuna-7B/13B. Эмпирические результаты показывают, что CompCap-118K значительно улучшает понимание MLLM CIs, обеспечивая средний прирост на 1,7%, 2,0% и 2,9% по одиннадцати показателям соответственно.

Momentum-GS: Моментум Гауссовское Самодистилляция для высококачественной реконструкции больших сцен
Momentum-GS: Momentum Gaussian Self-Distillation for High-Quality Large Scene Reconstruction

Dec 6, 2024

Jixuan Fan, Wanhua Li, Yifei Han, Yansong Tang

183

3D Гауссово сглаживание продемонстрировало значительный успех в реконструкции сцен большого масштаба, однако остаются проблемы из-за высокого потребления памяти на обучение и избыточных накладных расходов на хранение. Гибридные представления, интегрирующие неявные и явные признаки, предлагают способ преодоления этих ограничений. Однако при параллельном блочном обучении возникают две критические проблемы: ухудшение точности реконструкции из-за уменьшения разнообразия данных при обучении каждого блока независимо и ограничение количества разделенных блоков числом доступных GPU. Для решения этих проблем мы предлагаем Momentum-GS, новый подход, использующий самодистилляцию на основе импульса для повышения согласованности и точности между блоками, разрывая связь между количеством блоков и физическим числом GPU. Наш метод поддерживает учителя-декодер Гаусса, обновляемого с использованием импульса, обеспечивая стабильную ссылку во время обучения. Этот учитель предоставляет каждому блоку глобальное руководство в режиме самодистилляции, способствуя пространственной согласованности в реконструкции. Для обеспечения согласованности между блоками мы также включаем весовое блокирование, динамически корректируя вес каждого блока в соответствии с его точностью реконструкции. Обширные эксперименты на сценах большого масштаба показывают, что наш метод последовательно превосходит существующие техники, достигая улучшения в 12,8% по LPIPS по сравнению с CityGaussian с гораздо меньшим количеством разделенных блоков и устанавливая новый уровень качества. Страница проекта: https://jixuan-fan.github.io/Momentum-GS_Page/

BigDocs: открытый и лицензируемый с разрешением набор данных для обучения мультимодельных моделей на задачах документов и кода
BigDocs: An Open and Permissively-Licensed Dataset for Training Multimodal Models on Document and Code Tasks

Dec 5, 2024

Juan Rodriguez, Xiangru Jian, Siba Smarak Panigrahi, Tianyu Zhang, Aarash Feizi, Abhay Puri, Akshay Kalkunte, François Savard, Ahmed Masry, Shravan Nayak, Rabiul Awal, Mahsa Massoud, Amirhossein Abaskohi, Zichao Li, Suyuchen Wang, Pierre-André Noël, Mats Leon Richter, Saverio Vadacchino, Shubbam Agarwal, Sanket Biswas, Sara Shanian, Ying Zhang, Noah Bolger, Kurt MacDonald, Simon Fauvel, Sathwik Tejaswi, Srinivas Sunkara, Joao Monteiro, Krishnamurthy DJ Dvijotham, Torsten Scholak, Nicolas Chapados, Sepideh Kharagani, Sean Hughes, M. Özsu, Siva Reddy, Marco Pedersoli, Yoshua Bengio, Christopher Pal, Issam Laradji, Spandanna Gella, Perouz Taslakian, David Vazquez, Sai Rajeswar

142

Мультимодальный искусственный интеллект имеет потенциал значительно улучшить задачи понимания документов, такие как обработка квитанций, понимание рабочих процессов, извлечение данных из документов и составление сводок. Задачи генерации кода, требующие создания длинных структурированных выводов, также могут быть улучшены с помощью мультимодальности. Однако их использование в коммерческих приложениях часто ограничено из-за ограниченного доступа к обучающим данным и ограничительных лицензий, что затрудняет открытый доступ. Для преодоления этих ограничений мы представляем BigDocs-7.5M, высококачественный набор данных с открытым доступом, включающий 7,5 миллиона мультимодальных документов по 30 задачам. Мы используем эффективный процесс курирования данных, чтобы гарантировать высокое качество и лицензионную доступность наших данных. Наш процесс акцентирует внимание на ответственности и прозрачности через правила фильтрации, отслеживаемую метаданные и тщательный анализ контента. Кроме того, мы представляем BigDocs-Bench, набор тестов с 10 новыми задачами, где мы создаем наборы данных, отражающие реальные сценарии использования, включающие рассуждения над графическими пользовательскими интерфейсами (GUI) и генерацию кода из изображений. Наши эксперименты показывают, что обучение с использованием BigDocs-Bench улучшает среднюю производительность до 25,8% по сравнению с закрытым исходным кодом GPT-4o в задачах рассуждения над документами и создания структурированного вывода, таких как генерация Screenshot2HTML или Image2Latex. Наконец, оценки людей показали предпочтение результатов моделей, обученных на BigDocs, перед GPT-4o. Это говорит о том, что BigDocs может помочь как академическому сообществу, так и сообществу с открытым исходным кодом использовать и улучшать инструменты искусственного интеллекта для улучшения мультимодальных возможностей и рассуждения над документами. Проект размещен на https://bigdocs.github.io.

Учитывайте время: Генерация видео с множеством событий, контролируемая временем
Mind the Time: Temporally-Controlled Multi-Event Video Generation

Dec 6, 2024

Ziyi Wu, Aliaksandr Siarohin, Willi Menapace, Ivan Skorokhodov, Yuwei Fang, Varnith Chordia, Igor Gilitschenski, Sergey Tulyakov

112

Видеоролики реального мира состоят из последовательностей событий. Генерация таких последовательностей с точным временным контролем невозможна с использованием существующих видеогенераторов, которые полагаются на один параграф текста в качестве входных данных. При попытке генерации нескольких событий, описанных в одном запросе, такие методы часто игнорируют некоторые события или не удается правильно упорядочить их. Для решения этого ограничения мы представляем MinT, мульти-событийный видеогенератор с временным контролем. Наш ключевой инсайт заключается в привязке каждого события к конкретному периоду в созданном видео, что позволяет модели фокусироваться на одном событии за раз. Для обеспечения взаимодействия между описаниями событий и токенами видео, основанным на времени, мы разработали метод кодирования позиций на основе времени, названный ReRoPE. Это кодирование помогает направлять операцию кросс-внимания. Путем донастройки предварительно обученного видео-трансформера диффузии на временно обоснованных данных наш подход создает согласованные видеоролики с плавно переходящими событиями. Впервые в литературе наша модель предлагает контроль над временем событий в созданных видеороликах. Обширные эксперименты показывают, что MinT превосходит существующие модели с открытым исходным кодом с большим отрывом.

PanoDreamer: Синтез 3D-панорамы из одного изображения
PanoDreamer: 3D Panorama Synthesis from a Single Image

Dec 6, 2024

Avinash Paliwal, Xilong Zhou, Andrii Tsarov, Nima Khademi Kalantari

112

В данной статье мы представляем PanoDreamer, новый метод для создания согласованной трехмерной сцены 360^circ из одного входного изображения. В отличие от существующих методов, которые генерируют сцену последовательно, мы формулируем проблему как оценку панорамы и глубины по одному изображению. После получения согласованного панорамного изображения и соответствующей глубины сцену можно восстановить, заполнив маленькие заслоненные области и проецируя их в трехмерное пространство. Наш вклад заключается в формулировании оценки панорамы и глубины по одному изображению как двух задач оптимизации и введении стратегий чередующейся минимизации для эффективного решения их целей. Мы демонстрируем, что наш подход превосходит существующие техники в восстановлении сцены 360^circ по одному изображению в терминах согласованности и общего качества.

2DGS-Room: Семеноводное 2D-гауссово сглаживание с геометрическими ограничениями для восстановления трехмерных сцен в помещениях высокой точности
2DGS-Room: Seed-Guided 2D Gaussian Splatting with Geometric Constrains for High-Fidelity Indoor Scene Reconstruction

Dec 4, 2024

Wanting Zhang, Haodong Xiang, Zhichao Liao, Xiansong Lai, Xinghui Li, Long Zeng

112

Восстановление внутренних сцен остается сложной задачей из-за врожденной сложности пространственных структур и распространенности областей без текстуры. Недавние достижения в 3D Гауссовом сплэттинге улучшили синтез нового вида с ускоренной обработкой, но пока не обеспечили сопоставимую производительность в реконструкции поверхности. В данной статье мы представляем 2DGS-Room, новый метод, использующий 2D Гауссов сплэттинг для высококачественного восстановления внутренних сцен. Конкретно, мы используем механизм, управляемый семенами, для контроля распределения 2D Гауссов, с плотностью семенных точек, динамически оптимизируемой через адаптивные механизмы роста и обрезки. Для дальнейшего улучшения геометрической точности мы включаем монокулярные глубинные и нормальные априорные данные для обеспечения ограничений для деталей и областей без текстуры соответственно. Кроме того, применяются ограничения на консистентность многократного вида для уменьшения артефактов и дальнейшего улучшения качества реконструкции. Обширные эксперименты на наборах данных ScanNet и ScanNet++ демонстрируют, что наш метод достигает передовой производительности в восстановлении внутренних сцен.

ДЕМО: Переосмысление взаимодействия в диалоге с моделированием элементов мелкой структуры
DEMO: Reframing Dialogue Interaction with Fine-grained Element Modeling

Dec 6, 2024

Minzheng Wang, Xinghua Zhang, Kun Chen, Nan Xu, Haiyang Yu, Fei Huang, Wenji Mao, Yongbin Li

Большие языковые модели (LLM) сделали диалог одним из центральных способов взаимодействия человека с машиной, что привело к накоплению огромного объема журналов разговоров и увеличению спроса на генерацию диалогов. Жизненный цикл беседы охватывает предисловие, интерлокуцию и эпилог, включая различные элементы. Несмотря на существование множества исследований, связанных с диалогами, отсутствует недостаток эталонов, охватывающих все аспекты диалога, что затрудняет точное моделирование и систематическую оценку. Для заполнения этого пробела мы представляем инновационную исследовательскую задачу Моделирование элементов диалога, включающую Осознание элементов и Взаимодействие агента диалога, и предлагаем новый эталон, DEMO, разработанный для всестороннего моделирования и оценки диалога. Вдохновленные обучением по подражанию, мы далее создаем агента, который обладает умением моделировать элементы диалога на основе эталона DEMO. Обширные эксперименты показывают, что существующие LLM все еще обладают значительным потенциалом для улучшения, и наш агент DEMO демонстрирует превосходную производительность как в задачах в пределах области, так и в задачах за ее пределами.

RL Zero: Нулевое обучение с нуля: перевод из языка в действия без какого-либо надзора.
RL Zero: Zero-Shot Language to Behaviors without any Supervision

Dec 7, 2024

Harshit Sikchi, Siddhant Agarwal, Pranaya Jajoo, Samyak Parajuli, Caleb Chuck, Max Rudolph, Peter Stone, Amy Zhang, Scott Niekum

Награды остаются непонятным способом задания задач для обучения с подкреплением, поскольку люди часто не могут предсказать оптимальное поведение для любой данной функции вознаграждения, что приводит к плохому проектированию вознаграждения и его взлому. Язык представляет собой привлекательный способ передачи намерений агентам и обхода проектирования вознаграждения, но предыдущие попытки сделать это были ограничены дорогостоящими и не масштабируемыми усилиями по разметке. В данной работе мы предлагаем метод полностью ненадзорной альтернативы привязки инструкций на языке к политикам в режиме нулевой настройки для получения политик. Мы представляем решение в виде процессов воображения, проекции и имитации: агент воображает последовательность наблюдений, соответствующую языковому описанию задачи, проецирует воображаемую последовательность на нашу целевую область и привязывает ее к политике. Модели видео-языка позволяют нам воображать описания задач, используя знания о задачах, полученные из масштабных интернет-видео-текстовых соответствий. Остается вызовом привязать эти генерации к политике. В данной работе мы показываем, что можем достичь политики от языка к поведению в режиме нулевой настройки, сначала привязав воображаемые последовательности к реальным наблюдениям агента обучения без учителя и используя решение в замкнутой форме для обучения имитации, что позволяет агенту обучения с подкреплением имитировать привязанные наблюдения. Наш метод, RLZero, по нашим данным, первый, показывающий способности к генерации поведения от языка к поведению в режиме нулевой настройки без какого-либо надзора на различных задачах на симулированных областях. Мы также показываем, что RLZero также может генерировать политики в режиме нулевой настройки из видеороликов с перекрестными воплощениями, таких как те, которые были извлечены из YouTube.