ChatPaper.aiChatPaper.ai
Главная

arXiv

HuggingFace

ЦеныАккаунтРабочее пространство

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: [email protected]

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Трансформер с байтовыми латентными представлениями: фрагменты масштабируются лучше, чем токены.
Byte Latent Transformer: Patches Scale Better Than Tokens

Dec 13, 2024
Artidoro Pagnoni, Ram Pasunuru, Pedro Rodriguez, John Nguyen, Benjamin Muller, Margaret Li, Chunting Zhou, Lili Yu, Jason Weston, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Ari Holtzman, Srinivasan Iyer
1048

Мы представляем Byte Latent Transformer (BLT) - новую архитектуру байтового языковой модели (LLM), которая впервые достигает производительности на уровне моделей на основе токенизации с существенными улучшениями в эффективности вывода и устойчивости. BLT кодирует байты в динамически изменяемые патчи, которые служат основными единицами вычислений. Патчи сегментируются на основе энтропии следующего байта, выделяя больше вычислительных ресурсов и емкости модели там, где увеличение сложности данных требуется. Мы представляем первое исследование масштабирования моделей на уровне байтов с контролем FLOP до 8 миллиардов параметров и 4 триллионов обучающих байтов. Наши результаты демонстрируют возможность масштабирования моделей, обученных на сырых байтах без фиксированного словаря. Как обучение, так и эффективность вывода улучшаются благодаря динамическому выбору длинных патчей, когда данные предсказуемы, а также качественным улучшениям в рассуждениях и обобщении на длинные хвосты. В целом, при фиксированных затратах на вывод, BLT показывает значительно лучшее масштабирование по сравнению с моделями на основе токенизации, одновременно увеличивая как размер патча, так и модели.

RetroLLM: Доведение до совершенства больших языковых моделей для извлечения детализированных доказательств в процессе генерации
RetroLLM: Empowering Large Language Models to Retrieve Fine-grained Evidence within Generation

Dec 16, 2024
Xiaoxi Li, Jiajie Jin, Yujia Zhou, Yongkang Wu, Zhonghua Li, Qi Ye, Zhicheng Dou
374

Большие языковые модели (LLM) обладают замечательными генеративными способностями, но часто страдают от галлюцинаций. Генерация с использованием поиска (RAG) предлагает эффективное решение, интегрируя внешние знания, однако существующие методы все еще сталкиваются с несколькими ограничениями: дополнительные затраты на развертывание отдельных поисковиков, избыточные входные токены из извлеченных текстовых фрагментов и отсутствие совместной оптимизации поиска и генерации. Для решения этих проблем мы предлагаем RetroLLM, унифицированную структуру, интегрирующую поиск и генерацию в единый, цельный процесс, позволяя LLM напрямую генерировать детализированные доказательства из корпуса с ограниченным декодированием. Более того, для смягчения ложного обрезания в процессе ограниченной генерации доказательств, мы вводим (1) иерархические ограничения FM-индекса, которые генерируют ограниченные корпусом подсказки для идентификации подмножества соответствующих документов перед генерацией доказательств, уменьшая нерелевантное пространство декодирования; и (2) стратегию ограниченного декодирования с просмотром вперед, которая учитывает релевантность будущих последовательностей для улучшения точности доказательств. Обширные эксперименты на пяти наборах данных вопрос-ответ открытой области демонстрируют превосходное качество работы RetroLLM как на задачах внутри области, так и вне ее. Код доступен по ссылке https://github.com/sunnynexus/RetroLLM.

Агент оценки: эффективная и масштабируемая рамка оценки для визуальных генеративных моделей
Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models

Dec 10, 2024
Fan Zhang, Shulin Tian, Ziqi Huang, Yu Qiao, Ziwei Liu
372

Недавние достижения в области визуальных генеративных моделей позволили создавать изображения и видео высокого качества, открывая разнообразные применения. Однако оценка этих моделей часто требует выборки сотен или тысяч изображений или видео, что делает процесс вычислительно затратным, особенно для моделей на основе диффузии с врожденно медленной выборкой. Более того, существующие методы оценки полагаются на жесткие конвейеры, которые не учитывают конкретные потребности пользователей и предоставляют числовые результаты без ясных объяснений. В отличие от этого, люди могут быстро сформировать представление о возможностях модели, наблюдая всего несколько образцов. Для имитации этого мы предлагаем рамочное решение Evaluation Agent, которое использует стратегии, подобные человеческим, для эффективной, динамичной, многоходовой оценки, используя всего несколько образцов за раунд, предлагая при этом детальные, настроенные на пользователя анализы. Оно предлагает четыре ключевых преимущества: 1) эффективность, 2) немедленную оценку, адаптированную к различным потребностям пользователей, 3) объяснимость за пределами одиночных числовых оценок и 4) масштабируемость для различных моделей и инструментов. Эксперименты показывают, что Evaluation Agent сокращает время оценки до 10% от традиционных методов, предоставляя сравнимые результаты. Рамочное решение Evaluation Agent полностью открытое для продвижения исследований в области визуальных генеративных моделей и их эффективной оценки.

BrushEdit: Все-в-одном восстановление и редактирование изображений.
BrushEdit: All-In-One Image Inpainting and Editing

Dec 13, 2024
Yaowei Li, Yuxuan Bian, Xuan Ju, Zhaoyang Zhang, Ying Shan, Qiang Xu
363

Редактирование изображений значительно продвинулось с развитием моделей диффузии, использующих как методы на основе инверсии, так и методы на основе инструкций. Однако текущие подходы на основе инверсии испытывают трудности с крупными модификациями (например, добавлением или удалением объектов) из-за структурированной природы шума инверсии, что затрудняет существенные изменения. Тем временем методы на основе инструкций часто ограничивают пользователей операциями "черного ящика", что ограничивает прямое взаимодействие для указания областей редактирования и интенсивности. Для решения этих ограничений мы предлагаем BrushEdit, новую парадигму редактирования изображений на основе заполнения пропусков с управлением инструкциями, которая использует мультимодельные большие языковые модели (MLLM) и модели заполнения изображений для обеспечения автономного, удобного для пользователя и интерактивного свободного редактирования по инструкциям. Конкретно, мы разрабатываем систему, позволяющую свободное редактирование по инструкциям путем интеграции MLLM и двухветвевой модели заполнения изображений в агентно-кооперативной структуре для выполнения классификации категорий редактирования, идентификации основных объектов, получения маски и заполнения области редактирования. Обширные эксперименты показывают, что наша структура эффективно сочетает MLLM и модели заполнения, достигая превосходных показателей по семи метрикам, включая сохранение области маски и согласованность эффекта редактирования.

Меньшие языковые модели лучше эволюционируют в качестве инструкций.
Smaller Language Models Are Better Instruction Evolvers

Dec 15, 2024
Tingfeng Hui, Lulu Zhao, Guanting Dong, Yaqi Zhang, Hua Zhou, Sen Su
292

Настройка инструкций широко используется для раскрытия полного потенциала крупных языковых моделей. Особенно важны сложные и разнообразные инструкции, поскольку они могут эффективно выравнивать модели с различными последующими задачами. Однако текущие подходы к созданию крупномасштабных инструкций в основном предпочитают мощные модели, такие как GPT-4 или те, у которых более 70 миллиардов параметров, под эмпирическим предположением, что такие более крупные языковые модели (LLM) по своей природе обладают улучшенными возможностями. В данном исследовании мы оспариваем это распространенное предположение и проводим глубокое исследование потенциала более маленьких языковых моделей (SLM) в контексте эволюции инструкций. Обширные эксперименты в трех сценариях эволюции инструкций показывают, что более маленькие языковые модели (SLM) могут синтезировать более эффективные инструкции, чем LLM. Дополнительный анализ показывает, что SLM обладают более широким пространством вывода во время эволюции инструкций, что приводит к более сложным и разнообразным вариантам. Мы также замечаем, что существующие метрики не сосредотачиваются на влиянии инструкций. Поэтому мы предлагаем Инструкцию Сложности-Осознанную IFD (IC-IFD), которая вводит сложность инструкций в исходный IFD-показатель для более точной оценки эффективности данных инструкций. Наш исходный код доступен по ссылке: https://github.com/HypherX/Evolution-Analysis.

ColorFlow: Поиск с поддержкой извлечения цвета последовательности изображений
ColorFlow: Retrieval-Augmented Image Sequence Colorization

Dec 16, 2024
Junhao Zhuang, Xuan Ju, Zhaoyang Zhang, Yong Liu, Shiyi Zhang, Chun Yuan, Ying Shan
264

Автоматическое окрашивание черно-белой последовательности изображений с сохранением характера и идентификации объектов является сложной задачей с высоким спросом на рынке, например, в окрашивании мультфильмов или комиксов. Несмотря на прогресс в визуальном окрашивании с использованием масштабных генеративных моделей, таких как модели диффузии, остаются проблемы с управляемостью и согласованностью идентификации, что делает текущие решения непригодными для промышленного применения. Для решения этой проблемы мы предлагаем ColorFlow, трехэтапную диффузионную структуру, специально разработанную для окрашивания последовательности изображений в промышленных приложениях. В отличие от существующих методов, требующих настройки под каждую идентификацию или явное извлечение встроенной идентификации, мы предлагаем новый надежный и обобщенный конвейер для окрашивания с помощью поискового усиления. Наш конвейер также имеет двухветвевую конструкцию: одна ветвь для извлечения цветовой идентичности и другая для окрашивания, используя преимущества моделей диффузии. Мы используем механизм самовнимания в моделях диффузии для эффективного контекстного обучения и сопоставления цветовой идентичности. Для оценки нашей модели мы представляем ColorFlow-Bench, обширный набор тестов для окрашивания на основе ссылок. Результаты показывают, что ColorFlow превосходит существующие модели по нескольким метрикам, устанавливая новый стандарт в последовательном окрашивании изображений и потенциально принося пользу индустрии искусства. Мы публикуем наши коды и модели на странице нашего проекта: https://zhuang2002.github.io/ColorFlow/.

Причинные диффузионные трансформеры для генеративного моделирования
Causal Diffusion Transformers for Generative Modeling

Dec 16, 2024
Chaorui Deng, Deyao Zh, Kunchang Li, Shi Guan, Haoqi Fan
233

Мы представляем Causal Diffusion как авторегрессионный (AR) аналог моделей Диффузии. Это фреймворк прогнозирования следующего токена(ов), который дружелюбен как к дискретным, так и к непрерывным модальностям, и совместим с существующими моделями прогнозирования следующего токена, такими как LLaMA и GPT. В то время как недавние работы пытаются объединить диффузию с AR моделями, мы показываем, что введение последовательной факторизации в модель диффузии может значительно улучшить ее производительность и обеспечить плавный переход между режимами генерации AR и диффузии. Таким образом, мы предлагаем CausalFusion - декодерный трансформер, который двойно факторизует данные по последовательным токенам и уровням шума диффузии, что приводит к лучшим результатам на бенчмарке генерации ImageNet, а также позволяет использовать преимущества AR для генерации произвольного количества токенов для контекстного рассуждения. Мы также демонстрируем мультимодальные возможности CausalFusion через совместную модель генерации изображений и подписей, а также показываем способность CausalFusion к манипуляциям изображениями в контексте без предварительного обучения. Мы надеемся, что данная работа сможет предоставить сообществу новый взгляд на обучение мультимодельных моделей на дискретных и непрерывных данных.

SPaR: Самоигра с уточнением поиска по дереву для улучшения Следования инструкциям в больших языковых моделях
SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models

Dec 16, 2024
Jiale Cheng, Xiao Liu, Cunxiang Wang, Xiaotao Gu, Yida Lu, Dan Zhang, Yuxiao Dong, Jie Tang, Hongning Wang, Minlie Huang
182

Следование инструкциям является фундаментальной способностью языковых моделей, требующей от модели распознавания даже самых тонких требований в инструкциях и их точного отражения в выходных данных. Такая способность хорошо подходит для и часто оптимизируется обучением предпочтений. Однако существующие методы часто непосредственно выбирают несколько независимых ответов от модели при создании пар предпочтений. Такая практика может внести вариации контента, не имеющие отношения к тому, была ли инструкция точно выполнена (например, различные выражения о том же семантическом значении), мешая достижению цели обучения моделей распознавать ключевые различия, приводящие к улучшению следования инструкциям. В свете этого мы представляем SPaR, фреймворк самоигры, интегрирующий самоусовершенствование с помощью древовидного поиска для получения действительных и сравнимых пар предпочтений, свободных от отвлечений. Играя против самого себя, модель LLM использует стратегию древовидного поиска для улучшения своих предыдущих ответов с учетом инструкции, минимизируя ненужные вариации. Наши эксперименты показывают, что модель LLaMA3-8B, обученная за три итерации под руководством SPaR, превосходит GPT-4-Turbo на бенчмарке IFEval, не теряя общих возможностей. Более того, SPaR демонстрирует многообещающую масштабируемость и переносимость, значительно улучшая модели, такие как GLM-4-9B и LLaMA3-70B. Мы также выявляем, как масштабирование вывода в древовидном поиске повлияет на производительность модели. Наш код и данные доступны публично по адресу https://github.com/thu-coai/SPaR.

Удивительная страна: навигация в трехмерных сценах по одному изображению
Wonderland: Navigating 3D Scenes from a Single Image

Dec 16, 2024
Hanwen Liang, Junli Cao, Vidit Goel, Guocheng Qian, Sergei Korolev, Demetri Terzopoulos, Konstantinos N. Plataniotis, Sergey Tulyakov, Jian Ren
162

Эта статья затрагивает сложный вопрос: как эффективно создавать трехмерные сцены высокого качества и широкого охвата из одного произвольного изображения? Существующие методы сталкиваются с несколькими ограничениями, такими как необходимость многократного просмотра данных, затратное оптимизирование для каждой сцены, низкое качество изображения в фонах и искаженные восстановления в невидимых областях. Мы предлагаем новый конвейер для преодоления этих ограничений. Конкретно, мы представляем модель реконструкции большого масштаба, которая использует латенты из модели диффузии видео для прогнозирования трехмерных гауссовых сплетений для сцен в прямом проходе. Модель диффузии видео разработана для создания видео, точно следуя указанным траекториям камеры, что позволяет ей генерировать сжатые видео-латенты, содержащие информацию с многих точек зрения, сохраняя при этом трехмерную согласованность. Мы обучаем модель трехмерной реконструкции работать в пространстве видео-латентов с прогрессивной стратегией обучения, обеспечивая эффективную генерацию трехмерных сцен высокого качества, широкого охвата и универсальности. Обширные оценки на различных наборах данных показывают, что наша модель значительно превосходит существующие методы для генерации трехмерных сцен с одним видом, особенно с изображениями вне области. Впервые мы демонстрируем, что модель трехмерной реконструкции может быть эффективно построена на латентном пространстве модели диффузии для реализации эффективной генерации трехмерных сцен.

Свойство Гаусса: Интеграция физических свойств в трехмерные гауссианы с линейными моделями смеси
GaussianProperty: Integrating Physical Properties to 3D Gaussians with LMMs

Dec 15, 2024
Xinli Xu, Wenhang Ge, Dicong Qiu, ZhiFei Chen, Dongyu Yan, Zhuoyun Liu, Haoyu Zhao, Hanfeng Zhao, Shunsi Zhang, Junwei Liang, Ying-Cong Chen
132

Оценка физических свойств для визуальных данных является важной задачей в области компьютерного зрения, графики и робототехники, лежащей в основе таких приложений, как дополненная реальность, физическое моделирование и робототехнический захват. Однако эта область остается мало исследованной из-за врожденных неоднозначностей в оценке физических свойств. Для решения этих проблем мы представляем GaussianProperty, обучающуюся без обучения систему, которая назначает физические свойства материалов трехмерным гауссовым функциям. Конкретно, мы интегрируем возможность сегментации SAM с возможностью распознавания GPT-4V(ision) для формулирования глобально-локального модуля рассуждения о физических свойствах для двумерных изображений. Затем мы проецируем физические свойства с многозрительных двумерных изображений на трехмерные гауссовы функции с помощью стратегии голосования. Мы демонстрируем, что трехмерные гауссовы функции с аннотациями физических свойств позволяют применять их в физически основанных динамических симуляциях и робототехническом захвате. Для физически основанных динамических симуляций мы используем метод материальной точки (MPM) для реалистичных динамических симуляций. Для захвата роботом мы разрабатываем стратегию прогнозирования силы захвата, которая оценивает безопасный диапазон силы, необходимой для захвата объекта на основе оцененных физических свойств. Обширные эксперименты по сегментации материалов, физически основанным динамическим симуляциям и робототехническому захвату подтверждают эффективность нашего предложенного метода, подчеркивая его важную роль в понимании физических свойств по визуальным данным. Онлайн-демонстрация, код, дополнительные примеры и аннотированные наборы данных доступны на https://Gaussian-Property.github.io.

IDArb: Внутреннее разложение для произвольного числа входных видов и иллюминаций
IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations

Dec 16, 2024
Zhibing Li, Tong Wu, Jing Tan, Mengchen Zhang, Jiaqi Wang, Dahua Lin
122

Захват геометрической и материальной информации изображений остается фундаментальным вызовом в компьютерном зрении и графике. Традиционные методы на основе оптимизации часто требуют часов вычислительного времени для восстановления геометрии, свойств материала и окружающего освещения из плотных многовидовых входных данных, при этом все еще борются с врожденными неоднозначностями между освещением и материалом. С другой стороны, методы на основе обучения используют богатые априорные данные о материалах из существующих наборов данных трехмерных объектов, но сталкиваются с проблемами поддержания согласованности между видами. В данной статье мы представляем IDArb, модель на основе диффузии, разработанную для выполнения внутреннего разложения на произвольном количестве изображений при изменяющемся освещении. Наш метод достигает точной и согласованной многовидовой оценки нормалей поверхности и свойств материала. Это достигается благодаря новому модулю внимания между видами и доменами и стратегии обучения с учетом освещения и адаптивной к виду. Кроме того, мы представляем ARB-Objaverse, новый набор данных, который предоставляет масштабные многовидовые внутренние данные и рендеринги при различных условиях освещения, обеспечивая надежное обучение. Обширные эксперименты показывают, что IDArb превосходит современные методы как качественно, так и количественно. Более того, наш подход облегчает ряд последующих задач, включая переосвещение одиночного изображения, фотометрическую стереоскопию и трехмерную реконструкцию, подчеркивая его широкие применения в создании реалистичного трехмерного контента.

VividFace: Гибридная структура на основе диффузии для высококачественного видеообмена лицами.
VividFace: A Diffusion-Based Hybrid Framework for High-Fidelity Video Face Swapping

Dec 15, 2024
Hao Shao, Shulun Wang, Yang Zhou, Guanglu Song, Dailan He, Shuo Qin, Zhuofan Zong, Bingqi Ma, Yu Liu, Hongsheng Li
122

Видео-замена лиц становится все более популярной в различных приложениях, однако существующие методы в основном сосредотачиваются на статических изображениях и испытывают трудности с видео-заменой лиц из-за временной согласованности и сложных сценариев. В данной статье мы представляем первую основанную на диффузии концепцию, специально разработанную для видео-замены лиц. Наш подход вводит новую гибридную обучающую структуру изображение-видео, которая использует как обширные данные статических изображений, так и временные видео-последовательности, решая врожденные ограничения обучения только на видео. Структура включает специально разработанную модель диффузии, совмещенную с VidFaceVAE, которая эффективно обрабатывает оба типа данных для лучшего сохранения временной согласованности созданных видео. Для дальнейшего разделения признаков личности и позы мы создаем набор данных Attribute-Identity Disentanglement Triplet (AIDT), где каждая тройка содержит три лицевых изображения, причем два изображения имеют одну и ту же позу, а два других - одну и ту же личность. Улучшенный комплексный набор данных с дополнительным заслонением также повышает устойчивость к заслонкам. Кроме того, мы интегрируем техники трехмерной реконструкции в качестве входного условия для нашей сети для обработки больших изменений поз. Обширные эксперименты показывают, что наша структура достигает превосходных результатов в сохранении идентичности, временной согласованности и визуального качества по сравнению с существующими методами, требуя при этом меньшего количества шагов вывода. Наш подход эффективно смягчает основные проблемы видео-замены лиц, включая временное мерцание, сохранение идентичности, устойчивость к заслонкам и изменениям поз.

SepLLM: Ускорение больших языковых моделей путем сжатия одного сегмента в один разделитель
SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator

Dec 16, 2024
Guoxuan Chen, Han Shi, Jiawei Li, Yihang Gao, Xiaozhe Ren, Yimeng Chen, Xin Jiang, Zhenguo Li, Weiyang Liu, Chao Huang
115

Большие языковые модели (LLM) продемонстрировали исключительную производительность в широком спектре задач обработки естественного языка. Однако их значительные размеры представляют существенные вызовы, особенно в вычислительных требованиях и скорости вывода из-за квадратичной сложности. В данной работе мы выявили ключевой паттерн: определенные, казалось бы, бессмысленные специальные токены (т.е. разделители) вносят диспропорциональный вклад в оценки внимания по сравнению с семантически значимыми токенами. Это наблюдение подразумевает, что информацию сегментов между этими разделительными токенами можно эффективно сжать в сами разделительные токены без значительной потери информации. Руководствуясь этими наблюдениями, мы представляем SepLLM - гибкую систему, которая ускоряет вывод, сжимая эти сегменты и устраняя избыточные токены. Кроме того, мы реализуем эффективные ядра для ускорения обучения. Экспериментальные результаты в различных настройках - без обучения, обучение с нуля и после обучения - демонстрируют эффективность SepLLM. Особенно стоит отметить, что, используя базовую модель Llama-3-8B, SepLLM достигает более чем 50% сокращения кэша KV на тесте GSM8K-CoT, сохраняя при этом сопоставимую производительность. Более того, в потоковых настройках SepLLM эффективно обрабатывает последовательности до 4 миллионов токенов и более, сохраняя при этом последовательные возможности моделирования языка.

StrandHead: Текст к Strand-разделенным 3D аватаркам головы с использованием волос - геометрические априорные данные
StrandHead: Text to Strand-Disentangled 3D Head Avatars Using Hair Geometric Priors

Dec 16, 2024
Xiaokun Sun, Zeyu Cai, Zhenyu Zhang, Ying Tai, Jian Yang
112

Причёска является индикатором отдельной личности, однако существующие методы генерации аватаров не учитывают практическое моделирование волос из-за общего или запутанного представления. Мы предлагаем StrandHead, новый метод генерации аватаров головы в 3D из текста, способный создавать разделённые 3D волосы с представлением прядей. Не используя 3D данные для наблюдения, мы демонстрируем, что реалистичные волосяные пряди могут быть созданы из подсказок путём упрощения 2D генеративных моделей диффузии. Для этого мы предлагаем ряд надёжных априорных знаний о начальной форме, геометрических примитивах и статистических особенностях прически, что приводит к стабильной оптимизации и высокой производительности в соответствии с текстом. Обширные эксперименты показывают, что StrandHead достигает передового уровня в реалистичности и разнообразии созданных 3D голов и волос. Созданные 3D волосы также могут легко использоваться в Unreal Engine для физического моделирования и других приложений. Код будет доступен по адресу https://xiaokunsun.github.io/StrandHead.github.io.

Преимущество открытого исходного кода в больших языковых моделях (LLM)
The Open Source Advantage in Large Language Models (LLMs)

Dec 16, 2024
Jiya Manchanda, Laura Boettcher, Matheus Westphalen, Jasser Jasser
102

Большие языковые модели (LLM) представляют собой ключевой сдвиг в обработке естественного языка (NLP), обладая передовыми возможностями генерации текста, перевода и областно-специфического рассуждения. Закрытые модели, такие как GPT-4, основанные на собственных наборах данных и обширных вычислительных ресурсах, лидируют сегодня с передовым качеством работы. Однако их "черный ящик" и ограниченная доступность критикуются за то, что это затрудняет воспроизводимость и справедливое развитие искусственного интеллекта. В отличие от этого, инициативы с открытым исходным кодом, такие как LLaMA и BLOOM, придерживаются принципов демократизации через разработку, основанную на сообществе, и вычислительную эффективность. Эти модели значительно сократили разрыв в производительности, особенно в лингвистическом разнообразии и областно-специфических приложениях, предоставляя доступные инструменты для исследователей и разработчиков по всему миру. Следует отметить, что обе парадигмы опираются на фундаментальные архитектурные инновации, такие как фреймворк Transformer от Васвани и др. (2017). Закрытые модели отличаются эффективным масштабированием, в то время как модели с открытым исходным кодом адаптируются к реальным приложениям на недостаточно представленных языках и областях. Техники, такие как адаптация низкого ранга (LoRA) и настройка инструкций, позволяют моделям с открытым исходным кодом достигать конкурентоспособных результатов несмотря на ограниченные ресурсы. Неоспоримо, напряженность между закрытыми и открытыми подходами подчеркивает более широкий дебат о прозрачности по сравнению с собственным контролем в области искусственного интеллекта. Этические соображения дополнительно подчеркивают этот разрыв. Закрытые системы ограничивают внешнюю проверку, в то время как модели с открытым исходным кодом способствуют воспроизводимости и сотрудничеству, но лишены стандартизированных рамок документирования аудита для смягчения предвзятостей. Гибридные подходы, использующие преимущества обеих парадигм, вероятно, определят будущее инноваций в области LLM, обеспечивая доступность, конкурентоспособную техническую производительность и этичное внедрение.

Эмма-Х: Воплощенная мультимодальная модель действий с обоснованной цепочкой мыслей и пространственным предварительным рассмотрением.
Emma-X: An Embodied Multimodal Action Model with Grounded Chain of Thought and Look-ahead Spatial Reasoning

Dec 16, 2024
Qi Sun, Pengfei Hong, Tej Deep Pala, Vernon Toh, U-Xuan Tan, Deepanway Ghosal, Soujanya Poria
92

Традиционные методы управления роботами на основе обучения с подкреплением часто ориентированы на конкретные задачи и не способны обобщать информацию по различным средам или невидимым объектам и инструкциям. Визуально-языковые модели (VLM) демонстрируют высокое понимание сцен и способности к планированию, однако им не хватает возможности создания действенных стратегий, адаптированных к конкретным робототехническим воплощениям. Для решения этой проблемы были разработаны модели визуально-языкового-действия (VLA), однако они сталкиваются с трудностями в долгосрочном пространственном рассуждении и планировании задач на основе обоснованных данных. В данной работе мы предлагаем модель воплощенного мультимодального действия с цепочкой обоснованных мыслей и пространственным рассуждением с предварительным просмотром, Emma-X. Emma-X использует наш набор данных иерархического воплощения, основанный на BridgeV2, содержащий 60 000 траекторий манипуляции робота, автоматически аннотированных обоснованным рассуждением о задаче и пространственным руководством. Кроме того, мы представляем стратегию сегментации траекторий на основе состояний схвата и траекторий движения, которая может помочь смягчить галлюцинации при генерации обоснованных данных о подзадачах. Экспериментальные результаты показывают, что Emma-X достигает превосходных результатов по сравнению с конкурентными базовыми моделями, особенно в реальных робототехнических задачах, требующих пространственного рассуждения.

Замечательные матрицы: объединение для более эффективной и эффективной архитектуры базовой модели.
Wonderful Matrices: Combining for a More Efficient and Effective Foundation Model Architecture

Dec 16, 2024
Jingze Shi, Bingheng Wu
82

Для повышения эффективности и эффективности базовой модели наша идея заключается в комбинировании преобразования последовательности и преобразования состояния. Во-первых, мы доказываем доступность встраивания вращающегося положения в алгоритм дуальности пространства состояний, что снижает непонимание гибридного квадратичного причинного самовнимания и дуальности пространства состояний более чем на 4%, чтобы гарантировать, что комбинирование преобразования последовательности объединяет кодирование позиции. Во-вторых, мы предлагаем динамическое внимание с маской, которое поддерживает 100% точность в более сложной многозапросной ассоциативной задаче воспоминания, улучшая более чем на 150% по сравнению с квадратичным причинным самовниманием и дуальностью пространства состояний, чтобы гарантировать, что комбинирование преобразования последовательности выборочно фильтрует соответствующую информацию. В-третьих, мы разрабатываем кросс-доменный смешанный экспертов, что делает вычислительную скорость извлечения экспертов с более чем 1024 экспертами в 8-10 раз быстрее, чем смесь экспертов, чтобы гарантировать, что комбинирование преобразования состояния быстро извлекает смесь. Наконец, мы обобщаем эти матричные алгоритмы, которые могут составить базовую модель: Замечательные Матрицы, которые могут быть конкурентами популярным архитектурам моделей.

DynamicScaler: Бесшовная и масштабируемая генерация видео для панорамных сцен
DynamicScaler: Seamless and Scalable Video Generation for Panoramic Scenes

Dec 15, 2024
Jinxiu Liu, Shaoheng Lin, Yinxiao Li, Ming-Hsuan Yang
72

Растущий спрос на иммерсивные приложения дополненной и виртуальной реальности и пространственный интеллект увеличил потребность в создании видео сцен на высоком уровне и 360{\deg} панорамных видео. Однако большинство моделей видеодиффузии ограничены низким разрешением и соотношением сторон, что ограничивает их применимость к синтезу динамического контента на уровне сцены. В данной работе мы предлагаем DynamicScaler, решающий эти проблемы путем обеспечения пространственно масштабируемого и панорамного синтеза динамических сцен, сохраняющего согласованность по всему панорамному пространству произвольного размера. Конкретно, мы представляем средство Offset Shifting Denoiser, облегчающее эффективное, синхронное и согласованное шумоподавление панорамных динамических сцен с помощью модели диффузии с фиксированным разрешением через безшовное вращающееся окно, которое обеспечивает плавные переходы границ и согласованность по всему панорамному пространству, учитывая изменяющиеся разрешения и соотношения сторон. Кроме того, мы используем механизм Global Motion Guidance для обеспечения как верности локальных деталей, так и непрерывности глобального движения. Обширные эксперименты демонстрируют, что наш метод достигает превосходного качества контента и движения в генерации видео на уровне панорамных сцен, предлагая обучение-независимое, эффективное и масштабируемое решение для создания иммерсивных динамических сцен с постоянным потреблением VRAM независимо от разрешения выходного видео. Наша страница проекта доступна по адресу https://dynamic-scaler.pages.dev/.

SplineGS: Надежный движущийся адаптивный сплайн для динамических трехмерных гауссовских функций в реальном времени из монокулярного видео.
SplineGS: Robust Motion-Adaptive Spline for Real-Time Dynamic 3D Gaussians from Monocular Video

Dec 13, 2024
Jongmin Park, Minh-Quan Viet Bui, Juan Luis Gonzalez Bello, Jaeho Moon, Jihyong Oh, Munchurl Kim
73

Синтез новых видов из видеороликов в естественной среде представляет собой сложную задачу из-за динамики сцены и отсутствия многовидовых подсказок. Для решения этой проблемы мы предлагаем SplineGS, динамическую 3D-систему гауссовского сплетения (3DGS) без использования COLMAP для высококачественной реконструкции и быстрого визуализации из монокулярных видеороликов. В центре этой системы находится новый метод Motion-Adaptive Spline (MAS), который представляет непрерывные динамические 3D-гауссовские траектории с использованием кубических сплайнов Эрмита с небольшим количеством контрольных точек. Для MAS мы вводим метод обрезки контрольных точек Motion-Adaptive Control points Pruning (MACP) для моделирования деформации каждого динамического 3D-гауссовского объекта при различных движениях, постепенно обрезая контрольные точки, сохраняя целостность динамического моделирования. Кроме того, мы представляем совместную стратегию оптимизации для оценки параметров камеры и атрибутов 3D-гауссовских объектов, используя фотометрическую и геометрическую согласованность. Это устраняет необходимость предварительной обработки структуры движения и повышает устойчивость SplineGS в реальных условиях. Эксперименты показывают, что SplineGS значительно превосходит современные методы в качестве синтеза новых видов для динамичных сцен из монокулярных видеороликов, обеспечивая ускорение визуализации в тысячи раз.

MOVIS: Улучшение синтеза нового вида для нескольких объектов в помещениях
MOVIS: Enhancing Multi-Object Novel View Synthesis for Indoor Scenes

Dec 16, 2024
Ruijie Lu, Yixin Chen, Junfeng Ni, Baoxiong Jia, Yu Liu, Diwen Wan, Gang Zeng, Siyuan Huang
62

Переиспользование предварительно обученных моделей диффузии доказало свою эффективность для NVS. Однако эти методы в основном ограничены одним объектом; применение таких методов напрямую к композиционным сценариям с несколькими объектами дает худшие результаты, особенно неправильное размещение объектов и несогласованную форму и внешний вид при новых видовых точках зрения. Как улучшить и систематически оценить согласованность между видами таких моделей остается недостаточно исследованным. Для решения этой проблемы мы предлагаем MOVIS для улучшения структурного осознания модели диффузии, зависящей от вида, для многокомпонентного NVS в терминах входных данных модели, вспомогательных задач и стратегии обучения. Во-первых, мы вводим структурно осознанные признаки, включая глубину и маску объекта, в денойзинг U-Net для улучшения понимания моделью экземпляров объектов и их пространственных отношений. Во-вторых, мы вводим вспомогательную задачу, требующую от модели одновременного предсказания масок объектов для новых видов, дополнительно улучшая способность модели различать и размещать объекты. Наконец, мы проводим глубокий анализ процесса диффузионного сэмплирования и тщательно разрабатываем расписание выборки по временным шагам, направленное на структуру, во время обучения, которое балансирует обучение глобального размещения объектов и восстановление деталей с тонкой детализацией. Для систематической оценки правдоподобности синтезированных изображений мы предлагаем оценивать согласованность между видами и размещение объектов для новых видов наряду с существующими метриками NVS на уровне изображения. Обширные эксперименты на сложных синтетических и реалистичных наборах данных демонстрируют, что наш метод обладает сильными обобщающими способностями и производит последовательный синтез новых видов, подчеркивая его потенциал для руководства будущими задачами NVS с учетом трехмерных объектов.

MaxInfoRL: Увеличение исследования в обучении с подкреплением через максимизацию прироста информации
MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization

Dec 16, 2024
Bhavya Sukhija, Stelian Coros, Andreas Krause, Pieter Abbeel, Carmelo Sferrazza
52

Алгоритмы обучения с подкреплением (RL) нацелены на балансировку между использованием текущей лучшей стратегии и исследованием новых вариантов, которые могут привести к более высоким вознаграждениям. Большинство распространенных алгоритмов RL используют ненаправленное исследование, т.е. выбирают случайные последовательности действий. Исследование также может быть направленным с использованием внутренних вознаграждений, таких как любопытство или эпистемическая неопределенность модели. Однако эффективное балансирование задач и внутренних вознаграждений является сложной задачей и часто зависит от задачи. В данной работе мы представляем фреймворк MaxInfoRL для балансировки внутреннего и внешнего исследования. MaxInfoRL направляет исследование на информативные переходы, максимизируя внутренние вознаграждения, такие как прирост информации о базовой задаче. При комбинировании с исследованием Больцмана, этот подход естественным образом балансирует максимизацию функции ценности с энтропией по состояниям, вознаграждениям и действиям. Мы показываем, что наш подход достигает сублинейного регрета в упрощенной среде многоруких бандитов. Затем мы применяем эту общую формулировку к различным методам RL без модели для непрерывных пространств состояний-действий, создавая новые алгоритмы, которые достигают превосходной производительности в сложных задачах и сценариях, таких как задачи визуального управления.

TidyBot++: Открытый голономный мобильный манипулятор для обучения роботов
TidyBot++: An Open-Source Holonomic Mobile Manipulator for Robot Learning

Dec 11, 2024
Jimmy Wu, William Chong, Robert Holmberg, Aaditya Prasad, Yihuai Gao, Oussama Khatib, Shuran Song, Szymon Rusinkiewicz, Jeannette Bohg
52

Для использования потенциала недавних достижений в области обучения по подражанию для мобильной манипуляции потребуется сбор большого количества демонстраций под руководством человека. В данной статье предлагается дизайн с открытым исходным кодом для недорогого, надежного и гибкого мобильного манипулятора, способного поддерживать произвольные манипуляторы и обеспечивать широкий спектр задач мобильной манипуляции в реальных условиях домашнего хозяйства. Ключевой особенностью нашего дизайна является использование силовых колес для обеспечения полной голономности мобильной базы, способной управлять всеми плоскими степенями свободы независимо и одновременно. Эта особенность делает базу более маневренной и упрощает многие задачи мобильной манипуляции, устраняя кинематические ограничения, создающие сложные и затратные движения в неголономных базах. Мы оснастили нашего робота интуитивным интерфейсом телефонной телеоперации для удобного сбора данных для обучения по подражанию. В наших экспериментах мы используем этот интерфейс для сбора данных и показываем, что полученные обученные стратегии успешно выполняют различные типичные задачи мобильной манипуляции в домашнем хозяйстве.

GeoX: Геометрическое решение проблем через унифицированное формализованное предварительное обучение на основе зрительного и языкового восприятия.
GeoX: Geometric Problem Solving Through Unified Formalized Vision-Language Pre-training

Dec 16, 2024
Renqiu Xia, Mingsheng Li, Hancheng Ye, Wenjie Wu, Hongbin Zhou, Jiakang Yuan, Tianshuo Peng, Xinyu Cai, Xiangchao Yan, Bin Wang, Conghui He, Botian Shi, Tao Chen, Junchi Yan, Bo Zhang
42

Несмотря на свою компетентность в общих задачах, многомодальные модели с большим языковым объемом (MLLM) испытывают трудности с автоматическим решением геометрических задач (GPS), которое требует понимания диаграмм, интерпретации символов и выполнения сложного рассуждения. Это ограничение возникает из-за их предварительного обучения на естественных изображениях и текстах, а также из-за отсутствия автоматизированной верификации в процессе решения задач. Более того, текущие геометрические специалисты ограничены своими задаче-специфичными конструкциями, что делает их менее эффективными для более широких геометрических задач. В этой связи мы представляем GeoX, многомодальную крупную модель, сосредоточенную на геометрическом понимании и рассуждениях. Учитывая значительные различия между геометрическими диаграммами-символами и естественными изображениями-текстом, мы вводим унимодальное предварительное обучение для развития кодера диаграмм и декодера символов, улучшая понимание геометрических изображений и корпусов. Кроме того, мы представляем выравнивание геометрии-языка, эффективную парадигму предварительного обучения, которая сокращает разрыв между унимодальными геометрическими экспертами. Мы предлагаем трансформер Генератор-и-Выборка (GS-Former) для генерации дискриминирующих запросов и устранения неинформативных представлений из неравномерно распределенных геометрических сигналов. Наконец, GeoX получает преимущество от настройки визуальных инструкций, давая ему возможность принимать геометрические изображения и вопросы в качестве входных данных и генерировать проверяемые решения. Эксперименты показывают, что GeoX превосходит как общих специалистов, так и геометрических специалистов на общепризнанных бенчмарках, таких как GeoQA, UniGeo, Geometry3K и PGPS9k.

Whisper-GPT: Гибридная модель крупного языкового моделирования на основе аудио.
Whisper-GPT: A Hybrid Representation Audio Large Language Model

Dec 16, 2024
Prateek Verma
42

Мы предлагаем WHISPER-GPT: генеративную модель большого языка (LLM) для речи и музыки, которая позволяет нам работать одновременно с непрерывными аудио представлениями и дискретными токенами как часть единой архитектуры. Наблюдается значительный рост в генеративных моделях аудио, речи и музыки, которые используют дискретные аудио токены, полученные из алгоритмов нейрокомпрессии, например, ENCODEC. Однако одним из основных недостатков этого подхода является обработка длины контекста. Она значительно возрастает для архитектуры высокой точности генерации, если нужно учитывать все аудио-содержимое на различных частотах для предсказания следующего токена. Совмещая непрерывное аудио представление, такое как спектрограмма, и дискретные акустические токены, мы сохраняем лучшее из обоих миров: имеем всю необходимую информацию из аудио в определенный момент времени в одном токене, но позволяем LLM предсказывать будущий токен для сэмплирования и других преимуществ, которые предоставляет дискретное пространство. Мы показываем, как наша архитектура улучшает показатели непонятности и отрицательной логарифмической правдоподобности для предсказания следующего токена по сравнению с токен-основанным LLM для речи и музыки.

Для защиты данных в вертикальном федеративном обучении достаточно простого преобразования.
Just a Simple Transformation is Enough for Data Protection in Vertical Federated Learning

Dec 16, 2024
Andrei Semenov, Philip Zmushko, Alexander Pichugin, Aleksandr Beznosikov
22

Вертикальное федеративное обучение (VFL) направлено на обеспечение совместного обучения моделей глубокого обучения с сохранением защиты конфиденциальности. Однако процесс VFL все еще имеет компоненты, уязвимые для атак со стороны злонамеренных сторон. В нашей работе мы рассматриваем атаки на восстановление признаков, распространенный риск, направленный на компрометацию входных данных. Мы теоретически утверждаем, что атаки на восстановление признаков не могут привести к успеху без знания априорного распределения данных. Следовательно, мы демонстрируем, что даже простые преобразования архитектуры модели могут значительно повлиять на защиту входных данных во время VFL. Подтверждая эти результаты экспериментально, мы показываем, что модели на основе MLP устойчивы к атакам на восстановление признаков, считающимися передовыми.

Почти бесплатная защита от подражания с помощью персонализированных моделей диффузии
Nearly Zero-Cost Protection Against Mimicry by Personalized Diffusion Models

Dec 16, 2024
Namhyuk Ahn, KiYoon Yoo, Wonhyuk Ahn, Daesik Kim, Seung-Hun Nam
22

Недавние достижения в моделях диффузии революционизируют генерацию изображений, однако представляют риски неправомерного использования, таких как воспроизведение произведений искусства или создание дипфейков. Существующие методы защиты изображений, хотя и эффективны, испытывают трудности в балансировании эффективности защиты, невидимости и задержки, что ограничивает их практическое использование. Мы предлагаем предварительное обучение с помехами для сокращения задержки и предлагаем подход смешивания помех, который динамически адаптируется к входным изображениям для минимизации снижения производительности. Наша новая стратегия обучения вычисляет потерю защиты в нескольких пространствах признаков VAE, в то время как адаптивная целевая защита на этапе вывода повышает устойчивость и невидимость. Эксперименты показывают сравнимую производительность защиты с улучшенной невидимостью и значительно сокращенным временем вывода. Код и демонстрация доступны по ссылке https://webtoon.github.io/impasto

Надежные, воспроизводимые и действительно быстрые таблицы лидеров с помощью Evalica.
Reliable, Reproducible, and Really Fast Leaderboards with Evalica

Dec 15, 2024
Dmitry Ustalov
22

Быстрое развитие технологий обработки естественного языка (NLP), таких как настроенные на инструкции большие языковые модели (LLM), требует разработки современных протоколов оценки с обратной связью от людей и машин. Мы представляем Evalica, набор инструментов с открытым исходным кодом, который облегчает создание надежных и воспроизводимых рейтингов моделей. В данной статье представлен ее дизайн, оценена производительность и продемонстрирована ее применимость через веб-интерфейс, интерфейс командной строки и Python API.

RLDG: Дистилляция общего политики робототехнического обобщенного агента с использованием обучения с подкреплением
RLDG: Robotic Generalist Policy Distillation via Reinforcement Learning

Dec 13, 2024
Charles Xu, Qiyang Li, Jianlan Luo, Sergey Levine
22

Недавние достижения в области робототехнических базовых моделей позволили разработать общие стратегии, способные адаптироваться к различным задачам. Хотя эти модели проявляют впечатляющую гибкость, их производительность в значительной степени зависит от качества обучающих данных. В данной работе мы предлагаем метод Reinforcement Learning Distilled Generalists (RLDG), который использует обучение с подкреплением для генерации высококачественных обучающих данных для настройки общих стратегий. Через обширные эксперименты в реальном мире по точным манипуляционным задачам, таким как вставка и сборка разъемов, мы демонстрируем, что общие стратегии, обученные с использованием данных, сгенерированных RL, последовательно превосходят те, которые обучены с помощью демонстраций человека, достигая до 40% более высоких показателей успешности и лучшей обобщаемости на новые задачи. Мы также предоставляем подробный анализ, который показывает, что улучшение производительности обусловлено как оптимизированными распределениями действий, так и улучшенным охватом состояний. Наши результаты свидетельствуют о том, что комбинирование задачно-специфического обучения с обобщенной дистилляцией стратегий предлагает многообещающий подход для разработки более способных и эффективных систем робототехнической манипуляции, которые сохраняют гибкость базовых моделей, достигая при этом производительности специализированных контроллеров. Видео и код можно найти на нашем веб-сайте проекта https://generalist-distillation.github.io

Dec 16
Dec 17
Dec 18