Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы предполагаем, что для создания сверхчеловеческих агентов будущие модели требуют сверхчеловеческой обратной связи, чтобы обеспечить адекватный обучающий сигнал. Современные подходы обычно обучают модели вознаграждения на основе человеческих предпочтений, что может ограничиваться уровнем человеческой производительности, а также эти отдельные замороженные модели вознаграждения не могут улучшаться в процессе обучения языковых моделей (LLM). В данной работе мы исследуем самовознаграждающиеся языковые модели, где сама языковая модель используется через подход LLM-as-a-Judge для предоставления собственных вознаграждений в процессе обучения. Мы показываем, что в ходе итеративного обучения с использованием DPO (Direct Preference Optimization) не только улучшается способность следовать инструкциям, но и способность модели предоставлять высококачественные вознаграждения самой себе. Тонкая настройка модели Llama 2 70B на трех итерациях нашего подхода приводит к модели, которая превосходит многие существующие системы на лидерборде AlpacaEval 2.0, включая Claude 2, Gemini Pro и GPT-4 0613. Хотя это лишь предварительное исследование, данная работа открывает возможность создания моделей, которые могут непрерывно улучшаться по обоим направлениям.
Недавно модели пространства состояний (SSM) с эффективными аппаратно-ориентированными решениями, такие как Mamba, продемонстрировали значительный потенциал для моделирования длинных последовательностей. Создание эффективных и универсальных базовых архитектур для задач компьютерного зрения, основанных исключительно на SSM, является перспективным направлением. Однако представление визуальных данных представляет сложность для SSM из-за чувствительности визуальных данных к положению и необходимости глобального контекста для понимания изображений. В данной работе мы показываем, что зависимость обучения визуальных представлений от механизма самовнимания не является обязательной, и предлагаем новую универсальную базовую архитектуру для задач зрения с двунаправленными блоками Mamba (Vim), которая маркирует последовательности изображений позиционными эмбеддингами и сжимает визуальное представление с помощью двунаправленных моделей пространства состояний. На задачах классификации ImageNet, детекции объектов COCO и семантической сегментации ADE20k Vim демонстрирует более высокую производительность по сравнению с хорошо зарекомендовавшими себя трансформерами для задач зрения, такими как DeiT, а также значительное улучшение вычислительной и памяти эффективности. Например, Vim работает в 2,8 раза быстрее, чем DeiT, и экономит 86,8% памяти GPU при пакетном выводе для извлечения признаков на изображениях с разрешением 1248×1248. Результаты показывают, что Vim способен преодолеть ограничения по вычислениям и памяти при выполнении трансформероподобного анализа высококачественных изображений и имеет большой потенциал стать базовой архитектурой следующего поколения для фундаментальных моделей компьютерного зрения. Код доступен по адресу https://github.com/hustvl/Vim.
В данной работе мы представляем ChatQA, семейство моделей для диалогового ответа на вопросы (QA), которые достигают точности на уровне GPT-4. В частности, мы предлагаем двухэтапный метод настройки с использованием инструкций, который значительно улучшает результаты диалогового QA в условиях zero-shot для больших языковых моделей (LLM). Для обработки поиска в контексте диалогового QA мы дообучаем плотный поисковый модуль на наборе данных для многоходового QA, что обеспечивает сопоставимые результаты с использованием передовой модели переформулирования запросов, при этом существенно снижая затраты на развертывание. Примечательно, что наша модель ChatQA-70B превосходит GPT-4 по среднему показателю на 10 наборах данных для диалогового QA (54.14 против 53.90), не полагаясь на какие-либо синтетические данные из моделей OpenAI GPT.
Один из способов улучшить способность к рассуждению у крупных языковых моделей (LLM) — это проведение контролируемого тонкого настройки (SFT) с использованием аннотаций цепочки рассуждений (CoT). Однако этот подход не демонстрирует достаточно сильной способности к обобщению, поскольку обучение основывается только на предоставленных данных CoT. Например, в решении математических задач в обучающих данных обычно присутствует только один аннотированный путь рассуждений для каждого вопроса. Интуитивно было бы лучше, если бы алгоритм обучался на нескольких аннотированных путях рассуждений для одного вопроса. Чтобы решить эту проблему, мы предлагаем простой, но эффективный подход под названием Усиленное Тонкое Настройка (ReFT), который улучшает способность к обобщению при обучении LLM для рассуждений, используя в качестве примера решение математических задач. ReFT сначала разогревает модель с помощью SFT, а затем применяет онлайн-обучение с подкреплением, в частности алгоритм PPO, для дальнейшего тонкого настройки модели, где автоматически генерируется множество путей рассуждений для каждого вопроса, а награды естественным образом выводятся из правильных ответов. Эксперименты на наборах данных GSM8K, MathQA и SVAMP показывают, что ReFT значительно превосходит SFT, и производительность может быть дополнительно улучшена за счет комбинации стратегий на этапе вывода, таких как мажоритарное голосование и повторное ранжирование. Важно отметить, что ReFT достигает улучшений, обучаясь на тех же обучающих вопросах, что и SFT, без использования дополнительных или расширенных обучающих данных. Это указывает на превосходную способность к обобщению у ReFT.
Группировка по своей природе неоднозначна из-за множества уровней детализации, на которых можно декомпозировать сцену — следует ли рассматривать колеса экскаватора как отдельные элементы или как часть целого? Мы представляем Group Anything with Radiance Fields (GARField), подход для декомпозиции 3D-сцен в иерархию семантически значимых групп на основе входных данных с позиционированных изображений. Для этого мы принимаем неоднозначность группировки через физический масштаб: оптимизируя масштабно-обусловленное поле 3D-аффинных признаков, точка в мире может принадлежать разным группам разного размера. Мы оптимизируем это поле на основе набора 2D-масок, предоставленных Segment Anything (SAM), таким образом, чтобы учитывать иерархию от грубой к детальной, используя масштаб для согласованного объединения конфликтующих масок с разных точек зрения. Из этого поля мы можем вывести иерархию возможных группировок с помощью автоматического построения дерева или взаимодействия с пользователем. Мы оцениваем GARField на различных сценах в реальных условиях и обнаруживаем, что он эффективно извлекает группы на многих уровнях: кластеры объектов, объекты и различные их части. GARField естественным образом представляет согласованные группировки с нескольких точек зрения и создает группы с более высокой точностью, чем входные маски SAM. Иерархическая группировка GARField может иметь захватывающие приложения, такие как извлечение 3D-ассетов или понимание динамических сцен. Посетите сайт проекта по адресу https://www.garfield.studio/.
3D визуально-языковое заземление, которое сосредоточено на согласовании языка с трехмерной физической средой, является краеугольным камнем в разработке воплощенных агентов. По сравнению с недавними достижениями в двумерной области, заземление языка в трехмерных сценах сталкивается с несколькими значительными проблемами: (i) присущая сложность трехмерных сцен из-за разнообразных конфигураций объектов, их богатых атрибутов и сложных взаимосвязей; (ii) недостаток парных данных визуально-языкового заземления в 3D для поддержки обучения; и (iii) отсутствие унифицированной обучающей структуры для извлечения знаний из заземленных 3D данных. В данной работе мы стремимся решить эти три основные проблемы в области 3D визуально-языкового заземления, исследуя потенциал систематического масштабирования обучения в трехмерных визуально-языковых средах в помещениях. Мы представляем первый миллионный набор данных 3D визуально-языкового заземления, SceneVerse, охватывающий около 68K трехмерных сцен в помещениях и включающий 2.5M пар визуально-языковых данных, полученных как из человеческих аннотаций, так и из нашего масштабируемого подхода на основе сценарных графов. Мы демонстрируем, что такое масштабирование позволяет создать унифицированную структуру предварительного обучения, Grounded Pre-training for Scenes (GPS), для 3D визуально-языкового обучения. Благодаря обширным экспериментам мы показываем эффективность GPS, достигая наилучших результатов на всех существующих бенчмарках 3D визуального заземления. Огромный потенциал SceneVerse и GPS раскрывается через эксперименты с нулевым переносом в сложных задачах 3D визуально-языкового заземления. Сайт проекта: https://scene-verse.github.io.
Модели мира играют ключевую роль в понимании и предсказании динамики окружающего мира, что крайне важно для генерации видео. Однако существующие модели мира ограничены конкретными сценариями, такими как игры или вождение, что снижает их способность охватывать сложность общих динамических сред. В связи с этим мы представляем WorldDreamer — новаторскую модель мира, направленную на всестороннее понимание физики и движений в общем мире, что значительно расширяет возможности генерации видео. Вдохновляясь успехами крупных языковых моделей, WorldDreamer формулирует моделирование мира как задачу неконтролируемого моделирования визуальных последовательностей. Это достигается путем преобразования визуальных входных данных в дискретные токены и предсказания замаскированных элементов. В этом процессе мы используем мультимодальные подсказки для облегчения взаимодействия внутри модели мира. Наши эксперименты показывают, что WorldDreamer превосходно справляется с генерацией видео в различных сценариях, включая природные ландшафты и дорожные условия. WorldDreamer демонстрирует универсальность в выполнении задач, таких как преобразование текста в видео, синтез видео из изображений и редактирование видео. Эти результаты подчеркивают эффективность WorldDreamer в захвате динамических элементов в разнообразных общих мировых средах.
Генерация видео на основе диффузионных моделей получила широкое внимание и достигла значительных успехов как в академических, так и в промышленных кругах. Однако текущие усилия в основном сосредоточены на одноцелевой или однотипной генерации видео, такой как генерация, управляемая текстом, изображением или их комбинацией. Это не может полностью удовлетворить потребности реальных сценариев применения, поскольку пользователи могут гибко вводить условия в виде изображений, текста или их сочетания. Для решения этой проблемы мы предлагаем унифицированную систему генерации видео, способную обрабатывать множество задач генерации видео, охватывающих текстовые и визуальные модальности. С этой целью мы рассматриваем различные задачи генерации видео в нашей системе с точки зрения свободы генерации и классифицируем их на категории с высокой и низкой свободой. Для генерации видео с высокой свободой мы используем механизм Multi-condition Cross Attention для создания видео, соответствующих семантике входных изображений или текста. Для генерации видео с низкой свободой мы вводим смещенный гауссовский шум вместо чистого случайного гауссовского шума, что помогает лучше сохранять содержание входных условий. Наш метод достигает наименьшего значения Fréchet Video Distance (FVD) на общедоступном академическом бенчмарке MSR-VTT, превосходит текущие открытые методы в оценках пользователей и находится на одном уровне с закрытым методом Gen2. Для получения дополнительных примеров посетите https://univg-baidu.github.io.
Развертывание и масштабирование больших языковых моделей (LLM) приобретают критическую важность по мере их проникновения в различные приложения, требующие систем с высокой пропускной способностью и низкой задержкой. Существующие фреймворки испытывают трудности с балансировкой этих требований, особенно для задач с длинными промптами. В данной статье представлена система DeepSpeed-FastGen, которая использует Dynamic SplitFuse — инновационную стратегию композиции промптов и генерации, — обеспечивая до 2,3 раза более высокую эффективную пропускную способность, в среднем в 2 раза меньшую задержку и до 3,7 раза меньшую (на уровне токенов) хвостовую задержку по сравнению с передовыми системами, такими как vLLM. Мы используем синергетическое сочетание DeepSpeed-MII и DeepSpeed-Inference для создания эффективной и удобной системы обслуживания LLM. Продвинутая реализация DeepSpeed-FastGen поддерживает широкий спектр моделей и предлагает как непостоянные, так и постоянные варианты развертывания, адаптированные к различным сценариям использования — от интерактивных сессий до долгосрочных приложений. Мы представляем детальную методологию бенчмаркинга, анализируем производительность с помощью кривых задержки и пропускной способности и исследуем масштабируемость через балансировку нагрузки. Наши оценки демонстрируют значительные улучшения в пропускной способности и задержке для различных моделей и аппаратных конфигураций. Мы обсуждаем наш план дальнейшего развития, включая поддержку более широкого спектра моделей и новых аппаратных платформ. Код DeepSpeed-FastGen доступен для участия и вклада сообщества.
Генерация видео по текстовому описанию направлена на создание видео на основе заданного запроса. В последнее время несколько коммерческих моделей для создания видео смогли генерировать правдоподобные видео с минимальным уровнем шума, отличной детализацией и высокими эстетическими показателями. Однако эти модели полагаются на масштабные, тщательно отфильтрованные и высококачественные видеоданные, которые недоступны для широкого сообщества. Многие существующие исследования, которые обучают модели на низкокачественном наборе данных WebVid-10M, сталкиваются с трудностями в создании высококачественных видео, поскольку модели оптимизированы для работы с WebVid-10M. В данной работе мы исследуем схему обучения видеомоделей, расширенных на основе Stable Diffusion, и изучаем возможность использования низкокачественных видео и синтезированных высококачественных изображений для получения высококачественной видеомодели. Сначала мы анализируем связь между пространственными и временными модулями видеомоделей и сдвигом распределения в сторону низкокачественных видео. Мы наблюдаем, что полное обучение всех модулей приводит к более сильной связи между пространственными и временными модулями по сравнению с обучением только временных модулей. На основе этой более сильной связи мы смещаем распределение в сторону более высокого качества без ухудшения движения, дообучая пространственные модули на высококачественных изображениях, что позволяет получить универсальную высококачественную видеомодель. Проведенные оценки демонстрируют превосходство предложенного метода, особенно в качестве изображений, движении и композиции концепций.
Мы представляем Scalable Interpolant Transformers (SiT) — семейство генеративных моделей, построенных на основе Diffusion Transformers (DiT). Интерполянтный фреймворк, который позволяет связывать два распределения более гибким способом, чем стандартные диффузионные модели, делает возможным модульное изучение различных проектных решений, влияющих на генеративные модели, основанные на динамическом транспорте: использование дискретного или непрерывного времени обучения, выбор целевой функции для модели, выбор интерполянта, связывающего распределения, и применение детерминированного или стохастического сэмплера. Тщательно вводя вышеуказанные компоненты, SiT превосходит DiT по всем размерам моделей на бенчмарке условного ImageNet 256x256, используя точно такую же архитектуру, количество параметров и GFLOPs. Исследуя различные коэффициенты диффузии, которые можно настраивать отдельно от обучения, SiT достигает показателя FID-50K, равного 2.06.
Мы представляем TextureDreamer — новый метод синтеза текстур на основе изображений, который позволяет переносить переосвещаемые текстуры с небольшого количества входных изображений (от 3 до 5) на целевые 3D-модели произвольных категорий. Создание текстур является ключевой задачей в области компьютерного зрения и графики. Промышленные компании нанимают опытных художников для ручного создания текстур для 3D-активов. Классические методы требуют плотно сэмплированных видов и точно выровненной геометрии, в то время как методы, основанные на обучении, ограничиваются формами, специфичными для категорий в наборе данных. В отличие от них, TextureDreamer может переносить высокодетализированные, сложные текстуры из реальных сред на произвольные объекты, используя всего несколько случайно снятых изображений, что потенциально значительно демократизирует процесс создания текстур. Наша ключевая идея, персонализированная геометрически-осознанная дистилляция оценок (PGSD), вдохновлена последними достижениями в области диффузных моделей, включая персонализированное моделирование для извлечения текстуры, вариационную дистилляцию оценок для синтеза детализированного внешнего вида и явное геометрическое управление с помощью ControlNet. Наша интеграция и несколько важных модификаций существенно улучшают качество текстур. Эксперименты на реальных изображениях, охватывающих различные категории, показывают, что TextureDreamer успешно переносит высокореалистичные, семантически значимые текстуры на произвольные объекты, превосходя визуальное качество предыдущих передовых методов.
Локальный стохастический градиентный спуск (Local-SGD), также известный как федеративное усреднение, представляет собой подход к распределенной оптимизации, при котором каждое устройство выполняет более одного шага SGD перед обменом данными. В данной работе представлено эмпирическое исследование асинхронного Local-SGD для обучения языковых моделей, где каждый рабочий процесс обновляет глобальные параметры сразу после завершения своих шагов SGD. Мы проводим всестороннее исследование, изучая, как неоднородность оборудования рабочих устройств, размер модели, количество рабочих процессов и оптимизатор могут повлиять на производительность обучения. Мы обнаруживаем, что при наивной реализации асинхронный Local-SGD требует больше итераций для сходимости по сравнению с синхронным подходом, несмотря на более частые обновления глобальных параметров модели. Мы выявляем ключевую проблему, связанную с ускорением импульса на глобальных параметрах, когда градиенты рабочих процессов устаревают. Мы предлагаем новый метод, который использует отложенное обновление импульса Нестерова и корректирует количество локальных шагов обучения рабочих процессов в зависимости от их скорости вычислений. Этот подход, протестированный на моделях с количеством параметров до 150 миллионов на наборе данных C4, демонстрирует сопоставимую с синхронным Local-SGD производительность в терминах перплексии на шаг обновления и значительно превосходит его по времени выполнения.
Учитывая ограничения текста как источника точного представления компоновки в диффузионных моделях, обусловленных текстом, многие работы включают дополнительные сигналы для управления определёнными атрибутами в генерируемом изображении. Хотя эти подходы успешны, предыдущие работы не учитывают конкретное расположение указанных атрибутов, расширенное в трёхмерное пространство. В этом контексте мы представляем условную диффузионную модель, которая интегрирует контроль над трёхмерным размещением объектов с разделёнными представлениями глобальной стилистической семантики из нескольких примеров изображений. В частности, мы сначала вводим обучение с разделением глубины, чтобы использовать относительную глубину объектов в качестве оценки, позволяя модели определять абсолютные позиции невидимых объектов с использованием синтетических триплетов изображений. Мы также представляем мягкое управление — метод наложения глобальной семантики на целевые области без использования дополнительных локализационных подсказок. Наша интегрированная структура, Compose and Conquer (CnC), объединяет эти техники для локализации множества условий в разделённой манере. Мы демонстрируем, что наш подход позволяет воспринимать объекты на различных глубинах, предлагая универсальную структуру для компоновки локализованных объектов с различной глобальной семантикой. Код: https://github.com/tomtom1103/compose-and-conquer/
Нейронные поля излучения (NeRF) демонстрируют выдающиеся результаты в задаче синтеза новых видов (NVS) на основе набора 2D-изображений. Однако обучение NeRF требует точного определения положения камеры для каждого входного изображения, которое обычно получается с помощью методов восстановления структуры по движению (SfM). В последних работах предпринимались попытки ослабить это ограничение, но они всё же часто полагаются на достаточно хорошие начальные положения камеры, которые затем могут быть уточнены. В данной работе мы стремимся полностью устранить необходимость в инициализации положения камеры. Мы представляем метод Incremental CONfidence (ICON) — процедуру оптимизации для обучения NeRF на основе кадров 2D-видео. ICON предполагает лишь плавное движение камеры для оценки начального приближения положений. Кроме того, ICON вводит понятие «уверенности» — адаптивной меры качества модели, используемой для динамического перевзвешивания градиентов. ICON опирается на положения камеры с высокой уверенностью для обучения NeRF и на 3D-структуру с высокой уверенностью (кодируемую NeRF) для обучения положений камеры. Мы показываем, что ICON, без предварительной инициализации положения камеры, достигает превосходной производительности на наборах данных CO3D и HO3D по сравнению с методами, использующими положения камеры, полученные с помощью SfM.