Ежедневно отобранные исследовательские статьи по ИИ с переводами
Оптимизация повсеместна. Хотя алгоритмы, основанные на производных, являются мощными инструментами для решения различных задач, отсутствие градиента создает трудности во многих реальных приложениях. В данной работе мы предлагаем Оптимизацию через ПРОмтинг (OPRO) — простой и эффективный подход, использующий большие языковые модели (LLM) в качестве оптимизаторов, где задача оптимизации описывается на естественном языке. На каждом шаге оптимизации LLM генерирует новые решения из промта, содержащего ранее созданные решения с их значениями, затем новые решения оцениваются и добавляются в промт для следующего шага оптимизации. Сначала мы демонстрируем OPRO на задачах линейной регрессии и задачи коммивояжера, а затем переходим к оптимизации промтов, где цель — найти инструкции, максимизирующие точность выполнения задачи. Используя различные LLM, мы показываем, что лучшие промты, оптимизированные с помощью OPRO, превосходят промты, созданные человеком, на 8% на GSM8K и на 50% на задачах из Big-Bench Hard.
Крупные языковые модели (LLM) достигли значительных успехов в задачах обработки естественного языка (NLP) и мультимодальных задачах. Несмотря на эти достижения, их разработка сталкивается с двумя основными проблемами: (i) высокая вычислительная стоимость; и (ii) сложность проведения справедливой и объективной оценки. LLM чрезвычайно дороги в обучении, что делает их разработку доступной лишь для нескольких крупных игроков, тем самым ограничивая возможности как исследований, так и практического применения. Это подчеркивает важность разработки экономически эффективных методов обучения LLM. В данной статье мы используем стратегию роста для значительного снижения стоимости обучения LLM. Мы демонстрируем, что модель с 101 миллиардом параметров и 0,31 триллиона токенов может быть обучена с бюджетом в 100 тысяч долларов. Мы также применяем систематический подход к оценке IQ LLM, дополняя существующие методы, которые в большей степени ориентированы на проверку знаний. Мы представляем наш бенчмарк, включающий оценку важных аспектов интеллекта, таких как символическое отображение, понимание правил, поиск закономерностей и устойчивость к помехам. Такие оценки минимизируют потенциальное влияние запоминания данных. Экспериментальные результаты показывают, что наша модель FLM-101B, обученная с бюджетом в 100 тысяч долларов, демонстрирует сопоставимую производительность с мощными и известными моделями, такими как GPT-3 и GLM-130B, особенно в тестах IQ, где используются контексты, не встречавшиеся в обучающих данных. Чекпоинт модели FLM-101B будет опубликован по адресу: https://huggingface.co/CofeAI/FLM-101B.
Несмотря на их впечатляющие возможности, крупные языковые модели (LLM) склонны к галлюцинациям, то есть к генерации контента, который отклоняется от фактов, наблюдаемых в процессе предварительного обучения. Мы предлагаем простую стратегию декодирования для уменьшения галлюцинаций в предварительно обученных LLM, которая не требует использования внешних знаний, полученных из поиска, или дополнительной тонкой настройки. Наш подход получает распределение следующего токена, сравнивая различия в логитах, полученных путем проекции более поздних слоев по сравнению с более ранними слоями в пространство словаря, используя тот факт, что фактические знания в LLM, как правило, локализованы в определенных слоях трансформера. Мы обнаруживаем, что этот подход Decoding by Contrasting Layers (DoLa) позволяет лучше выявлять фактические знания и уменьшать генерацию неверных фактов. DoLa последовательно улучшает правдивость в задачах с множественным выбором и задачах открытой генерации, например, повышая производительность моделей семейства LLaMA на TruthfulQA на 12-17% абсолютных пунктов, демонстрируя свой потенциал в обеспечении надежной генерации правдивых фактов LLM.
Аннотация данных для обучения видеосегментации является дорогостоящей. Это затрудняет применение сквозных алгоритмов к новым задачам видеосегментации, особенно в условиях работы с большим словарём. Чтобы "отслеживать что угодно" без необходимости обучения на видеоданных для каждой отдельной задачи, мы разработали разделённый подход к видеосегментации (DEVA), состоящий из специфичной для задачи сегментации на уровне изображений и универсального двунаправленного временного распространения, не зависящего от класса или задачи. Благодаря такому подходу нам требуется только модель для сегментации на уровне изображений для целевой задачи (что дешевле в обучении) и универсальная модель временного распространения, которая обучается один раз и обобщается для различных задач. Для эффективного объединения этих двух модулей мы используем двунаправленное распространение для (полу-)онлайн-объединения гипотез сегментации из разных кадров с целью создания согласованной сегментации. Мы показываем, что такая разделённая формулировка превосходит сквозные подходы в нескольких задачах с ограниченным объёмом данных, включая панорамную видеосегментацию с большим словарём, видеосегментацию в открытом мире, сегментацию видео по ссылкам и неконтролируемую сегментацию объектов на видео. Код доступен по адресу: https://hkchengrex.github.io/Tracking-Anything-with-DEVA
Flow-based propagation и spatiotemporal Transformer являются двумя основными механизмами в задаче восстановления видео (video inpainting, VI). Несмотря на эффективность этих компонентов, они всё же имеют некоторые ограничения, которые влияют на их производительность. Предыдущие подходы, основанные на propagation, выполнялись отдельно либо в области изображений, либо в области признаков. Глобальное propagation изображений, изолированное от обучения, может вызывать пространственное смещение из-за неточного оптического потока. Кроме того, ограничения по памяти или вычислительным ресурсам сужают временной диапазон propagation признаков и видео Transformer, что препятствует исследованию информации о соответствиях из удалённых кадров. Для решения этих проблем мы предлагаем улучшенную архитектуру под названием ProPainter, которая включает в себя усовершенствованное ProPagation и эффективный Transformer. В частности, мы вводим dual-domain propagation, объединяющее преимущества искажения изображений и признаков, что позволяет надёжно использовать глобальные соответствия. Мы также предлагаем mask-guided sparse video Transformer, который достигает высокой эффективности за счёт отбрасывания ненужных и избыточных токенов. Благодаря этим компонентам, ProPainter значительно превосходит предыдущие методы, демонстрируя улучшение на 1.46 дБ по PSNR, сохраняя при этом привлекательную эффективность.
Мы представляем ImageBind-LLM, метод настройки инструкций для больших языковых моделей (LLM) с использованием мультимодальности через ImageBind. Существующие работы в основном сосредоточены на настройке инструкций для текста и изображений, в отличие от которых наш ImageBind-LLM способен реагировать на мультимодальные условия, включая аудио, 3D-точечные облака, видео и их арифметику в пространстве вложений, благодаря обучению только на выравнивании изображений и текста. В процессе обучения мы используем обучаемую связующую сеть для согласования пространства вложений между LLaMA и кодировщиком изображений ImageBind. Затем преобразованные связующей сетью признаки изображений добавляются к токенам слов на всех слоях LLaMA, что постепенно внедряет визуальные инструкции через механизм ворот без внимания и с нулевой инициализацией. Благодаря совместному вложению ImageBind, простое обучение на изображениях и тексте позволяет нашей модели демонстрировать превосходные способности следовать мультимодальным инструкциям. На этапе вывода мультимодальные входные данные подаются в соответствующие кодировщики ImageBind и обрабатываются предложенной моделью визуального кэша для дальнейшего улучшения кросс-модальных вложений. Модель кэша, не требующая обучения, извлекает данные из трех миллионов признаков изображений, извлеченных ImageBind, что эффективно снижает расхождение между модальностями обучения и вывода. Примечательно, что с нашим подходом ImageBind-LLM способен реагировать на инструкции различных модальностей и демонстрирует значительное качество генерации текста. Код доступен по адресу https://github.com/OpenGVLab/LLaMA-Adapter.
Мы представляем InstructDiffusion — универсальную и обобщающую структуру для согласования задач компьютерного зрения с инструкциями человека. В отличие от существующих подходов, которые интегрируют априорные знания и заранее определяют пространство выходных данных (например, категории и координаты) для каждой задачи, мы преобразуем разнообразные задачи в интуитивно понятный человеку процесс манипуляции изображениями, где пространство выходных данных является гибким и интерактивным пиксельным пространством. Конкретно, модель основана на процессе диффузии и обучается предсказывать пиксели в соответствии с инструкциями пользователя, такими как обводка левого плеча человека красным цветом или наложение синей маски на левый автомобиль. InstructDiffusion способна решать различные задачи компьютерного зрения, включая задачи понимания (например, сегментация и обнаружение ключевых точек) и генеративные задачи (например, редактирование и улучшение). Она даже демонстрирует способность справляться с новыми задачами и превосходит предыдущие методы на новых наборах данных. Это представляет собой значительный шаг к созданию универсального интерфейса моделирования для задач компьютерного зрения, продвигая искусственный общий интеллект в этой области.
В данной статье мы представляем новую диффузионную модель, которая генерирует многовидовые согласованные изображения из одновидового изображения. Используя предобученные крупномасштабные 2D диффузионные модели, недавняя работа Zero123 демонстрирует возможность генерации правдоподобных новых видов из одновидового изображения объекта. Однако поддержание согласованности геометрии и цветов для генерируемых изображений остается сложной задачей. Для решения этой проблемы мы предлагаем синхронизированную многовидовую диффузионную модель, которая моделирует совместное распределение вероятностей многовидовых изображений, что позволяет генерировать согласованные многовидовые изображения в едином обратном процессе. SyncDreamer синхронизирует промежуточные состояния всех генерируемых изображений на каждом шаге обратного процесса с помощью 3D-ориентированного механизма внимания к признакам, который связывает соответствующие признаки в различных видах. Эксперименты показывают, что SyncDreamer генерирует изображения с высокой степенью согласованности между различными видами, что делает её хорошо подходящей для различных задач 3D-генерации, таких как синтез новых видов, текст-в-3D и изображение-в-3D.
Недавние достижения в области диффузионных моделей, такие как ControlNet, позволили добиться геометрически управляемого и высококачественного преобразования текста в изображение. Однако ни одна из этих моделей не решает задачу добавления подобной управляемости к генерации 3D-моделей из текста. В ответ на это мы предлагаем Text2Control3D — метод управляемой генерации 3D-аватаров из текста, где мимика лица контролируется на основе монохромного видео, снятого с ручной камеры. Основная стратегия заключается в построении 3D-аватара в рамках Neural Radiance Fields (NeRF), оптимизированного с использованием набора управляемых изображений, учитывающих ракурс, которые мы генерируем с помощью ControlNet. Входным условием для ControlNet служит карта глубины, извлеченная из входного видео. При генерации изображений, учитывающих ракурс, мы используем кросс-референсное внимание для внедрения точно контролируемой мимики и внешнего вида через механизм кросс-внимания. Кроме того, мы применяем низкочастотную фильтрацию латентного пространства Гаусса диффузионной модели, чтобы устранить проблему текстуры, не зависящей от ракурса, которую мы выявили в ходе эмпирического анализа. Эта проблема заключается в том, что изображения, учитывающие ракурс, содержат идентичные текстуры на одинаковых позициях пикселей, что неприемлемо для 3D. Наконец, для обучения NeRF на изображениях, которые учитывают ракурс, но не строго согласованы геометрически, наш подход рассматривает геометрические вариации для каждого изображения как деформацию относительно общего 3D-канонического пространства. В результате мы строим 3D-аватар в каноническом пространстве деформируемого NeRF, обучая набор деформаций для каждого изображения через таблицу полей деформации. Мы демонстрируем эмпирические результаты и обсуждаем эффективность нашего метода.
Крупные языковые модели (LLM) стали повсеместно применяться в различных областях, трансформируя способы взаимодействия с информацией и проведения исследований. Однако большинство высокопроизводительных LLM остаются закрытыми, что препятствует научному прогрессу. С другой стороны, большинство открытых LLM ограничены в своей способности поддерживать более длинные последовательности, что является ключевым требованием для многих задач, требующих вывода на основе входного контекста. Для решения этой проблемы мы обучили XGen — серию моделей с 7 миллиардами параметров, поддерживающих последовательности длиной до 8 тысяч токенов, на корпусе объемом до 1,5 триллионов токенов. Мы также дообучили модели XGen на данных из открытых источников, создав их версии, адаптированные для выполнения инструкций (XGen-Inst). Мы открываем исходный код наших моделей для использования в научных исследованиях и коммерческих приложениях. Наши оценки на стандартных бенчмарках показывают, что модели XGen демонстрируют сопоставимые или лучшие результаты по сравнению с современными открытыми LLM. Целевые оценки на задачах, связанных с моделированием длинных последовательностей, демонстрируют преимущества наших моделей с 8-тысячными последовательностями перед открытыми LLM, поддерживающими 2-тысячные последовательности.
Мы представляем детальный анализ реальной системы обучения роботов, которая в предыдущих исследованиях продемонстрировала способность поддерживать сотни розыгрышей в настольном теннисе с человеком и точно возвращать мяч в заданные цели. Эта система объединяет высокооптимизированную подсистему восприятия, высокоскоростной контроллер робота с низкой задержкой, симуляционную парадигму, которая предотвращает повреждения в реальном мире и обучает стратегии для переноса без дообучения, а также автоматизированные сбросы среды в реальном мире, что позволяет автономное обучение и оценку на физических роботах. Мы дополняем полное описание системы, включая множество проектных решений, которые обычно не широко освещаются, набором исследований, которые проясняют важность минимизации различных источников задержек, учета различий между распределениями данных при обучении и развертывании, устойчивости системы восприятия, чувствительности к гиперпараметрам стратегии и выбора пространства действий. Видео, демонстрирующее компоненты системы и детали экспериментальных результатов, доступно по ссылке: https://youtu.be/uFcnWjB42I0.
Вдохновленные впечатляющими успехами латентных диффузионных моделей (LDMs) в синтезе изображений, мы исследуем применение LDM для генерации видео из текста, что представляет собой сложную задачу из-за вычислительных и ресурсных ограничений как при обучении модели, так и при её использовании. Одна LDM обычно способна генерировать лишь очень ограниченное количество кадров видео. Некоторые существующие работы сосредоточены на отдельных моделях предсказания для создания большего числа кадров, однако они страдают от дополнительных затрат на обучение и дрожания на уровне кадров. В данной статье мы предлагаем фреймворк под названием "Reuse and Diffuse" (VidRD), который позволяет генерировать больше кадров, основываясь на уже созданных LDM кадрах. Условившись на начальном видеоклипе с небольшим количеством кадров, дополнительные кадры итеративно генерируются путем повторного использования исходных латентных признаков и следования предыдущему процессу диффузии. Кроме того, для автоэнкодера, используемого для перевода между пространством пикселей и латентным пространством, мы добавляем временные слои в его декодер и дообучаем эти слои для повышения временной согласованности. Мы также предлагаем набор стратегий для составления видео-текстовых данных, включающих разнообразный контент из нескольких существующих наборов данных, включая наборы данных для распознавания действий и наборы данных изображений с текстом. Многочисленные эксперименты показывают, что наш метод демонстрирует хорошие результаты как в количественных, так и в качественных оценках. Страница нашего проекта доступна {здесь}.