Ежедневно отобранные исследовательские статьи по ИИ с переводами
Разработка и оценка больших языковых моделей (Large Language Models, LLMs) в значительной степени сосредоточена на индивидуальных способностях. Однако это игнорирует пересечение нескольких способностей различных типов экспертизы, которые часто требуются для задач реального мира, что мы называем перекрестными способностями. Для систематического изучения этого концепта мы сначала определяем семь основных индивидуальных способностей, а затем объединяем их для формирования семи общих перекрестных способностей, каждая из которых поддерживается вручную составленной таксономией. Основываясь на этих определениях, мы представляем CrossEval, бенчмарк, включающий 1 400 человеко-аннотированных подсказок, по 100 подсказок для каждой индивидуальной и перекрестной способности. Для обеспечения надежной оценки мы привлекаем экспертов-аннотаторов для оценки 4 200 ответов моделей, собрав 8 400 человеко-оценок с подробными объяснениями в качестве примеров-референсов. Наши результаты показывают, что как в статических оценках, так и в попытках улучшить конкретные способности, текущие LLMs последовательно проявляют "Закон Слабейшего Звена", где производительность в перекрестных способностях значительно ограничена самым слабым компонентом. Конкретно, из 58 оценок перекрестных способностей от 17 моделей, 38 оценок ниже всех индивидуальных способностей, в то время как 20 находятся между сильным и слабым, но ближе к менее сильной способности. Эти результаты подчеркивают недостаточную производительность LLMs в задачах перекрестных способностей, что делает выявление и улучшение наименее развитых способностей критическим приоритетом для будущих исследований с целью оптимизации производительности в сложных, многомерных сценариях.
Инференция больших моделей переходит с облачных серверов на краевые устройства из-за опасений относительно конфиденциальности данных взаимодействия пользователей. Однако краевые устройства часто сталкиваются с ограниченной вычислительной мощностью, памятью и пропускной способностью, что требует совместной работы нескольких устройств для выполнения и ускорения инференции LLM. Параллелизм конвейера, основное решение, неэффективен для сценариев с одним пользователем, в то время как тензорный параллелизм испытывает проблемы с частыми коммуникациями. В данной статье мы утверждаем, что тензорный параллелизм может быть более эффективным, чем конвейерный, на устройствах с ограниченными ресурсами, и представляем систему инференции с тензорным параллелизмом, вычислительно и памятью эффективную, под названием TPI-LLM, для обслуживания моделей масштаба 70 миллиардов. TPI-LLM хранит конфиденциальные исходные данные локально на устройствах пользователей и вводит динамический планировщик памяти со скользящим окном для управления весами слоев во время инференции, с перекрытием задержки ввода-вывода на диск с вычислениями и коммуникациями. Это позволяет более крупным моделям работать плавно на устройствах с ограниченной памятью. Мы анализируем узкое место в коммуникации и обнаруживаем, что задержка связи, а не пропускная способность, возникает как основная проблема, поэтому реализован алгоритм allreduce на основе звезды. Через обширные эксперименты как на эмулированных, так и на реальных испытательных стендах, TPI-LLM продемонстрировал более чем 80% меньшее время до первого токена и задержку токена по сравнению с Accelerate, и более чем 90% по сравнению с Transformers и Galaxy, сокращая пиковый объем памяти Llama 2-70B на 90%, требуя всего 3,1 ГБ памяти для моделей масштаба 70 миллиардов.
Мы представляем Atlas-Chat, первую в мире коллекцию крупных языковых моделей, специально разработанных для диалектального арабского языка. Сосредотачиваясь на марокканском арабском, также известном как Дариджа, мы создаем наш набор инструкций, объединяя существующие ресурсы по Даридже, создавая как руками, так и синтетически новые наборы данных, а также переводя английские инструкции с жестким контролем качества. Модели Atlas-Chat-9B и 2B, донастроенные на наборе данных, проявляют превосходные способности в следовании инструкциям на Даридже и выполнении стандартных задач обработки естественного языка. Заметно, что наши модели превосходят как современные, так и арабские специализированные языковые модели, такие как LLaMa, Jais и AceGPT, например, достигая повышения производительности на 13% по сравнению с более крупной моделью 13B на DarijaMMLU, в нашем вновь представленном наборе оценки для Дариджи, охватывающем как дискриминационные, так и генеративные задачи. Кроме того, мы проводим экспериментальный анализ различных стратегий донастройки и выбора базовых моделей для определения оптимальных конфигураций. Все наши ресурсы общедоступны, и мы считаем, что наша работа предлагает комплексные методологии проектирования настройки инструкций для языков с ограниченными ресурсами, которые часто игнорируются в пользу языков с богатыми данными современными языковыми моделями.
Генерация высококачественного 3D-контента из текста, одиночных изображений или разреженных видов изображений остается сложной задачей с широким спектром применения. Существующие методы обычно используют модели многовидовой диффузии для синтеза многовидовых изображений, за которыми следует процесс прямого прохода для 3D-реконструкции. Однако эти подходы часто ограничены небольшим и фиксированным количеством входных видов, что снижает их способность захватывать различные точки зрения и, что еще хуже, приводит к субоптимальным результатам генерации, если синтезированные виды имеют низкое качество. Для решения этих ограничений мы предлагаем Flex3D, новую двухэтапную структуру, способную использовать произвольное количество высококачественных входных видов. Первый этап состоит из конвейера генерации и курирования кандидатов вида. Мы используем тонко настроенную модель многовидовой диффузии изображений и модель диффузии видео для создания пула кандидатов вида, обеспечивая богатое представление целевого 3D-объекта. Затем конвейер выбора вида фильтрует эти виды на основе качества и согласованности, гарантируя, что для реконструкции используются только высококачественные и надежные виды. На втором этапе отфильтрованные виды подаются на вход Гибкой Модели Реконструкции (FlexRM), построенной на архитектуре трансформера, которая может эффективно обрабатывать произвольное количество входов. FlexRM напрямую выводит 3D-гауссовы точки, используя трехплоскостное представление, обеспечивая эффективную и детальную 3D-генерацию. Через обширное изучение стратегий проектирования и обучения мы оптимизируем FlexRM для достижения превосходной производительности как в задачах реконструкции, так и в задачах генерации. Наши результаты показывают, что Flex3D достигает передовой производительности, с победным показателем в пользовательском исследовании более 92% в задачах 3D-генерации по сравнению с несколькими последними моделями генерации 3D с прямым проходом.
Мы представляем VideoLISA, видеоориентированную мультимодальную крупномасштабную языковую модель, разработанную для решения проблемы сегментации рассуждений по языку в видео. Используя возможности рассуждений и мировые знания крупномасштабных языковых моделей, а также дополненную моделью Segment Anything, VideoLISA генерирует временно согласованные маски сегментации в видео на основе языковых инструкций. Существующие методы на основе изображений, такие как LISA, испытывают затруднения с видеозадачами из-за дополнительного временного измерения, требующего понимания временной динамики и согласованной сегментации между кадрами. VideoLISA решает эти проблемы, интегрируя стратегию разреженной плотной выборки в видео-ЯМ, которая балансирует временной контекст и пространственную детализацию в рамках вычислительных ограничений. Кроме того, мы предлагаем подход One-Token-Seg-All с использованием специально разработанного токена <TRK>, позволяющего модели сегментировать и отслеживать объекты на протяжении нескольких кадров. Обширные оценки на различных бенчмарках, включая наш недавно представленный бенчмарк ReasonVOS, демонстрируют превосходное качество работы VideoLISA в задачах сегментации объектов в видео, включающих сложные рассуждения, понимание времени и отслеживание объектов. Хотя оптимизирована для видео, VideoLISA также проявляет многообещающую обобщаемость к сегментации изображений, раскрывая свой потенциал как универсальная базовая модель для сегментации объектов по языковым инструкциям. Код и модель будут доступны по адресу: https://github.com/showlab/VideoLISA.
В данной работе мы делимся идеями по достижению передового качества в нашей модели генерации изображений аниме по тексту, названной Illustrious. Для достижения высокого разрешения, динамичного цветового диапазона изображений и высокой способности к восстановлению мы сосредотачиваемся на трех критических подходах к улучшению модели. Во-первых, мы рассматриваем важность размера пакета и контроля dropout, что обеспечивает более быстрое обучение активаций концептов на основе управляемых токенов. Во-вторых, мы увеличиваем разрешение обучения изображений, влияющее на точное изображение анатомии персонажей в гораздо более высоком разрешении, расширяя его способность генерации более 20 млн пикселей с помощью соответствующих методов. Наконец, мы предлагаем усовершенствованные многоуровневые подписи, охватывающие все теги и различные естественноязыковые подписи как критически важный фактор для развития модели. Через обширный анализ и эксперименты Illustrious демонстрирует передовую производительность в анимационном стиле, превосходя широко используемые модели в области иллюстраций, обеспечивая более простую настройку и персонализацию благодаря открытому исходному коду. Мы планируем публично выпустить обновленную серию моделей Illustrious последовательно, а также устойчивые планы для улучшений.
Модели диффузии стали мощным генеративным инструментом и нашли применение в различных сценариях. Большинство существующих фундаментальных моделей диффузии в основном предназначены для генерации визуальных данных под управлением текста и не поддерживают мультимодальные условия, которые являются необходимыми для многих задач редактирования визуальных данных. Это ограничение мешает этим фундаментальным моделям диффузии выступать в качестве универсальной модели в области генерации визуальных данных, подобно GPT-4 в области обработки естественного языка. В данной работе мы предлагаем ACE, Всестороннего Создателя и Редактора, который достигает сопоставимой производительности по сравнению с этими экспертными моделями в широком спектре задач генерации визуальных данных. Для достижения этой цели мы сначала представляем унифицированный формат условий под названием Блок Условий Длинного Контекста (LCU) и предлагаем новую модель диффузии на основе трансформера, которая использует LCU в качестве входных данных, нацеленную на совместное обучение по различным задачам генерации и редактирования. Кроме того, мы предлагаем эффективный подход к сбору данных для решения проблемы отсутствия доступных данных для обучения. Он включает в себя получение парных изображений с использованием синтеза или кластеризации и предоставление этих пар с точными текстовыми инструкциями путем использования донастроенной многомодальной крупной языковой модели. Для всесторонней оценки производительности нашей модели мы устанавливаем стандартный набор данных с ручной разметкой пар для различных задач генерации визуальных данных. Обширные экспериментальные результаты демонстрируют превосходство нашей модели в области генерации визуальных данных. Благодаря всем встроенным возможностям нашей модели, мы можем легко создать мультимодальную чат-систему, которая реагирует на любой интерактивный запрос на создание изображения, используя единую модель в качестве бэкэнда, избегая громоздкого конвейера, обычно используемого в визуальных агентах. Код и модели будут доступны на странице проекта: https://ali-vilab.github.io/ace-page/.
Продвижение автономного вождения все более зависит от высококачественных аннотированных наборов данных, особенно в задаче прогнозирования трехмерной занятости, где метки занятости требуют плотной трехмерной аннотации с значительными усилиями человека. В данной статье мы предлагаем SyntheOcc, обозначающий модель диффузии, которая синтезирует фотореалистичные и геометрически управляемые изображения путем условного формирования меток занятости в сценариях вождения. Это позволяет создавать неограниченное количество разнообразных, аннотированных и управляемых наборов данных для приложений, таких как обучение моделей восприятия и симуляция. SyntheOcc решает ключевую проблему эффективного кодирования трехмерной геометрической информации в качестве условного входа для двумерной модели диффузии. Наш подход инновационно включает трехмерные семантические многоплоскостные изображения (MPI), чтобы предоставить комплексные и пространственно выровненные описания трехмерных сцен для условной обработки. В результате SyntheOcc способен генерировать фотореалистичные многозрительные изображения и видео, которые точно соответствуют заданным геометрическим меткам (семантика в трехмерном воксельном пространстве). Обширные качественные и количественные оценки SyntheOcc на наборе данных nuScenes подтверждают его эффективность в создании управляемых наборов данных о занятости, которые служат эффективным дополнением данных для моделей восприятия.
Большие мультимодальные модели (LMM) продемонстрировали впечатляющую производительность в задачах понимания коротких видео, но сталкиваются с серьезными трудностями при применении к пониманию длинных видео. В отличие от этого, большие языковые модели (LLM) проявляют выдающиеся способности в моделировании длинных текстов. Существующие работы пытаются решить эту проблему путем введения длинных пар видео-текст во время обучения. Однако эти подходы требуют значительных вычислительных и данных ресурсов. В данной статье мы решаем задачу понимания длинных видео с точки зрения окон контекста, с целью применения LMM к задачам с длинными видео без повторного обучения на больших наборах данных с длинными видео. Сначала мы проводим глубокий анализ того, почему предварительно обученные LMM испытывают трудности в понимании длинного видео контента, выявляя, что расхождения между визуальными и языковыми модальностями приводят к различным окнам контекста для визуальных и языковых токенов, что затрудняет прямое расширение визуальных токенов для соответствия языковому окну контекста. Исходя из этого, мы предлагаем адаптировать LMM для задач понимания длинного видео путем расширения визуального окна контекста, устраняя необходимость повторного обучения на больших наборах данных с длинными видео. Для дальнейшего смягчения значительного потребления памяти из-за длинных последовательностей, мы предлагаем стратегию постепенной пулинговой инференции, которая выборочно корректирует пространственное разрешение встраиваний кадров, уменьшая количество визуальных токенов, сохраняя важную пространственную информацию. На нескольких бенчмарках понимания длинного видео наш метод последовательно улучшает производительность с увеличением количества видеокадров. На бенчмарке MLVU наш метод превосходит GPT-4o, даже если размер нашей модели составляет всего 7 млрд. Кроме того, в настройке с 256 кадрами наш метод снижает использование памяти примерно на 45% по сравнению с базовым вариантом, не вводя при этом потери производительности.
Алгоритмы восстановления фотореалистичных изображений обычно оцениваются с использованием мер искажения (например, PSNR, SSIM) и мер качества восприятия (например, FID, NIQE), где целью является достижение наименьшего искажения без ущерба для восприятия качества. Для достижения этой цели текущие методы обычно пытаются выбирать образцы из апостериорного распределения или оптимизировать взвешенную сумму потерь искажения (например, MSE) и потерь восприятия качества (например, GAN). В отличие от предыдущих работ, в данной статье рассматривается оптимальный оценщик, который минимизирует MSE при условии идеального восприятия, а именно когда распределение восстановленных изображений равно распределению исходных. Недавнее теоретическое открытие показывает, что такой оценщик можно построить, оптимально транспортируя апостериорное среднее предсказание (оценка MMSE) к распределению исходных изображений. Вдохновленные этим результатом, мы представляем Posterior-Mean Rectified Flow (PMRF) - простой, но очень эффективный алгоритм, приближающий этот оптимальный оценщик. В частности, PMRF сначала предсказывает апостериорное среднее, а затем транспортирует результат к высококачественному изображению с помощью модели исправленного потока, приближающей желаемое оптимальное транспортное отображение. Мы исследуем теоретическую полезность PMRF и демонстрируем, что он последовательно превосходит предыдущие методы на различных задачах восстановления изображений.
Мы представляем метод восстановления моделей человеческого тела с сохранением временной согласованности из монокулярных видео, с акцентом на очень свободной одежде или взаимодействиях с рукопашными объектами. Предыдущие работы по восстановлению человека ограничены либо тесной одеждой без взаимодействия с объектами, либо требуют калиброванных многокамерных съемок или персонализированных сканирований шаблонов, что затратно для масштабного сбора. Наш ключевой принцип для высококачественного, но гибкого восстановления заключается в тщательном сочетании общих априорных знаний о артикулированной форме тела человека (изученных на основе данных обучения большого масштаба) с видеоспецифической артикулированной деформацией "мешка костей" (подгоняемой к одному видео с помощью оптимизации на этапе тестирования). Мы достигаем этого, обучая нейронную неявную модель, которая разделяет деформации тела и одежды как отдельные слои модели движения. Для захвата тонкой геометрии одежды мы используем априорные данные на основе изображений, такие как поза человеческого тела, нормали поверхности и оптический поток во время оптимизации. Полученные нейронные поля могут быть извлечены во временно согласованные сетки или дополнительно оптимизированы как явные 3D гауссовы функции для высококачественного интерактивного рендеринга. На наборах данных с высоко сложными деформациями одежды и взаимодействиями с объектами DressRecon обеспечивает более высококачественные 3D восстановления, чем предыдущие работы. Страница проекта: https://jefftan969.github.io/dressrecon/
Методы на основе обучения достигли высокой производительности в четырехногой локомоции. Однако несколько проблем мешают четвероногим созданиям осваивать полезные навыки в помещениях, требующие взаимодействия с окружающей средой и людьми: отсутствие конечных эффекторов для манипуляции, ограниченное семантическое понимание при использовании только данных симуляции, а также низкая проходимость и доступность в помещениях. Мы представляем систему для четвероногой мобильной манипуляции в помещениях. Она использует передний захват для манипуляции объектами, низкоуровневый контроллер, обученный в симуляции с использованием эгоцентрической глубины для ловкости, таких навыков как восхождение и наклон всего тела, а также предварительно обученные модели зрение-язык (VLM) с камерой третьего лица широкоугольного обзора и эгоцентрической RGB-камерой для семантического понимания и генерации команд. Мы оцениваем нашу систему в двух незнакомых средах без сбора реальных данных или обучения. Наша система способна обобщаться на эти среды и выполнять задачи, например, следовать за командами пользователя, чтобы достать случайно размещенную игрушку после восхождения на кровать размера "queen", с успехом в 60%. Веб-сайт проекта: https://helpful-doggybot.github.io/
Предвзятость по половому признаку в машинном переводе (МТ) признана проблемой, способной нанести вред людям и обществу. И все же, достижения в этой области редко включают людей, конечных пользователей МТ, или информируют о том, как они могут пострадать от предвзятых технологий. Текущие оценки часто ограничиваются автоматическими методами, которые предлагают непрозрачную оценку того, каковы могут быть последствия гендерных неравенств. Мы проводим обширное исследование, сосредоточенное на человеке, чтобы изучить, приводит ли предвзятость в МТ к вреду с конкретными издержками, такими как разрывы в качестве обслуживания между женщинами и мужчинами. Для этой цели мы собираем данные о поведении от 90 участников, которые вносили правки в выходные данные МТ, чтобы гарантировать правильный перевод по половому признаку. На протяжении нескольких наборов данных, языков и типов пользователей наше исследование показывает, что женская правка требует значительно больше технических и временных усилий, что также соответствует более высоким финансовым издержкам. Однако существующие измерения предвзятости не отражают обнаруженных различий. Наши результаты выступают за подходы, сосредоточенные на человеке, которые могут информировать об общественном влиянии предвзятости.
Роботу нет предела в том, сколько он может исследовать и учиться, но вся эта информация должна быть доступной для поиска и использования. В рамках исследований в области языка появилась концепция retrieval augmented generation (RAG), которая стала основой для крупномасштабного непараметрического хранилища знаний. Однако существующие методики не могут быть непосредственно применены в области воплощенного искусственного интеллекта, который является мультимодальным, где данные сильно коррелированы, и восприятие требует абстракции. Для решения этих проблем мы представляем Embodied-RAG, фреймворк, который расширяет базовую модель воплощенного агента с непараметрической системой памяти, способной автономно создавать иерархические знания как для навигации, так и для генерации языка. Embodied-RAG обеспечивает полный спектр пространственного и семантического разрешения в различных средах и типах запросов, будь то конкретный объект или целостное описание атмосферы. В основе Embodied-RAG лежит память, организованная как семантический лес, хранящий языковые описания на разных уровнях детализации. Такая иерархическая организация позволяет системе эффективно генерировать контекстно-чувствительные результаты на различных робототехнических платформах. Мы демонстрируем, что Embodied-RAG успешно соединяет RAG с областью робототехники, успешно обрабатывая более 200 запросов по объяснению и навигации в 19 средах, подчеркивая его потенциал как универсальной непараметрической системы для воплощенных агентов.