Ежедневно отобранные исследовательские статьи по ИИ с переводами
Выравнивание визуальных предпочтений включает в себя обучение больших моделей видео-языка (LVLM) на предсказание человеческих предпочтений между визуальными входами. Обычно это достигается с использованием размеченных наборов данных выбранных/отклоненных пар и применением алгоритмов оптимизации, таких как прямая оптимизация предпочтений (DPO). Существующие методы визуального выравнивания, в основном разработанные для сценариев с одним изображением, испытывают затруднения в эффективной обработке сложности многокартинных задач из-за недостатка разнообразных обучающих данных и высокой стоимости аннотирования выбранных/отклоненных пар. Мы представляем Многокартинную Дополненную Прямую Оптимизацию Предпочтений (MIA-DPO), подход к выравниванию визуальных предпочтений, который эффективно обрабатывает многокартинные входы. MIA-DPO смягчает недостаток разнообразных многокартинных обучающих данных путем расширения данных с одиночными изображениями неродственными изображениями, расположенными в сетках или форматах изображения в изображении, что значительно снижает затраты, связанные с аннотированием многокартинных данных. Наше наблюдение показывает, что значения внимания LVLM значительно различаются в различных изображениях. Мы используем значения внимания для идентификации и фильтрации отклоненных ответов, на которые модель могла ошибочно сосредоточиться. Наш выбор, ориентированный на внимание, для построения выбранных/отклоненных пар не зависит от (i) человеческой аннотации, (ii) дополнительных данных и (iii) внешних моделей или API. MIA-DPO совместим с различными архитектурами и превосходит существующие методы на пяти многокартинных бенчмарках, достигая среднего повышения производительности на 3,0% на LLaVA-v1.5 и на 4,3% на недавнем InternLM-XC2.5. Более того, MIA-DPO имеет минимальное воздействие на способность модели понимать одиночные изображения.
Многомодельные модели большого размера (MLLM) продемонстрировали многообещающий прогресс в понимании и анализе видеоконтента. Однако обработка длинных видео остается значительным вызовом, ограниченным размером контекста LLM. Для преодоления этого ограничения мы предлагаем LongVU, механизм пространственно-временной адаптивной компрессии, который уменьшает количество видеотокенов, сохраняя визуальные детали длинных видео. Наша идея основана на использовании кросс-модального запроса и межкадровых зависимостей для адаптивного снижения временной и пространственной избыточности в видео. Конкретно, мы используем функции DINOv2 для удаления избыточных кадров, проявляющих высокую схожесть. Затем мы используем текстово-управляемый кросс-модальный запрос для селективного сокращения признаков кадра. Кроме того, мы осуществляем сокращение пространственных токенов между кадрами на основе их временных зависимостей. Наша стратегия адаптивной компрессии эффективно обрабатывает большое количество кадров с минимальной потерей визуальной информации в рамках заданной длины контекста. Наш LongVU последовательно превосходит существующие методы на различных бенчмарках понимания видео, особенно на задачах понимания видео продолжительностью в час, таких как VideoMME и MLVU. При использовании легкой модели LLM, наш LongVU также эффективно масштабируется до более компактного размера с передовым показателем понимания видео.
Недавние достижения в области прогностических моделей продемонстрировали исключительные возможности в предсказании будущего состояния объектов и сцен. Однако отсутствие категоризации на основе врожденных характеристик продолжает затруднять прогресс развития прогностических моделей. Кроме того, существующие бенчмарки не способны эффективно оценить модели прогнозирования с более высокой способностью и высокой степенью воплощения с позиции воплощенной перспективы. В данной работе мы классифицируем функциональности прогностических моделей в иерархию и делаем первый шаг в оценке Мировых Симуляторов, предложив двойную систему оценки под названием WorldSimBench. WorldSimBench включает в себя Явную Восприимчивую Оценку и Неявную Манипулятивную Оценку, охватывая оценки предпочтений человека с визуальной точки зрения и оценки на уровне действий во воплощенных задачах, охватывая три типичных воплощенных сценария: Открытое Воплощенное Окружение, Автономное Вождение и Робототехническое Манипулирование. В Явной Восприимчивой Оценке мы представляем набор данных HF-Embodied, набор данных для оценки видео на основе тонкой обратной связи человека, который мы используем для обучения Оценщика Предпочтений Человека, который соответствует человеческому восприятию и явно оценивает визуальную достоверность Мировых Симуляторов. В Неявной Манипулятивной Оценке мы оцениваем согласованность видео-действий Мировых Симуляторов, оценивая, может ли сгенерированное видео, осведомленное о ситуации, точно переводиться в правильные управляющие сигналы в динамических средах. Наша всеобъемлющая оценка предлагает ключевые идеи, которые могут стимулировать дальнейшие инновации в моделях генерации видео, позиционируя Мировые Симуляторы как ключевое достижение в направлении воплощенного искусственного интеллекта.
Модели диффузии языка (DLM) появились как многообещающий новый парадигма для моделирования генерации текста, потенциально решающая ограничения авторегрессионных (AR) моделей. Однако текущие DLM изучались в меньшем масштабе по сравнению с их AR аналогами и лишены справедливого сравнения на стандартных бенчмарках языкового моделирования. Кроме того, обучение моделей диффузии с нуля в масштабе остается сложной задачей. Учитывая распространенность открытых AR языковых моделей, мы предлагаем адаптировать эти модели для создания моделей диффузии текста. Мы демонстрируем связь между целями моделирования AR и диффузии и представляем простой метод последовательного предварительного обучения для обучения моделей диффузии. Через систематическую оценку на бенчмарках языкового моделирования, рассуждения и здравого смысла, мы показываем, что мы можем преобразовать AR модели от 127M до 7B параметров (GPT2 и LLaMA) в модели диффузии DiffuGPT и DiffuLLaMA, используя менее 200B токенов для обучения. Наши экспериментальные результаты показывают, что эти модели превосходят более ранние DLM и конкурентоспособны с их AR аналогами. Мы выпускаем набор DLM (с 127M, 355M и 7B параметрами), способных генерировать свободный текст, выполнять контекстное обучение, заполнять пропуски без переупорядочивания запроса и следовать инструкциям.
Оптимизация прямых предпочтений (Direct Preference Optimization, DPO) стала мощным подходом для согласования моделей текст-к-изображению (Text-to-Image, T2I) с обратной связью от людей. К сожалению, успешное применение DPO к моделям T2I требует огромных ресурсов для сбора и разметки масштабных наборов данных, например, миллионы созданных парных изображений с аннотациями человеческих предпочтений. Кроме того, эти наборы данных с предпочтениями людей могут быстро устареть из-за быстрого улучшения моделей T2I и повышения качества изображений. В данной работе мы исследуем масштабируемый подход к сбору масштабных и полностью синтетических наборов данных для обучения DPO. Конкретно, предпочтения для парных изображений генерируются с использованием заранее обученной функции вознаграждения, что исключает необходимость привлечения людей к процессу аннотации, значительно повышая эффективность сбора набора данных. Более того, мы демонстрируем, что такие наборы данных позволяют усреднять предсказания по нескольким моделям и собирать ранжированные предпочтения вместо попарных предпочтений. Кроме того, мы представляем RankDPO для улучшения методов на основе DPO с использованием обратной связи ранжирования. Применение RankDPO к моделям SDXL и SD3-Medium с нашим синтетически сгенерированным набором данных с предпочтениями "Syn-Pic" улучшает как следование инструкциям (на бенчмарках, таких как T2I-Compbench, GenEval и DPG-Bench), так и визуальное качество (через пользовательские исследования). Этот пайплайн представляет собой практичное и масштабируемое решение для разработки лучших наборов данных с предпочтениями для улучшения производительности моделей текст-к-изображению.
Генерация сцен LiDAR недавно развивается быстро. Однако существующие методы в основном сосредотачиваются на создании статических и однокадровых сцен, не учитывая врожденную динамичность реальных дорожных сред. В данной работе мы представляем DynamicCity, новую 4D модель генерации LiDAR, способную создавать крупномасштабные, высококачественные сцены LiDAR, отражающие временную эволюцию динамичных окружающих сред. DynamicCity в основном состоит из двух ключевых моделей. 1) Модель VAE для изучения HexPlane в качестве компактного 4D представления. Вместо использования простых операций усреднения, DynamicCity использует новый модуль проекции для эффективного сжатия 4D особенностей LiDAR в шесть 2D карт при построении HexPlane, что значительно улучшает качество подгонки HexPlane (до 12.56 прироста mIoU). Кроме того, мы используем стратегию расширения и сжатия для параллельного восстановления объемов 3D особенностей, что улучшает как эффективность обучения сети, так и точность восстановления по сравнению с простым запросом каждой 3D точки (до 7.05 прироста mIoU, ускорение обучения в 2.06 раза и снижение использования памяти на 70.84%). 2) Модель диффузии на основе DiT для генерации HexPlane. Для того чтобы сделать HexPlane пригодным для генерации DiT, предлагается операция пополнения прокрутки для переупорядочивания всех шести плоскостей особенностей HexPlane как квадратной 2D карты. В частности, различные условия могут быть введены в процесс диффузии или выборки, поддерживая разнообразные приложения генерации 4D, такие как генерация по траектории и командам, заполнение пропусков и генерация с учетом макета. Обширные эксперименты на наборах данных CarlaSC и Waymo показывают, что DynamicCity значительно превосходит существующие передовые методы генерации 4D LiDAR по множеству метрик. Код будет опубликован для облегчения будущих исследований.
Модели вознаграждения (RMs) сегодня стимулируют передовые показатели производительности LLMs, позволяя интегрировать обратную связь человека в процесс языкового моделирования. Однако RMs в основном обучаются и оцениваются на английском языке, и их возможности в многоязычных средах остаются в значительной степени недостаточно изученными. В данной работе мы проводим систематическую оценку нескольких моделей вознаграждения в многоязычных средах. Сначала мы создаем уникальный многоязычный бенчмарк оценки RM, M-RewardBench, состоящий из 2,87 тыс. примеров предпочтений для 23 типологически разнообразных языков, который тестирует способности в чате, безопасности, рассуждениях и переводе RMs. Затем мы тщательно оцениваем широкий спектр моделей вознаграждения на M-RewardBench, предлагая новые идеи относительно их производительности на разных языках. Мы выявляем значительный разрыв в производительности RMs между английским и неанглийскими языками и показываем, что предпочтения RM могут значительно изменяться от одного языка к другому. Мы также представляем несколько результатов о том, как различные многоязычные аспекты влияют на производительность RM. В частности, мы показываем, что производительность RMs улучшается с повышением качества перевода. Точно так же мы демонстрируем, что модели проявляют лучшую производительность для языков с высокими ресурсами. Мы публикуем набор данных M-RewardBench и кодовую базу в данном исследовании для облегчения лучшего понимания оценки RM в многоязычных средах.
Эта статья представляет новую архитектуру управления мобильным телефоном, названную "агенты приложений", для эффективного взаимодействия и управления в различных приложениях Android. Предложенный Легкий Мультимодальный Контроль Приложений (LiMAC) принимает на вход текстовую цель и последовательность прошлых мобильных наблюдений, таких как снимки экрана и соответствующие деревья пользовательского интерфейса, для генерации точных действий. Для решения вычислительных ограничений, присущих смартфонам, в рамках LiMAC мы представляем небольшой Трансформер Действий (AcT), интегрированный с тонко настроенной моделью видения-языка (VLM) для принятия решений в реальном времени и выполнения задач. Мы оцениваем LiMAC на двух открытых наборах данных для управления мобильными устройствами, демонстрируя превосходную производительность нашего подхода с небольшим форм-фактором по сравнению с тонко настроенными версиями открытых VLM, такими как Florence2 и Qwen2-VL. Он также значительно превосходит базовые модели инженерии запросов, использующие закрытые модели основы, такие как GPT-4o. Более конкретно, LiMAC увеличивает общую точность действий до 19% по сравнению с тонко настроенными VLM и до 42% по сравнению с базовыми моделями инженерии запросов.
Интеграция техник больших языковых моделей (LLM) в области медицинского анализа привела к значительным достижениям, однако недостаток больших, разнообразных и хорошо аннотированных наборов данных остается основным вызовом. Медицинские данные и задачи, которые различаются по формату, размеру и другим параметрам, требуют обширной предварительной обработки и стандартизации для эффективного использования при обучении LLM. Для решения этих проблем мы представляем MedINST, Мета-набор данных биомедицинских инструкций, новый мультидоменный, мультизадачный инструкционный мета-набор данных. MedINST включает в себя 133 биомедицинские задачи по обработке естественного языка и более 7 миллионов обучающих примеров, что делает его наиболее полным набором данных для биомедицинских инструкций на сегодняшний день. Используя MedINST в качестве мета-набора данных, мы создаем MedINST32, сложный бенчмарк с разными уровнями сложности задач с целью оценить способность обобщения LLM. Мы донастраиваем несколько LLM на MedINST и оцениваем на MedINST32, демонстрируя улучшенное обобщение между задачами.
Недавно мультимодальные модели больших языков (MLLM) привлекли много внимания своими впечатляющими возможностями. Оценка MLLM становится критической для анализа характеристик MLLM и предоставления ценных идей. Однако текущие бенчмарки не учитывают проблему чувствительности к подсказкам - незначительные изменения в подсказках могут привести к значительным колебаниям в производительности. Таким образом, неправильные подсказки могут затмить возможности моделей, недооценивая их производительность. Более того, разные модели имеют разные предпочтения к разным подсказкам, и, следовательно, использование одной и той же подсказки для всех моделей вызовет смещение в оценке. В данной работе анализируется данное недостаток в существующих бенчмарках и далее представляется новая система оценки под названием TP-Eval, которая вводит метод настройки подсказок для уменьшения смещений в оценке и раскрытия потенциала моделей. TP-Eval будет переписывать исходные подсказки на различные настроенные подсказки для разных моделей. В частности, мы предлагаем некоторые хорошо разработанные модули для настройки подсказок, адаптированные к сценарию оценки MLLM. Обширные эксперименты демонстрируют эффективность нашего подхода в выявлении возможностей моделей, и TP-Eval должен принести пользу сообществу в разработке более всесторонних и убедительных бенчмарков оценки MLLM.
Производительность нейронных сетей масштабируется как с их размером, так и с объемом данных, на которых они были обучены. Это продемонстрировано как в генерации языка, так и изображений. Однако для этого необходимы архитектуры сетей, удобные для масштабирования, а также крупномасштабные наборы данных. Несмотря на появление архитектур, удобных для масштабирования, таких как трансформеры, для задач трехмерного зрения, момент GPT в трехмерном зрении остается далеким из-за недостатка обучающих данных. В данной статье мы представляем ARKit LabelMaker, первый крупномасштабный, реальный набор данных трехмерного мира с плотными семантическими аннотациями. Конкретно, мы дополняем набор данных ARKitScenes плотными семантическими аннотациями, которые автоматически генерируются в крупном масштабе. Для этого мы расширяем LabelMaker, недавний автоматический конвейер аннотации, чтобы удовлетворить потребности крупномасштабного предварительного обучения. Это включает расширение конвейера с передовыми моделями сегментации, а также обеспечение его устойчивости к вызовам крупномасштабной обработки. Кроме того, мы продвигаем передовую производительность на наборах данных ScanNet и ScanNet200 с распространенными моделями трехмерной семантической сегментации, демонстрируя эффективность нашего созданного набора данных.
Мы предлагаем модель синтеза широкого обзора (LVSM), новый подход на основе трансформера для масштабируемого и обобщенного синтеза нового обзора из разреженных входных данных. Мы представляем две архитектуры: (1) кодер-декодер LVSM, который кодирует токены входного изображения в фиксированное количество одномерных латентных токенов, функционируя как полностью обученное представление сцены, и декодирует новые изображения обзора из них; и (2) только-декодер LVSM, который напрямую отображает входные изображения в выходы нового обзора, полностью устраняя промежуточные представления сцены. Обе модели обходят 3D индуктивные предвзятости, использованные в предыдущих методах - от 3D представлений (например, NeRF, 3DGS) до конструкций сетей (например, эпиполярные проекции, плоские сканирования) - решая проблему синтеза нового обзора с полностью данных-ориентированным подходом. В то время как модель кодер-декодер обеспечивает более быстрое вывод из-за независимого латентного представления, только-декодер LVSM достигает превосходного качества, масштабируемости и обобщения без обучения, превосходя предыдущие методы с лучшими показателями PSNR на 1.5 до 3.5 дБ. Комплексные оценки на нескольких наборах данных показывают, что обе варианты LVSM достигают высокого качества синтеза нового обзора. Заметим, что наши модели превосходят все предыдущие методы даже при ограниченных вычислительных ресурсах (1-2 ГПУ). Более подробную информацию можно найти на нашем веб-сайте: https://haian-jin.github.io/projects/LVSM/ .
Большие универсальные робототехнические стратегии, обученные на разнообразных наборах демонстраций, показали себя чрезвычайно эффективными как для управления различными роботами в различных сценах, так и для приобретения широких репертуаров навыков манипулирования. Однако данные, на которых обучаются такие стратегии, обычно имеют смешанное качество - не только демонстрации, собранные людьми, редко выполняют задачу идеально, но чем больше набор данных, тем сложнее отобрать только примеры высочайшего качества. Также остается неясным, насколько оптимальными являются данные от одного воплощения для обучения на другом воплощении. В данной статье мы представляем общий и широко применимый подход, который повышает производительность таких универсальных робототехнических стратегий во время эксплуатации путем переоценки их действий в соответствии с функцией ценности, изученной с помощью оффлайн обучения с подкреплением. Этот подход, который мы называем Управляемое Значением Управление стратегией (V-GPS), совместим с широким спектром различных универсальных стратегий, не требуя тонкой настройки или даже доступа к весам стратегии. Мы показываем, что одна и та же функция ценности может улучшить производительность пяти различных передовых стратегий с различными архитектурами, даже если они были обучены на различных наборах данных, достигая последовательного улучшения производительности на нескольких робототехнических платформах в общей сложности 12 задач. Код и видео можно найти по ссылке: https://nakamotoo.github.io/V-GPS