Ежедневно отобранные исследовательские статьи по ИИ с переводами
Планирование с частичным наблюдением является центральным вызовом во воплощенном искусственном интеллекте. Большинство предыдущих работ решали этот вызов, разрабатывая агентов, которые физически исследуют своё окружение для обновления своих убеждений о состоянии мира. В отличие от этого, люди могут представить невидимые части мира через ментальное исследование и пересмотреть свои убеждения с помощью воображаемых наблюдений. Такие обновленные убеждения могут позволить им принимать более обоснованные решения, не требуя физического исследования мира постоянно. Для достижения этой человекоподобной способности мы представляем Генеративного Исследователя Мира (Genex), фреймворк исследования мира в эгоцентрическом пространстве, который позволяет агенту ментально исследовать масштабный 3D мир (например, городские сцены) и получать воображаемые наблюдения для обновления своего убеждения. Это обновленное убеждение затем поможет агенту принять более обоснованное решение на текущем шаге. Для обучения Genex мы создаем синтетический набор данных городской среды, Genex-DB. Наши экспериментальные результаты показывают, что (1) Genex может генерировать качественные и последовательные наблюдения во время длительного исследования большого виртуального физического мира и (2) убеждения, обновленные сгенерированными наблюдениями, могут информировать существующую модель принятия решений (например, агента LLM) для создания более эффективных планов.
Появление и растущая популярность мультимодальных больших языковых моделей (MLLM) имеют значительный потенциал для улучшения различных аспектов повседневной жизни, начиная от улучшения коммуникации до облегчения обучения и решения проблем. Мобильные телефоны, как неотъемлемые ежедневные спутники, представляют собой наиболее эффективную и доступную платформу развертывания для MLLM, обеспечивая безпрепятственную интеграцию в повседневные задачи. Однако развертывание MLLM на мобильных телефонах ставит перед собой вызовы из-за ограничений по объему памяти и вычислительной мощности, что затрудняет достижение плавной и мгновенной обработки без обширной оптимизации. В данной статье мы представляем BlueLM-V-3B, алгоритм и системный подход к совместному проектированию, специально разработанный для эффективного развертывания MLLM на мобильных платформах. Для более конкретного описания, мы перерабатываем схему динамического разрешения, принятую в основных MLLM, и реализуем оптимизацию системы для развертывания с учетом аппаратных средств для оптимизации вывода модели на мобильных телефонах. BlueLM-V-3B обладает следующими ключевыми особенностями: (1) Малый размер: BlueLM-V-3B включает языковую модель с 2,7 миллиарда параметров и видеоэнкодер с 400 миллионами параметров. (2) Быстрая скорость: BlueLM-V-3B достигает скорости генерации 24,4 токена/с на процессоре MediaTek Dimensity 9300 с квантованием весов LLM на 4 бита. (3) Высокая производительность: BlueLM-V-3B достиг самого высокого среднего показателя 66,1 на бенчмарке OpenCompass среди моделей с числом параметров менее 4 миллиардов и превзошел ряд моделей с гораздо большими размерами параметров (например, MiniCPM-V-2.6, InternVL2-8B).
Мы представляем унифицированный подход к генерации видео с возможностью управления - AnimateAnything, который облегчает точное и последовательное управление видео в различных условиях, включая траектории камеры, текстовые подсказки и аннотации движения пользователей. Конкретно, мы тщательно разрабатываем многошкальную сеть объединения функций управления для создания общего представления движения для различных условий. Она явно преобразует всю информацию управления в оптические потоки кадр за кадром. Затем мы включаем оптические потоки в качестве движущихся априорных данных для направления окончательной генерации видео. Кроме того, для уменьшения мерцания, вызванного движениями большого масштаба, мы предлагаем модуль стабилизации на основе частот. Он может улучшить временную согласованность, обеспечивая согласованность области частот видео. Эксперименты показывают, что наш метод превосходит существующие подходы. Дополнительные детали и видео можно найти на веб-странице: https://yu-shaonian.github.io/Animate_Anything/.
Эволюция машинного обучения все более акцентирует внимание на разработке мощных моделей и более масштабируемых сигналов надзора. Однако появление фундаментальных моделей представляет существенные вызовы в обеспечении эффективных сигналов надзора, необходимых для дальнейшего улучшения их возможностей. Следовательно, существует настоятельная необходимость исследования новых сигналов надзора и технических подходов. В данной статье мы предлагаем концепцию инженерии верификации, новую парадигму посттренировочного этапа, специально разработанную для эпохи фундаментальных моделей. Основу инженерии верификации составляет использование набора автоматизированных верификаторов для выполнения задач верификации и предоставления содержательной обратной связи фундаментальным моделям. Мы систематически классифицируем процесс инженерии верификации на три основных этапа: поиск, верификация и обратная связь, и предоставляем всесторонний обзор последних достижений в области исследований в рамках каждого этапа. Мы считаем, что инженерия верификации представляет собой фундаментальный путь к достижению искусственного общего интеллекта.
Большие языковые модели (LLM) обычно используют жадное декодирование или сэмплирование с низкой температурой для задач рассуждения, отражая предполагаемый компромисс между разнообразием и точностью. Мы оспариваем эту конвенцию, представив top-nsigma, новый метод сэмплирования, который работает непосредственно с логитами перед softmax, используя статистический порог. Наш ключевой инсайт заключается в том, что логиты естественным образом разделяются на область шумного распределения по Гауссу и отдельную информативную область, обеспечивая эффективную фильтрацию токенов без сложных вероятностных манипуляций. В отличие от существующих методов (например, top-p, min-p), которые случайно включают больше шумовых токенов при более высоких температурах, top-nsigma сохраняет стабильное пространство сэмплирования независимо от масштабирования температуры. Мы также предоставляем теоретический анализ top-nsigma для лучшего понимания его поведения. Обширные экспериментальные результаты на четырех наборах данных, сосредоточенных на рассуждениях, демонстрируют, что наш метод не только превосходит существующие методы сэмплирования, но и превосходит жадное декодирование, сохраняя при этом стабильную производительность даже при высоких температурах.
Переупорядочиватели, обычно кросс-кодировщики, часто используются для повторной оценки документов, полученных более дешевыми начальными системами информационного поиска. Это происходит потому, что, хотя переупорядочиватели являются дорогостоящими, предполагается, что они более эффективны. Мы оспариваем это предположение, измеряя производительность переупорядочивателя для полного поиска, а не только повторной оценки документов на первом этапе поиска. Наши эксперименты показывают удивительную тенденцию: лучшие существующие переупорядочиватели при оценке все большего количества документов обеспечивают убывающую отдачу и фактически ухудшают качество после достижения определенного предела. На самом деле, в такой ситуации переупорядочиватели часто могут присваивать высокие оценки документам, не имеющим лексического или семантического перекрытия с запросом. Мы надеемся, что наши результаты стимулируют будущие исследования по улучшению переупорядочивания.
Хотя основанные на изображениях виртуальные примерки одежды сделали значительный прогресс, новые подходы все еще сталкиваются с проблемами в создании изображений высокой точности и надежной подгонки в различных сценариях. Эти методы часто борются с проблемами, такими как поддержание особенностей текстуры и точная подгонка по размеру, что затрудняет их общую эффективность. Для решения этих ограничений мы предлагаем новую технику улучшения восприятия одежды, названную FitDiT, разработанную для виртуальной примерки с высокой точностью с использованием Диффузионных Трансформеров (DiT), распределяющих больше параметров и внимания на высокоразрешенные особенности. Во-первых, для дальнейшего улучшения поддержания особенностей текстуры мы вводим экстрактор текстуры одежды, который включает эволюцию априорных особенностей одежды для доработки особенностей одежды, что способствует лучшему захвату богатых деталей, таких как полосы, узоры и текст. Кроме того, мы вводим обучение в частотной области, настраивая потерю расстояния в частотной области для улучшения высокочастотных деталей одежды. Для решения проблемы точной подгонки по размеру мы используем стратегию расширенной маски с расслаблением, которая адаптируется к правильной длине одежды, предотвращая создание одежды, заполняющей всю область маски во время примерки между категориями. Оборудованный вышеуказанным дизайном, FitDiT превосходит все базовые методы как в качественной, так и в количественной оценке. Он отличается производством хорошо подогнанной одежды с фотореалистичными и сложными деталями, а также достигает конкурентоспособного времени вывода в 4,57 секунды для одного изображения размером 1024x768 после сокращения структуры DiT, превзойдя существующие методы.
Хотя небольшие языковые модели (SLM) обещают для мобильного развертывания, их реальная производительность и применения на смартфонах остаются недостаточно исследованными. Мы представляем SlimLM, серию SLM, оптимизированных для задач помощи в документах на мобильных устройствах. Через обширные эксперименты на Samsung Galaxy S24 мы определяем оптимальные компромиссы между размером модели (в диапазоне от 125M до 7B параметров), длиной контекста и временем вывода для эффективной обработки на устройстве. SlimLM предварительно обучен на SlimPajama-627B и донастроен на DocAssist, нашем созданном наборе данных для задач суммирования, вопросно-ответных и предложений. Наша самая маленькая модель демонстрирует эффективную производительность на S24, в то время как более крупные варианты предлагают расширенные возможности в рамках мобильных ограничений. Мы оцениваем SlimLM по сравнению с существующими SLM, показывая сравнимую или превосходящую производительность и предлагая эталон для будущих исследований в области языковых моделей на устройствах. Мы также предоставляем приложение для Android, предлагая практические идеи для развертывания SLM. Наши результаты предоставляют ценные идеи и освещают возможности запуска передовых языковых моделей на смартфонах высокого уровня, что потенциально снижает затраты на серверы и улучшает конфиденциальность через обработку на устройстве.
Недавние достижения в области генеративного искусственного интеллекта значительно способствовали созданию и редактированию контента, где ведущие исследования дополнительно расширяют этот захватывающий прогресс на видеоредактирование. При этом эти исследования в основном передают врожденные шаблоны движения из исходных видеороликов в отредактированные, где часто наблюдаются результаты с недостаточной согласованностью с запросами пользователей из-за отсутствия конкретных соответствий между переданными движениями и отредактированным содержимым. Для преодоления этого ограничения мы представляем в данной статье метод редактирования видео с сохранением формы, названный StableV2V. Наш метод разбивает весь процесс редактирования на несколько последовательных процедур, где он редактирует первый кадр видео, затем устанавливает соответствие между переданными движениями и запросами пользователя, и в конечном итоге распространяет отредактированное содержимое на все остальные кадры на основе этого соответствия. Кроме того, мы создаем тестовую платформу, названную DAVIS-Edit, для всесторонней оценки видеоредактирования, учитывая различные типы запросов и трудности. Экспериментальные результаты и анализы иллюстрируют превосходную производительность, визуальную согласованность и эффективность вывода нашего метода по сравнению с существующими передовыми исследованиями.
Поскольку исследование мультимодальных больших языковых моделей (MLLM) становится популярным, развивающейся модели MLLM обычно требуется обрабатывать одновременно различные текстовые и визуальные задачи (например, VQA, Detection, OCR и ChartQA) для прикладных задач в реальном мире. Однако из-за значительных различий в представлении и распределении данных из различных задач простое смешивание данных всех задач приводит к известной проблеме "конфликта многозадачности", что приводит к снижению производительности по различным задачам. Для решения этой проблемы мы предлагаем Awaker2.5-VL, архитектуру Mixture of Experts (MoE), подходящую для MLLM, которая обладает многозадачными возможностями благодаря нескольким разреженно активированным экспертам. Для ускорения обучения и вывода Awaker2.5-VL каждый эксперт в нашей модели разработан как структура низкого ранга адаптации (LoRA). Обширные эксперименты на нескольких последних бенчмарках демонстрируют эффективность Awaker2.5-VL. Код и вес модели опубликованы на нашей странице проекта: https://github.com/MetabrainAGI/Awaker.
Во время расшифровки языковой модели известно, что использование более высокой температуры выборки приводит к более креативным ответам, в то время как более низкие температуры обеспечивают более фактическую точность. Однако такие модели обычно применяются к общему следованию инструкциям, которое включает в себя как креативные, так и фактологические задачи, используя одну фиксированную температуру для всех примеров и токенов. В данной работе мы представляем Адаптивное Декодирование, слой, добавленный к модели для динамического выбора температуры выборки во время вывода, на уровне токена или примера, с целью оптимизации производительности. Для обучения его параметров мы предлагаем Оптимизацию Скрытых Предпочтений (LPO) - общий подход к обучению дискретных скрытых переменных, таких как выбор температуры. Наш метод превосходит все фиксированные температуры декодирования на ряде задач, требующих различных температур, включая UltraFeedback, Креативное Написание Историй и GSM8K.
Мы создаем две модели декодирования только на немецком языке, LL\"aMmlein 120M и 1B, прозрачно с нуля и публикуем их, вместе с обучающими данными, для использования немецким исследовательским сообществом в области обработки естественного языка. Обучение модели включало несколько ключевых этапов, включая обширную предобработку данных, создание индивидуального токенизатора для немецкого языка, само обучение, а также оценку конечных моделей на различных бенчмарках. На протяжении процесса обучения были сохранены несколько контрольных точек и проанализированы с использованием бенчмарка SuperGLEBer для мониторинга динамики обучения моделей. По сравнению с передовыми моделями на бенчмарке SuperGLEBer, обе модели LL\"aMmlein показали конкурентоспособные результаты, последовательно соответствуя или превосходя модели с аналогичными размерами параметров. Результаты показывают, что качество моделей масштабируется с увеличением размера, как ожидалось, но улучшения производительности на некоторых задачах замедляются рано, предоставляя ценные идеи для распределения ресурсов для будущего развития моделей.
Диффузионные трансформеры (DiT) стали мощными генеративными моделями для различных задач, включая синтез изображений, видео и речи. Однако их процесс вывода остается вычислительно затратным из-за повторного оценивания ресурсоемких модулей внимания и прямого распространения. Для решения этой проблемы мы представляем SmoothCache, модельно-независимую технику ускорения вывода для архитектур DiT. SmoothCache использует наблюдаемую высокую схожесть между выходами слоев на смежных временных шагах диффузии. Анализируя ошибки представления слоев из небольшого калибровочного набора, SmoothCache адаптивно кэширует и повторно использует ключевые характеристики во время вывода. Наши эксперименты показывают, что SmoothCache достигает ускорения от 8% до 71%, сохраняя или даже улучшая качество генерации в различных модальностях. Мы продемонстрировали его эффективность на DiT-XL для генерации изображений, Open-Sora для текста-видео и Stable Audio Open для текста-аудио, подчеркивая его потенциал для реального времени и расширения доступности мощных моделей DiT.
Неявные нейронные представления (INR) используют нейронные сети для аппроксимации дискретных данных в виде непрерывных функций. В контексте видеоданных такие модели могут быть использованы для преобразования координат пикселей вместе с временем (или индексами) появления кадров в значения цвета RGB. Хотя INR облегчают эффективное сжатие, они не подходят для редактирования. Одно из потенциальных решений - использовать модель на основе трехмерного гауссовского сплетения (3DGS), такую как Видео Гауссовское Представление (VGR), способную кодировать видео как множество трехмерных гауссов и применимую для множества операций по обработке видео, включая редактирование. Тем не менее, в данном случае возможность модификации ограничена ограниченным набором базовых преобразований. Для решения этой проблемы мы представляем модель Видео Гауссовского Сплетения (VeGaS), позволяющую реалистичные модификации видеоданных. Для построения VeGaS мы предлагаем новое семейство распределений Свернутых Гауссов, разработанных для захвата нелинейной динамики в потоке видео и моделирования последовательных кадров с помощью двумерных гауссов, полученных в качестве соответствующих условных распределений. Наши эксперименты показывают, что VeGaS превосходит современные решения в задачах восстановления кадров и позволяет реалистичные модификации видеоданных. Код доступен по ссылке: https://github.com/gmum/VeGaS.
Подход с увеличением генерации с использованием извлечения (RAG) стал многообещающим методом для улучшения производительности крупных языковых моделей (LLM) в задачах, требующих большого объема знаний, таких как задачи из медицинской области. Однако чувствительная природа медицинской области требует полностью точной и надежной системы. Существующие бенчмарки RAG в основном сосредотачиваются на стандартной ситуации извлечения-ответа, но они не учитывают множество практических сценариев, измеряющих важные аспекты надежной медицинской системы. В данной статье рассматривается этот пробел путем предоставления комплексной системы оценки для систем медицинского вопросно-ответного (QA) в RAG среде для таких ситуаций, как достаточность, интеграция и устойчивость. Мы представляем бенчмарк Медицинского извлечения-увеличения генерации (MedRGB), который предоставляет различные дополнительные элементы для четырех наборов данных медицинских вопросов-ответов для тестирования способности LLM обрабатывать эти конкретные сценарии. Используя MedRGB, мы проводим обширные оценки как коммерческих LLM последнего поколения, так и моделей с открытым исходным кодом в различных условиях извлечения. Наши экспериментальные результаты показывают ограниченную способность текущих моделей обрабатывать шум и дезинформацию в извлеченных документах. Мы также анализируем процессы рассуждения LLM, чтобы предоставить ценные идеи и направления для развития систем RAG в этой важной медицинской области.
Растущие возможности больших языковых моделей (БЯМ) привели к их использованию в качестве заменителей человеческой обратной связи для обучения и оценки других БЯМ. Эти методы часто опираются на «конституции», написанные руководства, которые критическая модель использует для предоставления обратной связи и улучшения генераций. Мы исследуем, как выбор конституции влияет на качество обратной связи, используя четыре различные конституции для улучшения коммуникации, ориентированной на пациента, в медицинских интервью. В парных сравнениях, проведенных 215 человеческими оценщиками, мы обнаружили, что подробные конституции приводят к лучшим результатам в отношении эмоциональных качеств. Однако ни одна из конституций не превзошла базовый уровень в изучении более практически ориентированных навыков, связанных с сбором и предоставлением информации. Наши результаты указывают на то, что хотя подробные конституции следует приоритизировать, существуют возможные ограничения эффективности обратной связи ИИ в качестве сигнала вознаграждения в определенных областях.