Ежедневно отобранные исследовательские статьи по ИИ с переводами
Недавний всплеск Мультимодальных Больших Языковых Моделей (MLLMs) фундаментально изменил пейзаж исследований и индустрии искусственного интеллекта, пролив свет на многообещающий путь к следующему веховому моменту в области ИИ. Однако значительные препятствия по-прежнему мешают MLLMs стать практичными в реальных приложениях. Самое заметное препятствие возникает из-за огромных затрат на запуск MLLM с огромным количеством параметров и обширных вычислений. В результате большинство MLLMs должны быть развернуты на высокопроизводительных облачных серверах, что значительно ограничивает их области применения, такие как мобильные, автономные, энергоэффективные и защищенные конфиденциальностью сценарии. В данной работе мы представляем MiniCPM-V, серию эффективных MLLMs, которые могут быть развернуты на устройствах на стороне конечного пользователя. Интегрируя последние техники MLLM в архитектуру, предварительное обучение и выравнивание, последняя версия MiniCPM-Llama3-V 2.5 имеет несколько заметных особенностей: (1) Высокая производительность, превосходящая GPT-4V-1106, Gemini Pro и Claude 3 на OpenCompass, обширной оценке по 11 популярным бенчмаркам, (2) высокая способность к распознаванию текста и восприятие изображений с разрешением 1,8 миллиона пикселей при любом соотношении сторон, (3) надежное поведение с низкими показателями галлюцинаций, (4) многоязычная поддержка для 30+ языков и (5) эффективное развертывание на мобильных телефонах. Что более важно, MiniCPM-V можно рассматривать как репрезентативный пример многообещающего тренда: размеры моделей для достижения приемлемой (например, GPT-4V) производительности быстро уменьшаются на фоне быстрого роста вычислительной мощности на стороне конечного пользователя. Это совместно показывает, что MLLMs уровня GPT-4V, развернутые на конечных устройствах, становятся все более возможными, открывая более широкий спектр реальных приложений искусственного интеллекта в ближайшем будущем.
Диалог служит наиболее естественным способом взаимодействия человека с компьютером (HCI). Недавние достижения в области моделей речевого языка (SLM) значительно улучшили речевые разговорные ИИ. Однако эти модели ограничены пошаговым разговором и не имеют возможности взаимодействовать с людьми в реальном времени в разговорных ситуациях, например, когда генерируемое содержание не удовлетворительно и происходит прерывание. Для решения этих ограничений мы исследуем моделирование полного дуплекса (FDM) в интерактивных моделях речевого языка (iSLM), сосредотачиваясь на улучшении взаимодействия в реальном времени и, более конкретно, на исследовании основной способности прерывания. Мы представляем новую модель дизайна, а именно модель языка "слушать-в-то время как-говорить" (LSLM), систему от начала до конца, оснащенную как каналами прослушивания, так и говорения. Наша LSLM использует декодер только для TTS на основе токенов для генерации речи и потоковый кодировщик самообучения (SSL) для ввода аудио в реальном времени. LSLM объединяет оба канала для авторегрессивной генерации и обнаружения смены реплик в реальном времени. Исследуются три стратегии объединения - раннее объединение, среднее объединение и позднее объединение, причем среднее объединение достигает оптимального баланса между генерацией речи и взаимодействием в реальном времени. Два экспериментальных сценария, основанных на командах FDM и голосовых FDM, демонстрируют устойчивость LSLM к шуму и чувствительность к разнообразным инструкциям. Наши результаты подчеркивают способность LSLM достигать дуплексного общения с минимальным воздействием на существующие системы. Цель данного исследования - продвижение развития интерактивных систем диалога на основе речи, улучшая их применимость в реальных ситуациях.
Внедрение систем с усиленным поиском и генерацией (RAG) является по своей сути сложным процессом, требующим глубокого понимания данных, сценариев использования и тонких проектных решений. Кроме того, оценка этих систем представляет существенные вызовы, требуя оценки как точности поиска, так и качества генерации через многофакторный подход. Мы представляем RAG Foundry, открытую платформу для расширения крупных языковых моделей для сценариев использования RAG. RAG Foundry интегрирует создание данных, обучение, вывод и оценку в единый рабочий процесс, облегчая создание данных-расширенных наборов для обучения и оценки крупных языковых моделей в средах RAG. Эта интеграция позволяет быстро создавать прототипы и экспериментировать с различными техниками RAG, позволяя пользователям легко генерировать наборы данных и обучать модели RAG с использованием внутренних или специализированных источников знаний. Мы демонстрируем эффективность платформы, расширяя и настраивая модели Llama-3 и Phi-3 с различными конфигурациями RAG, показывая последовательные улучшения на трех знаниевых наборах данных. Код выпущен в открытый доступ на https://github.com/IntelLabs/RAGFoundry.
Мы представляем Lumina-mGPT, семейство мультимодальных авторегрессионных моделей, способных выполнять различные задачи визуализации и языка, превосходящих в особенности в создании гибких фотореалистичных изображений по текстовым описаниям. В отличие от существующих подходов к авторегрессивной генерации изображений, Lumina-mGPT использует предварительно обученный декодерный трансформер в качестве объединенной структуры для моделирования мультимодальных последовательностей токенов. Наш ключевой инсайт заключается в том, что простой декодерный трансформер с мультимодальным предварительным обучением (mGPT), использующий цель предсказания следующего токена на массивных чередующихся текстово-изображенческих последовательностях, способен изучить широкие и общие мультимодальные возможности, тем самым проливая свет на фотореалистичную генерацию изображений по тексту. На основе этих предварительно обученных моделей мы предлагаем Гибкое Прогрессивное Обучение с Учителем (FP-SFT) на высококачественных парах изображение-текст для полного раскрытия их потенциала в синтезе изображений высокого качества на любом разрешении, сохраняя при этом их общие мультимодальные возможности. Кроме того, мы представляем Омнипотентное Обучение с Учителем (Omni-SFT), превращая Lumina-mGPT в базовую модель, которая безупречно достигает унификации задач. Полученная модель демонстрирует универсальные мультимодальные возможности, включая задачи визуальной генерации, такие как гибкая генерация изображений по тексту и управляемая генерация, задачи визуального распознавания, такие как сегментация и оценка глубины, а также задачи визия-язык, такие как многораундовый визуальный вопросно-ответный анализ. Кроме того, мы анализируем различия и сходства между методами на основе диффузии и авторегрессивными методами в прямом сравнении.
Мы представляем MeshAnything V2, авторегрессионный трансформер, который генерирует сетки, созданные художниками (AM), выровненные по заданным формам. Он может быть интегрирован в различные конвейеры производства 3D-ресурсов для достижения высококачественной и высококонтролируемой генерации AM. MeshAnything V2 превосходит предыдущие методы как по эффективности, так и по производительности с использованием моделей одинакового размера. Эти улучшения обусловлены нашим недавно предложенным методом токенизации сетки: Смежная токенизация сетки (AMT). В отличие от предыдущих методов, представляющих каждое лицо тремя вершинами, AMT использует одну вершину, когда это возможно. По сравнению с предыдущими методами, AMT требует примерно вдвое меньше длины последовательности токенов для представления одной и той же сетки в среднем. Более того, последовательности токенов из AMT более компактны и хорошо структурированы, что в основе благоприятствует генерации AM. Наши обширные эксперименты показывают, что AMT значительно улучшает эффективность и производительность генерации AM. Страница проекта: https://buaacyw.github.io/meshanything-v2/
Оценка на основе модели является основой успешной разработки моделей - как модель вознаграждения для обучения, так и в качестве замены человеческой оценки. Для обучения таких оценщиков стандартным подходом является сбор большого количества человеческих предпочтительных суждений по откликам модели, что является затратным, и данные устаревают по мере улучшения моделей. В данной работе мы представляем подход, который направлен на улучшение оценщиков без человеческих аннотаций, используя только синтетические обучающие данные. Начиная с неразмеченных инструкций, наш итеративный самоулучшающийся схема генерирует контрастные выходы модели и обучает LLM-как-Судью для создания следов рассуждений и окончательных суждений, повторяя это обучение на каждой новой итерации с использованием улучшенных прогнозов. Без каких-либо размеченных данных о предпочтениях наш Самообучающийся Оценщик может улучшить сильный LLM (Llama3-70B-Instruct) с 75,4 до 88,3 (88,7 с преобладающим голосом) на RewardBench. Этот результат превосходит широко используемых судей LLM, таких как GPT-4, и соответствует производительности лучших моделей вознаграждения, обученных с помеченными примерами.
Настройка инструкций играет критическую роль в выравнивании больших языковых моделей (LLM) с предпочтениями человека. Несмотря на огромное количество открытых наборов данных инструкций, наивное обучение LLM на всех существующих инструкциях может быть неоптимальным и практически невозможным. Для выявления наиболее полезных точек данных были предложены методы оценки и выбора данных в областях обработки естественного языка (NLP) и глубокого обучения. Однако в контексте настройки инструкций по-прежнему существует пробел в знаниях о том, какие виды метрик оценки данных могут быть использованы и как они могут быть интегрированы в механизм выбора. Для заполнения этого пробела мы представляем всесторонний обзор существующей литературы по оценке и выбору данных, особенно для настройки инструкций LLM. Мы систематизируем все применимые методы на основе качества, разнообразия и важности, где структурирована унифицированная, детализированная таксономия. Для каждой категории подробно описаны репрезентативные методы, чтобы описать ландшафт соответствующих исследований. Кроме того, проводится сравнение последних методов на основе их официально сообщенных результатов для обеспечения глубоких обсуждений их ограничений. Наконец, мы подводим итоги открытых проблем и предлагаем перспективные направления для будущих исследований. Все связанные материалы доступны по ссылке https://github.com/yuleiqin/fantastic-data-engineering.
Качество пар видео-текст фундаментально определяет верхнюю границу моделей текст-к-видео. В настоящее время наборы данных, используемые для обучения этих моделей, страдают от значительных недостатков, включая низкую временную последовательность, качество подкастов низкого качества, низкое качество видео и дисбаланс распределения данных. Преобладающий процесс курирования видео, который зависит от моделей изображений для тегирования и ручного курирования на основе правил, приводит к высокой вычислительной нагрузке и оставляет за собой нечистые данные. В результате отсутствует подходящий набор данных для обучения моделей текст-к-видео. Для решения этой проблемы мы представляем VidGen-1M, превосходный набор данных для обучения моделей текст-к-видео. Созданный через стратегию грубой и тонкой курирования, этот набор данных гарантирует видео высокого качества и подробные подкасты с отличной временной последовательностью. При использовании для обучения модели генерации видео этот набор данных привел к экспериментальным результатам, превосходящим те, которые были получены другими моделями.
В данной статье мы предлагаем ProCreate - простой и легко реализуемый метод для улучшения разнообразия и креативности образцов в диффузионных генеративных моделях изображений и предотвращения воспроизведения обучающих данных. ProCreate оперирует на наборе опорных изображений и активно удаляет встроенное изображение, генерируемое в процессе, от встроенных опорных изображений. Мы предлагаем FSCG-8 (Few-Shot Creative Generation 8) - набор данных для креативной генерации с небольшим числом примеров по восьми различным категориям, охватывающим различные концепции, стили и настройки, в котором ProCreate достигает наивысшего разнообразия и достоверности образцов. Кроме того, мы показываем, что ProCreate эффективен в предотвращении воспроизведения обучающих данных в крупномасштабной оценке с использованием обучающих текстовых подсказок. Код и FSCG-8 доступны по ссылке https://github.com/Agentic-Learning-AI-Lab/procreate-diffusion-public. Страница проекта доступна по адресу https://procreate-diffusion.github.io.
Прогресс в области обработки естественного языка (NLP) в биологии зависит от способности моделей интерпретировать сложную биомедицинскую литературу. Традиционные модели часто испытывают трудности с комплексным и специфическим для этой области языком. В данной статье мы представляем BioMamba, предварительно обученную модель, специально разработанную для майнинга биомедицинского текста. BioMamba основана на архитектуре Mamba и предварительно обучена на обширном корпусе биомедицинской литературы. Наши эмпирические исследования показывают, что BioMamba значительно превосходит модели, такие как BioBERT и общедоменный Mamba, в различных биомедицинских задачах. Например, BioMamba достигает снижения перплексии в 100 раз и снижения потерь перекрестной энтропии в 4 раза на тестовом наборе BioASQ. Мы предоставляем обзор архитектуры модели, процесса предварительного обучения и методов настройки. Кроме того, мы публикуем код и обученную модель для облегчения дальнейших исследований.
Алгоритмы обучения множества агентов успешно применялись для создания сверхчеловеческого планирования в широком спектре игр, однако оказали незначительное влияние на разработку развернутых многозадачных планировщиков. Одной из ключевых проблем при применении этих техник к многозадачному планированию является необходимость в миллиардах шагов опыта. Для возможности изучения многозадачного планирования на таком масштабе мы представляем GPUDrive - ускоренный с помощью GPU многозадачный симулятор, построенный на основе игрового движка Madrona, способный генерировать более миллиона шагов опыта в секунду. Функции наблюдения, вознаграждения и динамики написаны непосредственно на C++, что позволяет пользователям определять сложные, гетерогенные поведенческие модели агентов, которые затем оптимизируются для высокой производительности с помощью CUDA. Мы показываем, что с использованием GPUDrive мы можем эффективно обучать агентов с подкреплением на множестве сцен в наборе данных Waymo Motion, получая высокоэффективных агентов, достигающих целей в течение нескольких минут для отдельных сцен и в целом способных агентов за несколько часов. Мы предоставляем эти обученные агенты в составе исходного кода на https://github.com/Emerge-Lab/gpudrive.
Методы композиционного визуального рассуждения, которые преобразуют сложный запрос в структурированную композицию выполнимых визуальных задач, проявили сильный потенциал в сложных мультимодальных задачах. Благодаря последним достижениям в области крупных языковых моделей (КЯМ), этот мультимодальный вызов был перенесен на новый уровень путем рассмотрения КЯМ как планировщиков с небольшим числом обучающих примеров/без обучающих примеров, т.е. программирование зрение-язык (VL). Такие методы, несмотря на их многочисленные достоинства, сталкиваются с проблемами из-за ошибок в планировании КЯМ или неточности визуальных модулей выполнения, отставая от некомпозиционных моделей. В данной работе мы разрабатываем метод "вставь и играй", ExoViP, для исправления ошибок как на этапе планирования, так и выполнения через внутреннюю верификацию. Мы используем модули верификации в качестве "экзоскелетов" для улучшения текущих схем программирования VL. В частности, наш предложенный модуль верификации использует смесь трех подверификаторов для проверки предсказаний после каждого шага рассуждения, впоследствии калибруя предсказания визуального модуля и уточняя план рассуждения, разработанный КЯМ. Экспериментальные результаты на двух представительных методах программирования VL показывают последовательное улучшение на пяти композиционных задачах рассуждения на стандартных бенчмарках. Исходя из этого, мы считаем, что ExoViP может способствовать лучшей производительности и обобщению в открытых мультимодальных вызовах.
Недавний всплеск открытых крупных языковых моделей (LLM) позволяет разработчикам создавать решения на основе искусственного интеллекта, сохраняя контроль над аспектами, такими как конфиденциальность и соответствие, обеспечивая тем самым управление и владение процессом развертывания модели. Для использования этих LLM необходимы механизмы вывода. Эти механизмы загружают веса модели на доступные ресурсы, такие как графические процессоры, и обрабатывают запросы для генерации ответов. Скорость вывода, или производительность, LLM критически важна для приложений реального времени, поскольку она вычисляет миллионы или миллиарды операций с плавающей запятой на каждый вывод. Недавно появились передовые механизмы вывода, такие как vLLM, включающие новаторские механизмы, такие как эффективное управление памятью, для достижения передовой производительности. В данной статье мы анализируем производительность, в частности пропускную способность (токены, сгенерированные за единицу времени), 20 LLM с использованием двух библиотек вывода: vLLM и конвейеров HuggingFace. Мы исследуем, как различные гиперпараметры, которые разработчики должны настраивать, влияют на производительность вывода. Наши результаты показывают, что ландшафты пропускной способности нерегулярны, с выраженными пиками, подчеркивая важность оптимизации гиперпараметров для достижения максимальной производительности. Мы также показываем, что применение оптимизации гиперпараметров при обновлении или понижении используемой для вывода модели GPU может улучшить пропускную способность от конвейеров HuggingFace в среднем на 9,16% и 13,7% соответственно.
Продвинутые искусственные интеллектуальные ассистенты объединяют передовые языковые модели с доступом к инструментам для автономного выполнения сложных задач от имени пользователей. В то время как полезность таких ассистентов может значительно возрасти при доступе к информации пользователя, включая электронные письма и документы, это вызывает опасения о конфиденциальности, связанные с возможностью ассистентов передавать неподходящую информацию третьим лицам без контроля со стороны пользователя. Для направления действий ассистентов по обмену информацией в соответствии с ожиданиями конфиденциальности мы предлагаем операционализировать контекстуальную целостность (CI), фреймворк, который связывает конфиденциальность с соответствующим потоком информации в определенном контексте. В частности, мы разрабатываем и оцениваем ряд стратегий для направления действий ассистентов по обмену информацией в соответствии с CI. Наша оценка основана на новом бенчмарке заполнения форм, состоящем из синтетических данных и аннотаций людей, и показывает, что подсказывание передовым языковым моделям проведение рассуждений на основе CI дает хорошие результаты.