Ежедневно отобранные исследовательские статьи по ИИ с переводами
Область медицинской диагностики претерпела значительные изменения с появлением больших языковых моделей (LLM), однако проблемы интерпретируемости в этих моделях остаются в значительной степени нерешенными. В данном исследовании представлена цепочка диагностики (CoD) для улучшения интерпретируемости медицинской диагностики на основе LLM. CoD преобразует процесс диагностики в цепочку диагностики, отражающую мыслительный процесс врача и предоставляющую прозрачный путь рассуждений. Кроме того, CoD выдает распределение уверенности в заболевании для обеспечения прозрачности в принятии решений. Эта интерпретируемость делает диагностику модели управляемой и помогает выявить критические симптомы для исследования путем уменьшения энтропии уверенностей. С помощью CoD мы разработали DiagnosisGPT, способный диагностировать 9604 заболевания. Экспериментальные результаты показывают, что DiagnosisGPT превосходит другие LLM на диагностических испытаниях. Более того, DiagnosisGPT обеспечивает интерпретируемость, обеспечивая при этом управляемость в диагностической строгости.
Этот документ не представляет новый метод. Вместо этого он предлагает более справедливое и более всестороннее сравнение моделей KAN и MLP по различным задачам, включая машинное обучение, компьютерное зрение, обработку звука, обработку естественного языка и представление символьных формул. Конкретно, мы контролируем количество параметров и операций с плавающей запятой (FLOPs) для сравнения производительности KAN и MLP. Наш основной вывод состоит в том, что, за исключением задач представления символьных формул, MLP в целом превосходит KAN. Мы также проводим исследования абляции на KAN и обнаруживаем, что его преимущество в задачах представления символьных формул в основном происходит от его активационной функции B-сплайн. Когда B-сплайн применяется к MLP, производительность в представлении символьных формул значительно улучшается, превосходя или соответствуя производительности KAN. Однако в других задачах, где MLP уже превосходит KAN, B-сплайн не существенно улучшает производительность MLP. Кроме того, мы обнаруживаем, что проблема забывания у KAN более серьезна, чем у MLP в стандартной настройке непрерывного обучения с постепенным увеличением классов, что отличается от результатов, представленных в документе о KAN. Мы надеемся, что эти результаты предоставят понимание для будущих исследований по KAN и другим альтернативам MLP. Ссылка на проект: https://github.com/yu-rp/KANbeFair
Недавние достижения в области генерации видео в основном опирались на модели диффузии для контента короткой длительности. Однако эти подходы часто не справляются с моделированием сложных повествовательных структур и поддержанием согласованности персонажей на протяжении продолжительного времени, что является важным для создания видео большой продолжительности, таких как фильмы. Мы предлагаем MovieDreamer, новую иерархическую структуру, которая интегрирует преимущества авторегрессионных моделей с диффузионным рендерингом для пионерской генерации видео большой продолжительности с запутанным сюжетом и высокой визуальной точностью. Наш подход использует авторегрессионные модели для обеспечения глобальной согласованности повествования, предсказывая последовательности визуальных токенов, которые затем преобразуются в кадры видео высокого качества с помощью диффузионного рендеринга. Этот метод аналогичен традиционным процессам производства фильмов, где сложные сюжеты разбиваются на управляемые сцены. Кроме того, мы используем мультимодальный сценарий, который обогащает описания сцен детальной информацией о персонажах и визуальным стилем, улучшая непрерывность и идентичность персонажей через сцены. Мы представляем обширные эксперименты в различных жанрах кино, демонстрируя, что наш подход не только достигает превосходного визуального и повествовательного качества, но также эффективно увеличивает продолжительность созданного контента значительно за пределы текущих возможностей. Домашняя страница: https://aim-uofa.github.io/MovieDreamer/.
Виртуальная примерка (VTON) стала трансформационной технологией, давая пользователям возможность экспериментировать с модой, не примеряя одежду физически. Однако существующие методы часто испытывают затруднения с созданием изображений высокой реалистичности и детальной согласованности. В то время как модели диффузии, такие как серия Stable Diffusion, продемонстрировали свою способность создавать изображения высокого качества и фотореалистичные, они сталкиваются с серьезными проблемами в условиях условной генерации, таких как VTON. Конкретно, эти модели испытывают трудности в поддержании баланса между управлением и согласованностью при создании изображений для виртуальных примерок одежды. OutfitAnyone преодолевает эти ограничения, используя двухпоточную условную модель диффузии, что позволяет ей ловко управлять деформацией одежды для более реалистичных результатов. Она выделяется масштабируемыми факторами, такими как поза, форма тела и широкая применимость, распространяющаяся от аниме до фотографий "в дикой природе". Производительность OutfitAnyone в различных сценариях подчеркивает ее полезность и готовность к внедрению в реальном мире. Для получения дополнительных деталей и анимированных результатов, пожалуйста, посетите https://humanaigc.github.io/outfit-anyone/.
Модели генерации видео по тексту (T2V) значительно продвинулись, однако их способность компоновать различные объекты, атрибуты, действия и движения в видео остается неисследованной. Предыдущие бенчмарки по генерации видео по тексту также игнорируют эту важную способность для оценки. В данной работе мы проводим первое систематическое исследование композиционной генерации видео по тексту. Мы предлагаем T2V-CompBench, первый бенчмарк, разработанный специально для композиционной генерации видео по тексту. T2V-CompBench охватывает различные аспекты композициональности, включая последовательное привязывание атрибутов, динамическое привязывание атрибутов, пространственные отношения, привязывание движения, привязывание действий, взаимодействия объектов и генеративную числовую грамотность. Мы также тщательно разрабатываем метрики оценки на основе MLLM, метрики на основе детекции и метрики на основе трекинга, которые могут лучше отражать качество композиционной генерации видео по тексту для семи предложенных категорий с 700 текстовыми подсказками. Эффективность предложенных метрик подтверждается корреляцией с оценками людей. Мы также проводим оценку различных моделей генерации видео по тексту и проводим глубокий анализ различных моделей и различных композиционных категорий. Мы приходим к выводу, что композиционная генерация видео по тексту представляет собой очень сложную задачу для текущих моделей, и надеемся, что наша попытка прольет свет на будущие исследования в этом направлении.
Существующие наборы данных и модели взаимодействия человеческих объектов в трехмерном пространстве (HOI) просто выравнивают глобальные описания с длинной последовательностью HOI, не обладая детальным пониманием промежуточных состояний и переходов между ними. В данной статье мы утверждаем, что выравнивание семантики с тонкой детализацией, которое использует описания на уровне состояний, предлагает многообещающую парадигму для обучения семантически насыщенных представлений HOI. Для достижения этой цели мы представляем Semantic-HOI, новый набор данных, включающий более 20 тыс. сопоставленных состояний HOI с тонкими описаниями для каждого состояния HOI и движениями тела, происходящими между двумя последовательными состояниями. Используя предложенный набор данных, мы разрабатываем три задачи HOI на уровне состояний для достижения тонкого семантического выравнивания в последовательности HOI. Кроме того, мы предлагаем объединенную модель под названием F-HOI, разработанную для использования мультимодальных инструкций и усиления Многомодальной Большой Языковой Модели для эффективной обработки разнообразных задач HOI. F-HOI предлагает несколько преимуществ: (1) Он использует объединенную формулировку задачи, поддерживающую использование разносторонних мультимодальных входов. (2) Он поддерживает согласованность в HOI в пространствах 2D, 3D и лингвистических. (3) Он использует тонкую текстовую надзорную информацию для прямой оптимизации, избегая сложного моделирования состояний HOI. Обширные эксперименты показывают, что F-HOI эффективно выравнивает состояния HOI с тонкими семантическими описаниями, искусно справляясь с задачами понимания, рассуждения, генерации и восстановления.
С развитием доступности данных и вычислительных ресурсов Многомодельные Большие Языковые Модели (MLLMs) продемонстрировали свои возможности в различных областях. Однако квадратичная сложность видеоэнкодера в MLLMs ограничивает разрешение входных изображений. Большинство текущих подходов смягчают эту проблему, обрезая высокоразрешенные изображения на более мелкие подизображения, которые затем обрабатываются независимо видеоэнкодером. Несмотря на то, что такие подизображения захватывают достаточно локальных деталей, они лишены глобального контекста и не взаимодействуют друг с другом. Для решения этого ограничения мы предлагаем новую MLLM, INF-LLaVA, разработанную для эффективного восприятия высокоразрешенных изображений. INF-LLaVA включает два инновационных компонента. Во-первых, мы представляем Модуль Обрезки с Двойной Перспективой (DCM), который обеспечивает, что каждое подизображение содержит непрерывные детали с локальной перспективы и всестороннюю информацию с глобальной перспективы. Во-вторых, мы вводим Модуль Улучшения с Двойной Перспективой (DEM) для возможности взаимного улучшения глобальных и локальных особенностей, позволяя INF-LLaVA эффективно обрабатывать высокоразрешенные изображения, одновременно захватывая детальную локальную информацию и всесторонний глобальный контекст. Обширные исследования по абляции подтверждают эффективность этих компонентов, а эксперименты на разнообразном наборе бенчмарков показывают, что INF-LLaVA превосходит существующие MLLMs. Код и предобученная модель доступны по ссылке https://github.com/WeihuangLin/INF-LLaVA.
Несмотря на наличие международных соревнований с денежными призами, масштабных моделей транспортных средств и сред симуляции, исследования в области автономной гонки и управления спортивными автомобилями, работающими на пределе управляемости, ограничены высокими затратами на приобретение и обслуживание транспортных средств, а также ограниченной точностью физических моделей в открытых симуляторах. В данной статье мы предлагаем платформу гоночной симуляции на основе симулятора Assetto Corsa для тестирования, валидации и оценки алгоритмов автономного вождения, включая обучение с подкреплением (RL) и классическое управление по модели предсказания (MPC), в реалистичных и сложных сценариях. Наши вклады включают разработку этой симуляционной платформы, несколько передовых алгоритмов, адаптированных к гоночной среде, и обширный набор данных, собранных от человеческих водителей. Кроме того, мы оцениваем алгоритмы в условиях офлайн обучения с подкреплением. Весь необходимый код (включая среду и бенчмарки), рабочие примеры, наборы данных и видео предоставлены публично и могут быть найдены по ссылке: https://assetto-corsa-gym.github.io.
Предварительное обучение на основе видео предлагает огромный потенциал для обучения качественных визуальных представлений в масштабах, недоступных ранее. Недавно методы маскированного моделирования видео показали перспективную масштабируемость, однако они не способны полностью улавливать более высокоуровневую семантику из-за восстановления заранее определенных низкоуровневых целей, таких как пиксели. Для решения этой проблемы мы представляем метод предварительного обучения видео под названием Sinkhorn-guided Masked Video Modelling (SIGMA), который совместно обучает модель видео и целевое пространство признаков с использованием сети проекции. Однако такое простое изменение означает, что обычная потеря восстановления L2 приведет к тривиальным решениям, поскольку обе сети оптимизируются совместно. В качестве решения мы равномерно распределяем признаки пространственно-временных трубок по ограниченному числу обучаемых кластеров. Представляя это как задачу оптимальной транспортировки, мы обеспечиваем высокую энтропию в сгенерированных признаках внутри пакета, внедряя семантическое и временное значение в пространство признаков. Полученные назначения кластеров используются в качестве целей для симметричной задачи предсказания, где модель видео предсказывает назначение кластера сети проекции и наоборот. Экспериментальные результаты на десяти наборах данных по трем бенчмаркам подтверждают эффективность SIGMA в обучении более производительных, осведомленных о времени и надежных видеопредставлений, превосходящих современные методы. Наш веб-сайт проекта с кодом доступен по адресу: https://quva-lab.github.io/SIGMA.
Для развертывания языковых моделей (LMs) необходимо, чтобы выходные данные были высокого качества и соответствовали рекомендациям по безопасности. Хотя механизмы контроля во время вывода (ITG) предлагают решения, направленные на смещение распределений выходных данных модели в сторону соответствия, мы обнаружили, что текущие методы испытывают затруднения в балансировке безопасности и полезности. Методы ITG, безопасно обрабатывающие несоответствующие запросы, проявляют более низкую полезность, в то время как те, которые приоритизируют полезность, жертвуют безопасностью. Мы называем этот компромисс "налог защитного барьера", аналогичный налогу на выравнивание. Для решения этой проблемы мы предлагаем PrimeGuard, новый метод ITG, использующий структурированный контрольный поток. PrimeGuard направляет запросы к различным самовоспроизведениям LM с различными инструкциями, используя его врожденные способности следовать инструкциям и обучение в контексте. Наш подход без настройки динамически компилирует рекомендации системного проектировщика для каждого запроса. Мы создаем и выпускаем safe-eval, разнообразный бенчмарк безопасности красной команды. Обширные оценки показывают, что PrimeGuard, без дополнительной настройки, преодолевает налог защитного барьера, увеличивая устойчивость к итеративным атакам на проникновение и достигая передовых результатов в обеспечении безопасности, сохраняя при этом оценки полезности, сопоставимые с моделями, настроенными на выравнивание. Обширные оценки показывают, что PrimeGuard, без дополнительной настройки, превосходит все конкурирующие базовые уровни и преодолевает налог защитного барьера, улучшая долю безопасных ответов с 61% до 97% и увеличивая средние оценки полезности с 4.17 до 4.29 для крупных моделей, снижая при этом уровень успешности атак с 100% до 8%. Реализация PrimeGuard доступна по адресу https://github.com/dynamofl/PrimeGuard, а набор данных safe-eval доступен по адресу https://huggingface.co/datasets/dynamoai/safe_eval.
Применение моделей видео-языка (VLM) достигло впечатляющих успехов в различных задачах робототехники, но существует небольшое количество исследований для базовых моделей, используемых в навигации четвероногих роботов. Мы представляем систему Cross Anything System (CAS), инновационную систему, состоящую из модуля высокоуровневого рассуждения и политики управления низкого уровня, позволяющую роботу перемещаться по сложным трехмерным местностям и достигать целевой позиции. Для высокоуровневого рассуждения и планирования движения мы предлагаем новую алгоритмическую систему, использующую преимущества VLM, с разработкой декомпозиции задачи и механизмом выполнения подзадач в замкнутом цикле. Для управления низкоуровневым передвижением мы используем метод вероятностного отбора с уменьшением вероятности (PAS) для обучения политики управления с помощью обучения с подкреплением. Многочисленные эксперименты показывают, что наша вся система может точно и надежно перемещаться по сложным трехмерным местностям, а ее сильная обобщающая способность обеспечивает применение в различных внутренних и внешних сценариях и местностях. Страница проекта: https://cross-anything.github.io/