Ежедневно отобранные исследовательские статьи по ИИ с переводами
Генерация движения человека играет важную роль в приложениях, таких как цифровые люди и управление гуманоидными роботами. Однако большинство существующих подходов не учитывают физические ограничения, что приводит к частому созданию физически невозможных движений с выраженными артефактами, такими как плавание и скольжение стоп. В данной статье мы предлагаем Morph, фреймворк оптимизации физики без движения, включающий генератор движения и модуль улучшения физики движения, для улучшения физической правдоподобности без использования дорогих реальных данных о движении. Конкретно, генератор движения отвечает за предоставление синтетических данных о движении большого масштаба, в то время как модуль улучшения физики движения использует эти синтетические данные для обучения имитатора движения в физическом симуляторе, накладывая физические ограничения для проецирования шумных движений в физически правдоподобное пространство. Эти физически улучшенные движения, в свою очередь, используются для доводки генератора движения, дополнительно улучшая его возможности. Эксперименты как в задачах генерации текста в движение, так и в задачах генерации музыки в танец демонстрируют, что наш фреймворк достигает высочайшего качества генерации движения, существенно улучшая физическую правдоподобность.
Модели видео-языка (VLM) продемонстрировали значительные успехи в задачах мультимодального рассуждения. Однако они по-прежнему часто генерируют неточные или несвязанные ответы из-за проблем, таких как галлюцинации в понимании изображений или недоработанные пути рассуждений. Для решения этих проблем мы представляем Critic-V, новую концепцию, вдохновленную парадигмой Actor-Critic, для улучшения способности рассуждения VLM. Эта концепция разделяет процессы рассуждения и критики путем интеграции двух независимых компонентов: Reasoner, который генерирует пути рассуждений на основе визуальных и текстовых входных данных, и Critic, который предоставляет конструктивную критику для улучшения этих путей. В этом подходе Reasoner генерирует ответы на рассуждения в соответствии с текстовыми подсказками, которые могут эволюционировать итеративно как политика на основе обратной связи от Critic. Этот процесс взаимодействия теоретически обусловлен фреймворком обучения с подкреплением, где Critic предлагает критику на естественном языке вместо скалярных вознаграждений, обеспечивая более тонкую обратную связь для улучшения способностей Reasoner в сложных задачах рассуждения. Модель Critic обучается с использованием оптимизации прямых предпочтений (DPO), используя набор данных предпочтений критики, оцененных по правилам Rule-based Reward (RBR), для улучшения ее критических возможностей. Результаты оценки показывают, что фреймворк Critic-V значительно превосходит существующие методы, включая GPT-4V, на 5 из 8 бенчмарков, особенно в отношении точности и эффективности рассуждений. Комбинирование динамической текстовой политики для Reasoner и конструктивной обратной связи от Critic, оптимизированной по предпочтениям, обеспечивает более надежный и контекстно-чувствительный процесс мультимодального рассуждения. Наш подход предоставляет многообещающее решение для улучшения надежности VLM, повышая их производительность в реальных приложениях с тяжелым уклоном в рассуждениях, таких как автономное вождение и интеллект воплощенного в действиях.
Этот документ представляет Virtual Try-Off (VTOFF), новую задачу, сосредоточенную на создании стандартизированных изображений одежды из одиночных фотографий одетых людей. В отличие от традиционного Virtual Try-On (VTON), который цифрово одевает моделей, VTOFF нацелен на извлечение канонического изображения одежды, что представляет уникальные вызовы в захвате формы одежды, текстуры и сложных узоров. Эта четко определенная цель делает VTOFF особенно эффективным для оценки точности восстановления в генеративных моделях. Мы представляем TryOffDiff, модель, которая адаптирует Stable Diffusion с визуальным условием на основе SigLIP для обеспечения высокой точности и сохранения деталей. Эксперименты на модифицированном наборе данных VITON-HD показывают, что наш подход превосходит базовые методы на основе передачи позы и виртуальной примерки с меньшим количеством предварительной и последующей обработки. Наш анализ показывает, что традиционные метрики генерации изображений недостаточно оценивают качество восстановления, что заставляет нас полагаться на DISTS для более точной оценки. Наши результаты подчеркивают потенциал VTOFF для улучшения изображений продуктов в приложениях электронной коммерции, продвижения оценки генеративных моделей и вдохновения на будущие работы по восстановлению высокой точности. Демонстрация, код и модели доступны по адресу: https://rizavelioglu.github.io/tryoffdiff/
Несмотря на значительные достижения в моделях генерации текста в изображение (T2I), пользователи часто сталкиваются с проблемой проб и ошибок в практических сценариях. Эта проблема возникает из-за сложности и неопределенности утомительных этапов, таких как создание подходящих подсказок, выбор соответствующих моделей и настройка конкретных аргументов, заставляя пользователей прибегать к трудоемким попыткам для получения желаемых изображений. В данной статье предлагается автоматическая генерация T2I, которая направлена на автоматизацию этих утомительных этапов, позволяя пользователям просто описывать свои потребности в свободной форме общения. Для систематического изучения этой проблемы мы вначале представляем ChatGenBench, новый бенчмарк, разработанный для автоматической генерации T2I. Он содержит высококачественные сопоставленные данные с разнообразными свободными входами, обеспечивая всестороннюю оценку автоматических моделей T2I на всех этапах. Кроме того, учитывая автоматическую генерацию T2I как сложную многоэтапную задачу рассуждения, мы предлагаем ChatGen-Evo, стратегию многоэтапной эволюции, которая постепенно оснащает модели необходимыми навыками автоматизации. Через обширную оценку по шаговой точности и качеству изображения ChatGen-Evo значительно улучшает производительность по сравнению с различными базовыми уровнями. Наша оценка также выявляет ценные идеи для продвижения автоматической генерации T2I. Все наши данные, код и модели будут доступны на https://chengyou-jia.github.io/ChatGen-Home
Мы предлагаем SelfSplat, новую модель трехмерного гауссовского сглаживания, разработанную для выполнения безусловной и без трехмерных априорных данных общей трехмерной реконструкции из непозированных многокамерных изображений. Эти настройки по своей природе недостаточно определены из-за отсутствия исходных данных, изученной геометрической информации и необходимости достижения точной трехмерной реконструкции без донастройки, что затрудняет достижение высококачественных результатов с помощью традиционных методов. Наша модель решает эти проблемы путем эффективного интегрирования явных трехмерных представлений с техниками самообучения глубины и оценки позы, что приводит к взаимным улучшениям как в точности позы, так и в качестве трехмерной реконструкции. Кроме того, мы включаем сеть оценки позы, учитывающую сопоставление, и модуль уточнения глубины для улучшения согласованности геометрии между видами, обеспечивая более точные и стабильные трехмерные реконструкции. Для демонстрации производительности нашего метода мы оценили его на крупных реальных наборах данных, включая RealEstate10K, ACID и DL3DV. SelfSplat достигает превосходных результатов по сравнению с предыдущими передовыми методами как по качеству внешнего вида, так и геометрии, а также демонстрирует сильные возможности обобщения на различные наборы данных. Обширные исследования и анализ также подтверждают эффективность наших предложенных методов. Код и предварительно обученные модели доступны по адресу https://gynjn.github.io/selfsplat/
Модели диффузии достигли впечатляющих результатов в генеративных задачах, таких как синтез текста в изображение (T2I) и текста в видео (T2V). Однако достижение точного выравнивания текста в генерации T2V остается сложной задачей из-за сложной временной зависимости между кадрами. Существующие подходы на основе обучения с подкреплением (RL) для улучшения выравнивания текста часто требуют дифференцируемых функций вознаграждения или ограничиваются ограниченными подсказками, что затрудняет их масштабируемость и применимость. В данной статье мы предлагаем Free^2Guide, новую градиентно-свободную структуру для выравнивания сгенерированных видео с текстовыми подсказками без необходимости дополнительного обучения модели. Используя принципы управления путем интеграла по траектории, Free^2Guide аппроксимирует руководство для моделей диффузии, используя недифференцируемые функции вознаграждения, что позволяет интегрировать мощные черные ящики больших моделей видео-языкового восприятия (LVLMs) в качестве модели вознаграждения. Кроме того, наша структура поддерживает гибкое объединение нескольких моделей вознаграждения, включая масштабные модели на основе изображений, для синергетического улучшения выравнивания без значительных вычислительных затрат. Мы демонстрируем, что Free^2Guide значительно улучшает выравнивание текста по различным измерениям и повышает общее качество сгенерированных видео.
В эпоху информационного перенасыщения ручная аннотация обширного и постоянно растущего корпуса документов и научных статей становится все более непрактичной. Автоматизированное извлечение ключевых фраз решает эту проблему путем выявления репрезентативных терминов в текстах. Однако большинство существующих методов сосредоточены на коротких документах (до 512 токенов), что создает пробел в обработке документов с длинным контекстом. В данной статье мы представляем LongKey, новую структуру для извлечения ключевых фраз из обширных документов, которая использует модель языка на основе кодировщика для улавливания сложностей расширенного текста. LongKey использует эмбеддер с максимальным пулингом для улучшения представления кандидатов в ключевые фразы. Проверенный на обширных наборах данных LDKP и шести разнообразных, невидимых наборах данных, LongKey последовательно превосходит существующие методы извлечения ключевых фраз без учителя и на основе модели языка. Наши результаты демонстрируют универсальность и превосходную производительность LongKey, отмечая прогресс в извлечении ключевых фраз для различных длин текстов и областей.
Недавние достижения в области производительности больших языковых моделей (LLM) на медицинских многовариантных тестовых заданиях вызвали интерес у медицинских работников и пациентов по всему миру. Особенно в странах с низким и средним уровнем дохода (ЛСЗ) столкнувшихся с острой нехваткой врачей и отсутствием специалистов, LLM предлагают потенциально масштабируемый путь к улучшению доступа к медицинской помощи и снижению затрат. Однако их эффективность в Южном полушарии, особенно на всем африканском континенте, пока не установлена. В данной работе мы представляем AfriMed-QA, первый крупномасштабный панафриканский англоязычный мульти-специализированный медицинский набор вопросов и ответов (QA) с 15 000 вопросами (открытыми и закрытыми) из более чем 60 медицинских школ 16 стран, охватывающий 32 медицинские специальности. Мы также оцениваем 30 LLM по нескольким осям, включая корректность и демографическую предвзятость. Наши результаты показывают значительное разнообразие в производительности по специальностям и географиям, производительность в многовариантных тестах явно уступает USMLE (MedQA). Мы обнаружили, что биомедицинские LLM показывают худшую производительность по сравнению с общими моделями, а более компактные LLM, дружественные к краю, испытывают трудности с достижением проходного балла. Интересно, что результаты человеческих оценок показывают последовательное предпочтение потребителей ответам и объяснениям LLM по сравнению с ответами клиницистов.