Ежедневно отобранные исследовательские статьи по ИИ с переводами
Разработка надежных и корректируемых визуомоторных стратегий для робототехнического манипулирования представляет собой сложную задачу из-за отсутствия механизмов самовосстановления после сбоев и ограничений простых языковых инструкций в руководстве действиями робота. Для решения этих проблем мы предлагаем масштабируемый процесс генерации данных, который автоматически дополняет экспертные демонстрации траекториями восстановления после сбоев и детализированными языковыми аннотациями для обучения. Затем мы представляем Rich languAge-guided failure reCovERy (RACER), фреймворк супервайзера-актера, который объединяет данные восстановления после сбоев с богатыми языковыми описаниями для улучшения управления роботом. RACER включает модель зрения-языка (VLM), действующую как онлайн супервайзер, предоставляющий подробное языковое руководство для исправления ошибок и выполнения задач, а также языково-условленную визуомоторную стратегию в качестве актера для предсказания следующих действий. Наши экспериментальные результаты показывают, что RACER превосходит современный Robotic View Transformer (RVT) на платформе RLbench в различных настройках оценки, включая стандартные задачи с долгим горизонтом, динамические задачи изменения целей и невидимые задачи с нулевым шагом, достигая превосходных результатов как в симулированных, так и в реальных средах. Видео и код доступны по ссылке: https://rich-language-failure-recovery.github.io.
Большие языковые модели (LLM) проявили замечательные способности в различных областях и задачах, выходя за пределы наших знаний в области обучения и когнитивики. Последняя модель, o1 от OpenAI, выделяется как первая LLM с внутренней техникой цепочки мыслей, использующей стратегии обучения с подкреплением. Хотя она продемонстрировала удивительно сильные способности в различных общих языковых задачах, ее производительность в специализированных областях, таких как медицина, остается неизвестной. В этом отчете представлено всестороннее исследование o1 в различных медицинских сценариях, рассматривая 3 ключевых аспекта: понимание, рассуждение и мультиязычность. В частности, наша оценка охватывает 6 задач, используя данные из 37 медицинских наборов данных, включая два недавно созданных и более сложных задания по вопросам и ответам (QA) на основе профессиональных медицинских викторин из New England Journal of Medicine (NEJM) и The Lancet. Эти наборы данных предлагают большую клиническую значимость по сравнению с стандартными бенчмарками медицинских QA, такими как MedQA, более эффективно переносясь на практическую клиническую полезность. Наш анализ o1 показывает, что улучшенная способность к рассуждению LLM может значительно повысить их способность понимать различные медицинские инструкции и рассуждать через сложные клинические сценарии. Заметно, что o1 превосходит предыдущий GPT-4 по точности в среднем на 6,2% и 6,6% по 19 наборам данных и двум недавно созданным сложным сценариям QA. Однако мы выявляем несколько слабостей как в способности модели, так и в существующих протоколах оценки, включая галлюцинации, несогласованную мультиязычную способность и различные метрики оценки. Мы публикуем наши исходные данные и результаты модели по адресу https://ucsc-vlaa.github.io/o1_medicine/ для будущих исследований.
Успех настройки визуальных инструкций ускорил развитие крупных моделей языка и зрения (LLVM). Следуя законам масштабирования крупных моделей языка, настроенных на инструкции (LLM), LLVM либо увеличили свои размеры, достигая 26 млрд, 34 млрд и даже 80 млрд параметров. Хотя увеличение размера модели привело к значительному повышению производительности, это требует значительно больше аппаратных ресурсов как для обучения, так и для вывода. Следовательно, существует сильная потребность в эффективных LLVM, которые достигают производительности более крупных моделей, при этом имея меньший размер. Для удовлетворения этой потребности мы представляем новое семейство эффективных LLVM с размерами моделей 0,5 млрд, 1,8 млрд, 3,8 млрд и 7 млрд параметров, Phantom, которое значительно улучшает возможности обучения в рамках ограниченных структур. Увеличивая временно скрытое измерение во время многоголового самовнимания (MHSA), мы заставляем LLVM готовиться к более глубокому пониманию знаний о визуально-языковой информации в скрытом режиме, не существенно увеличивая физический размер модели. Для максимизации преимущества мы представляем Оптимизацию Phantom (PO), используя как авторегрессивное обучение с учителем (SFT), так и концепцию оптимизации предпочтений наподобие DPO, которая эффективно следует за правильными ответами, устраняя неверные и двусмысленные. Phantom превосходит множество более крупных открытых и закрытых исходных кодов LLVM, занимая лидирующее положение в области эффективных LLVM.
Данный доклад представляет универсального визуального помощника по преобразованию изображений PixWizard, разработанного для генерации, манипуляции и перевода изображений на основе свободно формулируемых языковых инструкций. Для этого мы решаем разнообразные задачи компьютерного зрения в рамках единой структуры генерации изображений-текста-изображений и создаем набор данных Omni Pixel-to-Pixel Instruction-Tuning Dataset. Путем создания подробных шаблонов инструкций на естественном языке мы включаем широкий набор разнообразных задач компьютерного зрения, таких как генерация изображений по тексту, восстановление изображений, привязка изображений, плотное предсказание изображений, редактирование изображений, управляемая генерация, заполнение/выполнение, и другие. Более того, мы используем Диффузионные Трансформеры (DiT) в качестве основной модели и расширяем ее возможности гибким механизмом любого разрешения, позволяя модели динамически обрабатывать изображения на основе соотношения сторон ввода, тесно соответствуя человеческим восприятиям. Модель также включает в себя направленное на структуру и семантику руководство для облегчения эффективного слияния информации из входного изображения. Наши эксперименты показывают, что PixWizard не только обладает впечатляющими способностями к генерации и пониманию изображений с разным разрешением, но также обладает многообещающими способностями к обобщению с невидимыми задачами и инструкциями человека. Код и связанные ресурсы доступны по ссылке https://github.com/AFeng-x/PixWizard
Большие языковые модели (LLM) продемонстрировали значительный потенциал в трансформации клинических приложений. В данном исследовании мы исследуем эффективность четырех техник адаптации LLM для клинических сценариев использования: непрерывное предварительное обучение, инструктивное донастройка, NEFTune и инженерия подсказок. Мы применяем эти методы к моделям Mistral 7B и Mixtral 8x7B, используя крупномасштабный набор данных для клинического предварительного обучения из 50 миллиардов токенов и набор данных для инструктивной донастройки из 500 миллионов токенов. Наша оценка по различным клиническим задачам показывает влияние каждой техники. В то время как непрерывное предварительное обучение за пределами 250 миллиардов токенов дает лишь незначительное улучшение само по себе, оно создает прочное основание для инструктивной донастройки. Заметно, что NEFTune, разработанный в первую очередь для улучшения качества генерации, удивительным образом демонстрирует дополнительные приросты на нашем бенчмарке. Сложные методы инженерии подсказок дополнительно улучшают производительность. Эти результаты показывают важность настройки стратегий донастройки и исследования инновационных методов для оптимизации производительности LLM в клинической области.
Мы решаем проблему генерации высокореалистичных и правдоподобных отражений в зеркале с использованием генеративных моделей на основе диффузии. Мы формулируем эту задачу как задачу заполнения изображения, что позволяет более точно контролировать размещение зеркал в процессе генерации. Для этого мы создаем SynMirror - крупномасштабный набор данных разнообразных синтетических сцен с объектами, размещенными перед зеркалами. SynMirror содержит около 198 тыс. образцов, отрендеренных из 66 тыс. уникальных 3D объектов, а также их соответствующие карты глубины, карты нормалей и маски сегментации по экземплярам для захвата соответствующих геометрических свойств сцены. Используя этот набор данных, мы предлагаем новый метод заполнения, зависящий от глубины, названный MirrorFusion, который генерирует высококачественные геометрически согласованные и фотореалистичные отражения в зеркале на основе входного изображения и маски, изображающей область зеркала. MirrorFusion превосходит существующие методы на SynMirror, что подтверждается обширным количественным и качественным анализом. На наш взгляд, мы первые успешно решаем сложную задачу генерации контролируемых и верных отражений объекта на сцене с использованием моделей на основе диффузии. SynMirror и MirrorFusion открывают новые возможности для редактирования изображений и приложений дополненной реальности как для практиков, так и для исследователей.
Недавние работы в обратной графике показали перспективу использования многовидовых изображений объекта для восстановления формы, альбедо и материалов. Однако восстановленные компоненты часто недостоверно визуализируются под новыми условиями освещения из-за внутренней сложности разделения альбедо и свойств материалов из входных изображений. Для решения этой проблемы мы представляем MaterialFusion, улучшенный традиционный конвейер обратной графики в 3D, который включает 2D априорное знание текстуры и свойств материалов. Мы представляем StableMaterial, 2D модель диффузии, которая уточняет многократные данные освещения для оценки наиболее вероятного альбедо и материалов из имеющихся входных появлений. Эта модель обучена на данных альбедо, материалов и переосвещенных изображений, полученных из отобранного набора данных, состоящего приблизительно из ~12K синтетических объектов Blender, созданных художниками и названных BlenderVault. Мы интегрируем это диффузионное априорное знание с обратной графикой, где мы используем выборочное дистиллирование оценок (SDS) для направления оптимизации альбедо и материалов, улучшая производительность переосвещения по сравнению с предыдущими работами. Мы проверяем производительность переосвещения MaterialFusion на 4 наборах данных синтетических и реальных объектов под различными условиями освещения, показывая, что наш подход с диффузией значительно улучшает внешний вид восстановленных объектов под новыми условиями освещения. Мы намерены публично опубликовать наш набор данных BlenderVault для поддержки дальнейших исследований в этой области.
Выход ChatGPT в ноябре 2022 года вызвал взрыв интереса к посттренировке и лавину новых методов оптимизации предпочтений (PO). Эти методы утверждают, что обладают превосходным соответствием за счет лучшего соответствия человеческим попарным предпочтениям, часто измеряемым судьями LLM. В данной работе мы пытаемся ответить на следующий вопрос - переводятся ли предпочтения судей LLM на прогресс по другим, более конкретным метрикам для соответствия, и если нет, то почему? Мы определяем конкретную метрику для соответствия и представляем SOS-Bench, крупнейший стандартизированный, воспроизводимый мета-бенчмарк LLM на сегодняшний день. Мы обнаружили, что (1) суждения судей LLM не коррелируют с конкретными показателями безопасности, мирового знания и следования инструкциям; (2) судьи LLM имеют мощные неосознанные предвзятости, отдавая предпочтение стилю перед фактичностью и безопасностью; и (3) стадия надзорного дообучения (SFT) после посттренировки, а не стадия PO, оказывает наибольшее влияние на соответствие, причем масштабирование данных и разнообразие подсказок являются определяющими факторами. Наш код и полные результаты можно найти по ссылке https://github.com/penfever/sos-bench.
В данной статье мы представляем модуль нулевой передачи голоса (Voice Transfer, VT), который может быть легко интегрирован в многоязычную систему текст в речь (Text-to-speech, TTS) для передачи голоса человека на разных языках. Наш предложенный модуль VT включает в себя кодировщик-спикер, обрабатывающий эталонную речь, узкое место и резидуальные адаптеры, соединенные с существующими слоями TTS. Мы сравниваем производительность различных конфигураций этих компонентов и сообщаем о среднем балле мнения (Mean Opinion Score, MOS) и Сходстве Спикера на разных языках. Используя одну эталонную речь на английском языке на каждого спикера, мы достигаем среднего балла сходства голоса на уровне 73% на девять целевых языках. Вокальные характеристики значительно влияют на формирование и восприятие индивидуальной идентичности. Потеря голоса из-за физических или неврологических состояний может вызвать глубокое чувство утраты, влияя на основную идентичность человека. В качестве кейс-стади мы демонстрируем, что наш подход может не только передавать типичную речь, но также восстанавливать голоса людей с дисартрией, даже когда доступны только нетипичные образцы речи - ценное средство для тех, кто никогда не имел типичной речи или не записывал свой голос. Типичные аудиообразцы на разных языках, а также видео, демонстрирующие восстановление голоса для говорящих с дисартрией, доступны здесь (google.github.io/tacotron/publications/zero_shot_voice_transfer).
Создание единого, универсального контроллера на основе физики, способного оживить интерактивных персонажей в широком спектре сценариев, представляет собой захватывающую границу в анимации персонажей. Идеальный контроллер должен поддерживать различные режимы управления, такие как разреженные ключевые кадры-цели, текстовые инструкции и информацию о сцене. В то время как предыдущие работы предлагали физически моделируемые контрольные модели, осведомленные о сцене, эти системы в основном сосредотачивались на разработке контроллеров, каждый из которых специализировался на узком наборе задач и режимов управления. В данной работе представлен MaskedMimic, новый подход, который формулирует управление персонажем на основе физики как общую задачу восстановления движения. Наш ключевой принцип заключается в обучении единой модели для синтеза движений из частичных (замаскированных) описаний движения, таких как замаскированные ключевые кадры, объекты, текстовые описания или любая их комбинация. Это достигается путем использования данных отслеживания движения и разработки масштабируемого метода обучения, который может эффективно использовать разнообразные описания движения для создания согласованных анимаций. Через этот процесс наш подход изучает контроллер на основе физики, который предоставляет интуитивный интерфейс управления без необходимости утомительной инженерии вознаграждения для всех интересующих поведенческих аспектов. Полученный контроллер поддерживает широкий спектр режимов управления и обеспечивает плавные переходы между различными задачами. Объединяя управление персонажем через восстановление движения, MaskedMimic создает универсальных виртуальных персонажей. Эти персонажи могут динамически адаптироваться к сложным сценам и создавать разнообразные движения по запросу, обеспечивая более интерактивные и захватывающие впечатления.
Диабет - это хроническое заболевание, которое представляет собой значительную глобальную нагрузку на здоровье, и оптимизация управления диабетом требует сотрудничества между множеством заинтересованных сторон. Большие языковые модели (LLM) показали перспективы в различных сценариях здравоохранения, но их эффективность в различных задачах по диабету остается неподтвержденной. В данном исследовании мы представили фреймворк для обучения и валидации диабетоспецифических LLM. Сначала мы разработали комплексный конвейер обработки данных, включающий сбор, фильтрацию, аугментацию и усовершенствование данных. Этот подход способствует созданию высококачественного диабетоспецифического набора данных и нескольких оценочных бенчмарков с нуля. Используя собранный набор данных для обучения, мы провели донастройку семейства диабетоспецифических LLM, которые продемонстрировали передовую компетентность в понимании и обработке различных задач по диабету по сравнению с другими LLM. Более того, клинические исследования показали потенциальные применения наших моделей в уходе за диабетом, включая предоставление персонализированного здравоохранения, помощь в медицинском образовании и оптимизацию клинических задач. В заключение, наше исследование представило фреймворк для разработки и оценки семейства диабетоспецифических LLM и выделило их потенциал для улучшения клинической практики и предоставления персонализированной, данных-ориентированной поддержки при столкновении с различными конечными пользователями. Код предоставлен через GitHub по адресу https://github.com/waltonfuture/Diabetica.
Возрос интерес к использованию генеративного искусственного интеллекта для создания трехмерных пространств для приложений виртуальной реальности (VR). Однако существующие модели создают искусственные окружения, не способные поддерживать совместные задачи, которые могли бы воспользоваться включением физического контекста пользователя. Для создания окружений, поддерживающих телеприсутствие в VR, мы представляем SpaceBlender - новый конвейер, использующий техники генеративного искусственного интеллекта для слияния физического окружения пользователей в единые виртуальные пространства. Этот конвейер преобразует предоставленные пользователями двумерные изображения в контекстно насыщенные трехмерные окружения через итеративный процесс, включающий оценку глубины, выравнивание мешей и завершение пространства на основе диффузии, управляемое геометрическими априорными данными и адаптивными текстовыми подсказками. В предварительном исследовании внутригруппового типа, в котором 20 участников выполняли совместную задачу по составлению диаграммы аффинности в VR в парах, мы сравнили SpaceBlender с общим виртуальным окружением и передовой системой генерации сцен, оценив его способность создавать виртуальные пространства, подходящие для совместной работы. Участники оценили улучшенную знакомую обстановку и контекст, предоставленные SpaceBlender, но также отметили сложности в генеративных окружениях, которые могли бы отвлечь от задачи. Основываясь на обратной связи участников, мы предлагаем направления для улучшения конвейера и обсуждаем ценность и дизайн смешанных пространств для различных сценариев.
Данный документ представляет собой кейс-исследование задач кодирования с использованием последних моделей рассуждения от OpenAI, а именно o1-preview и o1-mini, в сравнении с другими передовыми моделями. Модели o1 показывают результаты SOTA для WebApp1K, бенчмарка с одной задачей. Для этой цели мы представляем WebApp1K-Duo, более сложный бенчмарк, удваивающий количество задач и тестовых случаев. Новый бенчмарк приводит к значительному снижению производительности моделей o1, отставая от Claude 3.5. Более того, они последовательно терпят неудачу при столкновении с атипичными, но правильными тестовыми случаями, ловушку, из которой иногда избегают нерассуждающие модели. Мы предполагаем, что изменчивость производительности обусловлена пониманием инструкций. В частности, механизм рассуждения повышает производительность, когда все ожидания учтены, тогда как усугубляет ошибки, когда ключевые ожидания пропущены, возможно, под влиянием длины ввода. Таким образом, мы утверждаем, что успех моделей рассуждения в области кодирования зависит от первоклассной базовой модели и SFT для обеспечения тщательного следования инструкциям.
Звуковые сигналы несут огромное количество информации о сценах, что приводит к различным эффектам, начиная от эха до дополнительных фоновых звуков. В данной статье мы изменяем входной речевой сигнал так, чтобы он звучал так, будто был записан в другой сцене, учитывая аудиовизуальный условный пример, записанный из этой сцены. Наша модель обучается через самонадзор, используя тот факт, что естественное видео содержит повторяющиеся звуковые события и текстуры. Мы извлекаем аудиофрагмент из видео и применяем улучшение речи. Затем мы обучаем модель латентного диффузионного процесса для восстановления исходной речи, используя другой аудиовизуальный фрагмент, взятый из другого места в видео, в качестве условного намека. Через этот процесс модель учится передавать звуковые свойства условного примера к входному речевому сигналу. Мы показываем, что нашу модель можно успешно обучить, используя не помеченные видео "in-the-wild", и что дополнительный визуальный сигнал может улучшить ее способности предсказания звука. Пожалуйста, посетите нашу веб-страницу проекта для видео-результатов: https://tinglok.netlify.app/files/avsoundscape/