ChatPaper.aiChatPaper.ai
Главная

arXiv

HuggingFace

ЦеныАккаунтРабочее пространство

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

1

RACER: Богатые языком политики восстановления после ошибок для обучения имитации
RACER: Rich Language-Guided Failure Recovery Policies for Imitation Learning

Sep 23
ByYinpei Dai, Jayjun Lee, Nima Fazeli, Joyce Chai
43
6

Разработка надежных и корректируемых визуомоторных стратегий для робототехнического манипулирования представляет собой сложную задачу из-за отсутствия механизмов самовосстановления после сбоев и ограничений простых языковых инструкций в руководстве действиями робота. Для решения этих проблем мы предлагаем масштабируемый процесс генерации данных, который автоматически дополняет экспертные демонстрации траекториями восстановления после сбоев и детализированными языковыми аннотациями для обучения. Затем мы представляем Rich languAge-guided failure reCovERy (RACER), фреймворк супервайзера-актера, который объединяет данные восстановления после сбоев с богатыми языковыми описаниями для улучшения управления роботом. RACER включает модель зрения-языка (VLM), действующую как онлайн супервайзер, предоставляющий подробное языковое руководство для исправления ошибок и выполнения задач, а также языково-условленную визуомоторную стратегию в качестве актера для предсказания следующих действий. Наши экспериментальные результаты показывают, что RACER превосходит современный Robotic View Transformer (RVT) на платформе RLbench в различных настройках оценки, включая стандартные задачи с долгим горизонтом, динамические задачи изменения целей и невидимые задачи с нулевым шагом, достигая превосходных результатов как в симулированных, так и в реальных средах. Видео и код доступны по ссылке: https://rich-language-failure-recovery.github.io.

2

Предварительное исследование o1 в медицине: находимся ли мы ближе к искусственному интеллекту врача?
A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor?

Sep 23
ByYunfei Xie, Juncheng Wu, Haoqin Tu, Siwei Yang, Bingchen Zhao, Yongshuo Zong, Qiao Jin, Cihang Xie, Yuyin Zhou
38
2

Большие языковые модели (LLM) проявили замечательные способности в различных областях и задачах, выходя за пределы наших знаний в области обучения и когнитивики. Последняя модель, o1 от OpenAI, выделяется как первая LLM с внутренней техникой цепочки мыслей, использующей стратегии обучения с подкреплением. Хотя она продемонстрировала удивительно сильные способности в различных общих языковых задачах, ее производительность в специализированных областях, таких как медицина, остается неизвестной. В этом отчете представлено всестороннее исследование o1 в различных медицинских сценариях, рассматривая 3 ключевых аспекта: понимание, рассуждение и мультиязычность. В частности, наша оценка охватывает 6 задач, используя данные из 37 медицинских наборов данных, включая два недавно созданных и более сложных задания по вопросам и ответам (QA) на основе профессиональных медицинских викторин из New England Journal of Medicine (NEJM) и The Lancet. Эти наборы данных предлагают большую клиническую значимость по сравнению с стандартными бенчмарками медицинских QA, такими как MedQA, более эффективно переносясь на практическую клиническую полезность. Наш анализ o1 показывает, что улучшенная способность к рассуждению LLM может значительно повысить их способность понимать различные медицинские инструкции и рассуждать через сложные клинические сценарии. Заметно, что o1 превосходит предыдущий GPT-4 по точности в среднем на 6,2% и 6,6% по 19 наборам данных и двум недавно созданным сложным сценариям QA. Однако мы выявляем несколько слабостей как в способности модели, так и в существующих протоколах оценки, включая галлюцинации, несогласованную мультиязычную способность и различные метрики оценки. Мы публикуем наши исходные данные и результаты модели по адресу https://ucsc-vlaa.github.io/o1_medicine/ для будущих исследований.

3

Призрак скрытого пространства для больших моделей языка и зрения
Phantom of Latent for Large Language and Vision Models

Sep 23
ByByung-Kwan Lee, Sangyun Chung, Chae Won Kim, Beomchan Park, Yong Man Ro
29
2

Успех настройки визуальных инструкций ускорил развитие крупных моделей языка и зрения (LLVM). Следуя законам масштабирования крупных моделей языка, настроенных на инструкции (LLM), LLVM либо увеличили свои размеры, достигая 26 млрд, 34 млрд и даже 80 млрд параметров. Хотя увеличение размера модели привело к значительному повышению производительности, это требует значительно больше аппаратных ресурсов как для обучения, так и для вывода. Следовательно, существует сильная потребность в эффективных LLVM, которые достигают производительности более крупных моделей, при этом имея меньший размер. Для удовлетворения этой потребности мы представляем новое семейство эффективных LLVM с размерами моделей 0,5 млрд, 1,8 млрд, 3,8 млрд и 7 млрд параметров, Phantom, которое значительно улучшает возможности обучения в рамках ограниченных структур. Увеличивая временно скрытое измерение во время многоголового самовнимания (MHSA), мы заставляем LLVM готовиться к более глубокому пониманию знаний о визуально-языковой информации в скрытом режиме, не существенно увеличивая физический размер модели. Для максимизации преимущества мы представляем Оптимизацию Phantom (PO), используя как авторегрессивное обучение с учителем (SFT), так и концепцию оптимизации предпочтений наподобие DPO, которая эффективно следует за правильными ответами, устраняя неверные и двусмысленные. Phantom превосходит множество более крупных открытых и закрытых исходных кодов LLVM, занимая лидирующее положение в области эффективных LLVM.

4

PixWizard: Универсальный визуальный ассистент по преобразованию изображений с открытым языком инструкций.
PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions

Sep 23
ByWeifeng Lin, Xinyu Wei, Renrui Zhang, Le Zhuo, Shitian Zhao, Siyuan Huang, Junlin Xie, Yu Qiao, Peng Gao, Hongsheng Li
25
2

Данный доклад представляет универсального визуального помощника по преобразованию изображений PixWizard, разработанного для генерации, манипуляции и перевода изображений на основе свободно формулируемых языковых инструкций. Для этого мы решаем разнообразные задачи компьютерного зрения в рамках единой структуры генерации изображений-текста-изображений и создаем набор данных Omni Pixel-to-Pixel Instruction-Tuning Dataset. Путем создания подробных шаблонов инструкций на естественном языке мы включаем широкий набор разнообразных задач компьютерного зрения, таких как генерация изображений по тексту, восстановление изображений, привязка изображений, плотное предсказание изображений, редактирование изображений, управляемая генерация, заполнение/выполнение, и другие. Более того, мы используем Диффузионные Трансформеры (DiT) в качестве основной модели и расширяем ее возможности гибким механизмом любого разрешения, позволяя модели динамически обрабатывать изображения на основе соотношения сторон ввода, тесно соответствуя человеческим восприятиям. Модель также включает в себя направленное на структуру и семантику руководство для облегчения эффективного слияния информации из входного изображения. Наши эксперименты показывают, что PixWizard не только обладает впечатляющими способностями к генерации и пониманию изображений с разным разрешением, но также обладает многообещающими способностями к обобщению с невидимыми задачами и инструкциями человека. Код и связанные ресурсы доступны по ссылке https://github.com/AFeng-x/PixWizard

5

Превосходя тонкую настройку: раскрывая потенциал непрерывного предварительного обучения для клинических LLMs.
Beyond Fine-tuning: Unleashing the Potential of Continuous Pretraining for Clinical LLMs

Sep 23
ByClément Christophe, Tathagata Raha, Svetlana Maslenkova, Muhammad Umar Salman, Praveen K Kanithi, Marco AF Pimentel, Shadab Khan
23
2

Большие языковые модели (LLM) продемонстрировали значительный потенциал в трансформации клинических приложений. В данном исследовании мы исследуем эффективность четырех техник адаптации LLM для клинических сценариев использования: непрерывное предварительное обучение, инструктивное донастройка, NEFTune и инженерия подсказок. Мы применяем эти методы к моделям Mistral 7B и Mixtral 8x7B, используя крупномасштабный набор данных для клинического предварительного обучения из 50 миллиардов токенов и набор данных для инструктивной донастройки из 500 миллионов токенов. Наша оценка по различным клиническим задачам показывает влияние каждой техники. В то время как непрерывное предварительное обучение за пределами 250 миллиардов токенов дает лишь незначительное улучшение само по себе, оно создает прочное основание для инструктивной донастройки. Заметно, что NEFTune, разработанный в первую очередь для улучшения качества генерации, удивительным образом демонстрирует дополнительные приросты на нашем бенчмарке. Сложные методы инженерии подсказок дополнительно улучшают производительность. Эти результаты показывают важность настройки стратегий донастройки и исследования инновационных методов для оптимизации производительности LLM в клинической области.

6

Отражение реальности: обеспечение моделей диффузии создания верных зеркальных отражений
Reflecting Reality: Enabling Diffusion Models to Produce Faithful Mirror Reflections

Sep 23
ByAnkit Dhiman, Manan Shah, Rishubh Parihar, Yash Bhalgat, Lokesh R Boregowda, R Venkatesh Babu
16
3

Мы решаем проблему генерации высокореалистичных и правдоподобных отражений в зеркале с использованием генеративных моделей на основе диффузии. Мы формулируем эту задачу как задачу заполнения изображения, что позволяет более точно контролировать размещение зеркал в процессе генерации. Для этого мы создаем SynMirror - крупномасштабный набор данных разнообразных синтетических сцен с объектами, размещенными перед зеркалами. SynMirror содержит около 198 тыс. образцов, отрендеренных из 66 тыс. уникальных 3D объектов, а также их соответствующие карты глубины, карты нормалей и маски сегментации по экземплярам для захвата соответствующих геометрических свойств сцены. Используя этот набор данных, мы предлагаем новый метод заполнения, зависящий от глубины, названный MirrorFusion, который генерирует высококачественные геометрически согласованные и фотореалистичные отражения в зеркале на основе входного изображения и маски, изображающей область зеркала. MirrorFusion превосходит существующие методы на SynMirror, что подтверждается обширным количественным и качественным анализом. На наш взгляд, мы первые успешно решаем сложную задачу генерации контролируемых и верных отражений объекта на сцене с использованием моделей на основе диффузии. SynMirror и MirrorFusion открывают новые возможности для редактирования изображений и приложений дополненной реальности как для практиков, так и для исследователей.

7

MaterialFusion: Улучшение обратного воспроизведения с диффузией материала. Приоритеты
MaterialFusion: Enhancing Inverse Rendering with Material Diffusion Priors

Sep 23
ByYehonathan Litman, Or Patashnik, Kangle Deng, Aviral Agrawal, Rushikesh Zawar, Fernando De la Torre, Shubham Tulsiani
13
2

Недавние работы в обратной графике показали перспективу использования многовидовых изображений объекта для восстановления формы, альбедо и материалов. Однако восстановленные компоненты часто недостоверно визуализируются под новыми условиями освещения из-за внутренней сложности разделения альбедо и свойств материалов из входных изображений. Для решения этой проблемы мы представляем MaterialFusion, улучшенный традиционный конвейер обратной графики в 3D, который включает 2D априорное знание текстуры и свойств материалов. Мы представляем StableMaterial, 2D модель диффузии, которая уточняет многократные данные освещения для оценки наиболее вероятного альбедо и материалов из имеющихся входных появлений. Эта модель обучена на данных альбедо, материалов и переосвещенных изображений, полученных из отобранного набора данных, состоящего приблизительно из ~12K синтетических объектов Blender, созданных художниками и названных BlenderVault. Мы интегрируем это диффузионное априорное знание с обратной графикой, где мы используем выборочное дистиллирование оценок (SDS) для направления оптимизации альбедо и материалов, улучшая производительность переосвещения по сравнению с предыдущими работами. Мы проверяем производительность переосвещения MaterialFusion на 4 наборах данных синтетических и реальных объектов под различными условиями освещения, показывая, что наш подход с диффузией значительно улучшает внешний вид восстановленных объектов под новыми условиями освещения. Мы намерены публично опубликовать наш набор данных BlenderVault для поддержки дальнейших исследований в этой области.

8

Стиль перед содержанием: режимы сбоев судей LLM в процессе выравнивания показателей.
Style over Substance: Failure Modes of LLM Judges in Alignment Benchmarking

Sep 23
ByBenjamin Feuer, Micah Goldblum, Teresa Datta, Sanjana Nambiar, Raz Besaleli, Samuel Dooley, Max Cembalest, John P. Dickerson
13
2

Выход ChatGPT в ноябре 2022 года вызвал взрыв интереса к посттренировке и лавину новых методов оптимизации предпочтений (PO). Эти методы утверждают, что обладают превосходным соответствием за счет лучшего соответствия человеческим попарным предпочтениям, часто измеряемым судьями LLM. В данной работе мы пытаемся ответить на следующий вопрос - переводятся ли предпочтения судей LLM на прогресс по другим, более конкретным метрикам для соответствия, и если нет, то почему? Мы определяем конкретную метрику для соответствия и представляем SOS-Bench, крупнейший стандартизированный, воспроизводимый мета-бенчмарк LLM на сегодняшний день. Мы обнаружили, что (1) суждения судей LLM не коррелируют с конкретными показателями безопасности, мирового знания и следования инструкциям; (2) судьи LLM имеют мощные неосознанные предвзятости, отдавая предпочтение стилю перед фактичностью и безопасностью; и (3) стадия надзорного дообучения (SFT) после посттренировки, а не стадия PO, оказывает наибольшее влияние на соответствие, причем масштабирование данных и разнообразие подсказок являются определяющими факторами. Наш код и полные результаты можно найти по ссылке https://github.com/penfever/sos-bench.

9

Нулевая кросс-язычная передача голоса для синтеза речи.
Zero-shot Cross-lingual Voice Transfer for TTS

Sep 20
ByFadi Biadsy, Youzheng Chen, Isaac Elias, Kyle Kastner, Gary Wang, Andrew Rosenberg, Bhuvana Ramabhadran
10
2

В данной статье мы представляем модуль нулевой передачи голоса (Voice Transfer, VT), который может быть легко интегрирован в многоязычную систему текст в речь (Text-to-speech, TTS) для передачи голоса человека на разных языках. Наш предложенный модуль VT включает в себя кодировщик-спикер, обрабатывающий эталонную речь, узкое место и резидуальные адаптеры, соединенные с существующими слоями TTS. Мы сравниваем производительность различных конфигураций этих компонентов и сообщаем о среднем балле мнения (Mean Opinion Score, MOS) и Сходстве Спикера на разных языках. Используя одну эталонную речь на английском языке на каждого спикера, мы достигаем среднего балла сходства голоса на уровне 73% на девять целевых языках. Вокальные характеристики значительно влияют на формирование и восприятие индивидуальной идентичности. Потеря голоса из-за физических или неврологических состояний может вызвать глубокое чувство утраты, влияя на основную идентичность человека. В качестве кейс-стади мы демонстрируем, что наш подход может не только передавать типичную речь, но также восстанавливать голоса людей с дисартрией, даже когда доступны только нетипичные образцы речи - ценное средство для тех, кто никогда не имел типичной речи или не записывал свой голос. Типичные аудиообразцы на разных языках, а также видео, демонстрирующие восстановление голоса для говорящих с дисартрией, доступны здесь (google.github.io/tacotron/publications/zero_shot_voice_transfer).

10

MaskedMimic: Объединенное физическое управление персонажем через маскирование заполнения движения.
MaskedMimic: Unified Physics-Based Character Control Through Masked Motion Inpainting

Sep 22
ByChen Tessler, Yunrong Guo, Ofir Nabati, Gal Chechik, Xue Bin Peng
9
2

Создание единого, универсального контроллера на основе физики, способного оживить интерактивных персонажей в широком спектре сценариев, представляет собой захватывающую границу в анимации персонажей. Идеальный контроллер должен поддерживать различные режимы управления, такие как разреженные ключевые кадры-цели, текстовые инструкции и информацию о сцене. В то время как предыдущие работы предлагали физически моделируемые контрольные модели, осведомленные о сцене, эти системы в основном сосредотачивались на разработке контроллеров, каждый из которых специализировался на узком наборе задач и режимов управления. В данной работе представлен MaskedMimic, новый подход, который формулирует управление персонажем на основе физики как общую задачу восстановления движения. Наш ключевой принцип заключается в обучении единой модели для синтеза движений из частичных (замаскированных) описаний движения, таких как замаскированные ключевые кадры, объекты, текстовые описания или любая их комбинация. Это достигается путем использования данных отслеживания движения и разработки масштабируемого метода обучения, который может эффективно использовать разнообразные описания движения для создания согласованных анимаций. Через этот процесс наш подход изучает контроллер на основе физики, который предоставляет интуитивный интерфейс управления без необходимости утомительной инженерии вознаграждения для всех интересующих поведенческих аспектов. Полученный контроллер поддерживает широкий спектр режимов управления и обеспечивает плавные переходы между различными задачами. Объединяя управление персонажем через восстановление движения, MaskedMimic создает универсальных виртуальных персонажей. Эти персонажи могут динамически адаптироваться к сложным сценам и создавать разнообразные движения по запросу, обеспечивая более интерактивные и захватывающие впечатления.

11

Адаптированная большая модель языка облегчает выполнение нескольких медицинских задач в уходе за диабетом.
An adapted large language model facilitates multiple medical tasks in diabetes care

Sep 20
ByLai Wei, Zhen Ying, Muyang He, Yutong Chen, Qian Yang, Yanzhe Hong, Jiaping Lu, Xiaoying Li, Weiran Huang, Ying Chen
8
2

Диабет - это хроническое заболевание, которое представляет собой значительную глобальную нагрузку на здоровье, и оптимизация управления диабетом требует сотрудничества между множеством заинтересованных сторон. Большие языковые модели (LLM) показали перспективы в различных сценариях здравоохранения, но их эффективность в различных задачах по диабету остается неподтвержденной. В данном исследовании мы представили фреймворк для обучения и валидации диабетоспецифических LLM. Сначала мы разработали комплексный конвейер обработки данных, включающий сбор, фильтрацию, аугментацию и усовершенствование данных. Этот подход способствует созданию высококачественного диабетоспецифического набора данных и нескольких оценочных бенчмарков с нуля. Используя собранный набор данных для обучения, мы провели донастройку семейства диабетоспецифических LLM, которые продемонстрировали передовую компетентность в понимании и обработке различных задач по диабету по сравнению с другими LLM. Более того, клинические исследования показали потенциальные применения наших моделей в уходе за диабетом, включая предоставление персонализированного здравоохранения, помощь в медицинском образовании и оптимизацию клинических задач. В заключение, наше исследование представило фреймворк для разработки и оценки семейства диабетоспецифических LLM и выделило их потенциал для улучшения клинической практики и предоставления персонализированной, данных-ориентированной поддержки при столкновении с различными конечными пользователями. Код предоставлен через GitHub по адресу https://github.com/waltonfuture/Diabetica.

12

Исследование случая кодирования веб-приложения с использованием моделей рассуждения OpenAI
A Case Study of Web App Coding with OpenAI Reasoning Models

Sep 19
ByYi Cui
6
2

Данный документ представляет собой кейс-исследование задач кодирования с использованием последних моделей рассуждения от OpenAI, а именно o1-preview и o1-mini, в сравнении с другими передовыми моделями. Модели o1 показывают результаты SOTA для WebApp1K, бенчмарка с одной задачей. Для этой цели мы представляем WebApp1K-Duo, более сложный бенчмарк, удваивающий количество задач и тестовых случаев. Новый бенчмарк приводит к значительному снижению производительности моделей o1, отставая от Claude 3.5. Более того, они последовательно терпят неудачу при столкновении с атипичными, но правильными тестовыми случаями, ловушку, из которой иногда избегают нерассуждающие модели. Мы предполагаем, что изменчивость производительности обусловлена пониманием инструкций. В частности, механизм рассуждения повышает производительность, когда все ожидания учтены, тогда как усугубляет ошибки, когда ключевые ожидания пропущены, возможно, под влиянием длины ввода. Таким образом, мы утверждаем, что успех моделей рассуждения в области кодирования зависит от первоклассной базовой модели и SFT для обеспечения тщательного следования инструкциям.

13

SpaceBlender: Создание контекстно насыщенных совместных пространств через генеративное смешивание трехмерных сцен.
SpaceBlender: Creating Context-Rich Collaborative Spaces Through Generative 3D Scene Blending

Sep 20
ByNels Numan, Shwetha Rajaram, Balasaravanan Thoravi Kumaravel, Nicolai Marquardt, Andrew D. Wilson
6
2

Возрос интерес к использованию генеративного искусственного интеллекта для создания трехмерных пространств для приложений виртуальной реальности (VR). Однако существующие модели создают искусственные окружения, не способные поддерживать совместные задачи, которые могли бы воспользоваться включением физического контекста пользователя. Для создания окружений, поддерживающих телеприсутствие в VR, мы представляем SpaceBlender - новый конвейер, использующий техники генеративного искусственного интеллекта для слияния физического окружения пользователей в единые виртуальные пространства. Этот конвейер преобразует предоставленные пользователями двумерные изображения в контекстно насыщенные трехмерные окружения через итеративный процесс, включающий оценку глубины, выравнивание мешей и завершение пространства на основе диффузии, управляемое геометрическими априорными данными и адаптивными текстовыми подсказками. В предварительном исследовании внутригруппового типа, в котором 20 участников выполняли совместную задачу по составлению диаграммы аффинности в VR в парах, мы сравнили SpaceBlender с общим виртуальным окружением и передовой системой генерации сцен, оценив его способность создавать виртуальные пространства, подходящие для совместной работы. Участники оценили улучшенную знакомую обстановку и контекст, предоставленные SpaceBlender, но также отметили сложности в генеративных окружениях, которые могли бы отвлечь от задачи. Основываясь на обратной связи участников, мы предлагаем направления для улучшения конвейера и обсуждаем ценность и дизайн смешанных пространств для различных сценариев.

14

Самонадзорная стилизация звукового пейзажа с использованием аудио- и видеоданных
Self-Supervised Audio-Visual Soundscape Stylization

Sep 22
ByTingle Li, Renhao Wang, Po-Yao Huang, Andrew Owens, Gopala Anumanchipalli
2
2

Звуковые сигналы несут огромное количество информации о сценах, что приводит к различным эффектам, начиная от эха до дополнительных фоновых звуков. В данной статье мы изменяем входной речевой сигнал так, чтобы он звучал так, будто был записан в другой сцене, учитывая аудиовизуальный условный пример, записанный из этой сцены. Наша модель обучается через самонадзор, используя тот факт, что естественное видео содержит повторяющиеся звуковые события и текстуры. Мы извлекаем аудиофрагмент из видео и применяем улучшение речи. Затем мы обучаем модель латентного диффузионного процесса для восстановления исходной речи, используя другой аудиовизуальный фрагмент, взятый из другого места в видео, в качестве условного намека. Через этот процесс модель учится передавать звуковые свойства условного примера к входному речевому сигналу. Мы показываем, что нашу модель можно успешно обучить, используя не помеченные видео "in-the-wild", и что дополнительный визуальный сигнал может улучшить ее способности предсказания звука. Пожалуйста, посетите нашу веб-страницу проекта для видео-результатов: https://tinglok.netlify.app/files/avsoundscape/

Sep 23
Sep 24
Sep 25