Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем новый бенчмарк для оценки возможностей ролевого моделирования языковых моделей. Наш подход использует сами языковые модели для эмуляции пользователей в динамичных многоходовых разговорах и оценки полученных диалогов. Фреймворк состоит из трех основных компонентов: модели игрока, предполагающей определенную роль персонажа, модели допрашивающего, имитирующей поведение пользователя, и модели судьи, оценивающей качество беседы. Мы провели эксперименты, сравнивая автоматизированные оценки с аннотациями людей, чтобы подтвердить наш подход, продемонстрировав сильные корреляции по нескольким критериям. Эта работа предоставляет основу для надежной и динамичной оценки возможностей модели в интерактивных сценариях.
Быстрое развитие крупных языковых моделей (LLM) для медицинских приложений вызвало призывы к комплексной оценке за пределами часто упоминаемых бенчмарков, таких как USMLE, чтобы лучше отражать реальную производительность. Хотя оценки в реальных условиях являются ценными показателями полезности, они часто отстают от темпа эволюции LLM, что, вероятно, делает полученные результаты устаревшими при внедрении. Этот временной разрыв требует комплексной начальной оценки, которая может направить выбор модели для конкретных клинических приложений. Мы представляем MEDIC, фреймворк оценки LLM по пяти критическим измерениям клинической компетентности: медицинское мышление, этика и предвзятость, понимание данных и языка, обучение в контексте и клиническая безопасность. MEDIC включает в себя новый фреймворк перекрестного анализа, количественно оценивающий производительность LLM по таким областям, как охват и обнаружение галлюцинаций, без необходимости ссылочных выходных данных. Мы применяем MEDIC для оценки LLM в медицинском вопросно-ответном диалоге, безопасности, суммировании, генерации заметок и других задачах. Наши результаты показывают различия в производительности в зависимости от размера модели, базовых моделей по сравнению с медицински настроенными моделями, и имеют влияние на выбор модели для приложений, требующих конкретных сильных сторон модели, таких как низкая галлюцинация или более низкая стоимость вывода. Многофакторная оценка MEDIC раскрывает эти компромиссы в производительности, сокращая разрыв между теоретическими возможностями и практической реализацией в медицинских учреждениях, обеспечивая выявление наиболее перспективных моделей и их адаптацию для различных медицинских приложений.
Несмотря на потенциал агентов на основе языковых моделей для решения задач реального мира, таких как навигация в Интернете, текущие методы все еще испытывают трудности с задачами длительного горизонта с комплексными траекториями действий. В отличие от этого, люди могут гибко решать сложные задачи, изучая повторно используемые рабочие процессы из прошлого опыта и используя их для направления будущих действий. Для создания агентов, которые могут аналогичным образом извлекать пользу из этого процесса, мы представляем Агентскую Память Рабочего Процесса (AWM), метод для индукции часто повторяемых рабочих процессов, т.е. рабочих процессов, и выборочного предоставления их агенту для направления последующих поколений. AWM гибко применяется как в офлайн, так и в онлайн сценариях, где агенты индуцируют рабочие процессы заранее из обучающих примеров или на лету из тестовых запросов. Мы проводим эксперименты на двух крупных бенчмарках навигации по веб-сайтам - Mind2Web и WebArena - которые в совокупности охватывают 1000+ задач из 200+ доменов в областях путешествий, покупок и социальных медиа, среди прочих. AWM значительно улучшает базовые результаты на 24.6% и 51.1% относительного уровня успешности на Mind2Web и WebArena, сокращая количество шагов, необходимых для успешного решения задач WebArena. Более того, онлайн AWM устойчиво обобщается в кросс-задачевых, веб-сайтовых и доменных оценках, превосходя базовые показатели на 8.9 до 14.0 абсолютных пунктов по мере расширения разрывов в распределении задач обучения и тестирования.
Несмотря на значительный прогресс в генерации изображений в 3D, существующие методы все еще испытывают трудности в создании многопроекционных изображений с высокоразрешенными текстурами в деталях, особенно в парадигме 2D-диффузии, которой не хватает осознания 3D. В данной работе мы представляем модель High-resolution Image-to-3D (Hi3D), новую парадигму на основе видео-диффузии, которая переопределяет одно изображение в многопроекционные изображения как генерацию последовательных изображений, осознающих 3D (т.е. генерацию видео орбитального движения). Этот метод углубляется в основные знания о временной согласованности в модели видео-диффузии, которая обобщается на геометрическую согласованность по нескольким видам в генерации 3D. Технически Hi3D сначала усиливает предварительно обученную модель видео-диффузии с осознанием 3D-приора (условие позы камеры), что приводит к многопроекционным изображениям с деталями текстур низкого разрешения. Обучается 3D-осознающий улучшитель видео-видео для дальнейшего увеличения многопроекционных изображений с деталями текстур высокого разрешения. Такие многопроекционные изображения высокого разрешения дополняются новыми видами через 3D-гауссово сплетение, которые в конечном итоге используются для получения сеток высокой точности через 3D-реконструкцию. Обширные эксперименты как по синтезу новых видов, так и по восстановлению одного вида демонстрируют, что наш Hi3D способен создавать превосходные многопроекционные изображения с высокодетализированными текстурами. Исходный код и данные доступны по адресу https://github.com/yanghb22-fdu/Hi3D-Official.
Линейные трансформеры внимания и их варианты с воротными элементами, известные своей способностью к параллельному обучению и эффективному рекуррентному выводу, все еще уступают в задачах, требующих высокой памяти, по сравнению с традиционными трансформерами и требуют значительных ресурсов для обучения с нуля. В данной статье представлено Воротное Слотовое Внимание (GSA), которое улучшает внимание с Ограниченным-память-Контролем (ABC), интегрируя механизм ворот, вдохновленный Воротным Линейным Вниманием (GLA). По сути, GSA состоит из двухслойного GLA, связанных через софтмакс, используя контекстно-осознанное чтение памяти и адаптивное забывание для увеличения объема памяти, сохраняя компактный размер рекуррентного состояния. Этот дизайн значительно улучшает как эффективность обучения, так и вывода благодаря аппаратно-эффективному алгоритму обучения GLA и уменьшенному размеру состояния. Кроме того, сохранение операции софтмакс особенно полезно в сценариях "донастройки предварительно обученных трансформеров к RNN" (T2R), уменьшая необходимость в обширном обучении с нуля. Обширные эксперименты подтверждают превосходное качество работы GSA в сценариях, требующих воспоминания в контексте, а также в настройках T2R.
Промптинг "Цепочка Мыслей" (CoT) показывает, что большие языковые модели способны выполнять сложное рассуждение через промежуточные шаги. Промптинг CoT в основном разделяется на три подхода. Первый подход использует простые подсказки, такие как "Давайте думать пошагово", чтобы сгенерировать последовательный процесс мышления перед получением ответа. Второй подход использует созданные человеком, пошаговые демонстрации для направления процесса рассуждения модели. Третий автоматизирует генерацию обоснованных демонстраций с помощью "Давайте думать пошагово". Этот подход иногда приводит к ошибкам в рассуждениях, подчеркивая необходимость разнообразных демонстраций для смягчения его вводящего в заблуждение воздействия. Однако разнообразные демонстрации представляют вызовы для эффективного представления. В данной работе мы предлагаем ECHO, метод самоуравновешивающегося промптинга "Цепочка Мыслей". Он объединяет разнообразные пути решения в единый и эффективный шаблон решения. ECHO демонстрирует лучшую общую производительность в трех областях рассуждения.
gsplat - это библиотека с открытым исходным кодом, разработанная для обучения и разработки методов гауссовского сглаживания. Она включает в себя фронтенд с привязками к Python, совместимыми с библиотекой PyTorch, и бэкенд с высокооптимизированными ядрами CUDA. gsplat предлагает множество функций, которые улучшают оптимизацию моделей гауссовского сглаживания, включая улучшения оптимизации для скорости, памяти и времени сходимости. Экспериментальные результаты показывают, что gsplat достигает до 10% меньшего времени обучения и в 4 раза меньшего использования памяти по сравнению с оригинальной реализацией. Используется в нескольких исследовательских проектах, gsplat активно поддерживается на GitHub. Исходный код доступен по адресу https://github.com/nerfstudio-project/gsplat под лицензией Apache 2.0. Мы приветствуем вклады от сообщества с открытым исходным кодом.
"Идея представляет собой не что иное, как новое сочетание старых элементов" (Young, J.W.). Широкое распространение Больших Языковых Моделей (LLM) и общедоступного ChatGPT отметило значительный поворот в интеграции Искусственного Интеллекта (ИИ) в повседневную жизнь людей. В данном исследовании исследуется способность LLM в генерации новых исследовательских идей на основе информации из научных статей. Мы провели тщательное исследование 4 LLM в пяти областях (например, Химия, Компьютер, Экономика, Медицина и Физика). Мы обнаружили, что будущие исследовательские идеи, сгенерированные Claude-2 и GPT-4, более соответствуют точке зрения автора, чем у GPT-3.5 и Gemini. Мы также обнаружили, что Claude-2 генерирует более разнообразные будущие исследовательские идеи, чем GPT-4, GPT-3.5 и Gemini 1.0. Далее мы провели оценку человеком новизны, актуальности и осуществимости сгенерированных будущих исследовательских идей. Это исследование предлагает понимание развивающейся роли LLM в генерации идей, выделяя как его способности, так и ограничения. Наша работа вносит вклад в текущие усилия по оценке и использованию языковых моделей для генерации будущих исследовательских идей. Мы делаем наши наборы данных и коды общедоступными.
Мы предлагаем GauFace, новое представление Гауссовского сплетения, разработанное для эффективной анимации и рендеринга физически основанных лицевых ресурсов. Используя сильные геометрические априорные данные и ограниченную оптимизацию, GauFace обеспечивает аккуратное и структурированное гауссовское представление, обеспечивая высокую достоверность и интерактивность лица в реальном времени со скоростью 30 кадров в секунду при разрешении 1440p на мобильной платформе Snapdragon 8 Gen 2. Затем мы представляем TransGS, диффузионный трансформер, который мгновенно преобразует физически основанные лицевые ресурсы в соответствующие представления GauFace. В частности, мы используем конвейер на основе патчей для эффективной обработки огромного количества гауссиан. Мы также представляем новую схему выборки, выровненную по пикселям, с UV-кодированием позиции, чтобы обеспечить пропускную способность и качество рендеринга ресурсов GauFace, созданных нашим TransGS. После обучения TransGS может мгновенно преобразовывать лицевые ресурсы с условиями освещения в представление GauFace. С обширными модальностями условий, он также обеспечивает возможности редактирования и анимации, напоминающие традиционные конвейеры CG. Мы проводим обширные оценки и пользовательские исследования, сравнивая с традиционными офлайн и онлайн рендерерами, а также с недавними методами нейронного рендеринга, которые демонстрируют превосходную производительность нашего подхода к рендерингу лицевых ресурсов. Мы также демонстрируем разнообразные иммерсивные приложения лицевых ресурсов с использованием нашего подхода TransGS и представления GauFace на различных платформах, таких как ПК, телефоны и даже VR-очки.
Мы представляем фреймворк для обучения генерации фоновой музыки из видео. В отличие от существующих работ, основанных на символьных музыкальных аннотациях, которые ограничены по количеству и разнообразию, наш метод использует масштабные видеоролики с фоновой музыкой. Это позволяет нашей модели научиться генерировать реалистичную и разнообразную музыку. Для достижения этой цели мы разработали генеративный видео-музыкальный трансформер с новой схемой семантического выравнивания видео и музыки. Наша модель использует совместный авторегрессионный и контрастивный метод обучения, который способствует генерации музыки, соответствующей высокоуровневому содержанию видео. Мы также представляем новую схему выравнивания видео и ритма для сопоставления сгенерированных музыкальных ритмов с низкоуровневыми движениями на видео. Наконец, чтобы уловить мелкие визуальные подсказки в видео, необходимые для реалистичной генерации фоновой музыки, мы представляем новую архитектуру временного видео-кодера, позволяющую эффективно обрабатывать видеоролики, состоящие из множества плотно выбранных кадров. Мы обучаем наш фреймворк на нашем новом наборе данных DISCO-MV, состоящем из 2,2 млн видео-музыкальных образцов, который в разы превосходит по размеру любые предыдущие наборы данных, использованные для генерации видео-музыки. Наш метод превосходит существующие подходы на наборах данных DISCO-MV и MusicCaps согласно различным метрикам оценки генерации музыки, включая оценку человека. Результаты доступны по ссылке https://genjib.github.io/project_page/VMAs/index.html
Последние годы стали свидетелями всплеска развития моделей белковых основ, значительно улучшающих производительность в предсказании белков и генеративных задачах, включая предсказание 3D-структуры и дизайн белков, а также конформационную динамику. Однако возможности и ограничения, связанные с этими моделями, остаются плохо понятыми из-за отсутствия единой системы оценки. Для заполнения этой пробела мы представляем ProteinBench, голистическую систему оценки, разработанную для повышения прозрачности моделей белковых основ. Наш подход состоит из трех ключевых компонентов: (i) Таксономическая классификация задач, широко охватывающих основные вызовы в области белков, основанная на взаимосвязях между различными модальностями белков; (ii) Мульти-метрический подход к оценке производительности по четырем ключевым измерениям: качеству, новизне, разнообразию и устойчивости; и (iii) Глубокий анализ с различных пользовательских целей, обеспечивающий голистическое представление о производительности модели. Наше всестороннее исследование моделей белковых основ раскрывает несколько ключевых результатов, проливающих свет на их текущие возможности и ограничения. Для содействия прозрачности и стимулирования дальнейших исследований мы публикуем набор данных для оценки, код и общедоступную таблицу лидеров для дальнейшего анализа и общего модульного инструментария. Мы надеемся, что ProteinBench станет живым эталоном для установления стандартизированной, всесторонней системы оценки моделей белковых основ, способствуя их развитию и применению, а также содействуя сотрудничеству в данной области.
Учитывая, что большие языковые модели (LLM) значительно продвинулись в написании кода, могут ли они теперь использоваться для автономного воспроизведения результатов из репозиториев исследований? Такая возможность была бы огромным преимуществом для научного сообщества, помогая исследователям проверять, понимать и расширять предыдущие работы. Для продвижения к этой цели мы представляем SUPER, первый бенчмарк, разработанный для оценки способности LLM в настройке и выполнении задач из репозиториев исследований. SUPER нацелен на воссоздание реалистичных вызовов, с которыми сталкиваются исследователи, работающие с репозиториями исследований по машинному обучению (ML) и обработке естественного языка (NLP). Наш бенчмарк включает три отдельных набора задач: 45 комплексных задач с аннотированными экспертными решениями, 152 подзадачи, вытекающие из экспертного набора и фокусирующиеся на конкретных вызовах (например, настройка тренера), и 602 автоматически сгенерированные задачи для разработки большего масштаба. Мы представляем различные меры оценки для оценки как успешности выполнения задач, так и прогресса, используя золотые решения, если они доступны, или приближения в противном случае. Мы показываем, что современные подходы борются с решением этих задач, лучшая модель (GPT-4o) решает только 16,3% комплексного набора и 46,1% сценариев. Это иллюстрирует сложность этой задачи и предполагает, что SUPER может служить ценным ресурсом для сообщества для создания и измерения прогресса.
Этот документ представляет MVLLaVA, интеллектуального агента, разработанного для задач синтеза нового вида. MVLLaVA интегрирует несколько моделей диффузии многократного просмотра с большой мультимодальной моделью LLaVA, что позволяет ему эффективно решать широкий спектр задач. MVLLaVA представляет собой универсальную и объединенную платформу, которая адаптируется к различным типам ввода, включая одно изображение, описательный заголовок или конкретное изменение угла обзора, управляемое языковыми инструкциями для генерации точки зрения. Мы тщательно разрабатываем шаблоны инструкций, специфичные для задачи, которые затем используются для настройки LLaVA. В результате MVLLaVA приобретает способность генерировать изображения нового вида на основе инструкций пользователя, демонстрируя свою гибкость в различных задачах. Проводятся эксперименты для проверки эффективности MVLLaVA, демонстрируя его надежное исполнение и универсальность в решении разнообразных задач синтеза нового вида.
Генеративные модели, обученные в масштабе, теперь могут создавать текст, видео и, что более актуально, научные данные, такие как кристаллические структуры. В применениях генеративных подходов в материаловедении, и особенно в отношении кристаллических структур, руководство от предметного эксперта в виде высокоуровневых инструкций может быть существенным для автоматизированной системы в выводе кандидатов кристаллов, пригодных для последующих исследований. В данной работе мы формулируем генерацию структуры из языка как задачу многокритериальной оптимизации и предлагаем Генеративный Иерархический Поиск Материалов (GenMS) для управляемой генерации кристаллических структур. GenMS состоит из (1) языковой модели, которая принимает высокоуровневый естественный язык на входе и генерирует промежуточную текстовую информацию о кристалле (например, химические формулы), и (2) модели диффузии, которая принимает промежуточную информацию на входе и генерирует кристаллические структуры с непрерывными значениями на низком уровне. Кроме того, GenMS использует графовую нейронную сеть для прогнозирования свойств (например, энергии образования) из сгенерированных кристаллических структур. Во время вывода GenMS использует все три компонента для проведения прямого деревянного поиска по пространству возможных структур. Эксперименты показывают, что GenMS превосходит другие альтернативы прямого использования языковых моделей для генерации структур как в удовлетворении запросов пользователя, так и в генерации структур с низкой энергией. Мы подтверждаем, что GenMS способен генерировать общие кристаллические структуры, такие как двойные перовскиты или спинели, исключительно на основе естественного языка, и, следовательно, может стать основой для более сложной генерации структур в ближайшем будущем.