Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем подход к моделированию априорного распределения динамики сцены в пространстве изображений. Наше априорное распределение обучается на наборе траекторий движения, извлеченных из реальных видеопоследовательностей, содержащих естественные колебательные движения, такие как деревья, цветы, свечи и ткань, развевающаяся на ветру. Для заданного одиночного изображения наша обученная модель использует процесс диффузионной выборки с координацией по частотам для предсказания долгосрочного представления движения на уровне пикселей в частотной области, которое мы называем нейронной стохастической текстурой движения. Это представление может быть преобразовано в плотные траектории движения, охватывающие весь видеоряд. В сочетании с модулем рендеринга на основе изображений эти траектории могут быть использованы для ряда приложений, таких как преобразование статичных изображений в бесшовно зацикленные динамические видео или реалистичное взаимодействие пользователей с объектами на реальных фотографиях.
Последние достижения в области больших языковых моделей (LLM) позволяют исследователям и разработчикам создавать автономные языковые агенты, способные автоматически решать различные задачи и взаимодействовать с окружением, людьми и другими агентами с использованием естественно-языковых интерфейсов. Мы рассматриваем языковые агенты как перспективное направление в развитии искусственного общего интеллекта и представляем библиотеку Agents, открытый исходный код которой направлен на то, чтобы сделать эти достижения доступными для более широкой аудитории, не являющейся специалистами в данной области. Библиотека Agents тщательно разработана для поддержки ключевых функций, включая планирование, память, использование инструментов, взаимодействие между несколькими агентами и детализированный символьный контроль. Agents удобна в использовании, так как позволяет неспециалистам создавать, настраивать, тестировать, оптимизировать и развертывать современные автономные языковые агенты с минимальным объемом программирования. Библиотека также ориентирована на исследователей, поскольку её модульная архитектура делает её легко расширяемой. Agents доступна по адресу https://github.com/aiwaves-cn/agents.
Аудио супер-разрешение является фундаментальной задачей, которая предсказывает высокочастотные компоненты для низкокачественного аудио, улучшая качество звука в цифровых приложениях. Предыдущие методы имеют ограничения, такие как узкий спектр типов аудио (например, музыка, речь) и специфические настройки полосы пропускания, с которыми они могут работать (например, от 4 кГц до 8 кГц). В данной статье мы представляем генеративную модель на основе диффузии, AudioSR, которая способна выполнять устойчивое аудио супер-разрешение для различных типов аудио, включая звуковые эффекты, музыку и речь. В частности, AudioSR может повышать частоту дискретизации любого входного аудиосигнала в диапазоне полосы пропускания от 2 кГц до 16 кГц до высококачественного аудиосигнала с полосой пропускания 24 кГц и частотой дискретизации 48 кГц. Обширная объективная оценка на различных тестах аудио супер-разрешения демонстрирует высокие результаты, достигнутые предложенной моделью. Кроме того, наша субъективная оценка показывает, что AudioSR может использоваться как модуль plug-and-play для улучшения качества генерации широкого спектра аудио генеративных моделей, включая AudioLDM, Fastspeech2 и MusicGen. Наш код и демонстрация доступны по адресу https://audioldm.github.io/audiosr.
Анализ обширных текстовых данных и выделение ключевой информации создают значительную нагрузку на распределение времени клиницистов. Хотя крупные языковые модели (LLM) продемонстрировали огромный потенциал в задачах обработки естественного языка (NLP), их эффективность в различных задачах клинического суммирования еще не была тщательно изучена. В данной работе мы применяем методы адаптации к предметной области для восьми LLM, охватывая шесть наборов данных и четыре различные задачи суммирования: радиологические отчеты, вопросы пациентов, записи о ходе лечения и диалоги врача и пациента. Наш тщательный количественный анализ выявляет компромиссы между моделями и методами адаптации, а также случаи, когда последние достижения в области LLM могут не приводить к улучшению результатов. Кроме того, в клиническом исследовании с участием шести врачей мы показываем, что сводки, созданные наилучшим образом адаптированной LLM, предпочтительнее человеческих сводок с точки зрения полноты и точности. Последующий качественный анализ выявляет общие проблемы, с которыми сталкиваются как LLM, так и эксперты-люди. Наконец, мы соотносим традиционные количественные метрики NLP с оценками из исследования с участием врачей, чтобы углубить понимание того, как эти метрики соответствуют предпочтениям клиницистов. Наше исследование представляет первые доказательства того, что LLM превосходят экспертов-людей в суммировании клинических текстов в нескольких задачах. Это предполагает, что интеграция LLM в клинические процессы может снизить нагрузку на документацию, позволяя клиницистам больше сосредоточиться на персонализированном уходе за пациентами и других незаменимых аспектах медицины, требующих человеческого подхода.
Видеоматирование имеет широкий спектр применения: от добавления интересных эффектов к любительским видеозаписям до помощи профессионалам в производстве видео. Матирование с сопутствующими эффектами, такими как тени и отражения, также привлекает все больше исследовательского внимания, и такие методы, как Omnimatte, были предложены для выделения динамических объектов переднего плана в отдельные слои. Однако предыдущие работы представляют фон видео в виде 2D-слоев, что ограничивает их способность передавать более сложные сцены, тем самым затрудняя применение к реальным видеозаписям. В данной статье мы предлагаем новый метод видеоматирования, OmnimatteRF, который сочетает динамические 2D-слои переднего плана и 3D-модель фона. 2D-слои сохраняют детали объектов, в то время как 3D-фон надежно воссоздает сцены в реальных видеозаписях. Многочисленные эксперименты демонстрируют, что наш метод воссоздает сцены с более высоким качеством на различных видео.
Обучение в контексте (In-context learning, ICL), то есть предоставление крупным языковым моделям (LLM) лишь нескольких примеров, специфичных для задачи, привело к улучшению результатов без необходимости тонкой настройки под конкретную задачу. Однако LLM чувствительны к выбору промптов, и поэтому ключевым исследовательским вопросом является то, как выбирать хорошие примеры для ICL. Одной из эффективных стратегий является использование семантического сходства между примерами ICL и тестовыми входами с помощью текстового извлекателя, что, однако, не является оптимальным, так как не учитывает существующие знания LLM о задаче. Из предыдущих работ (Min et al., 2022) мы уже знаем, что метки, связанные с примерами, влияют на предсказания модели. Это приводит нас к гипотезе о том, что учет существующих знаний LLM о задаче, особенно в отношении пространства выходных меток, может помочь в разработке лучшей стратегии выбора примеров. В результате масштабных экспериментов на трех задачах классификации текста мы обнаруживаем, что полезно не только выбирать семантически похожие примеры ICL, но и те, которые помогают устранить неоднозначность меток, связанную с тестовым примером. Интересно, что включение примеров, которые LLM ранее неправильно классифицировала и которые находятся на границе принятия решений для тестового примера, приносит наибольший прирост производительности.
Крупные языковые модели (LLM) продемонстрировали впечатляющие результаты в задачах обработки естественного языка (NLP), таких как ответы на вопросы, суммаризация и классификация. Использование LLM в качестве оценщиков, способных ранжировать или оценивать выходные данные других моделей (обычно также LLM), становится всё более популярным из-за ограничений современных методов оценки, включая отсутствие подходящих бенчмарков, метрик, затрат и доступа к аннотаторам-людям. Хотя LLM способны обрабатывать около 100 языков, большинство языков за пределами топ-20 не имеют систематической оценки по различным задачам, метрикам и бенчмаркам. Это создаёт острую необходимость масштабирования многоязычной оценки для точного понимания производительности LLM на различных языках. Оценщики на основе LLM кажутся идеальным решением этой проблемы, так как они не требуют аннотаторов-людей, созданных человеком эталонов или бенчмарков и теоретически могут использоваться для оценки любого языка, поддерживаемого LLM. В данной статье мы исследуем, могут ли оценщики на основе LLM помочь масштабировать многоязычную оценку. В частности, мы калибруем оценку на основе LLM на основе 20 тысяч человеческих суждений по пяти метрикам в трёх задачах генерации текста на восьми языках. Наши результаты показывают, что оценщики на основе LLM могут проявлять склонность к завышению оценок, и их следует использовать с осторожностью, всегда калибруя на наборе данных с суждениями носителей языка, особенно в случае малоресурсных языков и языков с нелатинской письменностью.