Ежедневно отобранные исследовательские статьи по ИИ с переводами
Более глубокое понимание способностей крупных языковых моделей (LLM) к юридическому анализу может способствовать повышению эффективности юридических услуг, регулированию искусственного интеллекта и использованию LLM для выявления несоответствий в законодательстве. В данной статье исследуются возможности LLM в применении налогового права. Мы выбрали эту область права, поскольку она имеет структуру, позволяющую настраивать автоматизированные проверочные конвейеры на тысячах примеров, требует логического мышления и математических навыков, а также позволяет тестировать возможности LLM в контексте, актуальном для реальной экономической жизни граждан и компаний. Наши эксперименты демонстрируют развивающиеся способности к юридическому пониманию, с улучшением производительности в каждой последующей версии моделей OpenAI. Мы экспериментируем с извлечением и использованием соответствующей юридической базы для оценки влияния предоставления дополнительного юридического контекста LLM. Также обнаружено, что метод few-shot prompting, представляющий примеры пар "вопрос-ответ", значительно повышает производительность самой передовой модели, GPT-4. Результаты показывают, что LLM, особенно в сочетании с улучшенными методами prompting и правильными юридическими текстами, могут демонстрировать высокую точность, хотя пока и не достигают уровня экспертов-налоговых юристов. По мере дальнейшего развития LLM их способность к автономному анализу права может иметь значительные последствия для юридической профессии и регулирования ИИ.
Диффузионные модели продемонстрировали отличный потенциал для генерации разнообразных изображений. Однако их производительность часто страдает из-за медленной генерации, вызванной итеративным процессом удаления шума. В качестве решения недавно была предложена дистилляция знаний, которая позволяет сократить количество шагов вывода до одного или нескольких без значительного ухудшения качества. Однако существующие методы дистилляции либо требуют значительных вычислительных ресурсов для оффлайн-генерации синтетических обучающих данных с помощью модели-учителя, либо предполагают дорогостоящее онлайн-обучение с использованием реальных данных. В данной работе мы представляем новый метод под названием BOOT, который преодолевает эти ограничения с помощью эффективного алгоритма дистилляции без использования данных. Основная идея заключается в обучении модели, зависящей от времени, которая предсказывает выход предварительно обученной диффузионной модели-учителя для любого временного шага. Такая модель может быть эффективно обучена на основе бутстрэппинга из двух последовательно сэмплированных шагов. Более того, наш метод легко адаптируется к крупномасштабным диффузионным моделям для генерации изображений по тексту, что является сложной задачей для традиционных методов, учитывая, что обучающие наборы данных часто велики и труднодоступны. Мы демонстрируем эффективность нашего подхода на нескольких эталонных наборах данных в условиях DDIM, достигая сопоставимого качества генерации при значительно более высокой скорости по сравнению с диффузионной моделью-учителем. Результаты генерации изображений по тексту показывают, что предложенный метод способен работать с высоко сложными распределениями, открывая новые возможности для более эффективного генеративного моделирования.
Что составляет "атмосферу" конкретной сцены? Что должно быть на "оживленной, грязной городской улице", "в идиллической сельской местности" или "на месте преступления в заброшенной гостиной"? Перевод абстрактных описаний сцен в стилизованные элементы сцены не может быть выполнен с какой-либо универсальностью существующими системами, обученными на жестких и ограниченных наборах данных для помещений. В этой статье мы предлагаем использовать знания, захваченные базовыми моделями, для выполнения этой задачи. Мы представляем систему, которая может служить инструментом для генерации стилизованных ресурсов для 3D-сцен, описанных короткой фразой, без необходимости перечисления объектов, которые должны находиться в сцене, или указаний на их внешний вид. Кроме того, она устойчива к концепциям открытого мира, в отличие от традиционных методов, обученных на ограниченных данных, что предоставляет 3D-художникам больше творческой свободы. Наша система демонстрирует это, используя "команду" базовых моделей, состоящую из крупной языковой модели, модели взаимодействия языка и зрения и нескольких моделей диффузии изображений, которые взаимодействуют через интерпретируемое и редактируемое пользователем промежуточное представление, что позволяет создавать более универсальные и управляемые стилизованные ресурсы для 3D-художников. Мы вводим новые метрики для этой задачи и показываем с помощью человеческой оценки, что в 91% случаев выходные данные нашей системы считаются более соответствующими семантике входного описания сцены, чем базовые результаты, что подчеркивает потенциал этого подхода для радикального ускорения процесса создания 3D-контента для 3D-художников.
Генеративные системы искусственного интеллекта, охватывающие различные модальности, такие как текст, изображения, аудио и видео, оказывают широкое социальное воздействие, однако официального стандарта для оценки этих воздействий и того, какие именно воздействия следует оценивать, не существует. Мы предлагаем подход к стандартизации оценки генеративных систем ИИ для любой модальности, выделяя две основные категории: что можно оценить в базовой системе, не имеющей заранее определенного применения, и что можно оценить в обществе. Мы описываем конкретные категории социального воздействия и подходы к проведению оценок как в базовой технической системе, так и в контексте людей и общества. Наша структура для базовой системы определяет семь категорий социального воздействия: предвзятость, стереотипы и репрезентационный вред; культурные ценности и чувствительный контент; неравномерная производительность; конфиденциальность и защита данных; финансовые затраты; экологические затраты; а также затраты на модерацию данных и контента. Предложенные методы оценки применимы ко всем модальностям, а анализ ограничений существующих оценок служит отправной точкой для необходимых инвестиций в будущие исследования. Мы предлагаем пять основных категорий для оценки в обществе, каждая из которых включает свои подкатегории: доверие и автономия; неравенство, маргинализация и насилие; концентрация власти; труд и творчество; а также экосистема и окружающая среда. Каждая подкатегория содержит рекомендации по смягчению вреда. Параллельно мы создаем репозиторий оценок для сообщества исследователей ИИ, чтобы они могли вносить существующие оценки по указанным категориям. Эта версия будет обновлена после сессии CRAFT на конференции ACM FAccT 2023.
Цель данной работы — разработка модели для задачи обнаружения объектов с открытым словарем (Open-Vocabulary Object Detection, OVOD), которая способна обнаруживать объекты за пределами набора категорий, представленных на этапе обучения, что позволяет пользователю указывать интересующие категории на этапе вывода без необходимости переобучения модели. Мы используем стандартную архитектуру двухэтапного детектора объектов и исследуем три способа задания новых категорий: с помощью текстовых описаний, с помощью примеров изображений или с использованием комбинации этих двух подходов. Мы вносим три основных вклада: во-первых, мы используем большую языковую модель (LLM) для генерации информативных текстовых описаний классов объектов и создаем мощные текстовые классификаторы; во-вторых, применяем визуальный агрегатор для примеров изображений, который может обрабатывать любое количество изображений на входе, формируя визуальные классификаторы; и в-третьих, предлагаем простой метод для объединения информации из текстовых описаний и примеров изображений, что позволяет создать мультимодальный классификатор. При оценке на сложном бенчмарке LVIS для задачи обнаружения объектов с открытым словарем мы демонстрируем, что: (i) наши текстовые классификаторы превосходят все предыдущие работы в области OVOD; (ii) наши визуальные классификаторы показывают результаты, сопоставимые с текстовыми классификаторами в предыдущих работах; (iii) использование мультимодальных классификаторов дает лучшие результаты, чем использование каждого из подходов по отдельности; и, наконец, (iv) наши текстовые и мультимодальные классификаторы демонстрируют более высокую производительность, чем полностью обученный детектор.
Типичные операции редактирования, выполняемые профессиональными фотографами, включают в себя очистку изображения: уменьшение значимости отвлекающих элементов и усиление объектов. Эти правки являются сложными, так как требуют тонкого баланса между управлением вниманием зрителя и сохранением реалистичности фотографии. Хотя современные подходы могут демонстрировать успешные примеры ослабления или усиления внимания, большинство из них также страдает от частых нереалистичных изменений. Мы предлагаем функцию потерь для реалистичности в задачах улучшения изображений, управляемого картой значимости, чтобы сохранить высокую реалистичность для различных типов изображений, одновременно ослабляя отвлекающие элементы и усиливая объекты интереса. Оценки, проведенные с участием профессиональных фотографов, подтверждают, что мы достигаем двойной цели — реалистичности и эффективности, превосходя современные подходы на их собственных наборах данных, при этом требуя меньшего объема памяти и времени выполнения. Таким образом, мы предлагаем жизнеспособное решение для автоматизации улучшения изображений и операций по очистке фотографий.
Нейронные поля излучения (NeRF) демонстрируют впечатляющие результаты в синтезе новых видов; тем не менее, даже тщательные записи приводят к несовершенствам в реконструкциях, например, из-за плохо наблюдаемых областей или незначительных изменений освещения. Наша цель — смягчить эти несовершенства из различных источников с помощью совместного решения: мы используем способность генеративно-состязательных сетей (GAN) создавать реалистичные изображения и применяем их для повышения реализма в 3D-реконструкции с использованием NeRF. Для этого мы изучаем распределение патчей сцены с помощью состязательного дискриминатора, который предоставляет обратную связь для реконструкции поля излучения, тем самым улучшая реализм в 3D-согласованном стиле. Таким образом, артефакты рендеринга устраняются непосредственно в базовом 3D-представлении за счет наложения ограничений на рендеринг с учетом многовидовых путей. Кроме того, мы используем генератор, управляемый многомасштабными рендерингами NeRF, который обучается состязательно для дальнейшего повышения качества рендеринга. Мы показываем, что наш подход значительно улучшает качество рендеринга, например, почти вдвое снижает показатели LPIPS по сравнению с Nerfacto, одновременно улучшая PSNR на 1,4 дБ на сложных внутренних сценах из набора Tanks and Temples.