Ежедневно отобранные исследовательские статьи по ИИ с переводами
Современные системы рекомендаций используют модели крупномасштабного поиска, состоящие из двух этапов: обучение модели с двойным кодированием для встраивания запросов и кандидатов в одно и то же пространство, за которым следует поиск приближенных ближайших соседей (Approximate Nearest Neighbor, ANN) для выбора лучших кандидатов на основе встраивания запроса. В данной статье мы предлагаем новую одноэтапную парадигму: генеративную модель поиска, которая авторегрессивно декодирует идентификаторы целевых кандидатов в одной фазе. Для этого вместо присвоения случайно сгенерированных атомарных идентификаторов каждому элементу мы создаем семантические идентификаторы (Semantic IDs): семантически значимый кортеж кодовых слов для каждого элемента, который служит его уникальным идентификатором. Мы используем иерархический метод под названием RQ-VAE для генерации этих кодовых слов. После получения семантических идентификаторов для всех элементов обучается модель последовательностей на основе Transformer, которая предсказывает семантический идентификатор следующего элемента. Поскольку эта модель предсказывает кортеж кодовых слов, идентифицирующих следующий элемент, непосредственно авторегрессивным способом, она может рассматриваться как генеративная модель поиска. Мы показываем, что наша система рекомендаций, обученная в этой новой парадигме, улучшает результаты, достигнутые современными моделями SOTA на наборе данных Amazon. Кроме того, мы демонстрируем, что модель последовательностей в сочетании с иерархическими семантическими идентификаторами обеспечивает лучшее обобщение и, следовательно, улучшает поиск элементов с холодным стартом для рекомендаций.
Глубокие нейронные сети продемонстрировали выдающиеся результаты в задачах обучения с учителем, однако требуют больших объемов размеченных данных. Самообучение предлагает альтернативную парадигму, позволяя модели обучаться на данных без явных меток. Теория информации сыграла ключевую роль в понимании и оптимизации глубоких нейронных сетей. В частности, принцип информационного узкого места применялся для оптимизации компромисса между сжатием и сохранением релевантной информации в задачах с учителем. Однако оптимальная информационная цель в самообучении остается неясной. В данной статье мы рассматриваем различные подходы к самообучению с точки зрения теории информации и представляем унифицированную структуру, формализующую задачу самообучения в информационно-теоретическом контексте. Мы интегрируем существующие исследования в единую структуру, анализируем современные методы самообучения и выделяем перспективные направления и вызовы. Кроме того, мы обсуждаем эмпирическое измерение информационно-теоретических величин и их оценок. Эта статья представляет собой всесторонний обзор на стыке теории информации, самообучения и глубоких нейронных сетей.
Последние крупные языковые модели, такие как ChatGPT и GPT-4, привлекли значительное внимание благодаря своей способности генерировать высококачественные ответы на запросы пользователей. Несмотря на обширное тестирование ChatGPT и GPT-4 на общих текстовых корпусах, демонстрирующее их впечатляющие возможности, исследования, сосредоточенные на финансовых корпусах, до сих пор не проводились. В данной работе мы стремимся восполнить этот пробел, изучив потенциал ChatGPT и GPT-4 в качестве решателя типичных задач анализа финансовых текстов в условиях zero-shot или few-shot обучения. В частности, мы оцениваем их возможности на четырех репрезентативных задачах, используя пять различных наборов финансовых текстовых данных. Предварительное исследование показывает, что ChatGPT и GPT-4 испытывают трудности в задачах, таких как распознавание именованных сущностей (NER) в финансовой области и анализ тональности, где требуется специализированное знание предметной области, в то время как они демонстрируют высокие результаты в задачах численного рассуждения. Мы описываем как сильные стороны, так и ограничения текущих версий ChatGPT и GPT-4, сравнивая их с современными тонко настроенными моделями, а также с предобученными генеративными моделями, специализированными для конкретной области. Наши эксперименты включают качественные исследования, которые, как мы надеемся, помогут лучше понять возможности существующих моделей и способствовать их дальнейшему улучшению.
В ряде недавних исследований было показано, что объектно-ориентированные архитектуры подходят для неконтролируемого разложения сцен в области компьютерного зрения. Вдохновленные этими методами, мы представляем AudioSlots — слот-ориентированную генеративную модель для слепого разделения источников в аудиодомене. AudioSlots построена с использованием перестановочно-инвариантных сетей кодировщика и декодировщика. Сеть кодировщика, основанная на архитектуре Transformer, обучается отображать смешанный спектрограмм аудио в неупорядоченный набор независимых эмбеддингов источников. Сеть декодировщика с пространственным вещанием обучается генерировать спектрограммы источников из этих эмбеддингов. Мы обучаем модель сквозным образом, используя перестановочно-инвариантную функцию потерь. Наши результаты на задаче разделения речи Libri2Mix демонстрируют, что данный подход перспективен. Мы подробно обсуждаем результаты и ограничения нашего подхода, а также намечаем потенциальные пути преодоления этих ограничений и направления для будущих исследований.
После впечатляющего успеха диффузионных моделей в генерации изображений, недавние работы также продемонстрировали их впечатляющую способность решать ряд обратных задач в неконтролируемом режиме, путем надлежащего ограничения процесса выборки на основе входных данных с условием. Вдохновленные этим, в данной статье мы представляем первый подход к использованию диффузионных моделей в качестве априорного распределения для высокоточного восстановления BRDF 3D-лица из одного изображения. Мы начинаем с использования высококачественного UV-набора данных лицевого отражения (диффузного и зеркального альбедо и нормалей), который мы визуализируем при различных условиях освещения для моделирования естественных RGB-текстур, а затем обучаем безусловную диффузионную модель на объединенных парах визуализированных текстур и компонент отражения. На этапе тестирования мы подгоняем 3D-морфологическую модель к заданному изображению и разворачиваем лицо в частичную UV-текстуру. Путем выборки из диффузионной модели, сохраняя наблюдаемую часть текстуры неизменной, модель восстанавливает не только самозатененные области, но и неизвестные компоненты отражения в одной последовательности шагов удаления шума. В отличие от существующих методов, мы непосредственно получаем наблюдаемую текстуру из входного изображения, что приводит к более точной и согласованной оценке отражения. В ходе серии качественных и количественных сравнений мы демонстрируем превосходную производительность как в задачах завершения текстуры, так и в восстановлении отражения.
Распространение видеоконтента требует эффективных и гибких подходов на основе нейронных сетей для генерации нового видеоматериала. В данной статье мы предлагаем новый метод, который сочетает генерацию видео из текста в режиме zero-shot с использованием ControlNet для улучшения результатов работы таких моделей. Наш метод принимает на вход несколько набросков кадров и генерирует видеоряд, соответствующий их последовательности, основываясь на архитектуре Text-to-Video Zero и интегрируя ControlNet для обеспечения дополнительных входных условий. Сначала мы интерполируем кадры между предоставленными набросками, а затем применяем Text-to-Video Zero, используя новый интерполированный видеоряд в качестве управляющей техники. Это позволяет нам использовать преимущества как генерации видео из текста в режиме zero-shot, так и надежного управления, предоставляемого ControlNet. Эксперименты показывают, что наш метод превосходно справляется с созданием высококачественного и исключительно согласованного видеоконтента, который более точно соответствует задуманному пользователем движению объекта в видео. Мы предоставляем комплексный пакет ресурсов, включая демонстрационное видео, сайт проекта, открытый репозиторий на GitHub и интерактивную среду Colab, чтобы способствовать дальнейшим исследованиям и применению нашего предложенного метода.
Для эффективной персонализации физической помощи робот должен изучить предпочтения пользователя, которые могут быть в целом применены к будущим сценариям. В данной работе мы исследуем персонализацию уборки в доме с помощью роботов, которые могут приводить комнаты в порядок, подбирая предметы и убирая их на место. Ключевая задача заключается в определении правильного места для каждого объекта, поскольку предпочтения людей могут значительно варьироваться в зависимости от личных вкусов или культурных особенностей. Например, один человек может предпочитать хранить рубашки в ящике, а другой — на полке. Мы стремимся создать системы, способные изучить такие предпочтения всего по нескольким примерам на основе предыдущих взаимодействий с конкретным человеком. Мы показываем, что роботы могут комбинировать планирование и восприятие на основе языка с возможностями крупных языковых моделей (LLMs) для обобщения предпочтений пользователя, которые широко применимы к будущим взаимодействиям. Этот подход обеспечивает быстрое адаптирование и достигает точности 91,2% на неизвестных объектах в нашем тестовом наборе данных. Мы также демонстрируем наш подход на реальном мобильном манипуляторе под названием TidyBot, который успешно убирает 85,0% объектов в реальных тестовых сценариях.
В последние годы крупные предобученные языковые модели (LLM) продемонстрировали способность следовать инструкциям и выполнять новые задачи на основе нескольких примеров. Возможность параметризации LLM с помощью таких контекстных примеров расширяет их функциональность с гораздо меньшими затратами, чем тонкая настройка. Мы развиваем эту идею и представляем метод, который дополнительно расширяет возможности LLM, интегрируя её в алгоритм или программу. Чтобы продемонстрировать преимущества этого подхода, мы приводим иллюстративный пример ответов на вопросы с опорой на доказательства. Мы достигаем улучшения на 6,4% по сравнению с базовым методом цепочки рассуждений благодаря более алгоритмическому подходу без какой-либо тонкой настройки. Кроме того, мы рассматриваем недавние исследования с этой точки зрения и обсуждаем преимущества и недостатки в сравнении со стандартными подходами.
Оптимизация и визуализация полей нейронного излучения (NeRF) требует значительных вычислительных ресурсов из-за огромного количества выборок, необходимых для объемного рендеринга. В последних работах были предложены альтернативные подходы к выборке для ускорения методов, однако они часто не являются основным фокусом исследования. В данной статье мы исследуем и сравниваем несколько подходов к выборке и демонстрируем, что улучшенная выборка применима к различным вариантам NeRF в рамках единой концепции оценки пропускания. Для облегчения будущих экспериментов мы разработали NerfAcc — инструментарий на Python, который предоставляет гибкие API для интеграции современных методов выборки в методы, связанные с NeRF. Мы демонстрируем его гибкость, показывая, что он может сократить время обучения нескольких современных методов NeRF в 1,5–20 раз при минимальных изменениях существующего кода. Кроме того, высоко настраиваемые NeRF, такие как Instant-NGP, могут быть реализованы на чистом PyTorch с использованием NerfAcc.
Выполнение кода является фундаментальным аспектом семантики языков программирования, который отражает точное поведение кода. Однако большинство предварительно обученных моделей для анализа кода игнорируют трассировку выполнения и полагаются только на исходный код и синтаксические структуры. В данной статье мы исследуем, насколько хорошо предварительно обученные модели могут понимать и выполнять код. Мы разрабатываем метод увеличения данных на основе мутаций для создания масштабного и реалистичного набора данных и задачи для выполнения кода на Python, что бросает вызов существующим моделям, таким как Codex. Затем мы представляем CodeExecutor, модель на основе архитектуры Transformer, которая использует предварительное обучение на выполнении кода и обучение по учебному плану для улучшения семантического понимания. Мы оцениваем CodeExecutor на задачах выполнения кода и показываем её перспективные результаты и ограничения. Также мы демонстрируем её потенциальные преимущества для задач анализа кода, таких как поиск кода в режиме zero-shot и генерация кода из текста. Наш анализ предоставляет инсайты в способности предварительно обученных моделей к обучению и обобщению в контексте выполнения кода.
Веб-страницы представляют собой богатый ресурс для задач, связанных с обработкой языка и мультимодальных данных. Однако обычно сохраняются лишь отдельные элементы веб-страниц: пары изображение-описание, длинные текстовые статьи или исходный HTML-код, но никогда всё вместе. В результате задачи, связанные с веб-страницами, получают мало внимания, а структурированные данные, содержащие изображения и текст, остаются недоиспользованными. Для изучения мультимодального понимания веб-страниц мы представляем набор данных Wikipedia Webpage 2M (WikiWeb2M) — первый, который сохраняет полный набор изображений, текста и структурных данных, доступных на странице. WikiWeb2M может быть использован для таких задач, как генерация описаний страниц, суммирование разделов и контекстное создание подписей к изображениям.