Ежедневно отобранные исследовательские статьи по ИИ с переводами
Имея два изображения, на одном из которых изображен человек, а на другом — одежда, надетую на другого человека, наша цель — сгенерировать визуализацию того, как эта одежда может выглядеть на первом человеке. Основная задача заключается в синтезе фотореалистичной визуализации, сохраняющей детали одежды, при этом адаптируя её к значительным изменениям позы и формы тела между субъектами. Предыдущие методы либо сосредоточены на сохранении деталей одежды без эффективного учета изменений позы и формы, либо позволяют примерку с желаемой формой и позой, но теряют детали одежды. В данной статье мы предлагаем архитектуру на основе диффузии, объединяющую две UNet (называемую Parallel-UNet), что позволяет сохранять детали одежды и адаптировать её к значительным изменениям позы и тела в рамках одной сети. Основные идеи Parallel-UNet включают: 1) одежда адаптируется неявно с помощью механизма кросс-внимания, 2) адаптация одежды и объединение с человеком происходят как часть единого процесса, а не как последовательность двух отдельных задач. Экспериментальные результаты показывают, что TryOnDiffusion достигает наилучших показателей как качественно, так и количественно.
Способность человеческого глаза отражать окружающий мир является недооценённым источником информации о том, как выглядит наше окружение. Снимая глаза движущегося человека, мы можем получить множество видов сцены, находящейся за пределами прямой видимости камеры, через отражения в глазах. В данной статье мы восстанавливаем трёхмерную сцену за пределами линии видимости камеры, используя портретные изображения с отражениями в глазах. Эта задача является сложной из-за 1) трудности точного определения положения глаз и 2) переплетённого внешнего вида радужной оболочки глаза и отражений сцены. Наш метод совместно уточняет положение роговицы, радиационное поле, описывающее сцену, и текстуру радужной оболочки глаза наблюдателя. Мы также предлагаем простой регуляризационный априор на текстуру радужной оболочки для улучшения качества реконструкции. В ходе различных экспериментов на синтетических и реальных данных с участием людей с разным цветом глаз мы демонстрируем возможность восстановления трёхмерных сцен с использованием отражений в глазах.
Крупные языковые модели для работы с кодом (Code LLMs), такие как StarCoder, продемонстрировали выдающиеся результаты в задачах, связанных с кодом. Однако большинство существующих моделей обучаются исключительно на обширных наборах сырых данных кода без тонкой настройки на инструкции. В данной статье мы представляем WizardCoder, который расширяет возможности Code LLMs за счет сложной тонкой настройки на инструкции, адаптируя метод Evol-Instruct для работы с кодом. В ходе всесторонних экспериментов на четырех ключевых бенчмарках генерации кода — HumanEval, HumanEval+, MBPP и DS-1000 — мы раскрываем исключительные способности нашей модели. Она значительно превосходит все другие открытые Code LLMs. Более того, наша модель даже обходит крупнейшие закрытые LLMs, такие как Claude от Anthropic и Bard от Google, на тестах HumanEval и HumanEval+. Наш код, веса модели и данные доступны по адресу https://github.com/nlpxucan/WizardLM.
Недавние исследования в области больших языковых моделей (LLM) привели к значительным достижениям в разработке универсальных NLP-ассистентов. Некоторые исследования дополнительно изучили использование LLM для планирования и вызова моделей или API с целью решения более сложных мультимодальных запросов пользователей. Несмотря на этот прогресс, сложные задачи, связанные с визуальными данными, остаются трудными из-за разнообразия таких задач. Это разнообразие проявляется в двух аспектах: 1) Пути рассуждений. Для многих реальных приложений сложно точно декомпозировать запрос, просто анализируя его. Обычно требуется планирование на основе конкретного визуального контента и результатов каждого шага. 2) Гибкие входные данные и промежуточные результаты. Входные данные могут быть гибкими в реальных условиях и включать не только одно изображение или видео, но и их комбинации, например, изображение с точки зрения пользователя с несколькими референсными видео. Кроме того, сложный процесс рассуждений также генерирует разнообразные мультимодальные промежуточные результаты, такие как видеонарративы, сегментированные видеоклипы и т.д. Для решения таких общих задач мы предлагаем мультимодальный AI-ассистент AssistGPT с подходом чередующегося кода и языковых рассуждений под названием Plan, Execute, Inspect, and Learn (PEIL), который интегрирует LLM с различными инструментами. В частности, Планировщик способен использовать естественный язык для определения, какой инструмент в Исполнителе должен быть задействован следующим на основе текущего прогресса рассуждений. Инспектор — это эффективный менеджер памяти, который помогает Планировщику передавать правильную визуальную информацию в конкретный инструмент. Наконец, поскольку весь процесс рассуждений сложен и гибок, Обучающийся модуль разработан для того, чтобы модель могла автономно исследовать и находить оптимальное решение. Мы провели эксперименты на бенчмарках A-OKVQA и NExT-QA, достигнув результатов, соответствующих современному уровню. Кроме того, демонстрации показывают способность нашей системы обрабатывать вопросы, значительно более сложные, чем те, что представлены в бенчмарках.
Дистилляция знаний (Knowledge Distillation, KD) является перспективной техникой для снижения высоких вычислительных затрат крупных языковых моделей (LLM). Однако предыдущие методы KD в основном применялись к белым ящикам классификационных моделей или для обучения небольших моделей, имитирующих API черных ящиков, таких как ChatGPT. Вопрос о том, как эффективно дистиллировать знания из белых ящиков генеративных LLM, остается недостаточно изученным, что становится все более важным с развитием LLM. В данной работе мы предлагаем MiniLLM — метод дистилляции меньших языковых моделей из генеративных крупных языковых моделей. Сначала мы заменяем целевую функцию прямого расхождения Кульбака-Лейблера (KLD) в стандартных подходах KD на обратное KLD, которое более подходит для дистилляции на генеративных языковых моделях, чтобы предотвратить переоценку студенческой моделью областей с низкой вероятностью в распределении учителя. Затем мы выводим эффективный метод оптимизации для обучения этой целевой функции. Многочисленные эксперименты в условиях следования инструкциям показывают, что модели MiniLLM генерируют более точные ответы с более высоким общим качеством, меньшим смещением экспозиции, лучшей калибровкой и более высокой производительностью при генерации длинных текстов. Наш метод также масштабируем для различных семейств моделей с параметрами от 120 млн до 13 млрд. Мы опубликуем наш код и контрольные точки моделей по адресу https://aka.ms/MiniLLM.
Беспрецедентная производительность крупных языковых моделей (LLM) требует улучшений в методах их оценки. Вместо того чтобы просто исследовать широту возможностей LLM, мы считаем, что тщательный и продуманный дизайн тестов необходим для проведения всесторонних, объективных и применимых оценок. Учитывая важность мировых знаний для LLM, мы создали эталонный тест для оценки знаний (Knowledge-oriented LLM Assessment, KoLA), в котором мы тщательно разработали три ключевых аспекта: (1) Для моделирования способностей мы имитируем человеческое познание, формируя четырехуровневую таксономию знаний, охватывающую 19 задач. (2) Для данных, чтобы обеспечить справедливые сравнения, мы используем как Википедию — корпус, широко используемый для предварительного обучения LLM, так и постоянно собираемые новые корпуса, чтобы оценить способность моделей работать с неизвестными данными и развивающимися знаниями. (3) Для критериев оценки мы применяем контрастную систему, включающую общие стандартные баллы для лучшей численной сопоставимости между задачами и моделями, а также уникальный метрический показатель самоконтраста для автоматической оценки галлюцинаций знаний. Мы оценили 21 открытую и коммерческую LLM и получили ряд интересных результатов. Набор данных KoLA и открытая таблица лидеров публично доступны по адресу https://kola.xlore.cn и будут постоянно обновляться, чтобы предоставлять ориентиры для разработки LLM и систем, связанных с обработкой знаний.
Фундаментальные большие языковые модели (LLM), такие как GPT-4, представляют собой революцию в области искусственного интеллекта благодаря их практическому применению через обработку естественного языка. Однако они также несут значительные риски, такие как наличие предвзятых, конфиденциальных или вредоносных текстов, а также несанкционированное включение материалов, защищенных авторским правом. Мы представляем h2oGPT — набор репозиториев с открытым исходным кодом для создания и использования больших языковых моделей (LLM), основанных на генеративных предобученных трансформерах (GPT). Цель этого проекта — создать лучшую в мире по-настоящему открытую альтернативу закрытым GPT. В сотрудничестве с невероятным и неудержимым сообществом открытого исходного кода мы открываем доступ к нескольким тонко настроенным моделям h2oGPT с параметрами от 7 до 40 миллиардов, готовым для коммерческого использования под полностью разрешительными лицензиями Apache 2.0. В нашем релизе также представлен 100% приватный поиск документов с использованием естественного языка. Модели с открытым исходным кодом способствуют развитию ИИ, делая его более доступным и заслуживающим доверия. Они снижают барьеры для входа, позволяя людям и организациям адаптировать эти модели под свои нужды. Такая открытость стимулирует инновации, прозрачность и справедливость. Открытая стратегия необходима для справедливого распределения преимуществ ИИ, и H2O.ai продолжит демократизацию ИИ и больших языковых моделей.
Представляем DreamHuman — метод генерации реалистичных анимируемых 3D-моделей человеческих аватаров исключительно на основе текстовых описаний. Современные методы преобразования текста в 3D добились значительных успехов в генерации, но всё ещё имеют существенные ограничения. Контроль и часто пространственное разрешение остаются ограниченными, существующие методы создают статичные, а не анимируемые 3D-модели людей, а обеспечение антропометрической согласованности для сложных структур, таких как человек, остаётся сложной задачей. DreamHuman объединяет крупные модели синтеза изображений из текста, нейронные поля излучения и статистические модели человеческого тела в рамках новой моделирующей и оптимизационной структуры. Это позволяет создавать динамические 3D-аватары с высококачественными текстурами и изученными, специфичными для конкретного экземпляра, деформациями поверхности. Мы демонстрируем, что наш метод способен генерировать широкий спектр анимируемых, реалистичных 3D-моделей людей из текста. Наши 3D-модели обладают разнообразным внешним видом, одеждой, оттенками кожи и формами тела, значительно превосходя как общие подходы преобразования текста в 3D, так и предыдущие генераторы 3D-аватаров на основе текста по визуальной точности. Для получения дополнительных результатов и анимаций посетите наш сайт по адресу https://dream-human.github.io.
Хотя крупные языковые модели (LLM), настроенные на инструкции, продемонстрировали впечатляющие возможности в различных задачах обработки естественного языка (NLP), их эффективность на других модальностях данных, помимо текста, изучена не полностью. В данной работе мы представляем Macaw-LLM — новую мультимодальную LLM, которая бесшовно интегрирует визуальную, аудио и текстовую информацию. Macaw-LLM состоит из трех основных компонентов: модуля модальности для кодирования мультимодальных данных, когнитивного модуля для использования предобученных LLM и модуля согласования для гармонизации разнородных представлений. Наш инновационный модуль согласования эффективно связывает мультимодальные признаки с текстовыми, упрощая процесс адаптации от модулей модальности к когнитивному модулю. Кроме того, мы создали крупномасштабный мультимодальный набор данных с инструкциями в формате многоходового диалога, включающий 69 тыс. изображений и 50 тыс. видео. Мы сделали наши данные, код и модель общедоступными, надеясь, что это проложит путь для будущих исследований в области мультимодальных LLM и расширит возможности LLM для работы с разнообразными модальностями данных и решения сложных реальных задач.
Крупные языковые модели (LLM) продемонстрировали впечатляющий прогресс в освоении разнообразных новых способностей благодаря обучению в контексте, начиная от логического рассуждения и заканчивая написанием кода. Исследователи в области робототехники также изучали использование LLM для расширения возможностей управления роботами. Однако, поскольку низкоуровневые действия роботов зависят от аппаратного обеспечения и недостаточно представлены в обучающих корпусах LLM, существующие подходы к применению LLM в робототехнике в основном рассматривают LLM как семантические планировщики или полагаются на заранее разработанные примитивы управления для взаимодействия с роботом. С другой стороны, функции вознаграждения демонстрируют гибкость в представлении, что позволяет оптимизировать их для создания политик управления, способных выполнять разнообразные задачи, а их семантическая насыщенность делает их подходящими для спецификации с помощью LLM. В данной работе мы представляем новую парадигму, которая использует это понимание, применяя LLM для определения параметров вознаграждения, которые могут быть оптимизированы и использованы для выполнения различных задач робототехники. Используя вознаграждение в качестве промежуточного интерфейса, генерируемого LLM, мы эффективно устраняем разрыв между высокоуровневыми языковыми инструкциями или корректировками и низкоуровневыми действиями робота. В то же время, сочетание этого с оптимизатором в реальном времени, MuJoCo MPC, обеспечивает интерактивный опыт создания поведения, где пользователи могут сразу наблюдать результаты и предоставлять обратную связь системе. Для систематической оценки производительности предложенного метода мы разработали 17 задач для симулированного четвероногого робота и манипулятора с высокой степенью свободы. Мы показываем, что наш метод успешно справляется с 90% поставленных задач, в то время как базовый подход, использующий примитивные навыки в качестве интерфейса с Code-as-policies, достигает успеха в 50% случаев. Мы также подтвердили эффективность нашего метода на реальном роботе-манипуляторе, где сложные навыки манипуляции, такие как нехватательное толкание, возникают благодаря нашей интерактивной системе.
Разнообразие объектов в реальном мире практически безгранично, что делает невозможным их охват с помощью моделей, обученных на фиксированном наборе категорий. В результате в последние годы методы с открытым словарем привлекли внимание научного сообщества. В данной статье предлагается новый метод для сегментации с нулевым обучением и открытым словарем. Предыдущие работы в основном полагаются на контрастное обучение с использованием пар изображение-текст, применяя механизмы группировки для изучения признаков изображений, которые одновременно согласованы с языком и хорошо локализованы. Однако это может вносить неоднозначность, так как визуальный облик изображений с похожими описаниями часто варьируется. Вместо этого мы используем генеративные свойства крупномасштабных диффузионных моделей "текст-изображение" для выборки набора опорных изображений для заданной текстовой категории. Это позволяет получить распределение внешних видов для заданного текста, обходя проблему неоднозначности. Мы также предлагаем механизм, который учитывает контекстный фон выбранных изображений для более точной локализации объектов и непосредственной сегментации фона. Мы показываем, что наш метод может быть использован для привязки нескольких предварительно обученных самообучаемых экстракторов признаков к естественному языку и предоставления объяснимых предсказаний путем отображения на регионы в наборе опорных изображений. Наше предложение не требует обучения, полагаясь исключительно на предварительно обученные компоненты, однако демонстрирует высокую производительность на ряде бенчмарков для сегментации с открытым словарем, достигая преимущества более чем в 10% на бенчмарке Pascal VOC.
При решении задач принятия решений люди обычно полагаются на информацию из двух ключевых источников: (1) исторические данные о политиках, которые предоставляют воспроизведение взаимодействий с окружающей средой, и (2) аналитические инсайты в форме естественного языка, раскрывающие ценный мыслительный процесс или стратегические соображения. Несмотря на это, большинство предыдущих исследований сосредоточено только на одном источнике: либо исключительно на историческом воспроизведении для прямого обучения политикам или функциям ценности, либо на обучении языковых моделей с использованием только языковых корпусов. В данной статье мы утверждаем, что мощный автономный агент должен охватывать оба источника. Таким образом, мы предлагаем ChessGPT, модель GPT, которая объединяет обучение политикам и языковое моделирование, интегрируя данные из этих двух источников в шахматных играх. В частности, мы создаем крупномасштабный набор данных, связанных с шахматами и языком. Используя этот набор данных, мы демонстрируем две модели: ChessCLIP и ChessGPT, интегрирующие обучение политикам и языковое моделирование. Наконец, мы предлагаем полную оценочную структуру для оценки шахматных способностей языковой модели. Экспериментальные результаты подтверждают эффективность нашей модели и набора данных. Мы открываем исходный код, модель и набор данных на https://github.com/waterhorse1/ChessGPT.
Мы собрали всеобъемлющий набор данных, включающий 4550 вопросов и решений из задачников, промежуточных и итоговых экзаменов по всем курсам математики, электротехники и компьютерных наук (EECS) Массачусетского технологического института (MIT), необходимым для получения степени. Мы оценили способность крупных языковых моделей выполнить требования для выпуска по любому направлению математики и EECS в MIT. Наши результаты показывают, что GPT-3.5 успешно решает треть всей программы MIT, в то время как GPT-4, с использованием инженерных подсказок, достигает стопроцентного уровня решения на тестовом наборе, исключая вопросы, основанные на изображениях. Мы дообучили открытую крупную языковую модель на этом наборе данных. Мы использовали GPT-4 для автоматической оценки ответов модели, предоставив детальный анализ производительности по курсам, вопросам и типам ответов. Встраивая вопросы в низкоразмерное пространство, мы исследовали взаимосвязи между вопросами, темами и курсами и выявили, какие вопросы и курсы необходимы для решения других вопросов и курсов с помощью обучения с малым количеством примеров. Наш анализ предлагает ценные инсайты в отношении предварительных требований курсов и проектирования учебных программ, подчеркивая потенциал языковых моделей для обучения и улучшения образования в области математики и EECS.
Мы представляем метод предвосхищения (anticipation) для построения управляемой генеративной модели временного точечного процесса (процесса событий), асинхронно обусловленного реализациями второго, коррелированного процесса (процесса управления). Это достигается путем чередования последовательностей событий и управляющих воздействий, причем управляющие воздействия появляются после моментов остановки в последовательности событий. Данная работа мотивирована задачами, возникающими при управлении генерацией символической музыки. Мы сосредоточиваемся на задачах заполнения (infilling), где управляющие воздействия представляют собой подмножество самих событий, а условная генерация завершает последовательность событий при заданных фиксированных управляющих событиях. Мы обучаем модели предвосхищающего заполнения на большом и разнообразном наборе данных Lakh MIDI. Эти модели демонстрируют производительность, сопоставимую с авторегрессионными моделями для генерации музыки по запросу, с дополнительной возможностью выполнения задач заполнения, включая аккомпанемент. Человеческие оценщики отмечают, что модель предвосхищения создает аккомпанементы, сопоставимые по музыкальности даже с музыкой, сочиненной людьми, на 20-секундных фрагментах.
Мы предлагаем метод рекомендации музыки для входного видео, позволяющий пользователю направлять выбор музыки с помощью свободного текста на естественном языке. Ключевая сложность в данной постановке задачи заключается в том, что существующие наборы данных музыкальных видео предоставляют необходимые пары (видео, музыка) для обучения, но не содержат текстовых описаний музыки. В данной работе мы решаем эту проблему с помощью трех основных вкладов. Во-первых, мы предлагаем подход к синтезу текста, основанный на процедуре аналогий, для генерации описаний музыки на естественном языке с использованием крупномасштабной языковой модели (BLOOM-176B) на основе выходных данных предобученного классификатора музыкальных тегов и небольшого количества текстовых описаний, созданных человеком. Во-вторых, мы используем эти синтезированные описания для обучения новой тримодальной модели, которая объединяет текстовые и видеовходные представления для поиска музыкальных образцов. Для обучения мы вводим механизм регуляризации с выпадением текста, который, как мы показываем, критически важен для производительности модели. Наша модель позволяет извлекаемой музыкальной аудиодорожке соответствовать двум входным модальностям, согласуясь с визуальным стилем, изображенным в видео, и музыкальным жанром, настроением или инструментарием, описанным в текстовом запросе. В-третьих, для оценки нашего подхода мы собираем тестовый набор данных для нашей задачи, аннотируя подмножество из 4 тысяч клипов из набора данных YT8M-MusicVideo текстовыми описаниями музыки на естественном языке, которые мы делаем общедоступными. Мы показываем, что наш подход может соответствовать или превосходить производительность предыдущих методов в задаче поиска музыки по видео, при этом значительно улучшая точность поиска при использовании текстового руководства.
Мы рассматриваем эталонную задачу в области гибкой робототехники: захват объектов, брошенных на высокой скорости. Это сложная задача, которая включает отслеживание, перехват и удержание брошенного объекта с использованием только визуальных наблюдений за объектом и проприоцептивного состояния робота, причем все это должно быть выполнено за доли секунды. Мы представляем сравнительные преимущества двух принципиально разных стратегий решения: (i) Модельно-прогнозирующее управление с использованием ускоренной оптимизации ограниченных траекторий и (ii) Обучение с подкреплением с использованием оптимизации нулевого порядка. Мы предоставляем анализ различных компромиссов в производительности, включая эффективность использования данных, перенос из симуляции в реальность, устойчивость к сдвигам распределения и многомодальность всего тела, на основе обширных экспериментов на реальном оборудовании. В заключение мы предлагаем подходы к объединению "классических" и "основанных на обучении" методов для управления гибкими роботами. Видео наших экспериментов доступны по ссылке: https://sites.google.com/view/agile-catching.
Предварительно обученные мультимодальные модели, объединяющие зрение и язык (Vision-Language Models, VLMs), становятся все более популярными благодаря их выдающейся производительности в приложениях, связанных с обработкой изображений, особенно в условиях ограниченного количества данных (few-shot) и их полного отсутствия (zero-shot). Однако выбор наиболее эффективной VLM для конкретного приложения является нетривиальной задачей, так как он зависит от набора данных и задачи. При этом полное тестирование всех доступных VLMs для нового приложения не только требует значительных временных и вычислительных ресурсов, но и предполагает сбор размеченного набора данных для оценки. По мере увеличения числа открытых вариантов VLMs возникает необходимость в эффективной стратегии выбора модели, которая не требует доступа к подготовленному набору данных для оценки. В данной статье предлагается новая задача и эталонный тест для эффективной оценки zero-shot производительности VLMs в приложениях без доступа к данным целевой задачи. В частности, мы представляем новую задачу LOVM: Language-Only Vision Model Selection (Выбор модели на основе только текстового описания), где методы должны выполнять как выбор модели, так и прогнозирование ее производительности исключительно на основе текстового описания целевого приложения. Затем мы представляем обширный эталонный тест LOVM, состоящий из оценок 35 предварительно обученных VLMs и 23 наборов данных, где методы должны ранжировать предварительно обученные VLMs и предсказывать их zero-shot производительность.
В последнее время диффузионные генеративные модели достигли значительных успехов в создании и редактировании изображений. Однако их применение для редактирования видео по-прежнему сталкивается с серьезными ограничениями. В данной статье представлен VidEdit — новый метод для редактирования видео на основе текста в режиме zero-shot, обеспечивающий высокую временную и пространственную согласованность. Во-первых, мы предлагаем комбинировать атласные и предобученные диффузионные модели для генерации изображений из текста, что позволяет реализовать эффективный метод редактирования без необходимости обучения, изначально обеспечивающий временную плавность. Во-вторых, мы используем готовые панорамные сегментаторы вместе с детекторами краев и адаптируем их для условного редактирования атласов на основе диффузии. Это обеспечивает точный пространственный контроль над целевыми областями при строгом сохранении структуры исходного видео. Количественные и качественные эксперименты показывают, что VidEdit превосходит современные методы на наборе данных DAVIS по показателям семантической точности, сохранения изображения и временной согласованности. В рамках данного фреймворка обработка одного видео занимает всего около одной минуты, а также возможно создание нескольких совместимых редакций на основе единственного текстового запроса. Веб-страница проекта доступна по адресу https://videdit.github.io.
Недавние достижения в области понимания 3D-сцен позволяют масштабируемое обучение представлений на больших наборах данных, содержащих разнообразные сцены. В результате стало возможным обобщение на невидимые сцены и объекты, рендеринг новых видов всего по одному или нескольким входным изображениям, а также управляемая генерация сцен, поддерживающая редактирование. Однако совместное обучение на большом количестве сцен обычно ухудшает качество рендеринга по сравнению с моделями, оптимизированными для отдельных сцен, такими как NeRF. В данной работе мы используем последние достижения в области диффузионных моделей, чтобы наделить модели обучения представлений 3D-сцен способностью рендерить высококачественные новые виды, сохраняя при этом такие преимущества, как редактирование сцен на уровне объектов. В частности, мы предлагаем DORSal, который адаптирует архитектуру диффузионной модели для видео к генерации 3D-сцен, основанной на объектно-ориентированных слотах представлений сцен. На сложных синтетических сценах с множеством объектов и на крупномасштабном наборе данных Street View из реального мира мы показываем, что DORSal обеспечивает масштабируемый нейронный рендеринг 3D-сцен с возможностью редактирования на уровне объектов и превосходит существующие подходы.
Мы демонстрируем, как построить модель, позволяющую создавать реалистичные изображения сцены с произвольных точек обзора при новых условиях освещения на основе видео. Наш метод — UrbanIR: Urban Scene Inverse Rendering — вычисляет обратное графическое представление из видеозаписи. UrbanIR совместно восстанавливает форму, альбедо, видимость, а также солнечное и небесное освещение из одного видео неограниченных уличных сцен с неизвестным освещением. UrbanIR использует видео с камер, установленных на автомобилях (в отличие от множества видов одних и тех же точек, характерных для типичных оценок в стиле NeRF). В результате стандартные методы дают плохие оценки геометрии (например, крыш) и порождают множество «плавающих» артефактов. Ошибки в обратной графической интерпретации могут приводить к сильным артефактам при рендеринге. UrbanIR использует новые функции потерь для контроля этих и других источников ошибок. В частности, UrbanIR применяет новую функцию потерь для получения точных оценок объемов теней в исходной сцене. Полученные представления позволяют осуществлять контролируемое редактирование, обеспечивая фотореалистичный рендеринг сцен с измененным освещением и добавленными объектами с произвольных точек обзора. Качественная оценка демонстрирует значительные улучшения по сравнению с современными методами.
В данной статье мы представляем автономную систему визуального ответа на вопросы с поиском информации, AVIS. Наш метод использует большую языковую модель (LLM) для динамического планирования использования внешних инструментов и анализа их результатов, что позволяет получать необходимые знания для ответов на поставленные вопросы. Ответы на визуальные вопросы, требующие внешних знаний, такие как "Какое событие символизирует здание на этом изображении?", представляют собой сложную задачу. Эта задача формирует комбинаторное пространство поиска, требующее последовательности действий, включая вызов API, анализ их ответов и принятие обоснованных решений. Мы проводим исследование с участием пользователей, чтобы собрать различные примеры принятия решений людьми при выполнении этой задачи. Эти данные затем используются для разработки системы, состоящей из трех компонентов: планировщика на основе LLM, который динамически определяет, какой инструмент использовать следующим, анализатора на основе LLM, который анализирует и извлекает ключевую информацию из результатов инструментов, и компонента рабочей памяти, который сохраняет полученную информацию на протяжении всего процесса. Собранные данные о поведении пользователей служат руководством для нашей системы в двух ключевых аспектах. Во-первых, мы создаем граф переходов, анализируя последовательность решений, принятых пользователями. Этот граф определяет различные состояния и ограничивает набор доступных действий в каждом состоянии. Во-вторых, мы используем примеры принятия решений пользователями, чтобы предоставить нашему планировщику и анализатору на основе LLM релевантные контекстные примеры, повышая их способность принимать обоснованные решения. Мы показываем, что AVIS достигает наилучших результатов на эталонных тестах визуального ответа на вопросы, требующих интенсивного использования знаний, таких как Infoseek и OK-VQA.
Последние достижения в области нейронной реконструкции позволяют создавать высококачественные 3D-модели объектов на основе случайно собранных коллекций изображений. Современные методы в основном оценивают свой прогресс на относительно простых наборах изображений, где техники Structure-from-Motion (SfM) могут предоставить эталонные (GT) параметры камер. Мы отмечаем, что методы SfM часто не справляются с обработкой изображений, снятых в реальных условиях, таких как результаты поиска изображений с различными фонами и освещением. Для обеспечения систематического прогресса в исследованиях 3D-реконструкции на основе случайных изображений мы представляем NAVI: новый набор данных, содержащий категорийно-независимые коллекции изображений объектов с высококачественными 3D-сканами, а также точные 2D-3D соответствия, предоставляющие почти идеальные эталонные параметры камер. Эти 2D-3D соответствия позволяют извлекать точные производные аннотации, такие как плотные пиксельные соответствия, карты глубины и сегментации. Мы демонстрируем использование коллекций изображений NAVI в различных задачах и показываем, что NAVI позволяет проводить более тщательные оценки, которые были невозможны с существующими наборами данных. Мы считаем, что NAVI способствует систематическому прогрессу в исследованиях 3D-реконструкции и оценки соответствий. Страница проекта: https://navidataset.github.io.
В данной работе мы исследуем влияние крупномасштабных языковых моделей (LLM) на автоматическое распознавание речи (ASR) в видео с YouTube, которые мы используем в качестве источника для длинных форм ASR. Мы демонстрируем относительное снижение частоты ошибок на словах (WER) до 8% для тестовых наборов длинных форм ASR на американском английском (en-us) и кодово-переключенном индийском английском (en-in), а также относительное снижение частоты ошибок на ключевых терминах (STER) до 30% по сравнению с сильным базовым подходом первого прохода, использующим языковую модель на основе максимальной энтропии. Улучшенная обработка решеток, которая приводит к решетке с правильной (не древовидной) топологией ориентированного графа и учитывает контекст из лучшей гипотезы предыдущих сегментов, дает значительные преимущества при повторном оценивании с использованием LLM. Мы также обнаруживаем, что улучшение производительности от комбинации LLM, обученных на огромных объемах доступных данных (таких как C4), и традиционных нейронных языковых моделей является аддитивным и значительно превосходит сильный базовый подход первого прохода с языковой моделью на основе максимальной энтропии.
Реконструкция и переосвещение объектов и сцен при различных условиях освещения представляет собой сложную задачу: существующие методы нейронного рендеринга зачастую не способны учесть сложные взаимодействия между материалами и светом. Использование предварительно вычисленных методов передачи излучения позволяет учитывать глобальное освещение, но всё же сталкивается с трудностями при работе с материалами, обладающими эффектами подповерхностного рассеивания. Мы предлагаем новый подход для обучения поля передачи излучения с помощью объёмного рендеринга и использования различных визуальных подсказок для уточнения геометрии в рамках сквозного обучения. Этот подход расширяет возможности переосвещения и реконструкции, позволяя обрабатывать более широкий спектр материалов на основе данных. Полученные модели обеспечивают правдоподобные результаты рендеринга как в существующих, так и в новых условиях. Мы опубликуем наш код и новый набор данных, полученных с использованием световой сцены, содержащей объекты с эффектами подповерхностного рассеивания.
Рассмотрим робота, которому поручено навести порядок на столе с тщательно собранным спортивным автомобилем из Lego. Человек может понять, что разбирать автомобиль и убирать его в рамках "наведения порядка" социально неприемлемо. Как робот может прийти к такому выводу? Хотя крупные языковые модели (LLM) недавно стали использоваться для социального рассуждения, закрепление этого рассуждения в реальном мире остается сложной задачей. Чтобы рассуждать в реальном мире, роботы должны выйти за рамки пассивного запроса к LLM и *активно собирать информацию из окружающей среды*, необходимую для принятия правильного решения. Например, обнаружив, что на столе находится скрытый автомобиль, роботу может потребоваться активно воспринять его, чтобы определить, является ли это сложной моделью автомобиля из Lego или игрушечной машинкой, собранной ребенком. Мы предлагаем подход, который использует LLM и визуально-языковую модель (VLM), чтобы помочь роботу активно воспринимать окружающую среду для выполнения заземленного социального рассуждения. Для масштабной оценки нашего подхода мы публикуем набор данных MessySurfaces, содержащий изображения 70 реальных поверхностей, которые необходимо убрать. Дополнительно мы демонстрируем наш подход на роботе с использованием двух тщательно спроектированных поверхностей. Мы наблюдаем среднее улучшение на 12,9% на тестовом наборе MessySurfaces и среднее улучшение на 15% в экспериментах с роботом по сравнению с базовыми методами, не использующими активное восприятие. Набор данных, код и видео нашего подхода доступны по ссылке: https://minaek.github.io/groundedsocialreasoning.
Тонкая настройка гиперпараметров моделей глубокого обучения может привести к увеличению производительности на порядки при том же объеме вычислений. Несмотря на это, систематическая настройка встречается редко, особенно для крупных моделей, которые дорого оценивать и которые, как правило, имеют множество гиперпараметров, что требует сложных решений о компромиссах, бюджетах и границах поиска. Чтобы решить эти проблемы и предложить практический метод для надежной настройки крупных моделей, мы представляем Cost-Aware Pareto Region Bayesian Search (CARBS) — алгоритм байесовской оптимизации, который выполняет локальный поиск вокруг Парето-фронта производительности и затрат. CARBS эффективно работает даже в неограниченных пространствах поиска с множеством гиперпараметров, изучает масштабные зависимости, что позволяет настраивать модели по мере их масштабирования, и автоматизирует большую часть "черной магии" настройки. Среди наших результатов мы эффективно решаем весь бенчмарк ProcGen, просто настраивая простой базовый алгоритм (PPO, как он представлен в оригинальной статье ProcGen). Мы также воспроизводим результат масштабирования размера модели и количества токенов обучения из проекта Chinchilla (Hoffmann et al. 2022), одновременно открывая законы масштабирования для всех остальных гиперпараметров с помощью простого автоматизированного процесса, который требует значительно меньше вычислений и применим к любой задаче глубокого обучения (не только к языковым моделям).