Ежедневно отобранные исследовательские статьи по ИИ с переводами
По мере развития крупных языковых моделей (LLM) становится все более важным их выравнивание с предпочтениями людей. Мы предлагаем шаговую DPO (sDPO), расширение недавно популяризированной оптимизации прямых предпочтений (DPO) для настройки выравнивания. Этот подход включает разделение доступных наборов данных предпочтений и их использование поэтапно, а не все сразу. Мы демонстрируем, что этот метод облегчает использование более точно выровненных эталонных моделей в рамках обучения DPO. Более того, sDPO обучает конечную модель быть более производительной, превосходя даже другие популярные LLM с большим количеством параметров.
3D Гауссово сплетение (GS) достигло значительного улучшения по сравнению с нейронными радиантными полями в плане точности подгонки в 3D и скорости визуализации. Однако данное неструктурированное представление с разбросанными гауссовыми функциями представляет существенное препятствие для генеративного моделирования. Для решения этой проблемы мы представляем GaussianCube, структурированное представление GS, которое является мощным и эффективным для генеративного моделирования. Мы достигаем этого, предложив модифицированный алгоритм подгонки GS с ограничением на плотность, который может обеспечить высококачественные результаты подгонки с использованием фиксированного числа свободных гауссовых функций, а затем переупорядочивая гауссовы функции в заранее определенную воксельную сетку с помощью оптимальной транспортировки. Структурированное сеточное представление позволяет нам использовать стандартную 3D U-Net в качестве основы в генеративном моделировании диффузии без сложных конструкций. Обширные эксперименты, проведенные на ShapeNet и OmniObject3D, показывают, что наша модель достигает передовых результатов как качественно, так и количественно, подчеркивая потенциал GaussianCube как мощного и универсального 3D представления.
В области мультимодальных крупных языковых моделей (LLM) произошел огромный прогресс. Недавние работы расширили эти модели на видеовход с обещающими возможностями следования за инструкциями. Однако важным недостающим элементом является временная локализация. Эти модели не могут точно ответить на вопросы "Когда?". Мы выделяем три ключевых аспекта, ограничивающих их возможности по временной локализации: (i) представление времени, (ii) архитектура и (iii) данные. Мы решаем эти недостатки, предлагая помощника по временной локализации на основе языка (LITA) со следующими особенностями: (1) Мы вводим временные токены, кодирующие метки времени относительно длины видео для лучшего представления времени в видео. (2) Мы вводим медленные и быстрые токены в архитектуру для захвата временной информации с хорошим временным разрешением. (3) Мы акцентируем данные по временной локализации для LITA. Помимо использования существующих видеодатасетов с метками времени, мы предлагаем новую задачу - Рассуждение о временной локализации (RTL), вместе с набором данных ActivityNet-RTL для обучения и оценки этой задачи. Рассуждение о временной локализации требует как рассуждения, так и временной локализации видео LLM. LITA демонстрирует высокую производительность на этой сложной задаче, практически удваивая среднее временное пересечение-по-объединению (mIoU) по сравнению с базовыми моделями. Кроме того, мы показываем, что наше внимание к временной локализации также существенно улучшает генерацию текста на основе видео по сравнению с существующими видео LLM, включая 36% относительного улучшения Понимания времени. Код доступен по адресу: https://github.com/NVlabs/LITA
Модели генерации изображений на основе диффузии, например, устойчивая диффузия, революционизировали область генерации контента, обеспечив значительные прорывы в областях редактирования изображений и синтеза видео. Несмотря на их впечатляющие возможности, у этих моделей есть свои ограничения. По-прежнему сложно синтезировать изображение, которое хорошо соответствует входному тексту, и требуется несколько запусков с тщательно разработанными подсказками для достижения удовлетворительных результатов. Для устранения этих ограничений было предпринято множество исследований по настройке заранее обученных моделей диффузии, таких как UNet, с использованием различных технологий. Тем не менее, среди этих усилий ключевой вопрос обучения модели диффузии текста в изображение остается в значительной степени неисследованным: возможно ли и целесообразно настраивать текстовый кодер для улучшения производительности моделей диффузии текста в изображение? Наши результаты показывают, что вместо замены текстового кодера CLIP, используемого в устойчивой диффузии, на другие большие языковые модели, мы можем улучшить его с помощью предложенного нами подхода к настройке, TextCraftor, что приводит к существенным улучшениям в количественных бенчмарках и оценках людей. Интересно, что наша техника также обеспечивает возможность контролируемой генерации изображений путем интерполяции различных текстовых кодеров, настроенных с различными вознаграждениями. Мы также демонстрируем, что TextCraftor ортогонален настройке UNet и может быть объединен для дальнейшего улучшения качества генерации.
Мы представляем Mesh2NeRF, подход к получению истинных полей излучения из текстурированных сеток для задач 3D-генерации. Многие подходы к генерации 3D-изображений представляют сцены в виде полей излучения для обучения. Их истинные поля излучения обычно подгоняются из многопроекционных рендерингов с крупномасштабного синтетического 3D-набора данных, что часто приводит к артефактам из-за заслонений или проблем недообучения. В Mesh2NeRF мы предлагаем аналитическое решение для прямого получения истинных полей излучения из 3D-сеток, характеризуя поле плотности с помощью функции занятости с определенной толщиной поверхности и определяя видозависимый цвет через функцию отражения, учитывающую как сетку, так и освещение окружения. Mesh2NeRF извлекает точные поля излучения, обеспечивая прямое руководство для обучения генеративных NeRF и представления сцены. Мы подтверждаем эффективность Mesh2NeRF в различных задачах, достигая значительного улучшения PSNR на 3,12 дБ для синтеза видов в представлении одной сцены на наборе данных ABO, улучшения PSNR на 0,69 при условной генерации одного вида для автомобилей ShapeNet и значительно улучшенного извлечения сетки из NeRF при безусловной генерации кружек Objaverse.