Ежедневно отобранные исследовательские статьи по ИИ с переводами
Крупномасштабные модели преобразования текста в изображение, такие как Stable Diffusion, способны генерировать фотореалистичные портретные изображения высокой точности. Активная область исследований посвящена персонализации этих моделей, направленной на синтез конкретных объектов или стилей с использованием предоставленных наборов референсных изображений. Однако, несмотря на правдоподобные результаты, полученные с помощью этих методов персонализации, они часто создают изображения, которые не достигают уровня реализма и пока не соответствуют коммерчески пригодным стандартам. Это особенно заметно в генерации портретных изображений, где любые неестественные артефакты на человеческих лицах легко распознаются из-за нашей врожденной человеческой предвзятости. Для решения этой проблемы мы представляем MagiCapture — метод персонализации, который интегрирует концепции объекта и стиля для генерации высококачественных портретных изображений с использованием всего нескольких референсов объекта и стиля. Например, имея несколько случайных селфи, наша доработанная модель может генерировать высококачественные портретные изображения в определенных стилях, таких как фотографии для паспорта или профиля. Основная сложность этой задачи заключается в отсутствии эталонных данных для составленных концепций, что приводит к снижению качества конечного результата и смещению идентичности исходного объекта. Для решения этих проблем мы предлагаем новый метод потери внимания с перефокусировкой (Attention Refocusing loss) в сочетании с вспомогательными априорными знаниями, которые способствуют устойчивому обучению в условиях слабого обучения с учителем. Наш процесс также включает дополнительные этапы постобработки для обеспечения создания высокореалистичных результатов. MagiCapture превосходит другие базовые методы как в количественных, так и в качественных оценках и может быть обобщен на другие нечеловеческие объекты.
Мы исследуем новое применение больших языковых моделей для оптимизации кода. Представляем трансформерную модель с 7 миллиардами параметров, обученную с нуля для оптимизации ассемблерного кода LLVM с целью уменьшения его размера. Модель принимает на вход неоптимизированный ассемблерный код и выдает список параметров компилятора для наилучшей оптимизации программы. Важно отметить, что в процессе обучения мы просим модель предсказывать количество инструкций до и после оптимизации, а также сам оптимизированный код. Эти дополнительные задачи обучения значительно улучшают производительность модели в оптимизации и углубляют её понимание. Мы проводим оценку на большом наборе тестовых программ. Наш подход демонстрирует улучшение на 3,0% в сокращении количества инструкций по сравнению с компилятором, превосходя два современных базовых метода, требующих тысяч компиляций. Более того, модель показывает удивительно сильные способности в анализе кода, генерируя компилируемый код в 91% случаев и идеально воспроизводя результат компилятора в 70% случаев.
Долгое время проблема синтеза новых ракурсов имела множество применений, особенно в спортивном вещании. Фотореалистичный синтез новых ракурсов для футбольных действий, в частности, представляет огромный интерес для индустрии телевещания. Однако было предложено лишь несколько промышленных решений, и ещё меньше тех, которые достигают качества, близкого к телевизионному, для синтетических повторов. За исключением их конфигурации с использованием множества статических камер вокруг поля, лучшие проприетарные системы практически не раскрывают информации о своей внутренней работе. Использование множества статических камер для такой задачи действительно представляет собой вызов, редко рассматриваемый в литературе из-за отсутствия публичных наборов данных: восстановление крупномасштабной, в основном статичной среды с небольшими, быстро движущимися элементами. Недавно появление нейронных полей излучения (NeRF) привело к впечатляющему прогрессу во многих приложениях синтеза новых ракурсов, используя принципы глубокого обучения для достижения фотореалистичных результатов в самых сложных условиях. В данной работе мы исследуем возможность создания решения задачи на основе динамических NeRF, то есть нейронных моделей, предназначенных для восстановления общего динамического контента. Мы создаём синтетические футбольные среды и проводим множество экспериментов с их использованием, выявляя ключевые компоненты, которые помогают восстанавливать футбольные сцены с помощью динамических NeRF. Мы показываем, что, хотя этот подход не может полностью соответствовать требованиям к качеству для целевого применения, он предлагает перспективные пути к созданию экономически эффективного автоматического решения. Мы также делаем наш набор данных и код общедоступными с целью стимулировать дальнейшие усилия исследовательского сообщества в области синтеза новых ракурсов для динамических футбольных сцен. Для получения кода, данных и видеорезультатов посетите https://soccernerfs.isach.be.
Повышение согласованности языковых моделей с человеческими предпочтениями остается актуальной исследовательской задачей. Ранее использовались подходы, основанные на обучении с подкреплением с использованием человеческой обратной связи (RLHF) через онлайн-методы, такие как оптимизация проксимальной политики (PPO). В последнее время оффлайн-методы, такие как калибровка правдоподобия последовательностей (SLiC) и оптимизация прямых предпочтений (DPO), стали привлекательными альтернативами, предлагая улучшения в стабильности и масштабируемости при сохранении конкурентоспособной производительности. SLiC уточняет свою функцию потерь, используя пары последовательностей, взятые из политики, дообученной с учителем (SFT), тогда как DPO напрямую оптимизирует языковые модели на основе данных о предпочтениях, исключая необходимость в отдельной модели вознаграждения. Однако оценка максимального правдоподобия (MLE) для целевой оптимальной политики требует размеченных пар предпочтений, взятых из этой политики. Отсутствие модели вознаграждения в DPO ограничивает его способность выбирать пары предпочтений из оптимальной политики, а SLiC ограничен выбором пар только из политики SFT. Для устранения этих ограничений мы предлагаем новый подход под названием оптимизация с использованием статистического отбраковывающего сэмплирования (RSO), который направлен на получение данных о предпочтениях из целевой оптимальной политики с использованием отбраковывающего сэмплирования, что позволяет более точно оценить оптимальную политику. Мы также предлагаем унифицированную структуру, которая улучшает функции потерь, используемые в SLiC и DPO, с точки зрения моделирования предпочтений. В ходе обширных экспериментов на трех различных задачах мы демонстрируем, что RSO стабильно превосходит как SLiC, так и DPO в оценках, проведенных как крупными языковыми моделями (LLM), так и людьми-оценщиками.
Последние достижения в области крупномасштабных моделей преобразования текста в изображения привели к значительным успехам, находящим применение в различных областях искусства. Однако выражение уникальных характеристик произведения искусства (например, мазков, цветовой палитры или композиции) с использованием только текстовых запросов может столкнуться с ограничениями, обусловленными присущими вербальному описанию ограничениями. В связи с этим мы представляем DreamStyler — новый фреймворк, разработанный для синтеза художественных изображений, который эффективно справляется как с преобразованием текста в изображение, так и с переносом стиля. DreamStyler оптимизирует многоэтапное текстовое встраивание с использованием контекстно-зависимого текстового запроса, что приводит к выдающемуся качеству изображений. Кроме того, благодаря руководству по содержанию и стилю, DreamStyler демонстрирует гибкость, позволяющую адаптироваться к различным стилевым образцам. Экспериментальные результаты подтверждают его превосходную производительность в различных сценариях, что указывает на его перспективный потенциал в создании художественных произведений.
Наша цель — создать реалистичный 3D-аватар лица с волосами и аксессуарами, используя только текстовое описание. Хотя эта задача привлекает значительный интерес в последнее время, существующие методы либо недостаточно реалистичны, либо создают неестественные формы, либо не поддерживают редактирование, например, изменение прически. Мы утверждаем, что существующие методы ограничены, поскольку используют монолитный подход к моделированию, применяя единое представление для головы, лица, волос и аксессуаров. Наше наблюдение заключается в том, что, например, волосы и лицо имеют совершенно разные структурные характеристики, которые выигрывают от различных представлений. Основываясь на этом инсайте, мы создаем аватары с использованием композиционной модели, в которой голова, лицо и верхняя часть тела представлены традиционными 3D-мешами, а волосы, одежда и аксессуары — нейронными полями излучения (NeRF). Модельное представление меша обеспечивает сильный геометрический приоритет для области лица, повышая реалистичность и позволяя редактировать внешний вид человека. Используя NeRF для представления оставшихся компонентов, наш метод способен моделировать и синтезировать части со сложной геометрией и внешним видом, такие как кудрявые волосы и пушистые шарфы. Наша новая система синтезирует эти высококачественные композиционные аватары из текстовых описаний. Экспериментальные результаты демонстрируют, что наш метод, Text-guided generation and Editing of Compositional Avatars (TECA), создает аватары, которые более реалистичны, чем у современных методов, и при этом редактируемы благодаря их композиционной природе. Например, наш TECA позволяет бесшовно переносить композиционные элементы, такие как прически, шарфы и другие аксессуары, между аватарами. Эта возможность поддерживает такие приложения, как виртуальная примерка.
Мы исследуем задачу вывода древовидного представления из одного изображения для моделирования затенения объектов. Предыдущие работы обычно используют параметрическое или измеренное представление для моделирования затенения, которое не является ни интерпретируемым, ни легко редактируемым. Мы предлагаем использовать представление в виде дерева затенения, которое объединяет базовые узлы затенения и методы композиции для факторизации затенения поверхности объекта. Такое представление позволяет начинающим пользователям, не знакомым с физическим процессом затенения, редактировать затенение объектов эффективным и интуитивно понятным способом. Основная сложность при выводе дерева затенения заключается в том, что задача вывода включает как дискретную структуру дерева, так и непрерывные параметры узлов. Мы предлагаем гибридный подход для решения этой проблемы. Мы вводим авторегрессионную модель вывода для генерации грубой оценки структуры дерева и параметров узлов, а затем уточняем выведенное дерево затенения с помощью алгоритма оптимизации. Мы проводим эксперименты на синтетических изображениях, захваченных данных об отражательной способности, реальных изображениях и нереалистичных векторных рисунках, что позволяет использовать результаты в таких приложениях, как редактирование материалов, векторизация затенения и переосвещение. Сайт проекта: https://chen-geng.com/inv-shade-trees.