Ежедневно отобранные исследовательские статьи по ИИ с переводами
Трансформеры недавно зарекомендовали себя как мощный инструмент для обучения визуальных представлений. В данной работе мы выявляем и характеризуем артефакты в картах признаков как контролируемых, так и самоконтролируемых сетей ViT. Эти артефакты соответствуют токенам с высокой нормой, появляющимся во время вывода преимущественно в малозначимых фоновых областях изображений, которые перепрофилируются для внутренних вычислений. Мы предлагаем простое, но эффективное решение, основанное на добавлении дополнительных токенов во входную последовательность Vision Transformer для выполнения этой роли. Мы показываем, что это решение полностью устраняет проблему как для контролируемых, так и для самоконтролируемых моделей, устанавливает новый эталон для самоконтролируемых визуальных моделей в задачах плотного визуального прогнозирования, позволяет методам обнаружения объектов работать с более крупными моделями и, что наиболее важно, приводит к более гладким картам признаков и картам внимания для последующей визуальной обработки.
Мы представляем Any-Modality Augmented Language Model (AnyMAL) — унифицированную модель, которая анализирует разнообразные сигналы входных модальностей (такие как текст, изображения, видео, аудио и данные сенсоров движения IMU) и генерирует текстовые ответы. AnyMAL наследует мощные способности к текстовому анализу современных языковых моделей, включая LLaMA-2 (70B), и преобразует сигналы, специфичные для каждой модальности, в общее текстовое пространство с помощью предварительно обученного модуля выравнивания. Для дальнейшего усиления возможностей мультимодальной языковой модели мы проводим тонкую настройку модели с использованием мультимодального набора инструкций, собранного вручную и охватывающего разнообразные темы и задачи, выходящие за рамки простых вопросов и ответов. Мы проводим всесторонний эмпирический анализ, включающий как человеческую, так и автоматическую оценку, и демонстрируем передовые результаты на различных мультимодальных задачах.
Последние достижения в создании 3D-контента в основном используют оптимизационные методы генерации через сэмплирование с использованием оценки (SDS). Хотя эти методы демонстрируют многообещающие результаты, они часто страдают от медленной оптимизации для каждого отдельного образца, что ограничивает их практическое применение. В данной статье мы предлагаем DreamGaussian — новый фреймворк для генерации 3D-контента, который одновременно обеспечивает эффективность и высокое качество. Наше ключевое наблюдение заключается в разработке генеративной модели 3D-гауссовых сплатов с сопутствующим извлечением мешей и уточнением текстур в UV-пространстве. В отличие от обрезки по занятости, используемой в полях нейронного излучения (NeRF), мы показываем, что прогрессивное уплотнение 3D-гауссовых функций сходится значительно быстрее для задач генерации 3D. Для дальнейшего улучшения качества текстур и упрощения последующих применений мы представляем эффективный алгоритм преобразования 3D-гауссовых функций в текстурированные меши и применяем этап тонкой настройки для уточнения деталей. Многочисленные эксперименты демонстрируют превосходную эффективность и конкурентоспособное качество генерации нашего подхода. В частности, DreamGaussian создает высококачественные текстурированные меши всего за 2 минуты из изображения с одного ракурса, обеспечивая ускорение примерно в 10 раз по сравнению с существующими методами.
Крупные языковые модели (LLM) произвели революцию в области искусственного интеллекта, позволив решать задачи обработки естественного языка, которые ранее считались исключительной прерогативой человека. В данной работе мы представляем Qwen — первую модель из нашей серии крупных языковых моделей. Qwen представляет собой комплексную серию языковых моделей, включающую различные модели с разным количеством параметров. В неё входят Qwen — базовые предобученные языковые модели, и Qwen-Chat — чат-модели, дообученные с использованием методов согласования с человеческими предпочтениями. Базовые языковые модели демонстрируют стабильно высокую производительность в широком спектре задач, а чат-модели, особенно те, которые обучены с использованием обучения с подкреплением на основе обратной связи от человека (RLHF), показывают конкурентоспособные результаты. Чат-модели обладают продвинутыми возможностями использования инструментов и планирования для создания агентских приложений, демонстрируя впечатляющую производительность даже в сравнении с более крупными моделями на сложных задачах, таких как использование интерпретатора кода. Кроме того, мы разработали специализированные модели для работы с кодом — Code-Qwen и Code-Qwen-Chat, а также модели, ориентированные на математику — Math-Qwen-Chat, которые построены на основе базовых языковых моделей. Эти модели демонстрируют значительно улучшенную производительность по сравнению с открытыми моделями, лишь немного уступая проприетарным решениям.
В данной статье мы представляем метод генерации 3D-объектов на основе текстовых описаний с использованием гауссовых сплатов (GSGEN), который предлагает новый подход для создания высококачественных 3D-моделей. Предыдущие методы страдают от неточной геометрии и ограниченной детализации из-за отсутствия 3D-приоритета и подходящего представления. Мы используем 3D Gaussian Splatting — современное представление, которое позволяет устранить существующие недостатки благодаря своей явной природе, обеспечивающей включение 3D-приоритета. В частности, наш метод применяет прогрессивную стратегию оптимизации, включающую этап оптимизации геометрии и этап уточнения внешнего вида. На этапе оптимизации геометрии создается грубое представление с учетом 3D-геометрического приоритета вместе с обычной 2D SDS-функцией потерь, что обеспечивает разумную и 3D-согласованную грубую форму. Затем полученные гауссовы распределения подвергаются итеративному уточнению для обогащения деталей. На этом этапе мы увеличиваем количество гауссовых распределений за счет уплотнения на основе компактности, чтобы улучшить непрерывность и повысить детализацию. Благодаря этим решениям наш подход позволяет создавать 3D-контент с тонкими деталями и более точной геометрией. Обширные оценки демонстрируют эффективность нашего метода, особенно в захвате высокочастотных компонентов. Видео результаты доступны по адресу https://gsgen3d.github.io. Наш код можно найти на https://github.com/gsgen3d/gsgen.
Мы представляем серию языковых моделей с длинным контекстом (LLM), поддерживающих эффективные окна контекста до 32 768 токенов. Наша серия моделей создана путем непрерывного предобучения на основе Llama 2 с использованием более длинных обучающих последовательностей и набора данных, в котором длинные тексты были усилены. Мы проводим всестороннюю оценку на задачах языкового моделирования, синтетических задачах исследования контекста и широком спектре исследовательских бенчмарков. На исследовательских бенчмарках наши модели демонстрируют стабильные улучшения на большинстве стандартных задач и значительные улучшения на задачах с длинным контекстом по сравнению с Llama 2. Примечательно, что с помощью экономически эффективной процедуры настройки инструкций, не требующей аннотированных человеком длинных инструкций, вариант модели на 70B уже превосходит общую производительность gpt-3.5-turbo-16k на наборе задач с длинным контекстом. Наряду с этими результатами мы предоставляем детальный анализ отдельных компонентов нашего метода. Мы углубляемся в изучение позиционных кодировок Llama и обсуждаем их ограничения в моделировании длинных зависимостей. Мы также исследуем влияние различных проектных решений в процессе предобучения, включая состав данных и стратегию обучения с последовательностями разной длины. Наши эксперименты с исключением компонентов показывают, что наличие большого количества длинных текстов в наборе данных для предобучения не является ключевым фактором для достижения высокой производительности, и мы эмпирически подтверждаем, что непрерывное предобучение с длинным контекстом более эффективно и столь же результативно по сравнению с предобучением с нуля на длинных последовательностях.
Мы стремимся решить важную, но недостаточно изученную проблему в аниме-индустрии, а именно создание промежуточных кадров (интерполяцию) для черно-белых линейных рисунков. Интерполяция предполагает генерацию промежуточных кадров между двумя линейными рисунками и является трудоемким и дорогостоящим процессом, который может быть автоматизирован. Однако существующие методы интерполяции кадров, основанные на сопоставлении и деформации растровых изображений, непригодны для интерполяции линий и часто создают размытые артефакты, которые повреждают сложные структуры линий. Чтобы сохранить точность и детализацию линейных рисунков, мы предлагаем новый подход, AnimeInbet, который преобразует растровые линейные рисунки в графы из конечных точек и переосмысливает задачу интерполяции как проблему слияния графов с перепозиционированием вершин. Наш метод эффективно учитывает разреженность и уникальную структуру линейных рисунков, сохраняя детали в процессе интерполяции. Это стало возможным благодаря нашим новым модулям: геометрическому встраиванию вершин, Transformer для соответствия вершин, эффективному механизму перепозиционирования вершин и предсказателю видимости. Для обучения нашего метода мы представляем MixamoLine240, новый набор данных линейных рисунков с эталонной векторной графикой и метками соответствия. Наши эксперименты показывают, что AnimeInbet синтезирует высококачественные, четкие и полные промежуточные линейные рисунки, превосходя существующие методы как количественно, так и качественно, особенно в случаях с большими движениями. Данные и код доступны по адресу https://github.com/lisiyao21/AnimeInbet.
Контрастное предобучение на языково-визуальных данных (CLIP) — это подход, который продвинул исследования и приложения в области компьютерного зрения, став основой для современных систем распознавания и генеративных моделей. Мы считаем, что ключевым фактором успеха CLIP являются данные, а не архитектура модели или цель предобучения. Однако CLIP предоставляет очень ограниченную информацию о своих данных и процессе их сбора, что привело к появлению работ, направленных на воспроизведение данных CLIP с использованием его параметров модели. В данной работе мы стремимся раскрыть подход к курированию данных в CLIP и, стремясь сделать его открытым для сообщества, представляем Metadata-Curated Language-Image Pre-training (MetaCLIP). MetaCLIP берет исходный пул данных и метаданные (полученные из концепций CLIP) и формирует сбалансированное подмножество, соответствующее распределению метаданных. Наше экспериментальное исследование строго изолирует модель и настройки обучения, сосредотачиваясь исключительно на данных. MetaCLIP, примененный к CommonCrawl с 400 миллионами пар изображений и текстов, превосходит данные CLIP на нескольких стандартных бенчмарках. В задаче классификации ImageNet с нулевым обучением MetaCLIP достигает точности 70,8%, превосходя 68,3% у CLIP на моделях ViT-B. Масштабирование до 1 миллиарда данных при сохранении того же бюджета обучения позволяет достичь 72,4%. Наши наблюдения подтверждаются для различных размеров моделей, что демонстрирует ViT-H с точностью 80,5% без каких-либо дополнительных улучшений. Код для курирования и распределение обучающих данных по метаданным доступны по адресу https://github.com/facebookresearch/MetaCLIP.
Классификаторы, построенные на основе моделей, объединяющих зрение и язык, таких как CLIP, демонстрируют впечатляющую производительность в задачах классификации изображений в условиях нулевого обучения (zero-shot) на широком спектре задач. Предыдущие исследования изучали различные способы автоматического создания наборов дескрипторов для каждого класса на основе шаблонов запросов (prompt templates), начиная от шаблонов, разработанных вручную, до шаблонов, полученных с помощью крупных языковых моделей, и шаблонов, составленных из случайных слов и символов. В то же время, подход к созданию классификаторов в условиях нулевого обучения на основе закодированных дескрипторов классов оставался практически неизменным: классификация осуществляется в пользу класса, который максимизирует косинусное сходство между усреднёнными закодированными дескрипторами класса и закодированным изображением. Однако равное взвешивание всех дескрипторов класса может быть неоптимальным, если некоторые дескрипторы лучше соответствуют визуальным признакам на конкретном изображении, чем другие. В данной работе мы предлагаем AutoCLIP — метод автоматической настройки классификаторов в условиях нулевого обучения. AutoCLIP назначает каждому шаблону запроса веса, зависящие от изображения, которые выводятся из статистики сходства дескрипторов класса и изображения на этапе вывода. AutoCLIP полностью не требует обучения, имеет минимальные накладные расходы и может быть легко реализован в несколько строк кода. Мы показываем, что для широкого спектра моделей, объединяющих зрение и язык, наборов данных и шаблонов запросов AutoCLIP стабильно превосходит базовые подходы, достигая улучшения точности до 3 процентных пунктов.
Надежное прогнозирование будущего поведения участников дорожного движения является критически важным компонентом для безопасного планирования в автономных транспортных средствах. В данной работе мы представляем непрерывные траектории в виде последовательностей дискретных токенов движения и формулируем задачу прогнозирования движения множества агентов как задачу языкового моделирования в этой области. Наша модель, MotionLM, предлагает несколько преимуществ: во-первых, она не требует использования якорей или явной оптимизации скрытых переменных для изучения многомодальных распределений. Вместо этого мы используем стандартную задачу языкового моделирования, максимизируя среднюю логарифмическую вероятность токенов последовательности. Во-вторых, наш подход обходит эвристики постобработки взаимодействий, где генерация траекторий отдельных агентов выполняется до оценки их взаимодействия. Вместо этого MotionLM создает совместные распределения по будущим состояниям взаимодействующих агентов в рамках единого авторегрессионного процесса декодирования. Кроме того, последовательная факторизация модели позволяет выполнять условные развертки с временной причинностью. Предложенный подход устанавливает новый уровень наилучших результатов в задаче прогнозирования движения множества агентов на наборе данных Waymo Open Motion Dataset, занимая первое место в рейтинге интерактивного соревнования.
Недавние достижения в области генеративной визуализации привели к появлению моделей для расширения и восстановления изображений, которые способны создавать высококачественное и правдоподобное содержимое в неизвестных областях. Однако содержимое, которое эти модели "додумывают", по своей природе является недостоверным, поскольку модели не обладают достаточным контекстом о реальной сцене. В данной работе мы представляем RealFill — новый генеративный подход для завершения изображений, который заполняет отсутствующие области изображения тем содержимым, которое должно было бы там находиться. RealFill — это модель для восстановления изображений, которая персонализируется с использованием всего нескольких референсных изображений сцены. Эти референсные изображения не обязательно должны быть согласованы с целевым изображением и могут быть сделаны с совершенно разными ракурсами, условиями освещения, настройками диафрагмы или стилями изображений. После персонализации RealFill способен завершить целевое изображение визуально убедительным содержимым, которое соответствует оригинальной сцене. Мы оцениваем RealFill на новом эталонном тесте для завершения изображений, охватывающем разнообразные и сложные сценарии, и обнаруживаем, что он значительно превосходит существующие подходы. Дополнительные результаты можно найти на странице проекта: https://realfill.github.io.
С быстрым развитием крупных языковых моделей (LLM) возникает острая необходимость в комплексной системе оценки для анализа их возможностей и ограничений. Существующие рейтинги LLM часто ссылаются на результаты, представленные в других работах, без единообразных настроек и промптов, что может непреднамеренно способствовать выбору наиболее выгодных настроек и промптов для улучшения результатов. В данной работе мы представляем GPT-Fathom — открытую и воспроизводимую систему оценки LLM, построенную на основе OpenAI Evals. Мы систематически оцениваем более 10 ведущих LLM, а также устаревшие модели OpenAI, на более чем 20 тщательно отобранных бенчмарках, охватывающих 7 категорий возможностей, все в согласованных условиях. Наше ретроспективное исследование ранних моделей OpenAI предоставляет ценные инсайты в эволюционный путь от GPT-3 к GPT-4. В настоящее время сообщество стремится понять, как GPT-3 постепенно улучшается до GPT-4, включая технические детали, такие как улучшает ли добавление данных с кодом способность LLM к рассуждению, какие аспекты возможностей LLM могут быть улучшены с помощью SFT и RLHF, какова стоимость согласования и т.д. Наш анализ проливает свет на многие из этих вопросов, стремясь повысить прозрачность передовых LLM.
Мы рассматриваем задачу генерации разнообразных и реалистичных видео, управляемых естественными аудиосэмплами из широкого спектра семантических классов. Для этой задачи видео должны быть согласованы с входным аудио как глобально, так и временно: глобально — входное аудио семантически связано со всем выходным видео, а временно — каждый сегмент входного аудио связан с соответствующим сегментом этого видео. Мы используем существующую модель генерации видео, управляемую текстом, и предобученную модель кодирования аудио. Предложенный метод основан на легковесной адаптерной сети, которая обучается отображать аудио-представление в представление, ожидаемое моделью генерации видео из текста. Таким образом, он также позволяет генерировать видео, управляемые текстом, аудио и, впервые, насколько нам известно, одновременно текстом и аудио. Мы тщательно проверяем наш метод на трех наборах данных, демонстрирующих значительное семантическое разнообразие аудио-видео сэмплов, и дополнительно предлагаем новую метрику оценки (AV-Align) для оценки согласованности сгенерированных видео с входными аудиосэмплами. AV-Align основана на обнаружении и сравнении пиков энергии в обоих модальностях. В сравнении с современными подходами наш метод генерирует видео, которые лучше согласованы с входным звуком как по содержанию, так и по временной оси. Мы также показываем, что видео, созданные нашим методом, обладают более высокой визуальной качеством и большим разнообразием.
Для того чтобы роботы могли выполнять широкий спектр задач, им необходимо трехмерное представление мира, которое является семантически насыщенным, но при этом компактным и эффективным для восприятия и планирования, ориентированного на задачи. Современные подходы пытаются использовать признаки из крупных моделей обработки изображений и текста для кодирования семантики в трехмерных представлениях. Однако эти подходы, как правило, создают карты с векторами признаков для каждой точки, которые плохо масштабируются в больших средах и не содержат семантических пространственных отношений между объектами в окружении, что полезно для последующего планирования. В данной работе мы предлагаем ConceptGraphs — открытую словарную графовую структуру для представления трехмерных сцен. ConceptGraphs строится путем использования двумерных базовых моделей и объединения их выходных данных в трехмерное пространство через многовидовую ассоциацию. Полученные представления обобщаются на новые семантические классы без необходимости сбора больших трехмерных наборов данных или дообучения моделей. Мы демонстрируем полезность этого представления через ряд задач планирования, которые задаются с помощью абстрактных (языковых) подсказок и требуют сложного рассуждения над пространственными и семантическими концепциями. (Страница проекта: https://concept-graphs.github.io/ Объясняющее видео: https://youtu.be/mRhNkQwRYnc)
Успех языковых моделей, особенно архитектур на основе трансформаторов, распространился на другие области, что привело к появлению "научных языковых моделей", работающих с малыми молекулами, белками или полимерами. В химии языковые модели способствуют ускорению цикла открытия молекул, о чем свидетельствуют многообещающие недавние результаты в ранних этапах разработки лекарств. В данной статье мы рассматриваем роль языковых моделей в молекулярных открытиях, подчеркивая их сильные стороны в области de novo дизайна лекарств, предсказания свойств и химии реакций. Мы выделяем ценные открытые программные ресурсы, тем самым снижая порог входа в область научного языкового моделирования. Наконец, мы намечаем видение будущего молекулярного дизайна, сочетающего интерфейс чат-бота с доступом к инструментам вычислительной химии. Наш вклад служит ценным ресурсом для исследователей, химиков и энтузиастов ИИ, интересующихся тем, как языковые модели могут и будут использоваться для ускорения химических открытий.
В данной работе мы представляем CCEdit — универсальный фреймворк, разработанный для решения задач творческого и контролируемого редактирования видео. CCEdit охватывает широкий спектр пользовательских требований к редактированию и обеспечивает расширенный творческий контроль благодаря инновационному подходу, который разделяет структуру и внешний вид видео. Мы используем базовую архитектуру ControlNet для сохранения структурной целостности, одновременно интегрируя адаптируемые временные модули, совместимые с передовыми методами персонализации для генерации изображений из текста, такими как DreamBooth и LoRA. Кроме того, мы вводим редактирование видео с условием на основе референса, что позволяет пользователям осуществлять точный творческий контроль над редактированием видео через более управляемый процесс редактирования ключевых кадров. Наши обширные экспериментальные оценки подтверждают исключительную функциональность и возможности редактирования предложенного фреймворка CCEdit. Демонстрационное видео доступно по ссылке: https://www.youtube.com/watch?v=UQw4jq-igN4.