ChatPaper.aiChatPaper.ai
Главная

arXiv

HuggingFace

ЦеныАккаунтРабочее пространство

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

1

LlamaFactory: Объединенная эффективная настройка Fein-Tuning более 100 языковых моделей
LlamaFactory: Unified Efficient Fine-Tuning of 100+ Language Models

Mar 20
ByYaowei Zheng, Richong Zhang, Junhao Zhang, Yanhan Ye, Zheyan Luo
156
6

Эффективное донастройка является важным для адаптации крупных языковых моделей (КЯМ) к последующим задачам. Однако для реализации этих методов на различных моделях требуются значительные усилия. Мы представляем LlamaFactory, унифицированную платформу, которая интегрирует набор передовых методов эффективного обучения. Она позволяет пользователям гибко настраивать донастройку более чем 100 КЯМ без необходимости программирования с помощью встроенного веб-интерфейса LlamaBoard. Мы эмпирически подтверждаем эффективность и эффективность нашей платформы на задачах языкового моделирования и генерации текста. Она была выпущена по адресу https://github.com/hiyouga/LLaMA-Factory и уже получила более 13 000 звездочек и 1 600 форков.

2

Mora: Обеспечение генерации видео общего назначения с помощью многоагентной структуры.
Mora: Enabling Generalist Video Generation via A Multi-Agent Framework

Mar 20
ByZhengqing Yuan, Ruoxi Chen, Zhaoxu Li, Haolong Jia, Lifang He, Chi Wang, Lichao Sun
77
7

Сора - первая крупномасштабная обобщенная модель генерации видео, которая привлекла значительное внимание общества. С момента ее запуска OpenAI в феврале 2024 года ни одна другая модель генерации видео не смогла повторить производительность {Sora} или ее способность поддерживать широкий спектр задач по генерации видео. Кроме того, опубликовано всего несколько моделей генерации видео, причем большинство из них закрыты для общего доступа. Для заполнения этого пробела в данной статье предлагается новая многоагентная структура Mora, которая включает несколько передовых визуальных искусственных интеллектуальных агентов для воспроизведения обобщенной генерации видео, продемонстрированной Sora. В частности, Mora может использовать несколько визуальных агентов и успешно имитировать возможности генерации видео Sora в различных задачах, таких как (1) генерация видео по тексту, (2) генерация видео изображений с условием текста, (3) расширение созданных видео, (4) редактирование видео по видео, (5) соединение видео и (6) моделирование цифровых миров. Наши обширные экспериментальные результаты показывают, что Mora достигает производительности, близкой к Sora в различных задачах. Однако существует очевидный разрыв в производительности между нашей работой и Sora, когда оценивается в целом. В заключение, мы надеемся, что этот проект сможет указать будущее направление развития генерации видео через совместных искусственных интеллектуальных агентов.

3

Эволюционная оптимизация рецептов слияния моделей
Evolutionary Optimization of Model Merging Recipes

Mar 19
ByTakuya Akiba, Makoto Shing, Yujin Tang, Qi Sun, David Ha
58
4

Мы представляем новое применение эволюционных алгоритмов для автоматизации создания мощных базовых моделей. В то время как объединение моделей стало перспективным подходом для разработки LLM из-за его экономической эффективности, в настоящее время он зависит от человеческой интуиции и предметных знаний, что ограничивает его потенциал. Здесь мы предлагаем эволюционный подход, который преодолевает это ограничение, автоматически находя эффективные комбинации разнообразных моделей с открытым исходным кодом, используя их коллективный интеллект без необходимости обширных дополнительных данных для обучения или вычислений. Наш подход работает как в пространстве параметров, так и в пространстве потока данных, позволяя оптимизировать не только веса отдельных моделей. Этот подход даже облегчает объединение моделей между различными областями, создавая модели, такие как японский LLM с математическими способностями. Удивительно, наш японский математический LLM достиг ведущих показателей на различных установленных японских бенчмарках LLM, даже превзойдя модели с значительно большим количеством параметров, несмотря на то, что он не был явно обучен для таких задач. Более того, культурно осознанный японский VLM, созданный с помощью нашего подхода, демонстрирует свою эффективность в описании контента, специфичного для японской культуры, превосходя предыдущие японские VLM. Эта работа не только вносит новые передовые модели в сообщество с открытым исходным кодом, но также представляет новую парадигму для автоматизированного составления моделей, открывая путь к исследованию альтернативных эффективных подходов к разработке базовых моделей.

4

SceneScript: Восстановление сцен с помощью авторегрессивной структурированной языковой модели
SceneScript: Reconstructing Scenes With An Autoregressive Structured Language Model

Mar 19
ByArmen Avetisyan, Christopher Xie, Henry Howard-Jenkins, Tsun-Yi Yang, Samir Aroudj, Suvam Patra, Fuyang Zhang, Duncan Frost, Luke Holland, Campbell Orme, Jakob Engel, Edward Miller, Richard Newcombe, Vasileios Balntas
31
2

Мы представляем метод SceneScript, который непосредственно создает полные модели сцен в виде последовательности структурированных языковых команд с использованием авторегрессивного подхода на основе токенов. Наш предложенный способ представления сцены вдохновлен недавними успехами в области трансформеров и языковых моделей с большим количеством параметров и отличается от более традиционных методов, которые обычно описывают сцены как сетки, воксельные сетки, облака точек или поля яркости. Наш метод выводит набор структурированных языковых команд напрямую из закодированных визуальных данных с использованием архитектуры кодировщика-декодировщика языка сцены. Для обучения SceneScript мы создаем и выпускаем крупномасштабный синтетический набор данных под названием Aria Synthetic Environments, состоящий из 100 тыс. качественных внутренних сцен, с фотореалистичными и земляными аннотированными рендерами эгоцентрических прогулок по сцене. Наш метод дает результаты на уровне передовых технологий в оценке архитектурной компоновки и конкурентоспособные результаты в обнаружении 3D объектов. Наконец, мы исследуем преимущество для SceneScript, которое заключается в способности легко адаптироваться к новым командам с помощью простых дополнений к структурированному языку, что мы иллюстрируем для задач, таких как грубая реконструкция частей 3D объектов.

5

Когда нам не нужны более крупные модели компьютерного зрения?
When Do We Not Need Larger Vision Models?

Mar 19
ByBaifeng Shi, Ziyang Wu, Maolin Mao, Xin Wang, Trevor Darrell
26
2

Масштабирование размера моделей компьютерного зрения стало де-факто стандартом для получения более мощных визуальных представлений. В данной работе обсуждается момент, когда более крупные модели компьютерного зрения становятся излишними. Во-первых, мы продемонстрируем мощь Масштабирования на Масштабах (S^2), при котором предварительно обученная и замороженная более маленькая модель компьютерного зрения (например, ViT-B или ViT-L), запущенная на нескольких масштабах изображений, может превзойти более крупные модели (например, ViT-H или ViT-G) в задачах классификации, сегментации, оценки глубины, бенчмарках Мультимодальных LLM (MLLM) и робототехнике. Следует отметить, что S^2 достигает современной производительности в детальном понимании MLLM на бенчмарке V*, превосходя модели, такие как GPT-4V. Мы исследуем условия, при которых S^2 является предпочтительным подходом к масштабированию по сравнению с масштабированием по размеру модели. Хотя более крупные модели имеют преимущество лучшей обобщенности на сложных примерах, мы показываем, что характеристики более крупных моделей компьютерного зрения могут быть хорошо аппроксимированы характеристиками многомасштабных более маленьких моделей. Это подтверждает, что большинство, если не все, представления, полученные текущими крупными предварительно обученными моделями, также могут быть получены из многомасштабных более маленьких моделей. Наши результаты показывают, что многомасштабная более маленькая модель имеет сравнимую емкость обучения с более крупной моделью, и предварительное обучение более маленьких моделей с использованием S^2 может соответствовать или даже превзойти преимущество более крупных моделей. Мы выпустили пакет на Python, который может применять S^2 к любой модели компьютерного зрения одной строкой кода: https://github.com/bfshi/scaling_on_scales.

6

IDAdapter: Обучение смешанных признаков для персонализации моделей текст-к-изображению без настройки.
IDAdapter: Learning Mixed Features for Tuning-Free Personalization of Text-to-Image Models

Mar 20
BySiying Cui, Jiankang Deng, Jia Guo, Xiang An, Yongle Zhao, Xinyu Wei, Ziyong Feng
23
1

Использование стабильной диффузии для создания персонализированных портретов стало мощным и значительным инструментом, позволяющим пользователям создавать высококачественные индивидуальные аватары персонажей на основе конкретных запросов. Однако существующие методы персонализации сталкиваются с проблемами, включая настройку во время тестирования, необходимость использования нескольких входных изображений, низкое сохранение идентичности и ограниченное разнообразие в созданных результатах. Для преодоления этих препятствий мы представляем IDAdapter, подход без настройки, который улучшает разнообразие и сохранение идентичности при создании персонализированных изображений из одного изображения лица. IDAdapter интегрирует персонализированное понятие в процесс генерации через комбинацию текстовых и визуальных инъекций и потерю идентичности лица. Во время фазы обучения мы включаем смешанные характеристики из нескольких эталонных изображений конкретной личности для обогащения деталей, связанных с идентичностью, направляя модель на генерацию изображений с более разнообразными стилями, выражениями и углами по сравнению с предыдущими работами. Обширные оценки демонстрируют эффективность нашего метода, достигая как разнообразия, так и сохранения идентичности в созданных изображениях.

7

RewardBench: Оценка моделей вознаграждения для языкового моделирования
RewardBench: Evaluating Reward Models for Language Modeling

Mar 20
ByNathan Lambert, Valentina Pyatkin, Jacob Morrison, LJ Miranda, Bill Yuchen Lin, Khyathi Chandu, Nouha Dziri, Sachin Kumar, Tom Zick, Yejin Choi, Noah A. Smith, Hannaneh Hajishirzi
22
2

Модели вознаграждения (RMs) находятся в центре успешного RLHF для выравнивания предварительно обученных моделей с предпочтениями людей, однако относительно мало исследований, сосредоточенных на оценке этих моделей вознаграждения. Оценка моделей вознаграждения представляет собой возможность понять непрозрачные технологии, используемые для выравнивания языковых моделей, и какие ценности в них закодированы. До настоящего времени существует очень мало описаний возможностей, методов обучения или открытых моделей вознаграждения. В данной статье мы представляем RewardBench, набор данных и кодовую базу для оценки, чтобы улучшить научное понимание моделей вознаграждения. Набор данных RewardBench представляет собой коллекцию троек prompt-win-lose, охватывающих чат, рассуждения и безопасность, для оценки производительности моделей вознаграждения на сложных, структурированных и вне распределения запросах. Мы создали специальные сравнительные наборы данных для RMs, у которых есть тонкие, но проверяемые причины (например, ошибки, неверные факты), почему один ответ должен быть предпочтен другому. На доске лидеров RewardBench мы оцениваем модели вознаграждения, обученные различными методами, такими как прямое обучение MLE классификаторов и неявное моделирование вознаграждения оптимизацией прямых предпочтений (DPO), на различных наборах данных. Мы представляем множество результатов о склонности к отказам, ограничениях рассуждений и недостатках в следовании инструкциям различных моделей вознаграждения для лучшего понимания процесса RLHF.

8

HyperLLaVA: Динамическая настройка визуальных и языковых экспертов для мультимодальных крупномасштабных языковых моделей
HyperLLaVA: Dynamic Visual and Language Expert Tuning for Multimodal Large Language Models

Mar 20
ByWenqiao Zhang, Tianwei Lin, Jiang Liu, Fangxun Shu, Haoyuan Li, Lei Zhang, He Wanggui, Hao Zhou, Zheqi Lv, Hao Jiang, Juncheng Li, Siliang Tang, Yueting Zhuang
19
1

Недавние достижения указывают на то, что увеличение масштаба Мультимодальных Больших Языковых Моделей (MLLMs) эффективно повышает производительность на последующих мультимодальных задачах. Преобладающая парадигма MLLM, например, LLaVA, преобразует визуальные признаки в токены, похожие на текст, с помощью статического маппера визуального языка, тем самым позволяя статическим LLMs развивать способность понимать визуальную информацию через настройку визуальных инструкций. Хотя это обнадеживающе, стратегия статической настройки, которая подразумевает общие параметры, может ограничивать производительность на различных последующих мультимодальных задачах. Учитывая это, мы представляем HyperLLaVA, который включает адаптивную настройку проектора и параметров LLM, в сочетании с динамическим визуальным экспертом и языковым экспертом соответственно. Эти эксперты происходят из HyperNetworks, которые генерируют адаптивные сдвиги параметров через визуальное и языковое руководство, обеспечивая динамическое моделирование проектора и LLM на двухэтапном обучении. Наши эксперименты показывают, что наше решение значительно превосходит LLaVA на существующих бенчмарках MLLM, включая MME, MMBench, SEED-Bench и LLaVA-Bench. Наш проект доступен по ссылке https://github.com/DCDmllm/HyperLLaVA.

9

RadSplat: Радиационное поле, основанное на гауссовом сглаживании для надежного визуализации в реальном времени со скоростью более 900 кадров в секунду.
RadSplat: Radiance Field-Informed Gaussian Splatting for Robust Real-Time Rendering with 900+ FPS

Mar 20
ByMichael Niemeyer, Fabian Manhardt, Marie-Julie Rakotosaona, Michael Oechsle, Daniel Duckworth, Rama Gosula, Keisuke Tateno, John Bates, Dominik Kaeser, Federico Tombari
18
1

Недавние достижения в синтезе изображений и реальном времени рендеринга позволили достичь фотореалистичного качества при впечатляющей скорости рендеринга. В то время как методы на основе поля радиации достигают передового качества в сложных сценариях, таких как съемка в естественных условиях и масштабные сцены, они часто страдают от чрезмерно высоких вычислительных требований, связанных с объемным рендерингом. Методы на основе гауссовского сплетения, с другой стороны, используют растеризацию и естественным образом достигают реального времени рендеринга, но страдают от хрупких эвристик оптимизации, которые показывают неудовлетворительные результаты на более сложных сценах. В данной работе мы представляем RadSplat, легкий метод для надежного реального времени рендеринга сложных сцен. Наши основные вклады тройные. Во-первых, мы используем поля радиации в качестве априорного и сигнала надзора для оптимизации сцен, представленных точками, что приводит к улучшению качества и более надежной оптимизации. Затем мы разрабатываем новую технику обрезки, снижающую общее количество точек, сохраняя при этом высокое качество, что приводит к более маленьким и компактным представлениям сцен с более быстрыми скоростями вывода. Наконец, мы предлагаем новый подход к фильтрации во время тестирования, который дополнительно ускоряет рендеринг и позволяет масштабироваться до более крупных сцен размером с дом. Мы обнаружили, что наш метод позволяет достичь передового синтеза сложных съемок со скоростью более 900 кадров в секунду.

10

ZigMa: Модель диффузии Зигзаг Мамба
ZigMa: Zigzag Mamba Diffusion Model

Mar 20
ByVincent Tao Hu, Stefan Andreas Baumann, Ming Gui, Olga Grebenkova, Pingchuan Ma, Johannes Fischer, Bjorn Ommer
18
2

Модель диффузии долгое время сталкивалась с проблемами масштабируемости и квадратичной сложности, особенно в структурах на основе трансформеров. В данном исследовании мы стремимся использовать возможность моделирования длинных последовательностей в модели пространства состояний под названием Mamba для расширения ее применимости к генерации визуальных данных. Во-первых, мы выявляем критическое упущение в большинстве существующих методов обработки изображений на основе Mamba, а именно отсутствие учета пространственной непрерывности в схеме сканирования Mamba. Во-вторых, опираясь на это открытие, мы представляем простой, готовый к использованию метод без параметров под названием Zigzag Mamba, который превосходит базовые методы на основе Mamba и демонстрирует улучшенную скорость и использование памяти по сравнению с базовыми методами на основе трансформеров. Наконец, мы интегрируем Zigzag Mamba с каркасом стохастического интерполянта для изучения масштабируемости модели на крупномасштабных визуальных наборах данных, таких как FacesHQ 1024 на 1024 и UCF101, MultiModal-CelebA-HQ и MS COCO 256 на 256. Код будет опубликован на https://taohu.me/zigma/

11

DepthFM: Быстрая монокулярная оценка глубины с сопоставлением потоков
DepthFM: Fast Monocular Depth Estimation with Flow Matching

Mar 20
ByMing Gui, Johannes S. Fischer, Ulrich Prestel, Pingchuan Ma, Dmytro Kotovenko, Olga Grebenkova, Stefan Andreas Baumann, Vincent Tao Hu, Björn Ommer
17
1

Монокулярная оценка глубины крайне важна для множества последующих задач зрения и приложений. Существующие дискриминативные подходы к этой проблеме ограничены из-за размытых артефактов, в то время как передовые генеративные методы страдают от медленной выборки из-за их природы SDE. Вместо начала с шума, мы ищем прямое отображение из входного изображения в карту глубины. Мы замечаем, что это можно эффективно сформулировать с использованием сопоставления потоков, поскольку их прямые траектории через пространство решений обеспечивают эффективность и высокое качество. Наше исследование демонстрирует, что предварительно обученная модель диффузии изображения может служить адекватным априорным знанием для модели оценки глубины сопоставления потоков, позволяя эффективное обучение только на синтетических данных для обобщения на реальные изображения. Мы обнаружили, что дополнительная потеря поверхностных нормалей дополнительно улучшает оценки глубины. Благодаря генеративной природе нашего подхода, наша модель надежно предсказывает уверенность в своих оценках глубины. На стандартных бенчмарках сложных естественных сцен наш легкий подход демонстрирует передовую производительность при выгодных низких вычислительных затратах, несмотря на то, что обучен только на небольших синтетических данных.

12

Магическая настройка: оптимизация редактирования фотографий путем анализа динамических видеороликов
Magic Fixup: Streamlining Photo Editing by Watching Dynamic Videos

Mar 19
ByHadi Alzayer, Zhihao Xia, Xuaner Zhang, Eli Shechtman, Jia-Bin Huang, Michael Gharbi
15
1

Мы предлагаем генеративную модель, которая, имея грубо отредактированное изображение, синтезирует фотореалистичный результат, следуя предписанному макету. Наш метод передает мелкие детали из оригинального изображения и сохраняет идентичность его частей. Тем не менее, он адаптирует его к освещению и контексту, определенным новым макетом. Нашим ключевым открытием является то, что видео - мощный источник наблюдений для этой задачи: объекты и движения камеры предоставляют множество наблюдений о том, как меняется мир при изменении точки зрения, освещения и физических взаимодействий. Мы создаем набор данных изображений, в котором каждый образец представляет собой пару исходного и целевого кадров, извлеченных из одного и того же видео в случайно выбранные временные интервалы. Мы искажаем исходный кадр в сторону цели, используя две модели движения, имитирующие ожидаемые правки пользователя во время тестирования. Мы обучаем нашу модель переводить искаженное изображение в истину, начиная с предварительно обученной модели диффузии. Наша модель явно обеспечивает передачу мелких деталей из исходного кадра в созданное изображение, тесно следуя указанному пользователем макету. Мы показываем, что, используя простые сегментации и грубые 2D манипуляции, мы можем синтезировать фотореалистичное редактирование, верное вводу пользователя, решая при этом второстепенные эффекты, такие как гармонизация освещения и физических взаимодействий между отредактированными объектами.

13

Обратное обучение для излечения проклятия обращения
Reverse Training to Nurse the Reversal Curse

Mar 20
ByOlga Golovneva, Zeyuan Allen-Zhu, Jason Weston, Sainbayar Sukhbaatar
13
1

Большие языковые модели (LLM) имеют удивительный недостаток: когда они обучаются на фразе "A имеет признак B", они не обобщают это на фразу "B - признак A", что называется Проклятием Реверсии. Даже при обучении с триллионами токенов эта проблема все равно возникает из-за закона Ципфа - поэтому даже если мы обучим модель на всем интернете. В данной работе предлагается альтернативная схема обучения, называемая обратным обучением, при которой все слова используются дважды, удваивая количество доступных токенов. LLM обучается как в прямом, так и в обратном направлении путем разворачивания строк обучения, сохраняя (то есть не разворачивая) выбранные подстроки, такие как сущности. Мы показываем, что модели, обученные обратным образом с учетом данных, обеспечивают более высокую производительность по сравнению со стандартными моделями на стандартных задачах, а модели, обученные обратным образом с учетом вычислений, обеспечивают значительно более высокую производительность на задачах реверсии, что помогает решить проблему Проклятия Реверсии.

14

Be-Your-Outpainter: Овладение видео-аутпейнтингом через адаптацию, специфичную для ввода
Be-Your-Outpainter: Mastering Video Outpainting through Input-Specific Adaptation

Mar 20
ByFu-Yun Wang, Xiaoshi Wu, Zhaoyang Huang, Xiaoyu Shi, Dazhong Shen, Guanglu Song, Yu Liu, Hongsheng Li
11
2

Видео-реставрация представляет собой сложную задачу, направленную на генерацию видеоконтента за пределами области видимости входного видео с сохранением межкадровой и внутрикадровой согласованности. Существующие методы либо не обеспечивают достаточного качества генерации, либо гибкости. Мы представляем MOTIA (Mastering Video Outpainting Through Input-Specific Adaptation) - диффузионную платформу, которая использует как внутренние специфические для данных шаблоны исходного видео, так и генеративный приоритет изображений/видео для эффективной реставрации. MOTIA состоит из двух основных фаз: адаптации к конкретному входу и осознанной шаблонной реставрации. Фаза адаптации к конкретному входу включает проведение эффективного и эффективного обучения псевдо-реставрации на односнимковом исходном видео. Этот процесс побуждает модель идентифицировать и изучать шаблоны в исходном видео, а также сокращает разрыв между стандартными генеративными процессами и реставрацией. Следующая фаза, осознанная шаблонная реставрация, посвящена обобщению этих выученных шаблонов для генерации результатов реставрации. Предлагаются дополнительные стратегии, включая пространственно осознанную вставку и передачу шума, для более эффективного использования генеративного приоритета модели диффузии и выученных видеошаблонов из исходных видео. Обширные оценки подчеркивают превосходство MOTIA, превосходящего существующие передовые методы на широко признанных бенчмарках. Заметим, что эти достижения были получены без необходимости проведения обширной, специфичной для задачи настройки.

15

К направлению интерпретации трехмерных молекул в текстовых моделях.
Towards 3D Molecule-Text Interpretation in Language Models

Jan 25
BySihang Li, Zhiyuan Liu, Yanchen Luo, Xiang Wang, Xiangnan He, Kenji Kawaguchi, Tat-Seng Chua, Qi Tian
9
1

Языковые модели (LMs) значительно повлияли на различные области. Однако их врожденное ограничение в понимании 3D молекулярных структур значительно сдерживает их потенциал в биомолекулярной области. Для преодоления этого разрыва мы сосредотачиваемся на интерпретации 3D молекулы-текста и предлагаем 3D-MoLM: 3D-Молекулярное Языковое Моделирование. Конкретно, 3D-MoLM позволяет LM интерпретировать и анализировать 3D молекулы, оснащая LM 3D молекулярным кодировщиком. Эта интеграция достигается с помощью 3D молекулярного текстового проектора, соединяющего пространство представления 3D молекулярного кодировщика и пространство ввода LM. Более того, для улучшения способности 3D-MoLM к кросс-модальному пониманию молекул и следованию инструкциям, мы тщательно подготовили набор данных для настройки инструкций, сосредоточенный на 3D молекулах - 3D-MoIT. Через выравнивание 3D молекула-текст и настройку инструкций, сосредоточенных на 3D молекулах, 3D-MoLM устанавливает интеграцию 3D молекулярного кодировщика и LM. Он значительно превосходит существующие базовые уровни на последующих задачах, включая поиск молекул-текста, подписывание молекул и более сложные задачи открытого текстового вопросно-ответного тестирования молекул, особенно с учетом 3D-зависимых свойств.

16

VSTAR: Генеративное временное моделирование для синтеза длинных динамических видео
VSTAR: Generative Temporal Nursing for Longer Dynamic Video Synthesis

Mar 20
ByYumeng Li, William Beluch, Margret Keuper, Dan Zhang, Anna Khoreva
9
3

Несмотря на огромные успехи в области синтеза текста в видео (T2V), модели диффузии T2V с открытым исходным кодом испытывают трудности в создании более длинных видеороликов с динамически изменяющимся и развивающимся контентом. Они часто синтезируют псевдо-статические видео, игнорируя необходимые визуальные изменения со временем, предполагаемые в текстовой подсказке. В то же время масштабирование этих моделей для возможности создания более длинного и динамичного видеосинтеза часто остается вычислительно неразрешимым. Для решения этой проблемы мы представляем концепцию Генеративного Временного Ухода (GTN), где мы стремимся изменять генеративный процесс на лету во время вывода, чтобы улучшить контроль над временной динамикой и обеспечить создание более длинных видеороликов. Мы предлагаем метод для GTN, названный VSTAR, который состоит из двух ключевых компонентов: 1) Подсказка Синопсиса Видео (VSP) - автоматическое создание синопсиса видео на основе оригинальной одиночной подсказки с использованием LLMs, который обеспечивает точное текстовое руководство к различным визуальным состояниям более длинных видеороликов, и 2) Регуляризация Временного Внимания (TAR) - техника регуляризации для уточнения временных блоков внимания предварительно обученных моделей диффузии T2V, которая обеспечивает контроль над динамикой видео. Мы экспериментально демонстрируем превосходство предложенного подхода в создании более длинных, визуально привлекательных видеороликов по сравнению с существующими моделями T2V с открытым исходным кодом. Мы также анализируем карты временного внимания, реализованные с использованием и без использования VSTAR, демонстрируя важность применения нашего метода для уменьшения игнорирования желаемых визуальных изменений со временем.

17

Compress3D: сжатое латентное пространство для генерации 3D изображений по одному изображению
Compress3D: a Compressed Latent Space for 3D Generation from a Single Image

Mar 20
ByBowen Zhang, Tianyu Yang, Yu Li, Lei Zhang, Xi Zhao
8
2

Генерация трехмерных объектов претерпела значительные усовершенствования, однако эффективное создание высококачественных трехмерных ресурсов из одного изображения остается сложной задачей. В данной статье мы представляем трипланарный автоэнкодер, который кодирует трехмерные модели в компактное трипланарное скрытое пространство для эффективного сжатия как геометрической, так и текстурной информации трехмерных объектов. В рамках автоэнкодера мы вводим механизм кросс-внимания, осведомленный о трехмерном пространстве, который использует низкоразрешенные скрытые представления для запроса признаков из объема признаков трехмерных объектов высокого разрешения, тем самым улучшая емкость представления скрытого пространства. Затем мы обучаем модель диффузии на этом улучшенном скрытом пространстве. В отличие от полного использования встраивания изображения для генерации трехмерных объектов, наш метод предлагает одновременное использование как встраивания изображения, так и встраивания формы в качестве условий. В частности, встраивание формы оценивается с помощью модели диффузии, обусловленной встраиванием изображения. Через обширные эксперименты мы демонстрируем, что наш метод превосходит современные алгоритмы, достигая высокой производительности при этом требуя меньше обучающих данных и времени. Наш подход позволяет генерировать высококачественные трехмерные объекты всего за 7 секунд на одном графическом процессоре A100.

18

Оценка моделей фронтира для опасных возможностей
Evaluating Frontier Models for Dangerous Capabilities

Mar 20
ByMary Phuong, Matthew Aitchison, Elliot Catt, Sarah Cogan, Alexandre Kaskasoli, Victoria Krakovna, David Lindner, Matthew Rahtz, Yannis Assael, Sarah Hodkinson, Heidi Howard, Tom Lieberum, Ramana Kumar, Maria Abi Raad, Albert Webson, Lewis Ho, Sharon Lin, Sebastian Farquhar, Marcus Hutter, Gregoire Deletang, Anian Ruoss, Seliem El-Sayed, Sasha Brown, Anca Dragan, Rohin Shah, Allan Dafoe, Toby Shevlane
7
1

Для понимания рисков, которые несет новая система искусственного интеллекта, необходимо понять, что она может и не может делать. На основе предыдущих работ мы представляем программу оценки новых "опасных возможностей" и проводим их пилотное тестирование на моделях Gemini 1.0. Наши оценки охватывают четыре области: (1) убеждение и обман; (2) кибербезопасность; (3) самораспространение; и (4) саморассуждение. Мы не обнаружили убедительных опасных возможностей в оцененных моделях, но выявили ранние предупреждающие сигналы. Наша цель - способствовать развитию строгой науки оценки опасных возможностей в подготовке к будущим моделям.

Mar 20
Mar 21
Mar 22