Ежедневно отобранные исследовательские статьи по ИИ с переводами
Для много-модальных базовых моделей критически важна способность к работе с длинным контекстом. Мы представляем LongVILA - комплексное решение для моделей видео-языкового восприятия с длинным контекстом, включающее систему, обучение модели и разработку набора данных. На уровне системы мы представляем первую систему многомодальной последовательной параллелизации (MM-SP), позволяющую обучение и вывод с длинным контекстом, обеспечивая обучение с длиной контекста 2M на 256 графических процессорах. MM-SP также эффективен, работая со скоростью 2,1-5,7 раз быстрее, чем последовательная параллелизация в стиле кольца, и 1,1-1,4 раза быстрее, чем Megatron-LM в настройках только текста. Более того, он легко интегрируется с Hugging Face Transformers. Для обучения модели мы предлагаем пятиэтапный конвейер, включающий выравнивание, предварительное обучение, расширение контекста и совместное обучение с длинным и коротким контекстом. Что касается наборов данных, мы тщательно создаем масштабные наборы данных для предварительного обучения визуально-языковых моделей и длинных наборов данных для следования инструкциям в видео, чтобы поддержать наш многоэтапный процесс обучения. Комплексное решение увеличивает возможное количество кадров VILA в 128 раз (с 8 до 1024 кадров) и повышает оценку длинного видеоописания с 2,00 до 3,26 (1,6 раза), достигая точности 99,5% в видео на 1400 кадров (длина контекста 274 тыс. символов) "иголка в стоге сена". LongVILA-8B также демонстрирует последовательное улучшение производительности на длинных видео в рамках бенчмарка VideoMME по мере увеличения количества кадров видео.
Модели трехмерной реконструкции в открытом мире недавно привлекли значительное внимание. Однако без достаточного трехмерного индуктивного смещения существующие методы обычно требуют дорогостоящих затрат на обучение и испытывают трудности с извлечением трехмерных сеток высокого качества. В данной работе мы представляем MeshFormer, модель реконструкции с разреженным видом, которая явно использует трехмерную структуру, входное руководство и обучающее наблюдение. В частности, вместо использования трехплоскостного представления мы храним признаки в трехмерных разреженных вокселях и объединяем трансформеры с трехмерными свертками для использования явной трехмерной структуры и проективного смещения. Помимо входного разреженного RGB изображения, мы требуем, чтобы сеть принимала входные данные и генерировала соответствующие карты нормалей. Входные карты нормалей могут быть предсказаны с помощью двумерных моделей диффузии, что значительно помогает в руководстве и усовершенствовании обучения геометрии. Более того, объединяя наблюдение за функцией знакового расстояния (SDF) с поверхностным рендерингом, мы напрямую учимся генерировать трехмерные сетки высокого качества без необходимости в сложных многоэтапных процессах обучения. Интегрируя эти явные трехмерные смещения, MeshFormer может быть эффективно обучен и создавать текстурированные сетки высокого качества с деталями геометрии мелкой структуры. Он также может быть интегрирован с двумерными моделями диффузии для выполнения быстрых задач преобразования изображения в трехмерное и текста в трехмерное. Страница проекта: https://meshformer3d.github.io
Надежная и точная сегментация сцен стала одной из основных функциональных возможностей в различных задачах визуального распознавания и навигации. Это вдохновило недавнее развитие модели Segment Anything Model (SAM), базовой модели для общей сегментации маски. Однако SAM в значительной степени адаптирован для одномодальных RGB изображений, что ограничивает его применимость к мультимодальным данным, полученным с широко используемыми наборами датчиков, такими как LiDAR плюс RGB, глубина плюс RGB, тепловое излучение плюс RGB и т. д. Мы разработали MM-SAM, расширение и расширение SAM, которое поддерживает кросс-модальную и мультимодальную обработку для надежной и улучшенной сегментации с различными наборами датчиков. MM-SAM имеет два ключевых дизайна, а именно, ненаблюдаемый кросс-модальный перенос и слабонаблюдаемое мультимодальное слияние, обеспечивая эффективную адаптацию к различным модальностям датчиков с небольшим количеством меток и параметров. Он решает три основных проблемы: 1) адаптацию к разнообразным не-RGB датчикам для одномодальной обработки, 2) синергетическую обработку мультимодальных данных через слияние датчиков и 3) обучение без маски для различных последующих задач. Обширные эксперименты показывают, что MM-SAM последовательно превосходит SAM с большим отрывом, демонстрируя его эффективность и надежность в различных сенсорах и модальностях данных.
Генерация видео по тексту (T2V) привлекла значительное внимание благодаря своим широким применениям в создании, редактировании, улучшении и переводе видео и т.д. Однако синтез видео высокого качества (HQ) представляет собой чрезвычайно сложную задачу из-за разнообразных и сложных движений, существующих в реальном мире. Большинство существующих работ сталкиваются с проблемой сбора крупномасштабных видео HQ, к которым сообщество не имеет доступа. В данной работе мы показываем, что общедоступных ограниченных и низкокачественных (LQ) данных достаточно для обучения генератора видео HQ без повторного описания или донастройки. Мы факторизуем весь процесс генерации T2V на два этапа: создание изображения, зависящего от высокоописательного заголовка, и синтез видео, зависящего от созданного изображения и краткого описания движения. В частности, мы представляем Factorized-Dreamer, факторизованную пространственно-временную структуру с несколькими ключевыми конструкциями для генерации T2V, включая адаптер для объединения текстовых и изображенческих вложений, модуль кросс-внимания, учитывающий пиксели для захвата информации на уровне пикселей изображения, текстовый кодировщик T5 для лучшего понимания описания движения и PredictNet для наблюдения за оптическими потоками. Мы также представляем расписание шума, которое играет ключевую роль в обеспечении качества и стабильности генерации видео. Наша модель снижает требования к детальным описаниям и HQ видео и может быть непосредственно обучена на ограниченных LQ наборах данных с шумными и краткими описаниями, такими как WebVid-10M, в значительной степени снижая затраты на сбор крупномасштабных пар видео-текст HQ. Обширные эксперименты в различных задачах T2V и генерации изображения в видео демонстрируют эффективность нашего предложенного Factorized-Dreamer. Наши исходные коды доступны по адресу https://github.com/yangxy/Factorized-Dreamer/.
Проектирование микросхем тесно связано с созданием булевых схем, таких как графики И-Инверторов (AIG), из функциональных описаний, таких как таблиц истинности. В то время как недавние достижения в области глубокого обучения направлены на ускорение проектирования схем, эти усилия в основном сосредоточены на задачах, отличных от синтеза, и традиционные эвристические методы достигли плато. В данной статье мы представляем ShortCircuit, новую архитектуру на основе трансформера, которая использует структурные свойства AIG и выполняет эффективное пространственное исследование. В отличие от предыдущих подходов, пытающихся создать логические схемы с использованием глубоких сетей end-to-end, ShortCircuit использует двухфазный процесс, объединяющий обучение с учителем и обучение с подкреплением для улучшения обобщения на невидимые таблицы истинности. Мы также предлагаем вариант AlphaZero для работы с двойно экспоненциально большим пространством состояний и разреженностью вознаграждений, обеспечивая обнаружение близких к оптимальным конструкций. Для оценки генеративной производительности нашей обученной модели мы извлекаем 500 таблиц истинности из набора из 20 реальных цепей. ShortCircuit успешно создает AIG для 84,6% тестовых таблиц истинности с 8 входами и превосходит передовое средство синтеза логики ABC на 14,61% по размеру схем.
Оценка оптического потока высокой точности в реальном времени является критически важной для различных прикладных задач. В то время как недавние методы оптического потока на основе обучения достигли высокой точности, они часто сопряжены с значительными вычислительными затратами. В данной статье мы предлагаем высокоэффективный метод оптического потока, который обеспечивает баланс между высокой точностью и сниженными вычислительными требованиями. На основе NeuFlow v1 мы вводим новые компоненты, включая более легковесную основу и быстрый модуль уточнения. Оба эти модуля помогают сохранить низкие вычислительные требования, обеспечивая при этом близкую к передовым показателям точность. По сравнению с другими передовыми методами, наша модель достигает ускорения в 10-70 раз, сохраняя сопоставимую производительность как на синтетических, так и на реальных данных. Она способна работать со скоростью более 20 кадров в секунду на изображениях разрешением 512x384 на Jetson Orin Nano. Полный код обучения и оценки доступен по адресу https://github.com/neufieldrobotics/NeuFlow_v2.
Генерация трехмерных открытых миров в последнее время привлекла значительное внимание. Хотя многие методы преобразования одного изображения в трехмерное привели к визуально привлекательным результатам, они часто не обладают достаточной управляемостью и склонны создавать галлюцинации, которые могут не соответствовать ожиданиям пользователей. В данной статье мы исследуем важный сценарий, в котором ввод состоит из одного или нескольких непозированных двумерных изображений одного объекта, с небольшим или отсутствующим перекрытием. Мы предлагаем новый метод, SpaRP, для восстановления текстурированной трехмерной сетки и оценки относительных поз камер для этих разреженных видов изображений. SpaRP извлекает знания из двумерных моделей диффузии и донастраивает их для неявного вывода трехмерных пространственных отношений между разреженными видами. Модель диффузии обучается совместно предсказывать замещающие представления для поз камер и многовидовые изображения объекта при известных позах, интегрируя всю информацию из вводимых разреженных видов. Эти предсказания затем используются для выполнения трехмерной реконструкции и оценки поз, и восстановленную трехмерную модель можно использовать для дальнейшего уточнения поз камер вводимых видов. Проведя обширные эксперименты на трех наборах данных, мы демонстрируем, что наш метод не только значительно превосходит базовые методы по качеству трехмерной реконструкции и точности прогнозирования поз, но также обладает высокой эффективностью. Для создания текстурированной сетки и поз камер для вводимых видов требуется всего около 20 секунд. Страница проекта: https://chaoxu.xyz/sparp.
Точное определение авторства является ключевым для поддержания целостности цифрового контента, улучшения судебных расследований и смягчения рисков дезинформации и плагиата. Решение неотложной потребности в правильном определении авторства существенно для поддержания доверия и ответственности за подлинное авторство. Быстрое развитие крупных языковых моделей (LLM) размыло границы между человеческим и машинным авторством, ставя перед традиционными методами значительные вызовы. Мы представляем обширный обзор литературы, который исследует последние исследования по определению авторства в эпоху LLM. Этот обзор систематически исследует ландшафт этой области, категоризируя четыре представительных проблемы: (1) Определение текста, написанного человеком; (2) Обнаружение текста, созданного LLM; (3) Определение текста, созданного LLM; и (4) Определение текста, написанного совместно человеком и LLM. Мы также обсуждаем вызовы, связанные с обеспечением обобщения и объяснимости методов определения авторства. Обобщение требует способности обобщения по различным областям, в то время как объяснимость подчеркивает предоставление прозрачных и понятных идей о решениях, принятых этими моделями. Оценивая сильные и слабые стороны существующих методов и бенчмарков, мы выявляем ключевые открытые проблемы и направления для будущих исследований в этой области. Этот обзор литературы служит картой пути для исследователей и практиков, заинтересованных в понимании передовых достижений в этой быстро развивающейся области. Дополнительные ресурсы и отобранный список статей доступны и регулярно обновляются на https://llm-authorship.github.io
Для корректной вставки виртуальных объектов на изображения реальных сцен необходимо глубокое понимание освещения сцены, ее геометрии и материалов, а также процесса формирования изображения. В то время как недавние модели диффузии большого масштаба показали сильные генеративные и заполнительные возможности, мы обнаружили, что текущие модели недостаточно "понимают" сцену, изображенную на одном фото, чтобы генерировать последовательные эффекты освещения (тени, яркие отражения и т. д.), сохраняя при этом идентичность и детали вставленного объекта. Мы предлагаем использовать персонализированную модель диффузии большого масштаба в качестве руководства к физически обоснованному процессу обратного воспроизведения. Наш метод восстанавливает параметры освещения сцены и тонирования, позволяя фотореалистично компоновать произвольные виртуальные объекты на одиночных кадрах или видео внутренних или внешних сцен. Наша физически обоснованная конвейерная система также обеспечивает автоматическое улучшение материалов и тонирования.
В данной работе мы предлагаем подход к обучению без тренировки, основанный на траекториях и управляемый, названный TraDiffusion. Этот новаторский метод позволяет пользователям легко направлять генерацию изображений с помощью траекторий мыши. Для достижения точного управления мы разрабатываем функцию энергии осведомленности о расстоянии для эффективного управления латентными переменными, обеспечивая фокусировку генерации в областях, определенных траекторией. Функция энергии включает в себя управляющую функцию для приведения генерации ближе к указанной траектории и функцию движения для уменьшения активности в областях, удаленных от траектории. Через обширные эксперименты и качественные оценки на наборе данных COCO результаты показывают, что TraDiffusion облегчает более простое и естественное управление изображениями. Более того, он демонстрирует способность манипулировать выдающимися областями, атрибутами и отношениями в сгенерированных изображениях, на основе визуального ввода на произвольных или улучшенных траекториях.
Агенты языковых моделей (ЯМ) для кибербезопасности, способные автономно выявлять уязвимости и выполнять эксплойты, имеют потенциал оказать реальное воздействие. Политики, провайдеры моделей и другие исследователи в области искусственного интеллекта и кибербезопасности заинтересованы в количественной оценке возможностей таких агентов для помощи в смягчении киберриска и изучении возможностей для пенетрационного тестирования. Для этой цели мы представляем Cybench, фреймворк для определения задач кибербезопасности и оценки агентов на этих задачах. Мы включаем 40 задач уровня профессионала из 4 различных соревнований Capture the Flag (CTF), выбранных как недавние, содержательные и охватывающие широкий диапазон сложностей. Каждая задача включает собственное описание, стартовые файлы и инициализируется в среде, где агент может выполнять команды bash и наблюдать вывод. Поскольку многие задачи выходят за рамки возможностей существующих агентов ЯМ, мы представляем подзадачи, которые разбивают задачу на промежуточные шаги для более пошаговой оценки; мы добавляем подзадачи для 17 из 40 задач. Для оценки возможностей агентов мы создаем кибербезопасного агента и оцениваем 7 моделей: GPT-4o, Claude 3 Opus, Claude 3.5 Sonnet, Mixtral 8x22b Instruct, Gemini 1.5 Pro, Llama 3 70B Chat и Llama 3.1 405B Instruct. Без руководства мы обнаруживаем, что агенты способны решать только самые простые полные задачи, которые занимали человеческим командам до 11 минут на решение, причем Claude 3.5 Sonnet и GPT-4o имеют наивысшие показатели успешности. Наконец, подзадачи предоставляют больше сигнала для измерения производительности по сравнению с неуправляемыми запусками, причем модели достигают на 3,2\% более высокий процент успешности на полных задачах с руководством подзадачами, чем без такого руководства. Весь код и данные общедоступны на https://cybench.github.io