Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем Magic123 — двухэтапный подход от грубого к детальному для генерации высококачественных текстурных 3D-мешей из одного непоставленного изображения в естественных условиях с использованием как 2D, так и 3D априорных данных. На первом этапе мы оптимизируем нейронное поле излучения для получения грубой геометрии. На втором этапе мы применяем эффективное по памяти дифференцируемое представление меша для создания высокодетализированного меша с визуально привлекательной текстурой. На обоих этапах 3D-контент обучается через контроль по опорным видам и новые виды, направляемые комбинацией 2D и 3D диффузионных априорных данных. Мы вводим единый параметр компромисса между 2D и 3D априорными данными для управления исследованием (более воображаемым) и эксплуатацией (более точным) генерируемой геометрии. Дополнительно мы используем текстовую инверсию и регуляризацию монокулярной глубины для обеспечения согласованности внешнего вида между видами и предотвращения вырожденных решений соответственно. Magic123 демонстрирует значительное улучшение по сравнению с предыдущими методами преобразования изображений в 3D, что подтверждается обширными экспериментами на синтетических тестах и разнообразных реальных изображениях. Наш код, модели и сгенерированные 3D-активы доступны по адресу https://github.com/guochengqian/Magic123.
Крупные языковые модели (LLMs) представляют собой перспективный инструмент, позволяющий роботам выполнять сложные задачи, требующие рассуждений. Однако ограниченный размер контекстного окна современных LLMs затрудняет рассуждения на длительных временных горизонтах. Задачи, связанные с физическим взаимодействием, такие как те, которые может выполнять домашний робот, обычно требуют, чтобы планировщик учитывал информацию, полученную давно (например, свойства множества объектов, с которыми робот ранее сталкивался в окружающей среде). Попытки зафиксировать состояние мира с использованием неявного внутреннего представления LLM осложняются недостатком информации, релевантной задаче и окружению, в истории действий робота, в то время как методы, полагающиеся на передачу информации через промт LLM, ограничены её контекстным окном. В данной статье мы предлагаем Statler — фреймворк, который наделяет LLM явным представлением состояния мира в форме «памяти», сохраняемой с течением времени. Ключевым элементом Statler является использование двух экземпляров общих LLM — читателя модели мира и писателя модели мира, — которые взаимодействуют с состоянием мира и поддерживают его. Предоставляя доступ к этой «памяти» состояния мира, Statler улучшает способность существующих LLM рассуждать на более длительных временных горизонтах без ограничений, связанных с длиной контекста. Мы оцениваем эффективность нашего подхода на трёх симулированных областях манипуляций на столе и на реальной роботизированной области, демонстрируя, что он улучшает современные достижения в области роботизированных рассуждений на основе LLM. Сайт проекта: https://statler-lm.github.io/
Трансформеры для обработки изображений (ViTs) существенно изменили ландшафт компьютерного зрения и периодически демонстрируют превосходную производительность в задачах визуального анализа по сравнению с сверточными нейронными сетями (CNNs). Хотя вопрос о том, какой тип модели является более эффективным, остается открытым, каждый из них обладает уникальными индуктивными предубеждениями, которые формируют их способность к обучению и обобщению. Например, ViTs обладают интересными свойствами в отношении нелокальной зависимости признаков на ранних слоях, а также механизмами самовнимания, которые повышают гибкость обучения, позволяя им более эффективно игнорировать информацию, выходящую за рамки контекста изображения. Мы предполагаем, что эта способность игнорировать информацию, выходящую за пределы контекста (которую мы называем избирательностью патчей), при одновременной интеграции информации в контексте нелокальным образом на ранних слоях, позволяет ViTs легче справляться с окклюзиями. В данном исследовании наша цель — выяснить, можем ли мы заставить CNNs имитировать эту способность избирательности патчей, эффективно закрепляя это индуктивное предубеждение с помощью метода аугментации данных Patch Mixing, который заключается во вставке патчей из другого изображения в обучающее изображение и интерполяции меток между двумя классами изображений. В частности, мы используем Patch Mixing для обучения современных ViTs и CNNs, оценивая его влияние на их способность игнорировать патчи, выходящие за пределы контекста, и справляться с естественными окклюзиями. Мы обнаруживаем, что ViTs не улучшаются и не ухудшаются при обучении с использованием Patch Mixing, но CNNs приобретают новые способности игнорировать информацию, выходящую за пределы контекста, и улучшают результаты на тестах с окклюзиями, что позволяет нам сделать вывод, что этот метод обучения является способом имитации в CNNs тех способностей, которыми уже обладают ViTs. Мы опубликуем нашу реализацию Patch Mixing и предложенные наборы данных для общего использования. Страница проекта: https://arielnlee.github.io/PatchMixing/
В теории глубокого обучения ковариационная матрица представлений служит прокси для исследования обучаемости сети. Вдохновленные успехом трансформеров, мы изучаем ковариационную матрицу модифицированной модели внимания на основе Softmax с пропускными соединениями в пропорциональном пределе бесконечной глубины и ширины. Мы показываем, что при инициализации предельное распределение может быть описано стохастическим дифференциальным уравнением (СДУ), индексированным отношением глубины к ширине. Для достижения четко определенного стохастического предела механизм внимания трансформера модифицируется путем центрирования выхода Softmax на единичной матрице и масштабирования логарифмов Softmax параметром температуры, зависящим от ширины. Мы исследуем устойчивость сети через соответствующее СДУ, показывая, как масштаб как дрейфа, так и диффузии может быть элегантно контролирован с помощью остаточных соединений. Существование устойчивого СДУ подразумевает, что структура ковариации хорошо себя ведет даже для очень большой глубины и ширины, предотвращая известные проблемы вырождения ранга в глубоких моделях внимания. Наконец, мы показываем с помощью симуляций, что СДУ обеспечивает удивительно точное описание соответствующей модели конечного размера. Мы называем эти архитектурные модификации "формообразующим трансформером".
В данной статье представлен новый механизм, облегчающий обучение масочных трансформаторов для эффективной панорамной сегментации, что делает их применение более доступным. Мы отмечаем, что из-за высокой сложности задачи обучения панорамной сегментации неизбежно возникает значительное увеличение штрафа за ложные срабатывания. Такой несбалансированный убыток затрудняет процесс обучения архитектур на основе масочных трансформаторов, особенно для эффективных моделей. В этой статье мы представляем ReMaX, который вводит релаксацию для предсказаний масок и классов в процессе обучения панорамной сегментации. Мы демонстрируем, что с помощью этих простых техник релаксации в процессе обучения наша модель может быть последовательно улучшена с заметным отрывом без дополнительных вычислительных затрат на этапе вывода. Комбинируя наш метод с эффективными базовыми архитектурами, такими как MobileNetV3-Small, мы достигаем новых наилучших результатов для эффективной панорамной сегментации на наборах данных COCO, ADE20K и Cityscapes. Код и предобученные модели будут доступны по адресу https://github.com/google-research/deeplab2.