Ежедневно отобранные исследовательские статьи по ИИ с переводами
Структурная информация критически важна для понимания семантики изображений, богатых текстом, таких как документы, таблицы и диаграммы. Существующие Мультимодальные Большие Языковые Модели (MLLMs) для Понимания Визуальных Документов обладают способностью к распознаванию текста, но лишены общих способностей понимания структуры для изображений документов, богатых текстом. В данной работе мы подчеркиваем важность структурной информации в Понимании Визуальных Документов и предлагаем Объединенное Обучение Структуре для повышения производительности MLLMs. Наше Объединенное Обучение Структуре включает в себя задачи структурно-осознанного разбора и задачи локализации текста различной степени детализации в 5 доменах: документ, веб-страница, таблица, диаграмма и естественное изображение. Для лучшего кодирования структурной информации мы разработали простой и эффективный модуль видение-текст H-Reducer, который может не только сохранять информацию о макете, но и сокращать длину визуальных характеристик путем объединения горизонтально смежных патчей через свертку, что позволяет LLM более эффективно понимать изображения высокого разрешения. Кроме того, создавая структурно-осознанные последовательности текста и многозернистые пары текстов и ограничивающих рамок для общедоступных изображений, богатых текстом, мы создаем обширный набор данных для обучения DocStruct4M для поддержки обучения структуре. Наконец, мы создаем небольшой, но высококачественный набор данных для настройки рассуждений DocReason25K для активации способности к детальному объяснению в домене документов. Наша модель DocOwl 1.5 достигает передовой производительности на 10 бенчмарках по пониманию визуальных документов, улучшая передовую производительность MLLMs с 7B LLM более чем на 10 пунктов в 5 из 10 бенчмарков. Наши коды, модели и наборы данных доступны по адресу https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5.
Данный доклад фокусируется на сжатии запросов, независимом от задачи, для повышения обобщаемости и эффективности. Учитывая избыточность естественного языка, существующие подходы сжимают запросы путем удаления токенов или лексических единиц в соответствии с их информационной энтропией, полученной из причинной языковой модели, такой как LLaMa-7B. Однако вызов представляет собой то, что информационная энтропия может быть неоптимальной метрикой сжатия: (i) она использует только однонаправленный контекст и может не улавливать всю необходимую информацию для сжатия запроса; (ii) она не соответствует цели сжатия запроса. Для решения этих проблем мы предлагаем процедуру дистилляции данных для извлечения знаний из LLM для сжатия запросов без потери важной информации, а также вводим набор данных для извлечения текстового сжатия. Мы формулируем сжатие запроса как проблему классификации токенов для гарантирования верности сжатого запроса по сравнению с оригинальным, и используем кодировщик Transformer в качестве базовой архитектуры для улавливания всей важной информации для сжатия запроса из полного двунаправленного контекста. Наш подход приводит к более низкой задержке, явно обучая цель сжатия с помощью более компактных моделей, таких как XLM-RoBERTa-large и mBERT. Мы оцениваем наш метод на наборах данных как внутри области, так и за ее пределами, включая MeetingBank, LongBench, ZeroScrolls, GSM8K и BBH. Несмотря на свой небольшой размер, наша модель показывает значительный прирост производительности по сравнению с сильными базовыми моделями и демонстрирует устойчивую обобщающую способность на различных LLM. Кроме того, наша модель работает в 3-6 раз быстрее, чем существующие методы сжатия запросов, с ускорением общей задержки на 1.6-2.9 раза при коэффициентах сжатия от 2 до 5.
Преобразование неструктурированного текста в структурированные и содержательные формы, организованные по полезным категориям, является фундаментальным этапом в текстовом майнинге для последующего анализа и применения. Однако большинство существующих методов создания таксономий меток и построения классификаторов на основе текста по-прежнему сильно зависят от предметной экспертизы и ручной кураторской работы, что делает процесс затратным и длительным. Это особенно сложно, когда пространство меток недостаточно определено, а аннотации данных в большом масштабе недоступны. В данной статье мы решаем эти проблемы с помощью больших языковых моделей (LLM), чей интерфейс на основе подсказок облегчает индукцию и использование псевдометок в большом масштабе. Мы предлагаем TnT-LLM, двухфазовую структуру, которая использует LLM для автоматизации процесса генерации и присвоения меток с минимальными усилиями человека для любого конкретного случая использования. На первой фазе мы представляем подход с нулевым обучением, многоэтапный метод рассуждения, который позволяет LLM производить и уточнять таксономию меток итеративно. На второй фазе LLM используются в качестве разметчиков данных, которые предоставляют обучающие выборки, чтобы можно было надежно создавать, развертывать и обслуживать легкие классификаторы с учителем на большом масштабе. Мы применяем TnT-LLM для анализа намерений пользователей и области разговора для Bing Copilot (ранее Bing Chat), поискового движка на основе чатов в открытой области. Обширные эксперименты с использованием как человеческих, так и автоматических метрик оценки демонстрируют, что TnT-LLM генерирует более точные и актуальные таксономии меток по сравнению с передовыми базовыми уровнями и достигает благоприятного баланса между точностью и эффективностью для классификации в большом масштабе. Мы также делимся нашими практическими опытом и идеями о проблемах и возможностях использования LLM для текстового майнинга в большом масштабе в прикладных задачах в реальном мире.
Открытые модели больших языков (LLM) достигли больших успехов в различных задачах обработки естественного языка (NLP), однако они все еще значительно уступают моделям, основанным на API, при действии в качестве агентов. Как интегрировать способности агента в общие LLM становится критической и насущной проблемой. В данной статье вначале представлены три ключевых наблюдения: (1) текущий корпус обучения агента запутан как форматами следования, так и рассуждения агента, что значительно отличается от распределения его данных предварительного обучения; (2) LLM проявляют различные скорости обучения по требуемым способностям для задач агента; и (3) текущие подходы имеют побочные эффекты при улучшении способностей агента путем введения галлюцинаций. Исходя из вышеуказанных результатов, мы предлагаем Agent-FLAN для эффективной донастройки языковых моделей для агентов. Через тщательное декомпозирование и переработку корпуса обучения, Agent-FLAN позволяет модели Llama2-7B превзойти предыдущие лучшие работы на 3.5\% по различным наборам данных для оценки агента. С помощью комплексно составленных отрицательных примеров Agent-FLAN значительно смягчает проблемы галлюцинаций на основе нашего установленного бенчмарка оценки. Кроме того, он последовательно улучшает способности агента LLM при увеличении размеров модели, при этом незначительно улучшая общие способности LLM. Код будет доступен по адресу https://github.com/InternLM/Agent-FLAN.
Мы представляем AnimateDiff-Lightning для мгновенного создания видео. Наша модель использует прогрессивное адверсариальное диффузионное дистиллирование для достижения нового современного уровня в создании видео за несколько шагов. Мы обсуждаем наши модификации, чтобы адаптировать ее для видео-модальности. Более того, мы предлагаем одновременно дистиллировать поток вероятностей нескольких базовых моделей диффузии, что приводит к одному дистиллированному модулю движения с более широкой совместимостью стилей. Мы рады представить нашу дистиллированную модель AnimateDiff-Lightning для использования сообществом.
В то время как крупномасштабные робототехнические системы обычно полагаются на текстовые инструкции для выполнения задач, данная работа исследует другой подход: могут ли роботы выводить задачу непосредственно из наблюдения за людьми? Этот сдвиг требует способности робота декодировать человеческое намерение и преобразовывать его в исполнимые действия в пределах своих физических ограничений и окружающей среды. Мы представляем Vid2Robot, новую концепцию обучения на основе видео для роботов. Учитывая видеодемонстрацию манипуляционной задачи и текущие визуальные наблюдения, Vid2Robot непосредственно генерирует действия робота. Это достигается благодаря унифицированной модели представления, обученной на большом наборе данных видео с участием людей и траекторий роботов. Модель использует механизмы кросс-внимания для слияния характеристик видео с текущим состоянием робота и генерации соответствующих действий, имитирующих наблюдаемую задачу. Для дальнейшего улучшения производительности политики мы предлагаем вспомогательные контрастные потери, которые улучшают соответствие между представлениями видео человека и робота. Мы оцениваем Vid2Robot на реальных роботах, демонстрируя улучшение производительности на 20% по сравнению с другими политиками, условием которых являются видеодемонстрации людей. Кроме того, наша модель обладает внезапными возможностями, такими как успешное передача наблюдаемых движений с одного объекта на другой и композиция с долгосрочными перспективами, тем самым демонстрируя свой потенциал для применения в реальном мире. Веб-сайт проекта: vid2robot.github.io
Модели видео-языка (VLM) все чаще достигают высокой производительности в мультимодальных задачах. Однако способности к рассуждениям остаются ограниченными, особенно для небольших VLM, в то время как у моделей большого языка (LLM) были замечены многочисленные улучшения. Мы предлагаем технику передачи возможностей от LLM к VLM. На недавно представленном ChartQA наш метод достигает передовой производительности при применении к VLM PaLI3-5B от chen2023pali3, а также обеспечивает значительно лучшую производительность на PlotQA и FigureQA. Сначала мы улучшаем представление диаграмм, продолжая этап предварительного обучения с использованием улучшенной версии задачи перевода диаграмм в таблицы от liu2023deplot. Затем мы предлагаем создание набора данных в 20 раз большего объема, чем оригинальный тренировочный набор. Для улучшения общих способностей к рассуждениям и выполнения числовых операций мы синтезируем следы рассуждений, используя таблицы в качестве представления диаграмм. Наконец, нашу модель донастраивают с использованием мультизадачной функции потерь, представленной hsieh2023distilling. Наш вариант ChartPaLI-5B превосходит даже модели в 10 раз большего размера, такие как PaLIX-55B, без использования предварительной системы OCR, при сохранении постоянного времени вывода по сравнению с базовой моделью PaLI3-5B. Когда обоснования дополнительно уточняются с помощью простого подсказывающего программного кода chen2023program, наша модель превосходит недавно представленные Gemini Ultra и GPT-4V.
Создание 4D полей гауссовского сплэттинга из изображений или видео является сложной задачей из-за ее недоопределенности. В то время как оптимизация может черпать фотометрические ссылки из входных видео или регулироваться генеративными моделями, прямое наблюдение за гауссовскими движениями остается малоисследованным. В данной статье мы представляем новое понятие - гауссовский поток, который соединяет динамику 3D гауссов и скорости пикселей между последовательными кадрами. Гауссовский поток может быть эффективно получен путем сплэттинга гауссовской динамики в пространство изображения. Этот дифференцируемый процесс позволяет непосредственное динамическое наблюдение за оптическим потоком. Наш метод значительно улучшает генерацию динамического контента в 4D и синтез нового вида в 4D с помощью гауссовского сплэттинга, особенно для контента с насыщенными движениями, которые трудно обрабатывать существующими методами. Общая проблема цветового смещения, возникающая при генерации в 4D, также решается с улучшенной гауссовской динамикой. Превосходное качество визуализации на обширных экспериментах демонстрирует эффективность нашего метода. Количественные и качественные оценки показывают, что наш метод достигает передовых результатов как в задачах генерации 4D, так и в синтезе нового вида в 4D. Страница проекта: https://zerg-overmind.github.io/GaussianFlow.github.io/
Генерация высококачественных 3D-объектов из заданного изображения является весьма желательной в различных приложениях, таких как дополненная и виртуальная реальность. Недавние достижения в области генерации 3D по одному изображению исследуют модели прямого распространения, которые учатся выводить 3D-модель объекта без оптимизации. Хотя были достигнуты обнадеживающие результаты в генерации одиночных объектов, эти методы часто испытывают трудности в моделировании сложных 3D-объектов, которые по своей природе содержат несколько объектов. В данной работе мы представляем ComboVerse, фреймворк генерации 3D, который создает высококачественные 3D-объекты с комплексными композициями, обучаясь комбинировать несколько моделей. 1) Сначала мы проводим подробный анализ этой "многомерной разницы" как с модельной, так и с данными. 2) Затем, имея восстановленные 3D-модели различных объектов, мы стремимся изменить их размеры, углы поворота и местоположение, чтобы создать 3D-объект, соответствующий заданному изображению. 3) Для автоматизации этого процесса мы применяем пространственно-осознанное сэмплирование оценочных баллов (SSDS) из предварительно обученных моделей диффузии для направления позиционирования объектов. Наш предложенный фреймворк акцентирует пространственное выравнивание объектов по сравнению со стандартным сэмплированием оценочных баллов и, таким образом, достигает более точных результатов. Обширные эксперименты подтверждают, что ComboVerse демонстрирует явные улучшения по сравнению с существующими методами в генерации композиционных 3D-объектов.
В данном исследовании мы глубоко исследуем генерацию изображений высокого разрешения из предварительно обученных моделей диффузии, решая постоянные проблемы, такие как повторяющиеся узоры и структурные искажения, которые возникают при применении моделей за пределами их обученных разрешений. Для решения этой проблемы мы представляем инновационный подход FouriScale без обучения с точки зрения анализа частотной области. Мы заменяем исходные сверточные слои в предварительно обученных моделях диффузии, интегрируя технику дилатации вместе с операцией низкочастотного фильтра, с целью достижения структурной и масштабной согласованности на разных разрешениях соответственно. Дополнительно усиленная стратегией дополнения-затем-обрезки, наш метод гибко обрабатывает генерацию текста в изображения различных соотношений сторон. Используя FouriScale в качестве руководства, наш метод успешно балансирует структурную целостность и достоверность сгенерированных изображений, достигая поразительной способности к генерации изображений произвольного размера, высокого разрешения и качества. Благодаря своей простоте и совместимости, наш метод может предоставить ценные идеи для будущих исследований в области синтеза изображений с ультравысоким разрешением. Код будет опубликован на https://github.com/LeonHLJ/FouriScale.
Замечательная эффективность моделей диффузии текста в изображение побудила к обширному исследованию их потенциального применения в видеодоменах. Методы нулевого обучения стремятся расширить модели диффузии изображений на видео без необходимости обучения модели. Недавние методы в основном сосредотачиваются на включении межкадровой соответственности в механизмы внимания. Однако мягкое ограничение, налагаемое на определение, куда обращаться, чтобы обратить внимание на действительные признаки, иногда может быть недостаточным, что приводит к временной несогласованности. В данной статье мы представляем FRESCO, внутрикадровую соответственность наряду с межкадровой соответственностью для установления более надежного пространственно-временного ограничения. Это улучшение обеспечивает более последовательное преобразование семантически схожего контента между кадрами. Помимо простого руководства вниманием, наш подход включает явное обновление признаков для достижения высокой пространственно-временной согласованности с входным видео, что значительно улучшает визуальную согласованность полученных переведенных видео. Обширные эксперименты демонстрируют эффективность нашей предложенной структуры в создании высококачественных, согласованных видео, отмечая значительное улучшение по сравнению с существующими методами нулевого обучения.
В последние годы 3D гауссово сглаживание стало мощным методом для восстановления и генерации трехмерных объектов, известным своей быстрой и высококачественной возможностью визуализации. Для решения данных недостатков в данной статье представлен новый диффузионный фреймворк GVGEN, разработанный для эффективной генерации трехмерных гауссовых представлений на основе текстового ввода. Мы предлагаем две инновационные техники: (1) Структурированное объемное представление. Сначала мы упорядочиваем неструктурированные 3D гауссовы точки в виде структурированного объема GaussianVolume. Это преобразование позволяет захватывать сложные текстурные детали в объеме, состоящем из фиксированного числа гауссов. Для лучшей оптимизации представления этих деталей мы предлагаем уникальный метод обрезки и плотности, названный Стратегия кандидатского пула, улучшающий достоверность деталей через селективную оптимизацию. (2) Генерация по принципу "грубо-тонко". Чтобы упростить генерацию GaussianVolume и дать возможность модели генерировать экземпляры с детальной трехмерной геометрией, мы предлагаем конвейер генерации по принципу "грубо-тонко". Сначала он строит базовую геометрическую структуру, за которой следует предсказание полных гауссовских атрибутов. Наш фреймворк GVGEN демонстрирует превосходную производительность в качественной и количественной оценке по сравнению с существующими методами генерации 3D объектов. Одновременно он обеспечивает быструю скорость генерации (примерно 7 секунд), эффективно находя баланс между качеством и эффективностью.
Текстурирование 3D-людей с использованием семантических UV-карт остается вызовом из-за сложности получения развернутых UV-карт. Несмотря на недавние достижения в области текст-в-3D, использующие надзор над многопросмотрными рендерингами с использованием крупных моделей текст-в-изображение (T2I), проблемы сохраняются с быстродействием генерации, согласованностью текста и качеством текстуры, что приводит к дефициту данных среди существующих наборов данных. Мы представляем TexDreamer, первую модель генерации текстуры 3D-человека с высокой степенью достоверности без обучения. Используя эффективную стратегию донастройки текстуры, мы адаптируем крупную модель T2I к семантической структуре UV, сохраняя ее исходную обобщающую способность. С помощью нового модуля перевода признаков обученная модель способна генерировать текстуры 3D-людей высокой степени достоверности из текста или изображения всего за несколько секунд. Более того, мы представляем ArTicuLated humAn textureS (ATLAS), самый крупный набор данных текстур 3D-людей высокого разрешения (1024 X 1024), который содержит 50 тыс. текстур высокой степени достоверности с текстовыми описаниями.