Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем InternVL 2.5 - передовую серию мультимодальных крупных языковых моделей (MLLM), основанную на InternVL 2.0, сохраняющую ее основную архитектуру модели и внедряющую значительные улучшения в стратегии обучения и тестирования, а также в качестве данных. В данной работе мы глубоко исследуем взаимосвязь между масштабированием модели и производительностью, систематически изучая тенденции производительности в области визуальных кодировщиков, языковых моделей, размеров наборов данных и конфигураций времени тестирования. Проведя обширные оценки на широком спектре бенчмарков, включая междисциплинарное рассуждение, понимание документов, мультиизображения/видеопонимание, понимание реального мира, обнаружение мультимодальных галлюцинаций, визуальное привязывание, мультиязычные возможности и чистую обработку языка, InternVL 2.5 демонстрирует конкурентоспособную производительность, не уступая ведущим коммерческим моделям, таким как GPT-4o и Claude-3.5-Sonnet. Значительно, наша модель является первой открытой мультимодальной MLLM, превосходящей 70% на бенчмарке MMMU, достигая улучшения на 3,7 пункта благодаря рассуждениям Chain-of-Thought (CoT) и демонстрируя сильный потенциал для масштабирования во время тестирования. Мы надеемся, что эта модель внесет вклад в сообщество с открытым исходным кодом, устанавливая новые стандарты для разработки и применения мультимодальных систем искусственного интеллекта. Демонстрация HuggingFace см. по ссылке https://huggingface.co/spaces/OpenGVLab/InternVL
Данный технический отчет представляет языковые модели EXAONE 3.5, настроенные на инструкции, разработанные и выпущенные LG AI Research. Языковые модели EXAONE 3.5 предлагаются в трех конфигурациях: 32B, 7.8B и 2.4B. Эти модели обладают несколькими выдающимися возможностями: 1) исключительные способности следования инструкциям в реальных сценариях, достигая самых высоких показателей по семи бенчмаркам, 2) выдающееся понимание длинного контекста, достигая лучших результатов в четырех бенчмарках, и 3) конкурентоспособные результаты по сравнению с передовыми открытыми моделями схожих размеров по девяти общим бенчмаркам. Языковые модели EXAONE 3.5 доступны для исследовательских целей и могут быть загружены с https://huggingface.co/LGAI-EXAONE. Для коммерческого использования, пожалуйста, свяжитесь с официальным контактным лицом LG AI Research: [email protected].
Недавние достижения в области генеративных моделей текст-в-видео (T2V) показали впечатляющие возможности. Однако эти модели все еще недостаточны для согласования синтезированных видеороликов с человеческими предпочтениями (например, точное отражение текстовых описаний), что является особенно сложной задачей, поскольку человеческие предпочтения по своей природе субъективны и трудно формализуются как объективные функции. В данной статье предлагается метод LiFT, новый метод настройки с использованием обратной связи от людей для согласования модели T2V. Конкретно, мы сначала создаем набор данных аннотаций оценок людей, LiFT-HRA, состоящий примерно из 10 тыс. аннотаций, каждая из которых включает оценку и соответствующее обоснование. На основе этого мы обучаем модель вознаграждения LiFT-Critic для эффективного изучения функции вознаграждения, которая служит прокси для человеческого суждения, измеряя соответствие между предоставленными видеороликами и ожиданиями людей. Наконец, мы используем изученную функцию вознаграждения для согласования модели T2V путем максимизации правдоподобия с учетом вознаграждения. В качестве кейс-стади мы применяем наш конвейер к CogVideoX-2B, показывая, что настроенная модель превосходит CogVideoX-5B по всем 16 метрикам, подчеркивая потенциал обратной связи от людей в улучшении согласования и качества синтезированных видеороликов.
Многомодельные языковые модели (MLLM), основанные на открытом исходном коде, продемонстрировали значительный потенциал в широком спектре многомодальных задач. Однако их способности к рассуждениям остаются ограниченными из-за существующих наборов данных для настройки инструкций, которые в основном были адаптированы из академических наборов данных, таких как VQA, AI2D и ChartQA. Эти наборы данных ориентированы на упрощенные задачи и предоставляют только ответы на уровне фраз без каких-либо промежуточных обоснований. Для решения этих проблем мы представляем масштабный и экономичный метод построения крупномасштабного многомодального набора данных для настройки инструкций с обширными промежуточными обоснованиями, разработанный для вызова рассуждений CoT. Используя только открытые модели, мы создаем набор данных, содержащий 12 млн пар инструкция-ответ для охвата разнообразных задач, требующих рассуждений, с детальными и достоверными обоснованиями. Эксперименты показывают, что обучение MLLM на этом наборе данных значительно улучшает способности к рассуждениям, достигая передового уровня производительности на бенчмарках, таких как MathVerse (+8,1%), MMMU-Pro (+7%) и MuirBench (+13,3%). Кроме того, модель демонстрирует заметные улучшения до 4% на бенчмарках, не требующих рассуждений. Анализ отсечения дополнительно подчеркивает важность ключевых компонентов, таких как переписывание и самофильтрация, в процессе построения набора данных.
Недавние достижения в области редактирования изображений с помощью текста позволяют пользователям выполнять редактирование изображений через простой текстовый ввод, используя обширные априорные знания многоэтапных моделей преобразования текста в изображение на основе диффузии. Однако эти методы часто не удовлетворяют требования скорости, необходимой для приложений в реальном мире и на устройствах из-за дорогостоящего многоэтапного процесса инверсии и выборки. В ответ на это мы представляем SwiftEdit, простой, но очень эффективный инструмент редактирования, который обеспечивает мгновенное редактирование изображений с помощью текста (за 0,23 секунды). Продвижение SwiftEdit заключается в его двух новаторских вкладах: фреймворке инверсии одного шага, который позволяет восстановление изображения за один шаг путем инверсии, и технике редактирования с маской с нашим предложенным механизмом масштабирования внимания для выполнения локализованного редактирования изображения. Проведены обширные эксперименты для демонстрации эффективности и эффективности SwiftEdit. В частности, SwiftEdit обеспечивает мгновенное редактирование изображений с помощью текста, что намного быстрее, чем предыдущие многоэтапные методы (как минимум в 50 раз быстрее), сохраняя при этом конкурентоспособные результаты редактирования. Наша страница проекта: https://swift-edit.github.io/
Большие языковые модели (LLM) известны своим высоким потреблением памяти во время обучения, особенно при использовании популярного оптимизатора AdamW. Эта нагрузка на память требует использования большего количества или более мощных графических процессоров или уменьшения размеров пакетов, что ограничивает масштабируемость и производительность обучения. Для решения этой проблемы были предложены различные оптимизаторы, эффективные с точки зрения использования памяти оптимизаторов, однако они сталкиваются с критическими вызовами: (i) зависимость от дорогостоящих операций SVD; (ii) значительные компромиссы в производительности по сравнению с AdamW; и (iii) все еще значительные накладные расходы на память оптимизатора для поддержания конкурентоспособной производительности. В данной работе мы выявляем, что правило адаптации скорости обучения AdamW может быть эффективно упрощено как структурированное обновление скорости обучения. Исходя из этого наблюдения, мы предлагаем метод Approximated Gradient Scaling для оптимизации памяти LLM (APOLLO), который аппроксимирует масштабирование скорости обучения с использованием вспомогательного оптимизатора низкого ранга на основе чистой случайной проекции. Это структурированное правило обновления скорости обучения делает APOLLO очень устойчивым к дальнейшему снижению потребления памяти, обеспечивая сравнимую производительность предварительного обучения. Даже его вариант с рангом 1, APOLLO-Mini, достигает более высокой производительности предварительного обучения по сравнению с AdamW с расходами памяти на уровне SGD. Обширные эксперименты показывают, что серия APOLLO выполняет задачу на уровне или лучше, чем AdamW, обеспечивая при этом большие экономии памяти путем почти полного устранения оптимизационных состояний AdamW. Эти экономии обеспечивают значительные преимущества на уровне системы: (1) Увеличенная производительность: в 3 раза большая производительность на установке 8xA100-80GB по сравнению с AdamW за счет поддержки пакетов в 4 раза большего размера. (2) Улучшенная масштабируемость модели: Предварительное обучение LLaMA-13B с примитивным DDP на A100-80GB GPU без оптимизаций на уровне системы. (3) Предварительное обучение, дружественное к графическим процессорам низкого уровня: Предварительное обучение LLaMA-7B на одном GPU с использованием менее 12 ГБ памяти с квантованием весов.
Недавние достижения в области крупных языковых моделей, предварительно обученных на обширных корпусах, показали значительный успех в различных задачах обработки естественного языка с минимальной донастройкой. Этот успех открывает новые перспективы для робототехники, которая долгое время ограничивалась высокой стоимостью данных с разметкой действий. Мы спрашиваем: учитывая обилие видеоданных, содержащих знания, связанные с взаимодействием, доступных как богатый "корпус", можно ли эффективно применить подобный подход к генеративному предварительному обучению для улучшения обучения роботов? Основным вызовом является определение эффективного представления для авторегрессивного предварительного обучения, которое бы способствовало задачам робототехники. Вдохновленные способом, которым люди усваивают новые навыки, наблюдая динамические окружающие среды, мы предполагаем, что эффективное обучение роботов должно акцентироваться на знаниях, связанных с движением, тесно связанных с низкоуровневыми действиями и не зависящих от аппаратного обеспечения, облегчая передачу усвоенных движений на фактические действия робота. Для этого мы представляем Moto, который преобразует видеоконтент в последовательности латентных токенов движения с помощью Латентного Токенизатора Движения, изучая связующий "язык" движения из видео в неупорядоченном режиме. Мы предварительно обучаем Moto-GPT через авторегрессию токенов движения, позволяя ему улавливать разнообразные знания о визуальном движении. После предварительного обучения Moto-GPT демонстрирует обещающую способность производить семантически интерпретируемые токены движения, предсказывать правдоподобные траектории движения и оценивать рациональность траектории через вероятность вывода. Для передачи усвоенных движений на реальные действия робота мы реализуем стратегию совместной донастройки, которая плавно соединяет предсказание латентных токенов движения и управление реальным роботом. Обширные эксперименты показывают, что донастроенный Moto-GPT проявляет превосходную устойчивость и эффективность на бенчмарках по манипуляции роботов, подчеркивая его эффективность в передаче знаний из видеоданных на задачи визуальной манипуляции нижестоящего уровня.
Модели генерации видео по тексту продемонстрировали значительный прогресс в последние годы. Однако они все еще испытывают трудности с созданием сложных динамичных сцен на основе композиционных текстовых подсказок, таких как привязка атрибутов для нескольких объектов, временная динамика, связанная с различными объектами, и взаимодействие между объектами. Нашей основной мотивацией является то, что сложные задачи могут быть разложены на более простые, каждая из которых обрабатывается специализированным агентом MLLM. Несколько агентов могут сотрудничать для достижения коллективного интеллекта для сложных целей. Мы предлагаем GenMAC, итеративную мультиагентную структуру, которая позволяет композиционной генерации видео по тексту. Совместный рабочий процесс включает три этапа: Проектирование, Генерация и Переработка, с итеративным циклом между этапами Генерации и Переработки для постепенной проверки и улучшения созданных видео. Этап Переработки является наиболее сложным этапом, который направлен на проверку созданных видео, предложение коррекций и переработку текстовых подсказок, макетов кадров и масштабов руководства для следующей итерации генерации. Чтобы избежать галлюцинаций отдельного агента MLLM, мы декомпозируем этот этап на четыре последовательно выполняемых агента на основе MLLM: агент проверки, агент предложения, агент коррекции и агент структурирования вывода. Более того, чтобы справиться с разнообразными сценариями композиционной генерации видео по тексту, мы разрабатываем механизм саморегулирования для адаптивного выбора соответствующего агента коррекции из коллекции агентов коррекции, каждый из которых специализируется на одном сценарии. Обширные эксперименты демонстрируют эффективность GenMAC, достигая передового уровня производительности в композиционной генерации видео по тексту.
Насколько хорошо могут понимать мультимодальные модели языка большого размера (MLLM) композитные изображения? Композитные изображения (CIs) - это синтетические визуальные материалы, созданные путем объединения нескольких визуальных элементов, таких как диаграммы, постеры или скриншоты, а не захваченные непосредственно камерой. В то время как CIs широко распространены в прикладных областях, недавние достижения в области MLLM в основном сосредоточены на интерпретации естественных изображений (NIs). Наше исследование показывает, что текущие MLLM сталкиваются с существенными трудностями в точном понимании CIs, часто испытывая затруднения с извлечением информации или выполнением сложного рассуждения на основе этих изображений. Мы обнаружили, что существующие обучающие данные для CIs в основном оформлены для задач вопрос-ответ (например, в наборах данных, таких как ChartQA и ScienceQA), в то время как высококачественные наборы данных изображений с подписями, критически важные для надежного выравнивания зрения и языка, доступны только для NIs. Для устранения этого разрыва мы представляем Composite Captions (CompCap), гибкую структуру, которая использует модели языка большого размера (LLMs) и средства автоматизации для синтеза CIs с точными и подробными подписями. Используя CompCap, мы составляем набор данных CompCap-118K, содержащий 118 тыс. пар изображение-подпись по шести типам CI. Мы проверяем эффективность CompCap-118K путем надзорного дообучения MLLM трех размеров: xGen-MM-inst.-4B и LLaVA-NeXT-Vicuna-7B/13B. Эмпирические результаты показывают, что CompCap-118K значительно улучшает понимание MLLM CIs, обеспечивая средний прирост на 1,7%, 2,0% и 2,9% по одиннадцати показателям соответственно.
3D Гауссово сглаживание продемонстрировало значительный успех в реконструкции сцен большого масштаба, однако остаются проблемы из-за высокого потребления памяти на обучение и избыточных накладных расходов на хранение. Гибридные представления, интегрирующие неявные и явные признаки, предлагают способ преодоления этих ограничений. Однако при параллельном блочном обучении возникают две критические проблемы: ухудшение точности реконструкции из-за уменьшения разнообразия данных при обучении каждого блока независимо и ограничение количества разделенных блоков числом доступных GPU. Для решения этих проблем мы предлагаем Momentum-GS, новый подход, использующий самодистилляцию на основе импульса для повышения согласованности и точности между блоками, разрывая связь между количеством блоков и физическим числом GPU. Наш метод поддерживает учителя-декодер Гаусса, обновляемого с использованием импульса, обеспечивая стабильную ссылку во время обучения. Этот учитель предоставляет каждому блоку глобальное руководство в режиме самодистилляции, способствуя пространственной согласованности в реконструкции. Для обеспечения согласованности между блоками мы также включаем весовое блокирование, динамически корректируя вес каждого блока в соответствии с его точностью реконструкции. Обширные эксперименты на сценах большого масштаба показывают, что наш метод последовательно превосходит существующие техники, достигая улучшения в 12,8% по LPIPS по сравнению с CityGaussian с гораздо меньшим количеством разделенных блоков и устанавливая новый уровень качества. Страница проекта: https://jixuan-fan.github.io/Momentum-GS_Page/
Мультимодальный искусственный интеллект имеет потенциал значительно улучшить задачи понимания документов, такие как обработка квитанций, понимание рабочих процессов, извлечение данных из документов и составление сводок. Задачи генерации кода, требующие создания длинных структурированных выводов, также могут быть улучшены с помощью мультимодальности. Однако их использование в коммерческих приложениях часто ограничено из-за ограниченного доступа к обучающим данным и ограничительных лицензий, что затрудняет открытый доступ. Для преодоления этих ограничений мы представляем BigDocs-7.5M, высококачественный набор данных с открытым доступом, включающий 7,5 миллиона мультимодальных документов по 30 задачам. Мы используем эффективный процесс курирования данных, чтобы гарантировать высокое качество и лицензионную доступность наших данных. Наш процесс акцентирует внимание на ответственности и прозрачности через правила фильтрации, отслеживаемую метаданные и тщательный анализ контента. Кроме того, мы представляем BigDocs-Bench, набор тестов с 10 новыми задачами, где мы создаем наборы данных, отражающие реальные сценарии использования, включающие рассуждения над графическими пользовательскими интерфейсами (GUI) и генерацию кода из изображений. Наши эксперименты показывают, что обучение с использованием BigDocs-Bench улучшает среднюю производительность до 25,8% по сравнению с закрытым исходным кодом GPT-4o в задачах рассуждения над документами и создания структурированного вывода, таких как генерация Screenshot2HTML или Image2Latex. Наконец, оценки людей показали предпочтение результатов моделей, обученных на BigDocs, перед GPT-4o. Это говорит о том, что BigDocs может помочь как академическому сообществу, так и сообществу с открытым исходным кодом использовать и улучшать инструменты искусственного интеллекта для улучшения мультимодальных возможностей и рассуждения над документами. Проект размещен на https://bigdocs.github.io.
Видеоролики реального мира состоят из последовательностей событий. Генерация таких последовательностей с точным временным контролем невозможна с использованием существующих видеогенераторов, которые полагаются на один параграф текста в качестве входных данных. При попытке генерации нескольких событий, описанных в одном запросе, такие методы часто игнорируют некоторые события или не удается правильно упорядочить их. Для решения этого ограничения мы представляем MinT, мульти-событийный видеогенератор с временным контролем. Наш ключевой инсайт заключается в привязке каждого события к конкретному периоду в созданном видео, что позволяет модели фокусироваться на одном событии за раз. Для обеспечения взаимодействия между описаниями событий и токенами видео, основанным на времени, мы разработали метод кодирования позиций на основе времени, названный ReRoPE. Это кодирование помогает направлять операцию кросс-внимания. Путем донастройки предварительно обученного видео-трансформера диффузии на временно обоснованных данных наш подход создает согласованные видеоролики с плавно переходящими событиями. Впервые в литературе наша модель предлагает контроль над временем событий в созданных видеороликах. Обширные эксперименты показывают, что MinT превосходит существующие модели с открытым исходным кодом с большим отрывом.
В данной статье мы представляем PanoDreamer, новый метод для создания согласованной трехмерной сцены 360^circ из одного входного изображения. В отличие от существующих методов, которые генерируют сцену последовательно, мы формулируем проблему как оценку панорамы и глубины по одному изображению. После получения согласованного панорамного изображения и соответствующей глубины сцену можно восстановить, заполнив маленькие заслоненные области и проецируя их в трехмерное пространство. Наш вклад заключается в формулировании оценки панорамы и глубины по одному изображению как двух задач оптимизации и введении стратегий чередующейся минимизации для эффективного решения их целей. Мы демонстрируем, что наш подход превосходит существующие техники в восстановлении сцены 360^circ по одному изображению в терминах согласованности и общего качества.
Восстановление внутренних сцен остается сложной задачей из-за врожденной сложности пространственных структур и распространенности областей без текстуры. Недавние достижения в 3D Гауссовом сплэттинге улучшили синтез нового вида с ускоренной обработкой, но пока не обеспечили сопоставимую производительность в реконструкции поверхности. В данной статье мы представляем 2DGS-Room, новый метод, использующий 2D Гауссов сплэттинг для высококачественного восстановления внутренних сцен. Конкретно, мы используем механизм, управляемый семенами, для контроля распределения 2D Гауссов, с плотностью семенных точек, динамически оптимизируемой через адаптивные механизмы роста и обрезки. Для дальнейшего улучшения геометрической точности мы включаем монокулярные глубинные и нормальные априорные данные для обеспечения ограничений для деталей и областей без текстуры соответственно. Кроме того, применяются ограничения на консистентность многократного вида для уменьшения артефактов и дальнейшего улучшения качества реконструкции. Обширные эксперименты на наборах данных ScanNet и ScanNet++ демонстрируют, что наш метод достигает передовой производительности в восстановлении внутренних сцен.
Большие языковые модели (LLM) сделали диалог одним из центральных способов взаимодействия человека с машиной, что привело к накоплению огромного объема журналов разговоров и увеличению спроса на генерацию диалогов. Жизненный цикл беседы охватывает предисловие, интерлокуцию и эпилог, включая различные элементы. Несмотря на существование множества исследований, связанных с диалогами, отсутствует недостаток эталонов, охватывающих все аспекты диалога, что затрудняет точное моделирование и систематическую оценку. Для заполнения этого пробела мы представляем инновационную исследовательскую задачу Моделирование элементов диалога, включающую Осознание элементов и Взаимодействие агента диалога, и предлагаем новый эталон, DEMO, разработанный для всестороннего моделирования и оценки диалога. Вдохновленные обучением по подражанию, мы далее создаем агента, который обладает умением моделировать элементы диалога на основе эталона DEMO. Обширные эксперименты показывают, что существующие LLM все еще обладают значительным потенциалом для улучшения, и наш агент DEMO демонстрирует превосходную производительность как в задачах в пределах области, так и в задачах за ее пределами.
Награды остаются непонятным способом задания задач для обучения с подкреплением, поскольку люди часто не могут предсказать оптимальное поведение для любой данной функции вознаграждения, что приводит к плохому проектированию вознаграждения и его взлому. Язык представляет собой привлекательный способ передачи намерений агентам и обхода проектирования вознаграждения, но предыдущие попытки сделать это были ограничены дорогостоящими и не масштабируемыми усилиями по разметке. В данной работе мы предлагаем метод полностью ненадзорной альтернативы привязки инструкций на языке к политикам в режиме нулевой настройки для получения политик. Мы представляем решение в виде процессов воображения, проекции и имитации: агент воображает последовательность наблюдений, соответствующую языковому описанию задачи, проецирует воображаемую последовательность на нашу целевую область и привязывает ее к политике. Модели видео-языка позволяют нам воображать описания задач, используя знания о задачах, полученные из масштабных интернет-видео-текстовых соответствий. Остается вызовом привязать эти генерации к политике. В данной работе мы показываем, что можем достичь политики от языка к поведению в режиме нулевой настройки, сначала привязав воображаемые последовательности к реальным наблюдениям агента обучения без учителя и используя решение в замкнутой форме для обучения имитации, что позволяет агенту обучения с подкреплением имитировать привязанные наблюдения. Наш метод, RLZero, по нашим данным, первый, показывающий способности к генерации поведения от языка к поведению в режиме нулевой настройки без какого-либо надзора на различных задачах на симулированных областях. Мы также показываем, что RLZero также может генерировать политики в режиме нулевой настройки из видеороликов с перекрестными воплощениями, таких как те, которые были извлечены из YouTube.