Ежедневно отобранные исследовательские статьи по ИИ с переводами
Большие языковые модели продемонстрировали значительные прорывы в области способностей к рассуждениям, особенно благодаря масштабированию на этапе вывода, как показано на примере моделей, таких как o1 от OpenAI. Однако текущие модели видео-языкового взаимодействия (VLM) часто испытывают затруднения при выполнении систематических и структурированных рассуждений, особенно при решении сложных задач визуального вопросно-ответного взаимодействия. В данной работе мы представляем LLaVA-o1, новую модель VLM, разработанную для автономного многоэтапного рассуждения. В отличие от цепочки мыслей, LLaVA-o1 самостоятельно вступает в последовательные этапы сжатия информации, визуальной интерпретации, логического рассуждения и генерации выводов. Такой структурированный подход позволяет LLaVA-o1 достичь значительного улучшения точности на задачах, требующих рассуждений. Для достижения этой цели мы создали набор данных LLaVA-o1-100k, интегрируя образцы из различных источников визуального вопросно-ответного взаимодействия и предоставляя структурированные аннотации рассуждений. Кроме того, мы предлагаем метод поиска лучшего варианта на этапе вывода, который обеспечивает эффективное масштабирование на этапе вывода. Замечательно, что даже с всего лишь 100 тыс. обучающих образцов и простым, но эффективным методом масштабирования на этапе вывода, LLaVA-o1 не только превосходит свою базовую модель на 8,9% на широком спектре мультимодальных бенчмарков по рассуждениям, но и превосходит производительность более крупных и даже закрытых моделей, таких как Gemini-1.5-pro, GPT-4o-mini и Llama-3.2-90B-Vision-Instruct.
Хотя генерация 3D-контента значительно продвинулась, существующие методы все еще сталкиваются с проблемами входных форматов, проектирования скрытого пространства и представлений вывода. В данной статье представлена новая концепция 3D-генерации, которая решает эти проблемы, предлагая масштабируемую, высококачественную 3D-генерацию с интерактивным скрытым пространством, структурированным в виде облака точек. Наша концепция использует вариационный автокодировщик (VAE) с многозрительными позированными RGB-D(глубина)-N(ормаль) отображениями в качестве входных данных, используя уникальное проектирование скрытого пространства, сохраняющее информацию о форме 3D, и включает каскадную модель диффузии скрытого пространства для улучшенного разделения формы и текстуры. Предложенный метод, GaussianAnything, поддерживает многомодальную условную 3D-генерацию, позволяя использовать входные данные в виде облака точек, подписи и одно-/многозрительных изображений. Следует отметить, что новое предложенное скрытое пространство естественным образом обеспечивает разделение геометрии и текстуры, что позволяет проводить редактирование с учетом 3D. Экспериментальные результаты демонстрируют эффективность нашего подхода на нескольких наборах данных, превосходя существующие методы как в условной 3D-генерации по тексту, так и по изображениям.
В данной статье мы представляем RAG, метод генерации текста в изображение с учетом региональных описаний для точной композиции макета. Региональное подталкивание, или композиционная генерация, которая обеспечивает детальное пространственное управление, привлекает все больше внимания благодаря своей практичности в реальных приложениях. Однако предыдущие методы либо вводят дополнительные обучаемые модули, что делает их применимыми только к конкретным моделям, либо манипулируют картами оценок в слоях кросс-внимания с использованием масок внимания, что приводит к ограниченной силе управления при увеличении числа регионов. Для преодоления этих ограничений мы разделяем многорегиональную генерацию на две подзадачи: создание отдельного региона (Региональное жесткое связывание), которое гарантирует правильное выполнение регионального подталкивания, и общую детальную доработку (Региональное мягкое усовершенствование) по регионам, которая игнорирует визуальные границы и улучшает соседние взаимодействия. Более того, RAG новаторски делает возможным перерисовку, где пользователи могут изменять конкретные недовольные регионы в последнем поколении, оставляя все остальные регионы без изменений, без использования дополнительных моделей заполнения. Наш подход не требует настройки и применим к другим фреймворкам в качестве улучшения свойства последующего подталкивания. Количественные и качественные эксперименты показывают, что RAG достигает более высокой производительности по сравнению с привязкой атрибутов и отношениями объектов, чем предыдущие методы без настройки.
Недавно выпущенная модель Claude 3.5 Computer Use выделяется как первая модель искусственного интеллекта на передовом фронте, предлагающая использование компьютера в публичной бета-версии в качестве агента с графическим пользовательским интерфейсом (GUI). В качестве ранней бета-версии ее способности в реальной сложной среде остаются неизвестными. В данном кейс-исследовании, посвященном изучению Claude 3.5 Computer Use, мы курируем и организуем коллекцию тщательно разработанных задач, охватывающих различные области и программное обеспечение. Наблюдения по этим случаям демонстрируют невиданную способность Claude 3.5 Computer Use к выполнению действий от языка к действиям на рабочем столе. Вместе с этим исследованием мы предоставляем готовую к использованию агентскую платформу для развертывания моделей автоматизации GUI на основе API с легкой реализацией. Наши кейс-исследования направлены на демонстрацию основных возможностей и ограничений Claude 3.5 Computer Use с детальным анализом и поднимают вопросы о планировании, действии и критике, которые необходимо учитывать для будущего совершенствования. Мы надеемся, что эта предварительная разработка вдохновит на будущие исследования в сообществе агентов с GUI. Все тестовые случаи в статье можно опробовать через проект: https://github.com/showlab/computer_use_ootb.
Видео Large Language Models (Vid-LLMs) сделали замечательные успехи в понимании видеоконтента для диалогов в форме вопросов и ответов. Однако они испытывают затруднения в расширении этого визуального понимания на задачи, требующие точной временной локализации, известные как Видео Временная Привязка (VTG). Для решения этого пробела мы представляем Number-Prompt (NumPro), новый метод, который позволяет Vid-LLMs соединить визуальное понимание с временной привязкой, добавляя уникальные числовые идентификаторы к каждому кадру видео. Рассматривая видео как последовательность пронумерованных кадров, NumPro превращает VTG в интуитивный процесс: пролистывание манги по порядку. Это позволяет Vid-LLMs "читать" временные линии событий, точно связывая визуальный контент с соответствующей временной информацией. Наши эксперименты показывают, что NumPro значительно повышает производительность VTG у лучших Vid-LLMs без дополнительных вычислительных затрат. Более того, донастройка на улучшенном NumPro наборе данных устанавливает новый уровень качества для VTG, превосходя предыдущие лучшие методы на до 6.9\% в mIoU для извлечения момента и на 8.5\% в mAP для обнаружения ключевых моментов. Код будет доступен по ссылке https://github.com/yongliang-wu/NumPro.
Мы представляем Xmodel-1.5, новую многопараметрическую крупную модель с миллиардом параметров, предварительно обученную на приблизительно 2 триллиона токенов. Модель демонстрирует высокую производительность на нескольких языках, особенно выдающиеся результаты на тайском, арабском и французском языках, наряду с ее эффективностью на китайском и английском языках. Кроме того, мы вносим вклад в научное сообщество, выпустив оценочный набор данных на тайском языке, включающий сотни вопросов, аннотированных студентами из Шулалонгкорнского университета Школы Интегрированных Инноваций. Хотя результаты обнадеживающие, мы признаем, что есть место для улучшений. Мы надеемся, что эта работа продвинет текущие усилия в мультиязычном исследовании в области искусственного интеллекта и способствует лучшему межъязыковому пониманию в различных задачах обработки естественного языка. Наши модели и код доступны публично на GitHub по адресу https://github.com/XiaoduoAILab/XmodelLM.
Обучение глубоких нейронных сетей - и в последнее время больших моделей - требует эффективных и масштабируемых оптимизаторов. Адаптивные алгоритмы градиентного спуска, такие как Adam, AdamW и их вариации, стали ключевыми в этой задаче. Несмотря на разработку множества алгоритмов снижения дисперсии за последнее десятилетие, направленных на ускорение стохастической оптимизации как в выпуклых, так и невыпуклых сценариях, снижение дисперсии не получило широкого признания при обучении глубоких нейронных сетей или крупных языковых моделей. Следовательно, это остается менее предпочтительным подходом в современном искусственном интеллекте. В данной статье мы предлагаем унифицированную оптимизационную структуру, MARS (Make vAriance Reduction Shine), чтобы раскрыть потенциал снижения дисперсии для эффективного обучения крупных моделей, которая совмещает методы предварительной обработки градиента с снижением дисперсии с помощью масштабируемой стохастической рекурсивной техники импульса. В рамках нашей структуры мы представляем три варианта MARS, которые используют обновления предварительно обработанного градиента на основе AdamW, Lion и Shampoo соответственно. Мы также устанавливаем связь между нашими алгоритмами и существующими оптимизаторами. Экспериментальные результаты по обучению моделей GPT-2 показывают, что MARS постоянно превосходит AdamW на значительное расстояние.