HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

7 papers found

LLaVA-o1: Позволяйте моделям видео-языка рассуждать шаг за шагом
LLaVA-o1: Let Vision Language Models Reason Step-by-Step

Nov 15

ByGuowei Xu, Peng Jin, Li Hao, Yibing Song, Lichao Sun, Li Yuan

105

Большие языковые модели продемонстрировали значительные прорывы в области способностей к рассуждениям, особенно благодаря масштабированию на этапе вывода, как показано на примере моделей, таких как o1 от OpenAI. Однако текущие модели видео-языкового взаимодействия (VLM) часто испытывают затруднения при выполнении систематических и структурированных рассуждений, особенно при решении сложных задач визуального вопросно-ответного взаимодействия. В данной работе мы представляем LLaVA-o1, новую модель VLM, разработанную для автономного многоэтапного рассуждения. В отличие от цепочки мыслей, LLaVA-o1 самостоятельно вступает в последовательные этапы сжатия информации, визуальной интерпретации, логического рассуждения и генерации выводов. Такой структурированный подход позволяет LLaVA-o1 достичь значительного улучшения точности на задачах, требующих рассуждений. Для достижения этой цели мы создали набор данных LLaVA-o1-100k, интегрируя образцы из различных источников визуального вопросно-ответного взаимодействия и предоставляя структурированные аннотации рассуждений. Кроме того, мы предлагаем метод поиска лучшего варианта на этапе вывода, который обеспечивает эффективное масштабирование на этапе вывода. Замечательно, что даже с всего лишь 100 тыс. обучающих образцов и простым, но эффективным методом масштабирования на этапе вывода, LLaVA-o1 не только превосходит свою базовую модель на 8,9% на широком спектре мультимодальных бенчмарков по рассуждениям, но и превосходит производительность более крупных и даже закрытых моделей, таких как Gemini-1.5-pro, GPT-4o-mini и Llama-3.2-90B-Vision-Instruct.

Генерация текста в изображение с учетом региона через жесткое привязывание и мягкое уточнение
Region-Aware Text-to-Image Generation via Hard Binding and Soft Refinement

Nov 10

ByZhennan Chen, Yajie Li, Haofan Wang, Zhibo Chen, Zhengkai Jiang, Jun Li, Qian Wang, Jian Yang, Ying Tai

В данной статье мы представляем RAG, метод генерации текста в изображение с учетом региональных описаний для точной композиции макета. Региональное подталкивание, или композиционная генерация, которая обеспечивает детальное пространственное управление, привлекает все больше внимания благодаря своей практичности в реальных приложениях. Однако предыдущие методы либо вводят дополнительные обучаемые модули, что делает их применимыми только к конкретным моделям, либо манипулируют картами оценок в слоях кросс-внимания с использованием масок внимания, что приводит к ограниченной силе управления при увеличении числа регионов. Для преодоления этих ограничений мы разделяем многорегиональную генерацию на две подзадачи: создание отдельного региона (Региональное жесткое связывание), которое гарантирует правильное выполнение регионального подталкивания, и общую детальную доработку (Региональное мягкое усовершенствование) по регионам, которая игнорирует визуальные границы и улучшает соседние взаимодействия. Более того, RAG новаторски делает возможным перерисовку, где пользователи могут изменять конкретные недовольные регионы в последнем поколении, оставляя все остальные регионы без изменений, без использования дополнительных моделей заполнения. Наш подход не требует настройки и применим к другим фреймворкам в качестве улучшения свойства последующего подталкивания. Количественные и качественные эксперименты показывают, что RAG достигает более высокой производительности по сравнению с привязкой атрибутов и отношениями объектов, чем предыдущие методы без настройки.

Рассвет GUI-агента: Предварительное исследование на примере компьютера Claude 3.5
The Dawn of GUI Agent: A Preliminary Case Study with Claude 3.5 Computer Use

Nov 15

BySiyuan Hu, Mingyu Ouyang, Difei Gao, Mike Zheng Shou

Недавно выпущенная модель Claude 3.5 Computer Use выделяется как первая модель искусственного интеллекта на передовом фронте, предлагающая использование компьютера в публичной бета-версии в качестве агента с графическим пользовательским интерфейсом (GUI). В качестве ранней бета-версии ее способности в реальной сложной среде остаются неизвестными. В данном кейс-исследовании, посвященном изучению Claude 3.5 Computer Use, мы курируем и организуем коллекцию тщательно разработанных задач, охватывающих различные области и программное обеспечение. Наблюдения по этим случаям демонстрируют невиданную способность Claude 3.5 Computer Use к выполнению действий от языка к действиям на рабочем столе. Вместе с этим исследованием мы предоставляем готовую к использованию агентскую платформу для развертывания моделей автоматизации GUI на основе API с легкой реализацией. Наши кейс-исследования направлены на демонстрацию основных возможностей и ограничений Claude 3.5 Computer Use с детальным анализом и поднимают вопросы о планировании, действии и критике, которые необходимо учитывать для будущего совершенствования. Мы надеемся, что эта предварительная разработка вдохновит на будущие исследования в сообществе агентов с GUI. Все тестовые случаи в статье можно опробовать через проект: https://github.com/showlab/computer_use_ootb.

GaussianAnything: Интерактивная латентная диффузия точечного облака для генерации 3D объектов
GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation

Nov 12

ByYushi Lan, Shangchen Zhou, Zhaoyang Lyu, Fangzhou Hong, Shuai Yang, Bo Dai, Xingang Pan, Chen Change Loy

Хотя генерация 3D-контента значительно продвинулась, существующие методы все еще сталкиваются с проблемами входных форматов, проектирования скрытого пространства и представлений вывода. В данной статье представлена новая концепция 3D-генерации, которая решает эти проблемы, предлагая масштабируемую, высококачественную 3D-генерацию с интерактивным скрытым пространством, структурированным в виде облака точек. Наша концепция использует вариационный автокодировщик (VAE) с многозрительными позированными RGB-D(глубина)-N(ормаль) отображениями в качестве входных данных, используя уникальное проектирование скрытого пространства, сохраняющее информацию о форме 3D, и включает каскадную модель диффузии скрытого пространства для улучшенного разделения формы и текстуры. Предложенный метод, GaussianAnything, поддерживает многомодальную условную 3D-генерацию, позволяя использовать входные данные в виде облака точек, подписи и одно-/многозрительных изображений. Следует отметить, что новое предложенное скрытое пространство естественным образом обеспечивает разделение геометрии и текстуры, что позволяет проводить редактирование с учетом 3D. Экспериментальные результаты демонстрируют эффективность нашего подхода на нескольких наборах данных, превосходя существующие методы как в условной 3D-генерации по тексту, так и по изображениям.

Модель X-1.5: Многоязычная LLM масштаба 1 млрд параметров
Xmodel-1.5: An 1B-scale Multilingual LLM

Nov 15

ByWang Qun, Liu Yang, Lin Qingquan, Jiang Ling

Мы представляем Xmodel-1.5, новую многопараметрическую крупную модель с миллиардом параметров, предварительно обученную на приблизительно 2 триллиона токенов. Модель демонстрирует высокую производительность на нескольких языках, особенно выдающиеся результаты на тайском, арабском и французском языках, наряду с ее эффективностью на китайском и английском языках. Кроме того, мы вносим вклад в научное сообщество, выпустив оценочный набор данных на тайском языке, включающий сотни вопросов, аннотированных студентами из Шулалонгкорнского университета Школы Интегрированных Инноваций. Хотя результаты обнадеживающие, мы признаем, что есть место для улучшений. Мы надеемся, что эта работа продвинет текущие усилия в мультиязычном исследовании в области искусственного интеллекта и способствует лучшему межъязыковому пониманию в различных задачах обработки естественного языка. Наши модели и код доступны публично на GitHub по адресу https://github.com/XiaoduoAILab/XmodelLM.

Номер: Временная привязка видео, подобная перелистыванию манги
Number it: Temporal Grounding Videos like Flipping Manga

Nov 15

ByYongliang Wu, Xinting Hu, Yuyang Sun, Yizhou Zhou, Wenbo Zhu, Fengyun Rao, Bernt Schiele, Xu Yang

Видео Large Language Models (Vid-LLMs) сделали замечательные успехи в понимании видеоконтента для диалогов в форме вопросов и ответов. Однако они испытывают затруднения в расширении этого визуального понимания на задачи, требующие точной временной локализации, известные как Видео Временная Привязка (VTG). Для решения этого пробела мы представляем Number-Prompt (NumPro), новый метод, который позволяет Vid-LLMs соединить визуальное понимание с временной привязкой, добавляя уникальные числовые идентификаторы к каждому кадру видео. Рассматривая видео как последовательность пронумерованных кадров, NumPro превращает VTG в интуитивный процесс: пролистывание манги по порядку. Это позволяет Vid-LLMs "читать" временные линии событий, точно связывая визуальный контент с соответствующей временной информацией. Наши эксперименты показывают, что NumPro значительно повышает производительность VTG у лучших Vid-LLMs без дополнительных вычислительных затрат. Более того, донастройка на улучшенном NumPro наборе данных устанавливает новый уровень качества для VTG, превосходя предыдущие лучшие методы на до 6.9\% в mIoU для извлечения момента и на 8.5\% в mAP для обнаружения ключевых моментов. Код будет доступен по ссылке https://github.com/yongliang-wu/NumPro.

MARS: Разблокирование потенциала снижения дисперсии для обучения больших моделей
MARS: Unleashing the Power of Variance Reduction for Training Large Models

Nov 15

ByHuizhuo Yuan, Yifeng Liu, Shuang Wu, Xun Zhou, Quanquan Gu

Обучение глубоких нейронных сетей - и в последнее время больших моделей - требует эффективных и масштабируемых оптимизаторов. Адаптивные алгоритмы градиентного спуска, такие как Adam, AdamW и их вариации, стали ключевыми в этой задаче. Несмотря на разработку множества алгоритмов снижения дисперсии за последнее десятилетие, направленных на ускорение стохастической оптимизации как в выпуклых, так и невыпуклых сценариях, снижение дисперсии не получило широкого признания при обучении глубоких нейронных сетей или крупных языковых моделей. Следовательно, это остается менее предпочтительным подходом в современном искусственном интеллекте. В данной статье мы предлагаем унифицированную оптимизационную структуру, MARS (Make vAriance Reduction Shine), чтобы раскрыть потенциал снижения дисперсии для эффективного обучения крупных моделей, которая совмещает методы предварительной обработки градиента с снижением дисперсии с помощью масштабируемой стохастической рекурсивной техники импульса. В рамках нашей структуры мы представляем три варианта MARS, которые используют обновления предварительно обработанного градиента на основе AdamW, Lion и Shampoo соответственно. Мы также устанавливаем связь между нашими алгоритмами и существующими оптимизаторами. Экспериментальные результаты по обучению моделей GPT-2 показывают, что MARS постоянно превосходит AdamW на значительное расстояние.

Генерация текста в изображение с учетом региона через жесткое привязывание и мягкое уточнение
Region-Aware Text-to-Image Generation via Hard Binding and Soft Refinement

Nov 10

ByZhennan Chen, Yajie Li, Haofan Wang, Zhibo Chen, Zhengkai Jiang, Jun Li, Qian Wang, Jian Yang, Ying Tai