Ежедневно отобранные исследовательские статьи по ИИ с переводами
Визуальные энкодеры обычно генерируют большое количество визуальных токенов, предоставляя информационно насыщенные представления, но значительно увеличивая вычислительные затраты. Это поднимает вопрос о том, все ли сгенерированные токены одинаково ценны или некоторые из них можно отбросить для снижения вычислительных затрат без ущерба для качества. В данной статье мы представляем новый метод определения полезности признаков, основанный на идее, что менее ценные признаки могут быть восстановлены из более ценных. Мы реализуем эту концепцию, интегрируя автоэнкодер с механизмом выбора Gumbel-Softmax, который позволяет идентифицировать и сохранять только наиболее информативные визуальные токены. Для проверки нашего подхода мы сравнили производительность модели LLaVA-NeXT, использующей признаки, отобранные нашим методом, с признаками, выбранными случайным образом. Мы обнаружили, что в задачах, основанных на оптическом распознавании символов (OCR), более 50% визуального контекста можно удалить с минимальной потерей производительности, тогда как случайное удаление того же количества признаков значительно снижает возможности модели. Кроме того, в задачах общего назначения даже случайное сохранение только 30% токенов позволяет достичь производительности, сравнимой с использованием полного набора визуальных токенов. Наши результаты указывают на перспективное направление адаптивного и эффективного мультимодального сокращения, которое способствует масштабируемому и низкозатратному выводу без ущерба для производительности.
Мультимодальные научные задачи (MSPs) представляют собой сложные проблемы, требующие интеграции нескольких модальностей, таких как текст и диаграммы, что создает значительные трудности в области искусственного интеллекта. Хотя прогресс был достигнут в решении традиционных научных задач, MSPs по-прежнему сталкиваются с двумя основными проблемами: сложностью многомодального комплексного рассуждения в процессе решения научных задач и отсутствием рефлексивных и переосмысливающих способностей. Для решения этих проблем мы представляем мультиагентную структуру, основанную на модели "Большой семерки" личности и сократовском руководстве (MAPS). Эта структура использует семь различных агентов, которые применяют механизмы обратной связи и сократовский метод для руководства процессом решения MSPs. Для решения первой проблемы мы предлагаем прогрессивную стратегию решения с участием четырех агентов, где каждый агент сосредоточен на определенном этапе процесса решения задачи. Для второй проблемы мы вводим агента-критика, вдохновленного сократовским методом вопросов, который стимулирует критическое мышление и способствует автономному обучению. Мы проводим обширные эксперименты на наборах данных EMMA, Olympiad и MathVista, достигая впечатляющих результатов, которые превосходят текущую модель SOTA на 15,84% по всем задачам. Дополнительные аналитические эксперименты также подтверждают прогресс модели и ее способность к обобщению.
Эффективная обработка длинных контекстов остается важной задачей в области обработки естественного языка. С увеличением количества длинных документов, диалогов и других текстовых данных становится необходимым разработка моделей языка с длинным контекстом (Long Context Language Models, LCLMs), способных эффективно и результативно обрабатывать и анализировать обширные входные данные. В данной статье представлен всесторонний обзор последних достижений в области моделирования длинного контекста для крупных языковых моделей. Наш обзор структурирован вокруг трех ключевых аспектов: как получить эффективные и производительные LCLMs, как эффективно обучать и развертывать LCLMs, а также как всесторонне оценивать и анализировать LCLMs. В рамках первого аспекта обсуждаются стратегии работы с данными, архитектурные решения и подходы к процессам, ориентированные на обработку длинного контекста. Для второго аспекта приводится детальный анализ инфраструктуры, необходимой для обучения и вывода LCLMs. В третьем аспекте представлены парадигмы оценки понимания длинного контекста и генерации длинных текстов, а также поведенческий анализ и интерпретируемость механизмов LCLMs. Помимо этих трех ключевых аспектов, мы подробно исследуем разнообразные сценарии применения, в которых уже используются существующие LCLMs, и намечаем перспективные направления для будущего развития. Этот обзор представляет собой актуальный анализ литературы по LCLMs, который, как мы надеемся, станет ценным ресурсом для исследователей и инженеров. Связанный репозиторий на GitHub, содержащий последние статьи и репозитории, доступен по адресу: https://github.com/LCLM-Horizon/A-Comprehensive-Survey-For-Long-Context-Language-Modeling{\color[RGB]{175,36,67}{LCLM-Horizon}}.
Базовый формат вопрос-ответ в больших языковых моделях предполагает ввод промта и получение ответа, при этом качество промта напрямую влияет на эффективность ответа. Автоматическая оптимизация промтов (Automated Prompt Optimization, APO) стремится освободиться от когнитивных искажений, присущих ручному проектированию промтов, и исследует более широкое пространство их дизайна. Однако существующие методы APO сталкиваются с ограниченной гибкостью фиксированных шаблонов и неэффективным поиском в пространстве промтов как ключевыми проблемами. В связи с этим мы предлагаем фреймворк Multi-Agent framework Incorporating Socratic guidance (MARS), который использует технологию мультиагентного слияния для автоматического планирования с постепенной непрерывной оптимизацией и оценкой. В частности, MARS состоит из семи агентов, каждый из которых выполняет уникальные функции и автономно использует Planner для разработки гибкого пути оптимизации. Кроме того, он применяет диалоговую модель "Учитель-Критик-Ученик" в духе Сократа для итеративной оптимизации промтов и эффективного поиска. Мы проводим обширные эксперименты на различных наборах данных для проверки эффективности нашего метода, а также выполняем дополнительные аналитические эксперименты для оценки прогресса модели и её интерпретируемости.
Разработка эффективных воплощенных мультиагентных систем имеет решающее значение для решения сложных задач реального мира в различных областях. Из-за сложности таких систем существующие методы не способны автоматически генерировать безопасные и эффективные обучающие данные. В связи с этим мы предлагаем концепцию композиционных ограничений для воплощенных мультиагентных систем, направленную на решение проблем, возникающих при взаимодействии воплощенных агентов. Мы разрабатываем различные интерфейсы, адаптированные под разные типы ограничений, что обеспечивает беспрепятственное взаимодействие с физическим миром. Используя композиционные ограничения и специально разработанные интерфейсы, мы создаем автоматизированную систему сбора данных для воплощенных мультиагентных систем и представляем первый бенчмарк для манипуляций в таких системах — RoboFactory. На основе бенчмарка RoboFactory мы адаптируем и оцениваем метод обучения с подражанием, анализируя его производительность в задачах различной сложности. Кроме того, мы исследуем архитектуры и стратегии обучения для мультиагентного обучения с подражанием, стремясь создать безопасные и эффективные воплощенные мультиагентные системы.
Поскольку задачи творческого письма не имеют единственно правильных ответов, крупные языковые модели (LLMs), обученные для выполнения этих задач, должны быть способны генерировать разнообразные допустимые результаты. Однако пост-обучение LLM часто сосредоточено на улучшении качества генерации, но упускает из виду необходимость обеспечения разнообразия выходных данных. Поэтому в генерации творческого письма мы исследуем подходы пост-обучения, направленные на повышение как разнообразия, так и качества выходных данных. Наша ключевая идея заключается во включении отклонения — степени различия между обучающим образцом и всеми другими образцами с тем же запросом — в целевую функцию обучения, чтобы облегчить обучение на редких высококачественных примерах. Применяя наш подход к оптимизации прямых предпочтений (DPO) и оптимизации предпочтений на основе отношения шансов (ORPO), мы демонстрируем, что можем повысить разнообразие выходных данных обученных моделей при минимальном снижении качества. Наша лучшая модель с 8 миллиардами параметров смогла достичь уровня разнообразия, сопоставимого с набором данных, созданным людьми, при этом качество выходных данных было аналогично лучшим моделям с настройкой на инструкции, которые мы исследовали, — GPT-4o и DeepSeek-R1. Мы дополнительно подтверждаем наши подходы с помощью человеческой оценки, абляции и сравнения с существующим подходом к диверсификации, DivPO.
Авторегрессионные модели визуальной генерации обычно полагаются на токенизаторы для сжатия изображений в токены, которые могут быть предсказаны последовательно. Существует фундаментальная дилемма в представлении токенов: дискретные токены позволяют простое моделирование с использованием стандартной кросс-энтропийной функции потерь, но страдают от потери информации и нестабильности обучения токенизатора; непрерывные токены лучше сохраняют визуальные детали, но требуют сложного моделирования распределений, что усложняет процесс генерации. В данной работе мы предлагаем TokenBridge, который устраняет этот разрыв, сохраняя мощную способность представления непрерывных токенов при этом поддерживая простоту моделирования дискретных токенов. Для достижения этого мы разделяем процесс дискретизации и обучения токенизатора через пост-обученную квантование, которая напрямую получает дискретные токены из непрерывных представлений. В частности, мы вводим стратегию покомпонентного квантования, которая независимо дискретизирует каждую размерность признаков, в сочетании с легковесным авторегрессионным механизмом предсказания, эффективно моделирующим получившееся большое пространство токенов. Многочисленные эксперименты показывают, что наш подход достигает качества реконструкции и генерации на уровне непрерывных методов, используя стандартное категориальное предсказание. Эта работа демонстрирует, что объединение дискретных и непрерывных парадигм может эффективно использовать преимущества обоих подходов, предоставляя перспективное направление для высококачественной визуальной генерации с простым авторегрессионным моделированием. Страница проекта: https://yuqingwang1029.github.io/TokenBridge.
Реалистичные 3D-аватары с полным телом, способные говорить, обладают огромным потенциалом в дополненной реальности (AR), с приложениями, начиная от прямых трансляций в электронной коммерции до голографической коммуникации. Несмотря на прогресс в технологии 3D Gaussian Splatting (3DGS) для создания реалистичных аватаров, существующие методы сталкиваются с трудностями в тонком управлении мимикой и движениями тела в задачах, связанных с полным телом. Кроме того, они часто недостаточно детализированы и не могут работать в реальном времени на мобильных устройствах. Мы представляем TaoAvatar — высококачественный, легковесный 3DGS-аватар с полным телом, управляемый различными сигналами. Наш подход начинается с создания персонализированного параметрического шаблона одетого человека, который связывает гауссовы распределения для представления внешнего вида. Затем мы предварительно обучаем сеть на основе StyleUnet для обработки сложных нежестких деформаций, зависящих от позы, что позволяет захватывать высокочастотные детали внешнего вида, но требует слишком много ресурсов для мобильных устройств. Чтобы преодолеть это, мы "запекаем" нежесткие деформации в легковесную сеть на основе MLP с использованием техники дистилляции и разрабатываем blend shapes для компенсации деталей. Многочисленные эксперименты показывают, что TaoAvatar достигает наивысшего качества рендеринга, работая в реальном времени на различных устройствах, поддерживая 90 кадров в секунду на устройствах с высоким разрешением, таких как Apple Vision Pro.
Недавние достижения, продемонстрированные моделью DeepSeek-R1, показали, что сложные способности к рассуждению в больших языковых моделях (LLM), включая такие сложные поведения, как самопроверка и самокоррекция, могут быть достигнуты с помощью обучения с подкреплением (RL) с верифицируемыми наградами, что значительно улучшает производительность модели на сложных задачах, таких как AIME. Вдохновленные этими результатами, наше исследование изучает, могут ли аналогичные способности к рассуждению быть успешно интегрированы в большие визуально-языковые модели (LVLM), и оценивает их влияние на сложные задачи мультимодального рассуждения. Мы рассматриваем подход, который итеративно использует контролируемую тонкую настройку (SFT) на легковесных данных обучения и обучение с подкреплением (RL) для дальнейшего улучшения обобщения модели. Изначально способности к рассуждению были извлечены из чисто текстовых моделей R1 путем генерации шагов рассуждения с использованием высококачественных описаний изображений, полученных из разнообразных визуальных наборов данных. Впоследствии итеративное обучение RL дополнительно улучшило навыки рассуждения, причем каждая итерация RL-улучшенной модели генерировала уточненные наборы данных SFT для следующего раунда. Этот итеративный процесс привел к созданию OpenVLThinker, LVLM, демонстрирующей стабильно улучшенную производительность на сложных тестах, таких как MathVista, MathVerse и MathVision, что подчеркивает потенциал нашей стратегии для надежного визуально-языкового рассуждения. Код, модель и данные доступны по адресу https://github.com/yihedeng9/OpenVLThinker.
Несмотря на значительный прогресс в генерации видео из текста, достижение точного и гибкого контроля над детализированными пространственно-временными атрибутами остается важной нерешенной задачей в исследованиях по генерации видео. Для преодоления этих ограничений мы представляем VCtrl (также называемый PP-VCtrl) — новую архитектуру, предназначенную для обеспечения детализированного контроля над предобученными моделями диффузии видео в унифицированном формате. VCtrl интегрирует разнообразные пользовательские управляющие сигналы, такие как границы Канни, маски сегментации и ключевые точки человека, в предобученные модели диффузии видео с помощью обобщаемого условного модуля, способного единообразно кодировать различные типы вспомогательных сигналов без изменения базового генератора. Кроме того, мы разработали унифицированный конвейер кодирования управляющих сигналов и механизм разреженных остаточных связей для эффективного включения управляющих представлений. Комплексные эксперименты и оценки пользователей демонстрируют, что VCtrl значительно повышает управляемость и качество генерации. Исходный код и предобученные модели доступны публично и реализованы с использованием фреймворка PaddlePaddle по адресу http://github.com/PaddlePaddle/PaddleMIX/tree/develop/ppdiffusers/examples/ppvctrl.
Несмотря на впечатляющие результаты в решении разнообразных задач, мультимодальные большие языковые модели (MLLMs) пока не полностью раскрыли свой потенциал в решении визуальных математических задач, особенно в точном восприятии и интерпретации диаграмм. Вдохновленные типичными процессами, используемыми людьми, мы предполагаем, что способность извлекать значимую информацию из диаграмм имеет решающее значение, так как она напрямую влияет на последующие процессы логического вывода. Чтобы проверить эту гипотезу, мы разработали FlowVerse — комплексный бенчмарк, который классифицирует всю информацию, используемую при решении задач, на четыре компонента, которые затем объединяются в шесть версий задач для оценки. Наши предварительные результаты на FlowVerse показывают, что существующие MLLMs демонстрируют существенные ограничения в извлечении ключевой информации и логических свойств из диаграмм, а также в выполнении сложных рассуждений на основе этих визуальных данных. В ответ на это мы представляем MathFlow — модульный конвейер решения задач, который разделяет восприятие и логический вывод на отдельные этапы, оптимизируя каждый из них независимо. Учитывая наблюдаемые ограничения в восприятии у современных MLLMs, мы обучили MathFlow-P-7B как специализированную модель восприятия. Экспериментальные результаты показывают, что MathFlow-P-7B обеспечивает значительное улучшение производительности при интеграции с различными закрытыми и открытыми моделями логического вывода. Это демонстрирует эффективность конвейера MathFlow и его совместимость с разнообразными фреймворками логического вывода. Бенчмарк FlowVerse и код доступны по адресу https://github.com/MathFlow-zju/MathFlow.
Персонализация генерации и редактирования изображений представляет особую сложность, когда у нас есть лишь несколько изображений объекта или даже одно изображение. Распространённый подход к персонализации — это обучение концепции, которое позволяет относительно быстро интегрировать объект в существующие модели, но качество изображений быстро ухудшается при малом количестве изображений объекта. Качество можно улучшить за счёт предварительного обучения энкодера, однако обучение ограничивает генерацию распределением данных, использованных при обучении, и требует значительных временных затрат. Персонализация генерации и редактирования изображений на основе одного изображения без обучения остаётся сложной и нерешённой задачей. В данной работе мы представляем SISO — новый подход, не требующий обучения, основанный на оптимизации показателя сходства с входным изображением объекта. В частности, SISO итеративно генерирует изображения и оптимизирует модель на основе потери сходства с заданным изображением объекта до достижения удовлетворительного уровня сходства, что позволяет использовать метод для оптимизации любого генератора изображений по принципу "подключи и работай". Мы оценили SISO в двух задачах — редактировании и генерации изображений — на разнообразном наборе данных с персонализированными объектами и продемонстрировали значительное улучшение качества изображений, точности передачи объекта и сохранения фона по сравнению с существующими методами.
Точная оценка семантического соответствия между текстовыми запросами и сгенерированными видео остается сложной задачей в области генерации видео по тексту (Text-to-Video, T2V). Существующие метрики оценки соответствия текста и видео, такие как CLIPScore, предоставляют лишь грубые оценки без детализированной информации о соответствии, что не согласуется с человеческими предпочтениями. Для устранения этого ограничения мы предлагаем ETVA — новый метод оценки соответствия текста и видео через генерацию и ответы на детализированные вопросы. Сначала многоагентная система анализирует запросы, преобразуя их в семантические графы сцен, чтобы генерировать атомарные вопросы. Затем мы разрабатываем многоступенчатую систему рассуждений, дополненную знаниями, для ответов на вопросы, где вспомогательная языковая модель (LLM) сначала извлекает релевантные общеизвестные знания (например, физические законы), а затем видео-LLM отвечает на сгенерированные вопросы с помощью многоступенчатого механизма рассуждений. Многочисленные эксперименты показывают, что ETVA достигает коэффициента корреляции Спирмена 58.47, что значительно выше корреляции с человеческими суждениями по сравнению с существующими метриками, которые достигают лишь 31.0. Мы также создаем комплексный бенчмарк, специально разработанный для оценки соответствия текста и видео, включающий 2k разнообразных запросов и 12k атомарных вопросов, охватывающих 10 категорий. Систематическая оценка 15 существующих моделей генерации видео по тексту позволяет выявить их ключевые возможности и ограничения, прокладывая путь для следующего поколения T2V-генерации.
В данной статье мы представляем \textsc{FastCuRL} — простой, но эффективный подход к обучению с подкреплением на основе учебного плана (Curriculum Reinforcement Learning) с использованием стратегии расширения контекстного окна для ускорения эффективности обучения моделей, подобных R1, в задачах сложного рассуждения с длинными цепочками мыслей, особенно для языковой модели с 1,5 миллиардами параметров. \textsc{FastCuRL} состоит из двух основных процедур: сегментации обучающих данных с учетом длины и обучения с расширением контекстного окна. В частности, первая процедура сначала разделяет исходные обучающие данные на три уровня в зависимости от длины входного промта, а затем вторая процедура использует сегментированные наборы данных с постепенно увеличивающейся длиной контекстного окна для обучения модели рассуждений. Экспериментальные результаты показывают, что \textsc{FastCuRL}-1.5B-Preview превосходит DeepScaleR-1.5B-Preview на всех пяти наборах данных (включая MATH 500, AIME 2024, AMC 2023, Minerva Math и OlympiadBench), используя при этом только 50\% шагов обучения. Более того, все этапы обучения для FastCuRL-1.5B-Preview выполняются на одном узле с 8 графическими процессорами.
В данной статье мы представляем MapBench — первый набор данных, специально разработанный для удобочитаемой, пиксельной навигации на основе карт в условиях открытой местности, созданный на основе сложных сценариев поиска пути. MapBench включает более 1600 задач поиска пути в пиксельном пространстве на 100 разнообразных картах. В MapBench модели LVLM (Large Vision-Language Models) генерируют текстовые инструкции для навигации на основе изображения карты и запроса с указанием начальной и конечной точек. Для каждой карты MapBench предоставляет Map Space Scene Graph (MSSG) в качестве структуры данных для индексации, которая позволяет преобразовывать естественный язык и оценивать результаты, сгенерированные LVLM. Мы демонстрируем, что MapBench представляет значительную сложность для современных LVLM как в режиме zero-shot prompting, так и в рамках подхода Chain-of-Thought (CoT), который декомпозирует навигацию по карте на последовательные когнитивные процессы. Наша оценка как открытых, так и закрытых LVLM подчеркивает существенные трудности, создаваемые MapBench, выявляя критические ограничения в их способностях к пространственному мышлению и структурированному принятию решений. Мы публикуем весь код и набор данных по адресу https://github.com/taco-group/MapBench.
Крупные модели, объединяющие зрительное восприятие и язык (Large Vision-Language Models, LVLMs), достигли значительного прогресса в сочетании визуального понимания с генерацией текста. Несмотря на этот успех, данные для обучения LVLMs по-прежнему страдают от проблем "длинного хвоста" (Long-Tail, LT), где распределение данных сильно несбалансировано. Предыдущие работы в основном сосредотачивались на традиционных архитектурах VLM, таких как CLIP или ViT, и конкретных задачах, таких как распознавание и классификация. Однако исследование LVLM (например, LLaVA) и более общих задач (например, визуальный вопросно-ответный анализ и визуальное рассуждение) остается недостаточно изученным. В данной статье мы сначала проводим углубленный анализ проблем LT в LVLMs и выявляем две основные причины: чрезмерное представление "головных" концепций и недостаточное представление "хвостовых" концепций. На основе этих наблюдений мы предлагаем Адаптивную структуру уточнения данных (Adaptive Data Refinement Framework, ADR), которая состоит из двух этапов: Ребалансировка данных (Data Rebalancing, DR) и Синтез данных (Data Synthesis, DS). На этапе DR мы адаптивно перебалансируем избыточные данные на основе распределения сущностей, а на этапе DS используем модели вероятностного диффузионного шумоподавления (Denoising Diffusion Probabilistic Models, DDPMs) и редкие изображения для дополнения недостаточно представленных частей. Благодаря всесторонним оценкам на одиннадцати бенчмарках, предложенная нами ADR эффективно смягчает проблему длинного хвоста в данных обучения, улучшая среднюю производительность LLaVA 1.5 относительно на 4,36%, без увеличения объема данных для обучения.
Видео-ориентированные большие языковые модели (ViLLMs) превосходно справляются с общим пониманием видео, например, распознаванием действий, таких как разговор или прием пищи, но испытывают трудности с идентификацией субъектов, например, в таких случаях, как "Уилсон проходит химиотерапию" или "Том обсуждает что-то с Сарой", что ограничивает их применимость в сферах умного здравоохранения и умного дома. Чтобы устранить это ограничение, мы предлагаем фреймворк PVChat, основанный на обучении с одного примера, — первую персонализированную ViLLM, которая позволяет отвечать на вопросы, учитывающие субъекта, на основе одного видео для каждого субъекта. Наш подход оптимизирует ViLLM, усиленную механизмом Mixture-of-Heads (MoH), на синтетически расширенном наборе данных "видео-вопросы-ответы", используя стратегию прогрессивного обучения от изображений к видео. В частности, мы представляем автоматизированный конвейер аугментации, который синтезирует позитивные образцы с сохранением идентичности и извлекает сложные негативные примеры из существующих видеокорпусов, создавая разнообразный набор данных для обучения с четырьмя типами вопросов: о существовании, внешности, действиях и местоположении. Для улучшения обучения, ориентированного на конкретного субъекта, мы предлагаем механизм внимания ReLU Routing MoH, а также две новые цели: (1) Smooth Proximity Regularization для прогрессивного обучения через экспоненциальное масштабирование расстояния и (2) Head Activation Enhancement для сбалансированного распределения внимания. Наконец, мы применяем двухэтапную стратегию обучения, переходя от предварительного обучения на изображениях к тонкой настройке на видео, что позволяет постепенно переходить от статических атрибутов к динамическим представлениям. Мы оцениваем PVChat на различных наборах данных, охватывающих медицинские сценарии, телесериалы, аниме и реальные видеозаписи, демонстрируя её превосходство в понимании персонализированных характеристик после обучения на одном видео по сравнению с современными ViLLMs.
Неявная предвзятость относится к автоматическим или спонтанным психическим процессам, которые формируют восприятие, суждения и поведение. Предыдущие исследования, изучающие «неявную предвзятость» в больших языковых моделях (LLM), часто подходили к этому явлению иначе, чем при изучении у людей, сосредотачиваясь в основном на выходных данных модели, а не на её внутренних процессах. Для изучения внутренних процессов модели мы представляем метод под названием Тест на неявные ассоциации в моделях рассуждений (RM-IAT), предназначенный для исследования паттернов, схожих с неявной предвзятостью, в моделях рассуждений: LLM, которые используют пошаговые рассуждения для решения сложных задач. С помощью этого метода мы обнаруживаем, что модели рассуждений требуют больше токенов при обработке информации, несовместимой с ассоциациями, по сравнению с информацией, совместимой с ассоциациями. Эти результаты позволяют предположить, что системы ИИ содержат паттерны обработки информации, аналогичные человеческой неявной предвзятости. Мы рассматриваем последствия этих паттернов, схожих с неявной предвзятостью, для их применения в реальных приложениях.
В последние годы область генерации изображений достигла значительных успехов, особенно в методах тонкой настройки, которые согласуют модели с универсальными человеческими предпочтениями. В данной статье исследуется ключевая роль данных о предпочтениях в процессе обучения диффузионных моделей, в частности, в контексте Diffusion-DPO и его последующих адаптаций. Мы рассматриваем сложности, связанные с универсальными человеческими предпочтениями в генерации изображений, подчеркивая субъективный характер этих предпочтений и проблемы, возникающие из-за миноритарных образцов в наборах данных о предпочтениях. В ходе пилотных экспериментов мы демонстрируем наличие миноритарных образцов и их негативное влияние на производительность модели. Мы предлагаем Adaptive-DPO — новый подход, который включает метрику, учитывающую миноритарные образцы, в целевую функцию DPO. Эта метрика, включающая внутрианнотаторскую уверенность и межаннотаторскую стабильность, позволяет различать миноритарные и мажоритарные образцы. Мы вводим функцию потерь Adaptive-DPO, которая улучшает функцию потерь DPO двумя способами: усиливает обучение модели на мажоритарных метках и смягчает негативное влияние миноритарных образцов. Наши эксперименты показывают, что этот метод эффективно справляется как с синтетическими миноритарными данными, так и с реальными данными о предпочтениях, прокладывая путь к более эффективным методикам обучения в задачах генерации изображений.
Геолокализация изображений, в которой традиционно модель ИИ предсказывает точные GPS-координаты изображения, является сложной задачей с множеством прикладных применений. Однако пользователь не может использовать модель для получения дополнительной информации, кроме GPS-координат; модель не обладает пониманием местоположения и способностью вести диалог с пользователем. В последнее время, благодаря значительному прогрессу в области крупных мультимодальных моделей (LMMs), как проприетарных, так и открытых, исследователи предприняли попытки геолокализации изображений с использованием LMMs. Однако проблемы остаются нерешенными; за пределами общих задач, для более специализированных прикладных задач, одной из которых является геолокализация, LMMs испытывают трудности. В данной работе мы предлагаем решить эту проблему, представив диалоговую модель GAEA, которая может предоставлять информацию о местоположении изображения в соответствии с запросами пользователя. Крупномасштабного набора данных, позволяющего обучать такую модель, не существует. Поэтому мы предлагаем всеобъемлющий набор данных GAEA, содержащий 800 тыс. изображений и около 1,6 млн пар вопросов и ответов, созданных с использованием атрибутов OpenStreetMap (OSM) и географических контекстных подсказок. Для количественной оценки мы предлагаем разнообразный бенчмарк, включающий 4 тыс. пар изображение-текст, чтобы оценить диалоговые возможности модели с учетом различных типов вопросов. Мы рассматриваем 11 современных открытых и проприетарных LMMs и демонстрируем, что GAEA значительно превосходит лучшую открытую модель LLaVA-OneVision на 25,69% и лучшую проприетарную модель GPT-4o на 8,28%. Наш набор данных, модель и код доступны.
Современные методы редактирования 3D-лиц с использованием масок демонстрируют высокое качество редактированных изображений благодаря применению нейронных полей излучения (NeRF). Несмотря на впечатляющие результаты, существующие подходы часто ограничивают контроль пользователя из-за использования предварительно обученных сегментационных масок. Для работы с масками желаемой компоновки требуется обширный набор данных для обучения, который сложно собрать. Мы представляем FFaceNeRF — метод редактирования лиц на основе NeRF, который преодолевает ограничения в контроле пользователя, связанные с использованием фиксированных компоновок масок. Наш метод использует геометрический адаптер с инъекцией признаков, что позволяет эффективно манипулировать геометрическими атрибутами. Кроме того, мы применяем латентное смешивание для аугментации три-плоскостей, что позволяет обучать модель на небольшом количестве образцов. Это способствует быстрой адаптации модели к желаемым компоновкам масок, что особенно важно для таких областей, как персонализированная медицинская визуализация или творческое редактирование лиц. Сравнительные оценки показывают, что FFaceNeRF превосходит существующие методы редактирования лиц на основе масок по гибкости, контролю и качеству генерируемых изображений, прокладывая путь для будущих достижений в области кастомизированного и высококачественного 3D-редактирования лиц. Код доступен на {https://kwanyun.github.io/FFaceNeRF_page/{странице проекта}}.
Обобщённая сегментация 3D облаков точек с малым количеством примеров (GFS-PCS) адаптирует модели к новым классам с использованием небольшого числа опорных образцов, сохраняя при этом сегментацию базовых классов. Существующие методы GFS-PCS улучшают прототипы за счёт взаимодействия с признаками опорных или запросных данных, но остаются ограниченными из-за скудности знаний, полученных из малого числа примеров. В то же время 3D модели, объединяющие визуальные и языковые данные (3D VLMs), обобщают знания для новых классов в открытом мире, содержат богатую, но зашумлённую информацию о новых классах. В данной работе мы представляем фреймворк GFS-PCS, который объединяет плотные, но зашумлённые псевдо-метки из 3D VLMs с точными, но редкими примерами с малым количеством образцов, чтобы максимально использовать сильные стороны обоих подходов, названный GFS-VL. В частности, мы предлагаем метод выбора псевдо-меток на основе прототипов для фильтрации низкокачественных областей, за которым следует стратегия адаптивного заполнения, объединяющая знания из контекстов псевдо-меток и примеров с малым количеством образцов для адаптивной маркировки отфильтрованных, немаркированных областей. Кроме того, мы разрабатываем стратегию смешивания новых и базовых классов для встраивания примеров с малым количеством образцов в обучающие сцены, сохраняя важный контекст для улучшения обучения новым классам. Более того, учитывая ограниченное разнообразие в текущих бенчмарках GFS-PCS, мы вводим два сложных бенчмарка с разнообразными новыми классами для всесторонней оценки обобщения. Эксперименты подтверждают эффективность нашего фреймворка на различных моделях и наборах данных. Наш подход и бенчмарки предоставляют прочную основу для продвижения GFS-PCS в реальных условиях. Код доступен по адресу: https://github.com/ZhaochongAn/GFS-VL.