Ежедневно отобранные исследовательские статьи по ИИ с переводами
Большие языковые модели (LLM) продемонстрировали выдающуюся производительность на задачах рассуждения. Они используют авторегрессивную генерацию токенов для построения траекторий рассуждений, обеспечивая развитие последовательной цепочки мыслей. В данной работе мы исследуем влияние отдельных токенов на конечные результаты задач рассуждения. Мы выявляем существование "критических токенов", которые приводят к неправильным траекториям рассуждений в LLM. Конкретно, мы обнаруживаем, что LLM склонны к производству положительных результатов, когда им приходится декодировать другие токены вместо критических токенов. Под воздействием этого наблюдения мы предлагаем новый подход - cDPO - разработанный для автоматического распознавания и проведения наград на уровне токенов для критических токенов в процессе выравнивания. Конкретно, мы разрабатываем подход контрастной оценки для автоматического выявления критических токенов. Это достигается путем сравнения вероятности генерации положительных и отрицательных моделей. Для этого мы отдельно донастраиваем положительные и отрицательные модели на различных траекториях рассуждений, в результате они способны выявлять критические токены в неправильных траекториях, которые приводят к ошибочным результатам. Более того, для дальнейшего выравнивания модели с информацией о критическом токене в процессе выравнивания, мы расширяем обычные алгоритмы DPO до алгоритмов DPO на уровне токенов и используем дифференциальную вероятность от упомянутой выше положительной и отрицательной модели в качестве важного веса для обучения DPO на уровне токенов. Экспериментальные результаты на бенчмарках GSM8K и MATH500 с двумя широко используемыми моделями Llama-3 (8B и 70B) и deepseek-math (7B) демонстрируют эффективность предложенного подхода cDPO.
Существующие модели генерации видео отлично справляются с созданием коротких клипов, но все еще испытывают трудности с созданием многоснимочных видеороликов, напоминающих фильмы. Существующие модели, обученные на масштабных данных при наличии обширных вычислительных ресурсов, предсказуемо недостаточны для поддержания логической сюжетной линии и визуальной последовательности через несколько съемок в едином сценарии, поскольку их часто обучают с одним целевым снимком. В этой связи мы предлагаем VideoGen-of-Thought (VGoT), сотрудничающую и не требующую обучения архитектуру, специально разработанную для генерации многоснимочных видеороликов. VGoT разработана с тремя целями: Генерация Многоснимочных Видео: Мы разделяем процесс генерации видео на структурированную, модульную последовательность, включая (1) Генерацию Сценария, которая переводит краткую историю в подробные подсказки для каждой съемки; (2) Генерацию Ключевых Кадров, ответственных за создание визуально последовательных ключевых кадров, соответствующих характерным чертам персонажей; и (3) Генерацию Видео на Уровне Съемки, которая преобразует информацию из сценариев и ключевых кадров в съемки; (4) Механизм Сглаживания, который обеспечивает последовательный многоснимочный результат. Логическое Конструирование Сюжета: Вдохновленные кинематографическим сценарным письмом, наш подход к генерации подсказок охватывает пять ключевых областей, обеспечивая логическую последовательность, развитие персонажей и сюжетный поток на протяжении всего видео. Поддержание Последовательности Между Съемками: Мы обеспечиваем временную и идентичностную последовательность, используя сохраняющие идентичность (IP) вложения между съемками, которые автоматически создаются из сюжета. Кроме того, мы включаем механизм сглаживания между съемками, который интегрирует границу сброса, эффективно объединяющую латентные признаки смежных съемок, что приводит к плавным переходам и поддержанию визуальной согласованности на протяжении всего видео. Наши эксперименты показывают, что VGoT превосходит существующие методы генерации видео в создании высококачественных, последовательных многоснимочных видеороликов.
Обеспечение эффективного взаимодействия между LLM является ключевым шагом к развитию автономных систем, способных решать сложные задачи. Хотя LLM обычно используются как генераторы одиночных моделей, где люди критикуют и улучшают их результаты, потенциал совместного обучения коллективных моделей остается в значительной степени не исследованным. Несмотря на обнадеживающие результаты в многоагентных коммуникационных и дебатных средах, мало прогресса было достигнуто в обучении моделей работать вместе над задачами. В данной статье мы представляем первый шаг к "Многоагентному обучению LLM" (MALT) на задачах рассуждения. Наш подход использует последовательную многоагентную конфигурацию с гетерогенными LLM, назначенными специализированные роли: генератор, верификатор и модель уточнения итеративно решают проблемы. Мы предлагаем процесс генерации синтетических данных на основе расширения траектории и стратегию оценки кредита, основанную на совместных наградах за результат. Это позволяет нашей пост-тренировочной конфигурации использовать как положительные, так и отрицательные траектории для автономного улучшения специализированных возможностей каждой модели в рамках совместной последовательной системы. Мы оцениваем наш подход на наборах данных MATH, GSM8k и CQA, где MALT на моделях Llama 3.1 8B достигает относительного улучшения на 14.14%, 7.12% и 9.40% соответственно по сравнению с одной и той же базовой моделью. Это демонстрирует раннее развитие в возможностях многоагентного сотрудничества для производительности на математических и вопросах здравого смысла. Более обще, наша работа предоставляет конкретное направление для исследований в области подходов к многоагентному обучению LLM.
В отличие от моделей оценки исходных наград (ORM), которые оценивают полные ответы, модель оценки процесса (PRM) оценивает траекторию рассуждения пошагово, обеспечивая более плотные и детализированные награды. Однако обучение PRM требует меток, аннотированных на каждом промежуточном шаге, что представляет существенные вызовы как для ручного, так и для автоматического сбора данных. Цель данной статьи заключается в решении этой проблемы. Теоретически и эмпирически мы показываем, что неявную PRM можно получить без дополнительных затрат, просто обучив ORM на более дешевых метках на уровне ответа. Единственное предположение заключается в параметризации исходной награды в виде логарифмических отношений правдоподобия политики и опорных моделей, которые могут быть оптимизированы независимо от конкретного выбора целей потерь. В экспериментах мы создаем неявные PRM с различными целями и оцениваем их производительность на MATH. Мы показываем, что наша неявная PRM превосходит сильный базовый уровень на основе MCTS, подобный Math-Shepherd, используя менее 1/38 обучающих данных. Его производительность может быть дополнительно улучшена с помощью голосования большинства. Мы также обнаруживаем, что увеличение инструкций и ответов благоприятно для нашей неявной PRM, причем последнее приносит большую выгоду. В частности, мы замечаем, что наша неявная PRM, когда создана с использованием потерь перекрестной энтропии (CE), более эффективна по данным и может продолжать улучшать модели генерации даже при обучении всего одному ответу на инструкцию, что страдает от крайней нехватки данных и дисбаланса. Кроме того, инструкции должны быть связаны с последующими задачами, в то время как разнообразие ответов не приносит выгоды. Удивительно, обучение на дополнительных метках шага Math-Shepherd не приносит дополнительных улучшений нашей неявной PRM, обученной только на данных об исходе. Мы надеемся, что наша работа побудит к пересмотру подходов к обучению PRM и способствует упрощению обучения PRM.
Большие языковые модели (LLM) позволили создавать мультимодальные LLM, обладающие сильным пониманием визуальных данных, таких как изображения и видео. Однако эти модели обычно зависят от обширных визуальных токенов от визуальных кодировщиков, что приводит к высоким вычислительным требованиям, что ограничивает их применимость в ресурсоемких средах и для задач с длинным контекстом. В данной работе мы предлагаем метод адаптивного вывода без обучения для мультимодальных LLM, который может удовлетворять широкий спектр требований к эффективности с минимальным снижением производительности. Наш метод состоит из: а) итеративного объединения токенов на основе сходства встраивания перед LLM и б) постепенного обрезания токенов в слоях LLM на основе мультимодальной важности. С минималистичным дизайном наш метод может быть применен как к видео-, так и к изображениям LLM. Обширные эксперименты на различных видео- и изображениях показывают, что наш метод существенно снижает нагрузку на вычисления (например, в 7 раз сокращает FLOPs), сохраняя производительность видео- и изображений LLM. Кроме того, при сходной вычислительной стоимости наш метод превосходит современные методы в понимании длинных видео (например, +4,6 на MLVU). Кроме того, наш анализ предоставляет понимание избыточности токенов и поведения слоев LLM, предлагая рекомендации для будущих исследований по разработке эффективных мультимодальных LLM. Наш код будет доступен по адресу https://github.com/LaVi-Lab/AIM.
Недавно мультимодальные крупные языковые модели (MLLM), такие как GPT-4o, Gemini 1.5 Pro и Reka Core, расширили свои возможности, включив в себя модальности зрения и звука. В то время как эти модели демонстрируют впечатляющую производительность в широком спектре аудиовизуальных приложений, наше предложенное испытание для глухих DeafTest показывает, что MLLM часто испытывают затруднения с простыми задачами, которые люди считают тривиальными: 1) определение, какой из двух звуков громче, и 2) определение, какой из двух звуков имеет более высокую высоту тона. Мотивируемые этими наблюдениями, мы представляем AV-Odyssey Bench, комплексный аудиовизуальный бенчмарк, разработанный для оценки способности этих MLLM действительно понимать аудиовизуальную информацию. Этот бенчмарк включает в себя 4 555 тщательно разработанных задач, каждая из которых включает текстовые, визуальные и аудио компоненты. Для успешного вывода ответов модели должны эффективно использовать подсказки как из визуальных, так и из аудио входов. Для обеспечения точной и объективной оценки ответов MLLM мы структурировали вопросы в форме множественного выбора, исключив необходимость в человеческой оценке или оценке с помощью LLM. Мы провели бенчмарк ряда закрытых и открытых моделей и суммируем наблюдения. Раскрывая ограничения текущих моделей, мы стремимся предоставить полезное понимание для будущего сбора наборов данных и развития моделей.
Подход с увеличением поиска (Retrieval-augmented Generation, RAG) улучшает большие языковые модели (Large Language Models, LLMs), интегрируя внешние знания для снижения галлюцинаций и включения актуальной информации без повторного обучения. Как существенная часть RAG, внешние базы знаний обычно создаются путем извлечения структурированных данных из неструктурированных PDF-документов с использованием оптического распознавания символов (OCR). Однако из-за неполного предсказания OCR и врожденного неоднородного представления структурированных данных базы знаний неизбежно содержат различные помехи OCR. В данной статье мы представляем OHRBench, первый бенчмарк для понимания каскадного воздействия OCR на системы RAG. OHRBench включает 350 тщательно отобранных неструктурированных PDF-документов из шести областей применения RAG в реальном мире, а также вопросы и ответы, полученные из мультимодальных элементов документов, представляя вызов существующим решениям OCR, используемым для RAG. Для лучшего понимания влияния OCR на системы RAG мы выделяем два основных типа помех OCR: Семантические помехи и Помехи форматирования, и применяем возмущения для создания набора структурированных данных с различными степенями каждой помехи OCR. С помощью OHRBench мы сначала проводим всестороннюю оценку текущих решений OCR и показываем, что ни одно из них не годится для построения качественных баз знаний для систем RAG. Затем мы систематически оцениваем влияние этих двух типов помех и демонстрируем уязвимость систем RAG. Кроме того, мы обсуждаем потенциал использования моделей видео-языка (Vision-Language Models, VLMs) без OCR в системах RAG. Код: https://github.com/opendatalab/OHR-Bench
После появления больших языковых моделей (LLM) значительно улучшилась производительность задач генерации естественного языка (NLG), включая резюмирование текста и машинный перевод. Однако LLM по-прежнему создают результаты, содержащие галлюцинации, то есть содержание, не основанное на фактической информации. Поэтому разработка методов оценки фактичности LLM стала насущной задачей. Действительно, недавно появились ресурсы для оценки фактичности. Хотя эти ресурсы представляют собой вызов, они сталкиваются с одним или несколькими из следующих ограничений: (i) они адаптированы к конкретной задаче или области; (ii) их размер ограничен, что мешает обучению новых оценщиков фактичности; (iii) они предназначены для более простых задач верификации, таких как проверка утверждений. Для решения этих проблем мы представляем LLM-Oasis, насколько нам известно, самый крупный ресурс для обучения конечных оценщиков фактичности. LLM-Oasis создан путем извлечения утверждений из Википедии, фальсификации подмножества этих утверждений и генерации пар фактических и нефактических текстов. Затем мы полагаемся на человеческих аннотаторов как для проверки качества нашего набора данных, так и для создания стандартного тестового набора для оценки систем оценки фактичности. Наши эксперименты показывают, что LLM-Oasis представляет собой значительное испытание для современных LLM, причем GPT-4o достигает до 60% точности в предлагаемой нами конечной задаче оценки фактичности, подчеркивая его потенциал для стимулирования будущих исследований в этой области.
Управление движением является ключевым элементом для создания выразительного и убедительного видеоконтента; однако большинство существующих моделей генерации видео в основном полагаются на текстовые подсказки для управления, что затрудняет улавливание тонких нюансов динамических действий и временных композиций. В этом контексте мы обучаем модель генерации видео, условно зависящую от разреженных или плотных пространственно-временных траекторий движения. В отличие от предыдущих работ по условному управлению движением, эта гибкая репрезентация способна кодировать любое количество траекторий, движение объектов или глобальное движение сцены, а также временно разреженное движение; благодаря своей гибкости мы называем это условие "подсказками движения". Хотя пользователи могут непосредственно указывать разреженные траектории, мы также показываем, как преобразовать запросы пользователей высокого уровня в детализированные, полу-плотные подсказки движения, процесс, который мы называем расширением подсказок движения. Мы демонстрируем универсальность нашего подхода через различные приложения, включая управление движением камеры и объектов, "взаимодействие" с изображением, передачу движения и редактирование изображений. Наши результаты показывают возникающие поведенческие особенности, такие как реалистичная физика, указывая на потенциал подсказок движения для исследования видеомоделей и взаимодействия с будущими генеративными моделями мира. Наконец, мы проводим количественную оценку, проводим исследование с участием людей и демонстрируем высокую производительность. Видеорезультаты доступны на нашем веб-сайте: https://motion-prompting.github.io/
Мы представляем OmniCreator, новую платформу, способную выполнять генерацию (изображения + видео) и редактирование по текстовым подсказкам в одном месте. OmniCreator приобретает генеративные и универсальные возможности редактирования самостоятельно, используя оригинальные пары текст-видео в качестве условий, а также видео в качестве цели для обучения семантическому соответствию между видео и текстом. Во время вывода, когда представлены текстовая подсказка и видео, OmniCreator способен генерировать цель, верную обоим, достигая универсального эффекта редактирования, не ограниченного, в отличие от существующих работ по редактированию, которые в основном сосредоточены на определенных типах редактирования или зависят от дополнительных контролов (например, структурных условий, признаков внимания или инверсии DDIM). С другой стороны, когда представлена только текстовая подсказка, OmniCreator становится генеративным, производя видео высокого качества в результате изученного семантического соответствия. Важно отметить, что эти же возможности распространяются на изображения как есть, делая OmniCreator поистине универсальной платформой. Кроме того, из-за отсутствия существующих бенчмарков для генеративного видеоредактирования, мы представляем набор данных OmniBench-99, разработанный для всесторонней оценки производительности моделей генеративного видеоредактирования. Обширные эксперименты показывают, что OmniCreator проявляет существенное превосходство над всеми другими моделями.
Исследования по моделям трехмерного зрения и языка (3D-VLM) привлекают все больше внимания, что критически важно для развития воплощенного искусственного интеллекта в трехмерных сценах, таких как визуальная навигация и ответы на вопросы в контексте сцены. Из-за высокой плотности визуальных признаков, особенно в больших трехмерных сценах, точное определение задачеважной визуальной информации представляет собой сложную задачу. Существующие работы пытаются сегментировать все объекты и рассматривать их признаки в качестве представлений сцены. Однако эти признаки объектов, независимые от задачи, содержат много избыточной информации и упускают детали, важные для задачи. Для решения этих проблем мы предлагаем LSceneLLM, адаптивную структуру, которая автоматически выявляет области, важные для задачи, используя визуальные предпочтения LLM для различных задач, за которой следует модуль увеличения сцены "plug-and-play" для захвата мелких деталей в фокусируемых областях. Конкретно, плотный селектор токенов анализирует карту внимания LLM для определения визуальных предпочтений для ввода инструкции. Затем увеличивает мелкие детали фокусируемой области. Адаптивный модуль самовнимания используется для слияния крупных и выбранных мелких визуальных информаций. Для всесторонней оценки способности понимания больших сцен 3D-VLM мы дополнительно представляем перекрестный бенчмарк понимания сцены, XR-Scene, который включает ряд задач понимания больших сцен, включая XR-QA, XR-EmbodiedPlanning и XR-SceneCaption. Эксперименты показывают, что наш метод превосходит существующие методы как в понимании больших сцен, так и на существующих бенчмарках понимания сцены. Внедрение нашего модуля увеличения сцены в существующие 3D-VLM также приносит значительное улучшение.
Токенизаторы изображений привлекли много внимания благодаря своей масштабируемости и компактности; предыдущие работы зависели от гиперпараметров на основе старой школы GAN, предвзятых сравнений и отсутствия всестороннего анализа поведения масштабирования. Для решения этих проблем мы представляем Группированную Сферическую Квантизацию (GSQ), включающую инициализацию сферического кодового книга и регуляризацию поиска для ограничения латентного кодового книга к сферической поверхности. Наше эмпирическое исследование стратегий обучения токенизатора изображений показывает, что GSQ-GAN достигает превосходного качества восстановления по сравнению с современными методами с меньшим числом итераций обучения, обеспечивая прочную основу для исследований масштабирования. На основе этого мы систематически изучаем поведение масштабирования GSQ, в частности, в скрытом измерении, размере кодового книга и коэффициентах сжатия, и их влияние на производительность модели. Наши результаты показывают различное поведение на высоких и низких уровнях пространственного сжатия, подчеркивая сложности представления высокоразмерных скрытых пространств. Мы показываем, что GSQ может переструктурировать высокоразмерные скрытые пространства в компактные, низкоразмерные пространства, тем самым обеспечивая эффективное масштабирование с улучшенным качеством. В результате GSQ-GAN достигает 16-кратного уменьшения с реконструкционным FID (rFID) 0.50.
Ссылочная сегментация изображений (RIS) - это продвинутая задача в области обработки изображений и языка, которая заключается в идентификации и сегментации объектов на изображении в соответствии с описаниями в свободной форме. В то время как предыдущие исследования сосредотачивались на выравнивании визуальных и языковых признаков, исследование методов обучения, таких как аугментация данных, остается малоисследованным. В данной работе мы исследуем эффективную аугментацию данных для RIS и предлагаем новую обучающую структуру под названием Маскированная ссылочная сегментация изображений (MaskRIS). Мы замечаем, что традиционные аугментации изображений недостаточны для RIS, что приводит к снижению производительности, в то время как простая случайная маскировка значительно улучшает производительность RIS. MaskRIS использует как маскировку изображений, так и текста, за которой следует Обучение контекстуальной деформации (DCL) для полного использования преимуществ стратегии маскировки. Этот подход может улучшить устойчивость модели к заслонениям, неполной информации и различным лингвистическим сложностям, что приводит к значительному улучшению производительности. Эксперименты показывают, что MaskRIS легко может быть применен к различным моделям RIS, превосходя существующие методы как в полностью надзорных, так и в слабо надзорных настройках. Наконец, MaskRIS достигает нового рекордного уровня производительности на наборах данных RefCOCO, RefCOCO+ и RefCOCOg. Код доступен по ссылке https://github.com/naver-ai/maskris.
Технологии искусственного интеллекта быстро переходят от исследований к производству. С увеличением популярности Фундаментальных Моделей (Foundation Models, FMs), которые генерируют текст, изображения и видео, системы на основе ИИ становятся все более сложными. По сравнению с традиционным программным обеспечением на основе ИИ, системы, использующие FMs или системы на основе GenAI, сложнее в проектировании из-за их масштаба и универсальности. Это делает необходимым документирование bewt практик, известных как паттерны проектирования в инженерии программного обеспечения, которые могут использоваться в различных приложениях GenAI. Наш первый вклад заключается в формализации двух техник, Декомпозиции Задач и Генерации с Поисково-Обогащенным Восстановлением (Retrieval-Augmented Generation, RAG), как паттернов проектирования для систем на основе GenAI. Мы обсуждаем их компромиссы в терминах атрибутов качества программного обеспечения и комментируем альтернативные подходы. Мы рекомендуем практикующим в области ИИ рассматривать эти техники не только с научной точки зрения, но и с точки зрения желаемых инженерных свойств, таких как гибкость, поддерживаемость, безопасность и надежность. В качестве второго вклада мы описываем наш опыт в индустрии применения Декомпозиции Задач и RAG для создания сложного прикладного приложения на основе GenAI для корпоративных пользователей: Генерация Рабочего Процесса. Задача генерации рабочих процессов заключается в создании конкретного плана с использованием данных из окружения системы, принимая на вход требование пользователя. Поскольку эти два паттерна влияют на весь цикл разработки ИИ, мы объясняем, как они повлияли на создание набора данных, обучение модели, оценку модели и этап развертывания.
Концепция AIPC становится все более популярной, и все больше гибридных ЦП будут запускать модели ИИ на клиентских устройствах. Однако текущая инференсная рамка ИИ не учитывает дисбаланс аппаратных возможностей гибридных ЦП, что приводит к низкой производительности инференса. Для решения этой проблемы мы представили динамический параллельный метод для гибридных ЦП, который значительно повышает производительность инференса LLM, балансируя нагрузку для каждого ядра гибридного ЦП перед началом параллельной работы. Этот метод позволил Neural Speed достичь более 90% (в среднем) пропускной способности памяти на двух гибридных ЦП Intel.
Обнаружение выдающихся моментов в видео и извлечение моментов (HD/MR) являются важными в анализе видео. Недавние модели трансформера совместного предсказания часто упускают из виду их динамику между задачами и выравнивание и уточнение видео-текста. Более того, большинство моделей обычно используют ограниченные однонаправленные механизмы внимания, что приводит к слабо интегрированным представлениям и неоптимальной производительности в улавливании взаимозависимости между видео и текстовыми модальностями. Хотя модели с большим языковым и зрительным моделями (LLM/LVLM) стали популярными в различных областях, их применение в этой области остается относительно малоисследованным. Здесь мы предлагаем VideoLights, новую структуру HD/MR, которая решает эти ограничения через (i) модули сверточной проекции и уточнения признаков с потерей выравнивания для лучшего выравнивания признаков видео-текст, (ii) сеть двунаправленного перекрестного слияния модальностей для тесно связанных представлений клипов, осведомленных о запросе, и (iii) механизм обратной связи с однонаправленной совместной задачей, улучшающий обе задачи через корреляцию. Кроме того, (iv) мы вводим жесткие положительные/отрицательные потери для адаптивного наказания за ошибки и улучшенного обучения, и (v) используем LVLM, такие как BLIP-2, для улучшенной мультимодальной интеграции признаков и интеллектуального предварительного обучения с использованием синтетических данных, сгенерированных из LVLM. Обширные эксперименты на бенчмарках QVHighlights, TVSum и Charades-STA демонстрируют передовую производительность. Коды и модели доступны на https://github.com/dpaul06/VideoLights.