Ежедневно отобранные исследовательские статьи по ИИ с переводами
Несмотря на выдающуюся производительность, развитие больших языковых моделей (LLM) сталкивается с критическим вызовом в масштабируемом контроле: обеспечение эффективной обратной связи для задач, где сложно проводить человеческую оценку или где LLM превосходят людей. В то время как растет интерес к использованию LLM для критики, текущие подходы все еще зависят от аннотаций людей или более мощных моделей, оставляя проблему улучшения возможностей критики без внешнего надзора нерешенной. Мы представляем SCRIT (Self-evolving CRITic), фреймворк, который позволяет подлинное саморазвитие способностей критики. Технически SCRIT самосовершенствуется путем обучения на синтетических данных, созданных контрастивно-основанным самокритиком, использующим эталонные решения для пошаговой критики, и механизмом самопроверки, который обеспечивает качество критики через результаты коррекции. Реализованный с использованием Qwen2.5-72B-Instruct, одной из самых мощных LLM, SCRIT достигает до 10,3\% улучшения на бенчмарках критики-коррекции и идентификации ошибок. Наш анализ показывает, что производительность SCRIT положительно масштабируется с увеличением данных и размера модели, превосходит альтернативные подходы и критически выигрывает от своего компонента самопроверки.
Подход с использованием извлечения для генерации (Retrieval-Augmented Generation, RAG) является мощной стратегией для решения проблемы генерации фактически неверных результатов в базовых моделях путем извлечения внешних знаний, относящихся к запросам, и их интеграции в процесс генерации. Однако существующие подходы RAG в основном сосредоточены на текстовой информации, с некоторыми последними достижениями, начавшими учитывать изображения, и в значительной степени игнорируют видео, богатый источник мультимодальных знаний, способный эффективнее представлять события, процессы и контекстуальные детали, чем любая другая модальность. Хотя некоторые недавние исследования исследуют интеграцию видео в процесс генерации ответов, они либо заранее определяют видео, связанные с запросами, без их извлечения в соответствии с запросами, либо преобразуют видео в текстовые описания, не используя их мультимодальную насыщенность. Для решения этих проблем мы представляем VideoRAG, новую структуру, которая не только динамически извлекает соответствующие видео на основе их релевантности с запросами, но также использует как визуальную, так и текстовую информацию видео в процессе генерации вывода. Кроме того, для операционализации этого подхода наш метод основан на последних достижениях в области крупных моделей языка для видео (Large Video Language Models, LVLMs), которые позволяют непосредственно обрабатывать видеоконтент для его представления для извлечения и безшовной интеграции извлеченных видео с запросами. Мы экспериментально подтверждаем эффективность VideoRAG, показывая, что он превосходит соответствующие базовые модели.
Рассуждение является фундаментальной способностью для решения сложных многошаговых задач, особенно в визуальных контекстах, где последовательное пошаговое понимание является важным. Существующие подходы не имеют всесторонней структуры для оценки визуального рассуждения и не уделяют достаточного внимания пошаговому решению проблем. В этой связи мы предлагаем всестороннюю структуру для продвижения многошагового визуального рассуждения в больших языковых моделях (LLM) через три ключевых вклада. Во-первых, мы представляем визуальный бенчмарк, специально разработанный для оценки многошаговых задач рассуждения. Бенчмарк представляет разнообразный набор вызовов с восемью различными категориями, начиная от сложного визуального восприятия до научного рассуждения с более чем 4 тыс. шагов рассуждения в общей сложности, обеспечивая надежную оценку способностей LLM выполнять точное и интерпретируемое визуальное рассуждение на протяжении нескольких шагов. Во-вторых, мы предлагаем новую метрику, которая оценивает качество визуального рассуждения на уровне отдельных шагов, подчеркивая как правильность, так и логическую последовательность. Предложенная метрика предлагает более глубокие исследования производительности рассуждения по сравнению с традиционными метриками точности конечной задачи. В-третьих, мы представляем новую мультимодальную модель визуального рассуждения, названную LlamaV-o1, обученную с использованием подхода обучения по карте многократных шагов, где задачи постепенно организованы для облегчения пошагового приобретения навыков и решения проблем. Предложенная LlamaV-o1 разработана для многошагового рассуждения и учится пошагово через структурированную обучающую парадигму. Обширные эксперименты показывают, что наша LlamaV-o1 превосходит существующие модели с открытым исходным кодом и успешно справляется с закрытыми проприетарными моделями. По сравнению с недавним Llava-CoT, наша LlamaV-o1 достигает среднего балла 67,3 с абсолютным приростом 3,8\% по шести бенчмаркам, при этом в 5 раз быстрее во время масштабирования вывода. Наш бенчмарк, модель и код доступны публично.
Разработка общих робототехнических систем способных манипулировать в неструктурированных средах представляет собой значительное испытание. Визио-языковые модели (VLM) блестяще справляются с рассуждениями на высоком уровне здравого смысла, но им не хватает детализированного пространственного понимания в 3D, необходимого для точных манипуляционных задач. Настройка VLM на робототехнических наборах данных для создания моделей визио-языкового-действия (VLA) является потенциальным решением, однако ее затрудняют высокие затраты на сбор данных и проблемы обобщения. Для решения этих проблем мы предлагаем новое объектно-центрическое представление, которое устраняет разрыв между высокоуровневым рассуждением VLM и низкоуровневой точностью, необходимой для манипуляций. Наш ключевой аспект заключается в том, что каноническое пространство объекта, определенное его функциональными возможностями, обеспечивает структурированный и семантически значимый способ описания примитивов взаимодействия, таких как точки и направления. Эти примитивы выступают в качестве моста, переводящего здравый смысл рассуждений VLM в действенные 3D пространственные ограничения. В этом контексте мы представляем двойную замкнутую систему робототехнической манипуляции с открытым словарем: один цикл для планирования на высоком уровне через повторное выборочное формирование примитивов, визуализацию взаимодействия и проверку VLM, и другой для выполнения на низком уровне через отслеживание позы 6D. Этот дизайн обеспечивает надежное, реальное управление без необходимости настройки VLM. Обширные эксперименты демонстрируют сильное обобщение без обучения на разнообразных задачах робототехнической манипуляции, подчеркивая потенциал данного подхода для автоматизации генерации данных симуляции большого масштаба.
Временное осознание, способность рассуждать динамически на основе метки времени, когда задается вопрос, является ключевым различием между офлайн и онлайн видео LLMs. В отличие от офлайн моделей, которые полагаются на полные видео для статического, послефактного анализа, онлайн модели обрабатывают видеопотоки поэтапно и динамически адаптируют свои ответы на основе метки времени, на которой задается вопрос. Несмотря на его значимость, временное осознание не было должным образом оценено в существующих бенчмарках. Для заполнения этого пробела мы представляем OVO-Bench (Online-VideO-Benchmark), новый видео-бенчмарк, который подчеркивает важность меток времени для оценки возможностей продвинутого онлайн понимания видео. OVO-Bench оценивает способность видео LLMs рассуждать и реагировать на события, происходящие в определенные моменты времени, в трех различных сценариях: (1) Обратное отслеживание: вернуться к прошлым событиям, чтобы ответить на вопрос. (2) Понимание в реальном времени: понимать и реагировать на события по мере их развития в текущий момент времени. (3) Активное предварительное реагирование: отложить ответ до тех пор, пока не станет доступно достаточно будущей информации для точного ответа на вопрос. OVO-Bench включает 12 задач, включающих 644 уникальных видео и приблизительно 2800 тщательно отобранных мета-аннотаций с точными метками времени. Мы комбинируем автоматизированные процессы генерации с человеческой кураторской работой. С использованием этих образцов высокого качества, мы дополнительно разработали процесс оценки для систематического запроса видео LLMs вдоль временной шкалы видео. Оценки девяти видео-LLMs показывают, что, несмотря на прогресс на традиционных бенчмарках, текущие модели испытывают трудности с онлайн пониманием видео, демонстрируя значительный разрыв по сравнению с человеческими агентами. Мы надеемся, что OVO-Bench стимулирует прогресс в видео LLMs и вдохновит на будущие исследования в области онлайн рассуждений о видео. Наш бенчмарк и код доступны по ссылке https://github.com/JoeLeelyf/OVO-Bench.
Недавние достижения в области мультимодальных моделей больших языков (MLLM) значительно улучшили их детализированное восприятие одиночных изображений и общее понимание по всем изображениям. Однако существующие MLLM по-прежнему сталкиваются с проблемами в достижении точной привязки в сложных мультиизображенческих сценариях. Для решения этой проблемы мы в первую очередь исследуем структуру Chain-of-Thought (CoT), которая интегрирует привязку к одиночному изображению с пониманием нескольких изображений. Хотя это частично эффективно, она остается нестабильной и испытывает затруднения в захвате абстрактной визуальной информации из-за своей неэнд-ту-энд природы. Поэтому мы представляем Migician, первую модель привязки к нескольким изображениям, способную выполнять свободную и точную привязку через несколько изображений. Для поддержки этого мы представляем набор данных MGrounding-630k, который включает данные для нескольких задач привязки к нескольким изображениям, полученные из существующих наборов данных, а также новые данные для следования инструкциям свободной привязки. Кроме того, мы предлагаем MIG-Bench, комплексный бенчмарк, специально разработанный для оценки возможностей привязки к нескольким изображениям. Экспериментальные результаты показывают, что наша модель достигает значительно более высоких возможностей привязки к нескольким изображениям, превосходя лучшие существующие MLLM на 21,61% и даже превосходя гораздо более крупные модели объемом 70 млрд. Наш код, модель, набор данных и бенчмарк полностью открыты для использования.
Большие языковые модели (LLM) достигли выдающихся результатов в последние годы, но их основным ограничением являются обучающие данные. Для улучшения моделей за пределами обучающих данных в недавних работах исследовалось, как LLM можно использовать для генерации синтетических данных для автономного самосовершенствования. Однако последовательные этапы самосовершенствования могут достичь точки убывающей отдачи. В данной работе мы предлагаем дополнительный подход к самосовершенствованию, при котором применяется донастройка к мультиагентному сообществу языковых моделей. Группа языковых моделей, все начиная с одной и той же базовой модели, независимо специализируется путем обновления каждой модели с использованием данных, сгенерированных через мультиагентное взаимодействие между моделями. Обучая каждую модель на независимых наборах данных, мы показываем, как этот подход позволяет осуществлять специализацию между моделями и диверсификацию по набору моделей. В результате наша общая система способна сохранять разнообразные цепочки рассуждений и автономно улучшаться на гораздо большем количестве раундов донастройки, чем методы самосовершенствования одного агента. Мы количественно иллюстрируем эффективность подхода на широком наборе задач рассуждения.
Структурированное понимание изображений, такое как интерпретация таблиц и диаграмм, требует стратегического переключения внимания между различными структурами и текстами на изображении, формируя последовательность рассуждений для получения окончательного ответа. Однако текущим мультимодальным большим языковым моделям (LLM) не хватает этой возможности многократного выборочного внимания. В данной работе мы представляем ReFocus, простую, но эффективную структуру, которая оснащает мультимодальные LLM способностью генерировать "визуальные мысли", выполняя визуальное редактирование на входном изображении через код, смещая и уточняя их визуальные акценты. Конкретно, ReFocus позволяет мультимодальным LLM генерировать коды Python для вызова инструментов и модификации входного изображения, последовательно рисуя рамки, выделяя секции и маскируя области, тем самым улучшая процесс визуального рассуждения. Мы проводим эксперименты на широком спектре задач структурированного понимания изображений, включающих таблицы и диаграммы. ReFocus значительно улучшает производительность на всех задачах по сравнению с GPT-4o без визуального редактирования, обеспечивая средний прирост в 11,0% для задач с таблицами и 6,8% для задач с диаграммами. Мы представляем подробный анализ эффектов различных визуальных изменений и причины, почему ReFocus может улучшить производительность без введения дополнительной информации. Кроме того, мы собираем набор данных для обучения объемом 14 тыс. с использованием ReFocus и доказываем, что такая визуальная цепочка мыслей с промежуточной информацией предлагает лучшее руководство, чем стандартные данные VQA, достигая среднего прироста в 8,0% по сравнению с тем же моделью, обученной с парами вопрос-ответ, и 2,6% по сравнению с CoT.
Генерация видео по тексту достигла значительных успехов благодаря моделям диффузии. Однако многоконцептная настройка видео (MCVC) остается значительным вызовом. Мы выделяем две ключевые проблемы в этой задаче: 1) проблему разделения идентичности, при которой прямое применение существующих методов настройки неизбежно приводит к смешиванию атрибутов при одновременной обработке нескольких концепций, и 2) дефицит высококачественных пар видео-сущность, что критично для обучения модели, хорошо представляющей и разделяющей различные концепции. Для решения этих проблем мы представляем ConceptMaster, инновационную структуру, которая эффективно решает критические проблемы разделения идентичности, сохраняя при этом верность концепции в настраиваемых видео. Конкретно, мы предлагаем новую стратегию обучения разделенных многоконцептных вложений, которые инъектируются в модели диффузии самостоятельно, что эффективно гарантирует качество настраиваемых видео с несколькими идентичностями, даже для высоко похожих визуальных концепций. Для преодоления дефицита высококачественных данных MCVC мы тщательно создаем конвейер построения данных, который обеспечивает систематический сбор точных многоконцептных видео-сущностных данных по разнообразным концепциям. Создан обширный бенчмарк для проверки эффективности нашей модели с трех критических измерений: верность концепции, способность разделения идентичности и качество генерации видео в шести различных сценариях композиции концепций. Обширные эксперименты показывают, что наш ConceptMaster значительно превосходит предыдущие подходы к этой задаче, открывая путь к созданию персонализированных и семантически точных видео по нескольким концепциям.
Методы персонализации видео позволяют нам синтезировать видео с конкретными концепциями, такими как люди, домашние животные и места. Однако существующие методы часто сосредотачиваются на ограниченных областях, требуют трудоемкой оптимизации для каждого объекта или поддерживают только один объект. Мы представляем Video Alchemist - видеомодель с встроенными возможностями мультиобъектной персонализации с открытым набором для как переднего, так и заднего плана, устраняя необходимость в трудоемкой оптимизации во время тестирования. Наша модель основана на новом модуле Диффузионного Трансформера, который объединяет каждое условное опорное изображение и соответствующий текстовый запрос на уровне объекта с использованием слоев кросс-внимания. Разработка такой большой модели представляет две основные проблемы: набор данных и оценка. Во-первых, поскольку собрать сопоставленные наборы данных опорных изображений и видео крайне сложно, мы выбираем отдельные кадры видео в качестве опорных изображений и синтезируем клип целевого видео. Однако, хотя модели легко удаляют шум из обучающих видео на основе опорных кадров, они не могут обобщить на новые контексты. Для уменьшения этой проблемы мы разрабатываем новый автоматический конвейер построения данных с обширными аугментациями изображений. Во-вторых, оценка персонализации видео с открытым набором сама по себе представляет собой вызов. Для решения этой проблемы мы представляем бенчмарк по персонализации, который фокусируется на точной субъективной достоверности и поддерживает разнообразные сценарии персонализации. Наконец, наши обширные эксперименты показывают, что наш метод значительно превосходит существующие методы персонализации как в количественных, так и в качественных оценках.
Данное исследование демонстрирует новый подход к тестированию границ безопасности модели Vision-Large Language Model (VLM/LLM), используя тестовый файл EICAR, встроенный в изображения JPEG. Мы успешно выполнили четыре различных протокола на нескольких платформах LLM, включая OpenAI GPT-4o, Microsoft Copilot, Google Gemini 1.5 Pro и Anthropic Claude 3.5 Sonnet. Эксперименты подтвердили, что модифицированное изображение JPEG, содержащее подпись EICAR, может быть загружено, обработано и потенциально выполнено в виртуальных рабочих пространствах LLM. Основные результаты включают: 1) постоянную возможность маскировать строку EICAR в метаданных изображения без обнаружения, 2) успешное извлечение тестового файла с использованием манипуляций на основе Python в средах LLM, и 3) демонстрацию нескольких техник обфускации, включая кодирование base64 и обращение строки. Данное исследование расширяет "Правила взлома" Microsoft Research для оценки границ безопасности облачных генеративных ИИ и LLM, с особым вниманием на обработку файлов и возможности выполнения в контейнеризованных средах.
Традиционный процесс производства анимации на целлюлоиде (Cel) включает в себя несколько важных этапов, включая создание сценария, разработку макета, создание ключевых кадров, создание промежуточных кадров и раскрашивание, что требует значительных ручных усилий, технической экспертизы и значительных временных затрат. Эти вызовы исторически затрудняли эффективность и масштабируемость производства анимации на целлюлоиде. Возникновение генеративного искусственного интеллекта (GenAI), включающего в себя большие языковые модели, мультимодальные модели и модели диффузии, предлагает инновационные решения путем автоматизации задач, таких как создание промежуточных кадров, раскрашивание и создание сценариев. В данном обзоре исследуется, как интеграция GenAI революционизирует традиционные рабочие процессы анимации, снижая технические барьеры, расширяя доступность для более широкого круга создателей с помощью инструментов, таких как AniDoc, ToonCrafter и AniSora, и позволяя художникам сосредотачиваться на творческом выражении и художественных инновациях. Несмотря на его потенциал, проблемы, такие как поддержание визуальной согласованности, обеспечение стилистической целостности и учет этических соображений, продолжают представлять вызовы. Кроме того, в данной статье обсуждаются перспективы развития и исследуются потенциальные достижения в области анимации с помощью искусственного интеллекта. Для дальнейшего изучения и ресурсов посетите наш репозиторий на GitHub: https://github.com/yunlong10/Awesome-AI4Animation
Доменно-адаптивное послетренировочное обучение больших языковых моделей (LLM) стало перспективным подходом для специализированных областей, таких как медицина и финансы. Однако остаются значительные вызовы в определении оптимальных критериев адаптации и стратегий обучения при различных данных и конфигурациях моделей. Для решения этих проблем мы представляем FINDAP - систематическое и детальное исследование доменно-адаптивного послетренировочного обучения LLM для финансовой сферы. Наш подход начинается с определения основных возможностей, необходимых для целевого домена, и разработки комплексного набора оценок, соответствующего этим потребностям. Затем мы анализируем эффективность ключевых этапов послетренировочного обучения, включая непрерывное предварительное обучение, настройку инструкций и выравнивание предпочтений. Основываясь на этих исследованиях, мы предлагаем эффективный метод обучения, сосредоточенный на новом методе дистилляции предпочтений данных, который использует сигналы процесса от генеративной модели вознаграждения. Полученная модель, Llama-Fin, достигает передовых результатов на широком спектре финансовых задач. Наш анализ также подчеркивает, как каждый этап послетренировочного обучения способствует различным возможностям, выявляя конкретные вызовы и эффективные решения, предоставляя ценные идеи для адаптации домена LLM. Страница проекта: https://github.com/SalesforceAIResearch/FinDap