Ежедневно отобранные исследовательские статьи по ИИ с переводами
LLM и системы RAG теперь способны обрабатывать миллионы входных токенов или более. Однако оценка качества вывода таких систем на задачах с длинным контекстом остается сложной, поскольку задачи, такие как "Игла в стоге сена", лишены сложности. В данной работе мы утверждаем, что суммаризация может сыграть центральную роль в такой оценке. Мы разрабатываем процедуру синтеза стогов документов, обеспечивая повторение конкретных идей в различных документах. Задача "Суммаризация стога" (SummHay) требует, чтобы система обрабатывала стог и генерировала, учитывая запрос, сводку, которая выделяет соответствующие идеи и точно ссылается на исходные документы. Поскольку у нас есть точное знание о том, какие идеи должны появиться в сводке стога и какие документы должны быть процитированы, мы реализуем высокорепродуцируемую автоматическую оценку, которая может оценивать сводки по двум аспектам - Покрытие и Цитирование. Мы создаем стоги в двух областях (разговор, новости) и проводим масштабную оценку 10 LLM и соответствующих 50 систем RAG. Наши результаты показывают, что SummHay является открытым вызовом для текущих систем, поскольку даже системы, получившие сигнал Оракула о значимости документа, отстают от нашей оценки человеческой производительности (56\%) на 10+ пунктов по Общему Баллу. Без поисковика LLM с длинным контекстом, такие как GPT-4o и Claude 3 Opus, набирают менее 20% по SummHay. Мы показываем, что SummHay также может быть использован для изучения корпоративных систем RAG и предвзятости в моделях с длинным контекстом. Мы надеемся, что будущие системы смогут превзойти человеческую производительность по SummHay.
Недавние достижения в области крупных языковых моделей (LLM) значительно продвинули автоматизацию задач разработки программного обеспечения, включая синтез кода, восстановление программ и генерацию тестов. Более недавно исследователи и практикующие специалисты из индустрии разработали различных автономных агентов LLM для выполнения задач разработки программного обеспечения от начала до конца. Эти агенты обладают способностью использовать инструменты, выполнять команды, наблюдать за обратной связью из окружающей среды и планировать будущие действия. Однако сложность подходов на основе агентов, вместе с ограниченными возможностями текущих LLM, порождает следующий вопрос: Не обязательно ли нам использовать сложных автономных программных агентов? Для попытки ответа на этот вопрос мы создаем Agentless - подход без агентов для автоматического решения задач разработки программного обеспечения. По сравнению с многословной и сложной настройкой подходов на основе агентов, Agentless использует упрощенный двухфазный процесс локализации, за которым следует восстановление, не позволяя LLM принимать решения о будущих действиях или работать с сложными инструментами. Наши результаты на популярном бенчмарке SWE-bench Lite показывают, что удивительно простой Agentless способен достичь как лучшей производительности (27,33%), так и самой низкой стоимости (\$0,34) по сравнению со всеми существующими открытыми программными агентами! Более того, мы вручную классифицировали проблемы в SWE-bench Lite и обнаружили проблемы с точным патчем и недостаточными/вводящими в заблуждение описаниями проблем. Таким образом, мы создаем SWE-bench Lite-S, исключая такие проблемные вопросы, чтобы провести более строгую оценку и сравнение. Наша работа подчеркивает текущий недооцененный потенциал простой, интерпретируемой техники в автономной разработке программного обеспечения. Мы надеемся, что Agentless поможет переустановить базовую линию, отправную точку и горизонт для автономных программных агентов и вдохновит на будущие работы в этом важном направлении.
Генерация видео по тексту (T2V) недавно привлекла значительное внимание благодаря крупной мульти-модель Sora. Однако генерация T2V по-прежнему сталкивается с двумя важными проблемами: 1) Отсутствие точного открытого исходного высококачественного набора данных. Предыдущие популярные видео-наборы данных, например, WebVid-10M и Panda-70M, либо имеют низкое качество, либо слишком велики для большинства исследовательских учреждений. Поэтому собрать точные высококачественные пары текст-видео для генерации T2V является сложной, но важной задачей. 2) Недостаточное использование текстовой информации. Недавние методы T2V сосредоточены на видео-трансформерах, используя простой модуль внимания на основе кросс-внимания для генерации видео, что не позволяет полностью извлекать семантическую информацию из текстовой подсказки. Для решения этих проблем мы представляем OpenVid-1M, точный высококачественный набор данных с выразительными подписями. Этот открытый сценарий набор данных содержит более 1 миллиона пар текст-видео, способствуя исследованиям по генерации T2V. Кроме того, мы отбираем 433 тыс. видео разрешением 1080p из OpenVid-1M для создания OpenVidHD-0.4M, продвигая генерацию видео высокой четкости. Кроме того, мы предлагаем новый Мульти-модальный Видео Диффузионный Трансформер (MVDiT), способный извлекать как структурную информацию из визуальных токенов, так и семантическую информацию из текстовых токенов. Обширные эксперименты и исследования абляции подтверждают превосходство OpenVid-1M над предыдущими наборами данных и эффективность нашего MVDiT.
Вычислительные вызовы вывода больших языковых моделей (LLM) остаются значительным барьером для их широкого применения, особенно по мере увеличения длины запросов. Из-за квадратичной сложности вычислений внимания 8B LLM требуется 30 минут для обработки запроса из 1 миллиона токенов (т. е. этап предварительного заполнения) на одном GPU A100. Существующие методы ускорения предварительного заполнения часто не способны сохранить приемлемую точность или эффективность при применении к LLM с длинным контекстом. Для решения этой проблемы мы представляем MInference (Milliontokens Inference) - разреженный метод вычислений, разработанный для ускорения обработки длинных последовательностей. Конкретно, мы выделяем три уникальных шаблона в матрицах внимания с длинным контекстом - A-образный, Вертикальная черта и Блочно-разреженный, которые можно использовать для эффективных разреженных вычислений на GPU. Мы определяем оптимальный шаблон для каждой головы внимания оффлайн и динамически создаем разреженные индексы на основе назначенного шаблона во время вывода. С помощью шаблона и разреженных индексов мы выполняем эффективные вычисления разреженного внимания с помощью наших оптимизированных ядер GPU для значительного снижения задержки на этапе предварительного заполнения LLM с длинным контекстом. Наш метод может быть применен к существующим LLM напрямую без каких-либо изменений в настройках предварительного обучения или дополнительной донастройки. Проведя оценку на широком спектре задач, включая InfiniteBench, RULER, PG-19 и Needle In A Haystack, а также модели, включая LLaMA-3-1M, GLM4-1M, Yi-200K, Phi-3-128K и Qwen2-128K, мы демонстрируем, что MInference эффективно сокращает задержку вывода до 10 раз на этапе предварительного заполнения на A100, сохраняя точность. Наш код доступен по адресу https://aka.ms/MInference.
Выравнивание предпочтений стало ключевым компонентом для улучшения производительности больших языковых моделей (LLM), однако его влияние на мультимодальные большие языковые модели (MLLM) остается относительно малоизученным. Аналогично языковым моделям, MLLM для задач понимания изображений сталкиваются с вызовами, такими как галлюцинации. В MLLM галлюцинации могут возникать не только за счет неверного утверждения фактов, но и за счет выдачи ответов, несовместимых с содержанием изображения. Одной из основных целей выравнивания для MLLM является стимулирование этих моделей к более тесному соответствию ответов информации на изображении. Недавно было представлено несколько работ, в которых были введены наборы данных предпочтений для MLLM и исследованы различные методы выравнивания, включая прямую оптимизацию предпочтений (DPO) и оптимизацию ближайшей политики (PPO). Однако из-за различий в наборах данных, типах базовых моделей и методах выравнивания остается неясным, какие конкретные элементы вносят наиболее значительный вклад в отмеченные улучшения в этих работах. В данной статье мы независимо анализируем каждый аспект выравнивания предпочтений в MLLM. Мы начинаем с классификации алгоритмов выравнивания на две группы, оффлайн (такие как DPO) и онлайн (такие как онлайн-DPO), и показываем, что комбинирование оффлайн и онлайн методов может улучшить производительность модели в определенных сценариях. Мы рассматриваем разнообразие опубликованных мультимодальных наборов данных предпочтений и обсуждаем, как детали их построения влияют на производительность модели. Основываясь на этих исследованиях, мы представляем новый способ создания мультимодальных данных предпочтений, называемый Сэмплированием галлюцинаций, основанным на предвзятости (BDHS), который не требует дополнительной аннотации или внешних моделей, и показываем, что он может достичь конкурентоспособной производительности по сравнению с ранее опубликованными работами по выравниванию для мультимодальных моделей на ряде бенчмарков.
Мы представляем метод Magic Insert, позволяющий перетаскивать объекты с пользовательского изображения в целевое изображение другого стиля таким образом, чтобы это происходило физически правдоподобно и соответствовало стилю целевого изображения. В данной работе формализуется проблема перетаскивания с учетом стиля и предлагается метод ее решения путем рассмотрения двух подзадач: персонализация с учетом стиля и реалистичная вставка объектов в стилизованные изображения. Для персонализации с учетом стиля наш метод сначала донастраивает предварительно обученную модель диффузии текста в изображение с использованием LoRA и обученных текстовых токенов на изображении объекта, а затем объединяет ее с CLIP-представлением целевого стиля. Для вставки объектов мы используем Bootstrapped Domain Adaption для адаптации модели вставки фотореалистичных объектов к домену разнообразных художественных стилей. В целом метод значительно превосходит традиционные подходы, такие как заполнение. Наконец, мы представляем набор данных SubjectPlop для облегчения оценки и будущего прогресса в этой области. Страница проекта: https://magicinsert.github.io/
Соответствие потоков (Flow matching, FM) - это общая структура для определения вероятностных траекторий через Обыкновенные Дифференциальные Уравнения (ODE), чтобы преобразовывать между шумом и образцами данных. Недавние подходы пытаются выпрямить эти потоковые траектории для генерации образцов высокого качества с меньшим количеством вычислений функций, обычно через итеративные методы прямоугольной коррекции или решения оптимального транспорта. В данной статье мы представляем Consistency Flow Matching (Consistency-FM), новый метод FM, который явно обеспечивает самосогласованность в поле скорости. Consistency-FM напрямую определяет прямые потоки, начиная с разных моментов времени к одной и той же конечной точке, налагая ограничения на значения их скоростей. Кроме того, мы предлагаем многосегментный подход к обучению для Consistency-FM для улучшения выразительности, достигая лучшего компромисса между качеством выборки и скоростью. Предварительные эксперименты показывают, что наш Consistency-FM значительно повышает эффективность обучения, сходясь в 4,4 раза быстрее, чем модели согласованности, и в 1,7 раза быстрее, чем прямоугольные модели потока, при этом достигая лучшего качества генерации. Наш код доступен по адресу: https://github.com/YangLing0818/consistency_flow_matching
Большие языковые модели (LLM), обученные на обширных корпусах, неизбежно сохраняют чувствительные данные, такие как личная информация о конфиденциальности и авторское материал. Недавние достижения в области забывания знаний включают обновление параметров LLM для стирания определенных знаний. Однако текущие парадигмы забывания застряли в неопределенных границах забывания, часто стирая знания произвольно. В данной работе мы представляем KnowUnDo, бенчмарк, содержащий авторский контент и области конфиденциальности пользователей, чтобы оценить, нестирает ли процесс забывания нежелательные знания. Наши результаты показывают, что существующие методы забывания часто страдают от избыточного забывания. Для решения этой проблемы мы предлагаем простой, но эффективный метод, MemFlex, который использует информацию о градиенте для точного выделения и забывания чувствительных параметров. Экспериментальные результаты показывают, что MemFlex превосходит существующие методы как в точном забывании знаний, так и в сохранении общих знаний LLM. Код и набор данных будут опубликованы на https://github.com/zjunlp/KnowUnDo.
Недавние достижения в генерации видео на основе диффузии продемонстрировали выдающиеся результаты, однако разрыв между синтетическими и видео из реального мира остается мало исследованным. В данном исследовании мы исследуем этот разрыв с трех фундаментальных точек зрения: внешности, движения и геометрии, сравнивая видео из реального мира с теми, которые генерирует передовая модель искусственного интеллекта Stable Video Diffusion. Для достижения этой цели мы обучаем три классификатора с использованием трехмерных сверточных сетей, каждый из которых нацелен на различные аспекты: модель основы зрения для внешности, оптический поток для движения и монокулярная глубина для геометрии. Каждый классификатор демонстрирует высокую производительность в обнаружении фальшивых видео как качественно, так и количественно. Это указывает на то, что видео, созданные искусственным интеллектом, по-прежнему легко обнаружимы, и значительный разрыв между реальными и фальшивыми видео сохраняется. Кроме того, используя Grad-CAM, мы выявляем систематические сбои в видео, созданных искусственным интеллектом, в аспектах внешности, движения и геометрии. Наконец, мы предлагаем модель "Ансамбль экспертов", которая интегрирует информацию о внешности, оптическом потоке и глубине для обнаружения фальшивых видео, что приводит к улучшенной устойчивости и способности к обобщению. Наша модель способна обнаруживать видео, созданные Sora, с высокой точностью, даже без предварительного знакомства с какими-либо видео Sora во время обучения. Это свидетельствует о том, что разрыв между реальными и фальшивыми видео может быть обобщен на различные модели генерации видео. Страница проекта: https://justin-crchang.github.io/3DCNNDetection.github.io/
Раскрытие скрытых ценностей и мнений в больших языковых моделях (LLM) может помочь выявить предвзятости и смягчить потенциальный вред. Недавно это было рассмотрено путем представления LLM опросными вопросами и количественной оценки их позиций по морально и политически насыщенным утверждениям. Однако позиции, сгенерированные LLM, могут сильно варьироваться в зависимости от того, как они стимулируются, и существует множество способов аргументировать за или против данной позиции. В данной работе мы предлагаем решить эту проблему путем анализа большого и надежного набора данных из 156 тыс. ответов LLM на 62 утверждения Политического компаса (PCT), сгенерированных 6 LLM с использованием 420 вариаций подсказок. Мы проводим грубо-зернистый анализ сгенерированных позиций и детальный анализ обоснований в виде обычного текста для этих позиций. Для детального анализа мы предлагаем выявить тропы в ответах: семантически схожие фразы, которые повторяются и согласованы в различных подсказках, раскрывая закономерности в тексте, которые конкретный LLM склонен производить. Мы обнаружили, что демографические характеристики, добавленные к подсказкам, значительно влияют на результаты на PCT, отражая предвзятость, а также различия между результатами тестов при получении закрытых форм vs. открытых ответов. Кроме того, закономерности в обоснованиях обычного текста через тропы показывают, что аналогичные обоснования повторно генерируются в разных моделях и подсказках, даже при различных позициях.
Мы изучаем Neural Foley, автоматическую генерацию высококачественных звуковых эффектов, синхронизированных с видео, обеспечивая увлекательный аудиовизуальный опыт. Несмотря на широкий спектр применений, существующие подходы сталкиваются с ограничениями при одновременном синтезе высококачественных и синхронизированных с видео (т.е. семантически значимых и временно согласованных) звуков. Для преодоления этих ограничений мы предлагаем FoleyCrafter, новую концепцию, которая использует предварительно обученную модель текст-в-аудио для обеспечения генерации высококачественного звука. FoleyCrafter состоит из двух ключевых компонентов: семантического адаптера для семантического выравнивания и временного контроллера для точной синхронизации аудио-видео. Семантический адаптер использует параллельные слои кросс-внимания для условией генерации звука на особенности видео, создавая реалистичные звуковые эффекты, семантически соответствующие визуальному контенту. Тем временем временной контроллер включает детектор начала и адаптер на основе временных меток для достижения точного выравнивания аудио-видео. Одним из заметных преимуществ FoleyCrafter является его совместимость с текстовыми подсказками, позволяющая использовать текстовые описания для достижения управляемой и разнообразной генерации видео-в-аудио в соответствии с намерениями пользователя. Мы проводим обширные количественные и качественные эксперименты на стандартных бенчмарках для проверки эффективности FoleyCrafter. Модели и коды доступны по адресу https://github.com/open-mmlab/FoleyCrafter.
Недавние достижения в области микроскопии позволили быстро генерировать терабайты изображений в клеточной биологии и биомедицинских исследованиях. Модели видение-язык (VLM) предлагают многообещающее решение для анализа биологических изображений в крупном масштабе, повышая эффективность исследователей, выявляя новые биомаркеры изображений и ускоряя генерацию гипотез и научные открытия. Однако существует недостаток стандартизированных, разнообразных и крупномасштабных бенчмарков видение-язык для оценки способностей восприятия и когнитивных способностей VLM в понимании биологических изображений. Для решения этой проблемы мы представляем {\mu}-Bench, экспертно подготовленный бенчмарк, охватывающий 22 биомедицинских задачи в различных научных дисциплинах (биология, патология), модальностях микроскопии (электронная, флуоресцентная, световая), масштабах (субклеточный, клеточный, тканевой) и организмах в нормальном и аномальном состояниях. Мы оцениваем современные биомедицинские, патологические и общие модели VLM на {\mu}-Bench и приходим к выводу, что: i) текущие модели испытывают трудности во всех категориях, даже в базовых задачах, таких как различение модальностей микроскопии; ii) текущие специализированные модели, донастроенные на биомедицинских данных, часто показывают худшие результаты по сравнению с общими моделями; iii) донастройка в конкретных областях микроскопии может привести к катастрофическому забыванию, разрушая ранее закодированные в базовой модели биомедицинские знания. iv) интерполяция весов между донастроенными и предварительно обученными моделями предлагает одно из решений для предотвращения забывания и улучшает общую производительность в биомедицинских задачах. Мы выпускаем {\mu}-Bench под лицензией, позволяющей ускорить исследования и разработку базовых моделей микроскопии.