Ежедневно отобранные исследовательские статьи по ИИ с переводами
Быстрое развитие крупных языковых моделей (LLM) продемонстрировало значительный прогресс в сложных задачах рассуждения. Однако существует значительное расхождение между результатами на стандартных тестах и реальными приложениями. Мы выявляем эту разницу в основном как следствие текущих протоколов оценки и метрик, которые недостаточно улавливают все возможности LLM, особенно в сложных задачах рассуждения, где важны как точность, так и последовательность. В данной работе вносятся два ключевых вклада. Во-первых, мы представляем G-Pass@k, новую метрику оценки, которая обеспечивает непрерывную оценку производительности модели при многократных попытках выборки, количественно оценивая как потенциал пиковой производительности модели, так и ее стабильность. Во-вторых, мы представляем LiveMathBench, динамический бенчмарк, включающий в себя сложные, современные математические задачи, разработанный для минимизации рисков утечки данных во время оценки. Проведя обширные эксперименты с использованием G-Pass@k на передовых LLM с LiveMathBench, мы предоставляем всесторонние исследования как их максимальных возможностей, так и операционной последовательности. Наши результаты показывают значительное пространство для улучшения "реалистичных" рассуждений LLM, подчеркивая необходимость более надежных методов оценки. Бенчмарк и подробные результаты доступны по ссылке: https://github.com/open-compass/GPassK.
Как типичное и практическое применение больших языковых моделей (LLM), методы Генерации с Поисковым Дополнением (RAG) получили широкое внимание, особенно в вертикальных областях, где LLM может не иметь специфических для области знаний. В данной статье мы представляем всеобъемлющий и автоматический бенчмарк RAG, OmniEval, в финансовой области. Наш бенчмарк характеризуется многомерной системой оценки, включающей (1) систему оценки сценариев RAG на основе матриц, которая классифицирует запросы на пять классов задач и 16 финансовых тем, что позволяет структурированно оценить разнообразные сценарии запросов; (2) многомерный подход к генерации данных для оценки, который объединяет автоматическую генерацию на основе GPT-4 и аннотацию человека, достигая коэффициента принятия на уровне 87,47\% в человеческих оценках сгенерированных экземпляров; (3) многоступенчатую систему оценки, которая оценивает как производительность поиска, так и генерации, обеспечивая всестороннюю оценку конвейера RAG; и (4) надежные метрики оценки, происходящие как из правил, так и из LLM, улучшая надежность оценок через ручные аннотации и надзорное дообучение оценщика LLM. Наши эксперименты демонстрируют всесторонность OmniEval, включающую обширные тестовые наборы данных и выявляющую различия в производительности систем RAG по разным темам и задачам, раскрывая значительные возможности для моделей RAG в улучшении своих возможностей в вертикальных областях. Мы открыто предоставляем код нашего бенчмарка по ссылке https://github.com/RUC-NLPIR/OmniEval.
Бурно развивающееся направление крупных мультимодальных моделей (LMM) привело к появлению разнообразных моделей с выдающимися возможностями. Однако существующие бенчмарки не способны всесторонне, объективно и точно оценить, соответствуют ли LMM разнообразным потребностям людей в реальных сценариях. Для устранения этого разрыва мы предлагаем бенчмарк Multi-Dimensional Insights (MDI), который включает более 500 изображений, охватывающих шесть общих сценариев человеческой жизни. Следует отметить, что бенчмарк MDI предлагает два значительных преимущества по сравнению с существующими оценками: (1) Каждое изображение сопровождается двумя типами вопросов: простые вопросы для оценки понимания моделью изображения и сложные вопросы для оценки способности модели анализировать и рассуждать за пределами базового содержания. (2) Учитывая, что люди разных возрастных групп имеют различные потребности и взгляды при столкновении с одним и тем же сценарием, наш бенчмарк стратифицирует вопросы на три возрастные категории: молодые люди, люди среднего возраста и пожилые люди. Такой подход позволяет детально оценить способности LMM в удовлетворении предпочтений и потребностей различных возрастных групп. С помощью бенчмарка MDI сильная модель, такая как GPT-4, достигает точности 79% в задачах, связанных с возрастом, что свидетельствует о значительном потенциале для улучшения существующих LMM в решении задач реального мира. В будущем мы ожидаем, что бенчмарк MDI откроет новые пути для соответствия персонализации в LMM реальному миру. Данные и код оценки бенчмарка MDI доступны по адресу https://mdi-benchmark.github.io/
Декодирование цепочки мыслей (CoT) позволяет языковым моделям улучшить производительность рассуждений за счет высокой задержки генерации при декодировании. В последних исследованиях были рассмотрены варианты токенов контемпляции, термин, который мы вводим и который относится к специальным токенам, используемым во время вывода для дополнительных вычислений. В предыдущих работах рассматривались последовательности фиксированной длины, взятые из дискретного набора вложений, в качестве токенов контемпляции. Здесь мы предлагаем Сжатую Цепочку Мыслей (CCoT), фреймворк для генерации содержательных и непрерывных токенов контемпляции переменной длины последовательности. Сгенерированные токены контемпляции являются сжатыми представлениями явных цепочек рассуждений, и наш метод может быть применен к готовым декодерам языковых моделей. Через эксперименты мы иллюстрируем, как CCoT позволяет дополнительные рассуждения над плотными содержательными представлениями для достижения соответствующих улучшений в точности. Более того, улучшения в рассуждениях могут быть адаптивно изменены по требованию путем контроля количества сгенерированных токенов контемпляции.
Люди упрощают сложные опыты до основных абстракций, которые обеспечивают быстрое обучение и адаптацию. Авторегрессивные трансформеры, аналогично, проявляют адаптивное обучение через обучение в контексте (ICL), что порождает вопрос о том, как. В данной статье мы предлагаем механизм кодирования-декодирования концепций для объяснения ICL, изучая, как трансформеры формируют и используют внутренние абстракции в своих представлениях. На синтетических задачах ICL мы анализируем динамику обучения небольшого трансформера и сообщаем о совместном возникновении кодирования и декодирования концепций. По мере того как модель учится кодировать различные латентные концепции (например, "Нахождение первого существительного в предложении.") в различные, разделимые представления, она параллельно создает условные алгоритмы декодирования и улучшает свою производительность в ICL. Мы подтверждаем существование этого механизма на предварительно обученных моделях различных масштабов (Gemma-2 2B/9B/27B, Llama-3.1 8B/70B). Кроме того, через механистические вмешательства и контролируемую донастройку, мы демонстрируем, что качество кодирования концепций имеет причинно-следственную связь и предсказывает производительность в ICL. Наши эмпирические исследования проливают свет на лучшее понимание успешных и неуспешных режимов крупных языковых моделей через их представления.
Для успешного ответа на вопросы, связанные с документами, особенно содержащими визуально насыщенные элементы, важно понимать информацию из коллекции нескольких документов. В данной статье представлен VisDoMBench - первый всесторонний бенчмарк, разработанный для оценки систем вопросно-ответной обработки в многодокументных средах с богатым мультимодальным контентом, включая таблицы, графики и слайды презентаций. Мы предлагаем VisDoMRAG - новый мультимодальный подход Retrieval Augmented Generation (RAG), который одновременно использует визуальный и текстовый RAG, объединяя надежные визуальные возможности поиска с изощренным лингвистическим рассуждением. VisDoMRAG использует многоэтапный процесс рассуждения, включающий курирование доказательств и цепочку мыслей для параллельных текстовых и визуальных конвейеров RAG. Одной из ключевых новшеств VisDoMRAG является механизм слияния модальностей с ограничением согласованности, который выравнивает процессы рассуждения между модальностями во время вывода, чтобы получить последовательный окончательный ответ. Это приводит к улучшенной точности в ситуациях, где критическая информация распределена между модальностями, а также к улучшению верифицируемости ответа за счет неявного атрибуции контекста. Через обширные эксперименты с использованием открытых и закрытых крупных языковых моделей мы проводим оценку современных методов вопросно-ответной обработки документов на VisDoMBench. Обширные результаты показывают, что VisDoMRAG превосходит унимодальные и длинноконтекстные базовые модели LLM для мультимодальной вопросно-ответной обработки документов end-to-end на 12-20%.
Недавние работы по ускорению моделей видео-языкового взаимодействия показывают, что высокая производительность может быть сохранена при выполнении различных задач видео-языкового взаимодействия, несмотря на сильное сжатие визуальной информации. В данной работе мы исследуем популярный подход к ускорению - раннее обрезание визуальных токенов внутри языковой модели и приходим к выводу, что его высокая производительность во многих задачах обусловлена не столько исключительной способностью сжатия визуальной информации, сколько ограниченной способностью бенчмарков оценивать тонкие визуальные возможности. В частности, мы демонстрируем основную проблему подхода к ускорению, при котором большинство токенов в верхней части изображения отсекаются. Однако эта проблема проявляется только в производительности для небольшого подмножества задач, таких как локализация. Для других оцениваемых задач сильная производительность сохраняется с использованием недостаточно эффективной стратегии обрезания. Учитывая ограниченные визуальные возможности изученной техники ускорения, мы предлагаем FEATHER (Быстрый и Эффективный Ускоренный подход с Ансамблевыми Критериями), простой подход, который (1) решает выявленную проблему с ранним обрезанием слоев, (2) включает равномерную выборку для обеспечения покрытия всех областей изображения и (3) применяет обрезание в два этапа, чтобы критерии стали более эффективными на более позднем слое, сохраняя при этом значительное ускорение за счет раннего обрезания слоев. С сопоставимыми вычислительными затратами мы обнаружили, что FEATHER имеет более чем в 5 раз улучшенную производительность на бенчмарках локализации, сосредоточенных на визуальных данных, по сравнению с оригинальным подходом к ускорению.
Видение широко способного и целеполагающего агента, такого как агент для просмотра интернета в цифровом мире и домашний гуманоид в физическом мире, быстро продвигается вперед благодаря способности обобщения базовых моделей. Такой универсальный агент должен иметь большой и разнообразный набор навыков, таких как нахождение маршрутов между двумя точками путешествия и покупка определенных товаров в интернете. Если каждый навык должен быть указан вручную через фиксированный набор аннотированных человеком инструкций, то навыковый репертуар агента будет ограничен из-за количества и разнообразия аннотированных человеком инструкций. В данной работе мы решаем эту проблему, предлагая Proposer-Agent-Evaluator, эффективную систему обучения, которая позволяет агентам на базе базовых моделей автономно открывать и отрабатывать навыки в реальной среде. В центре PAE находится контекстно-ориентированный предложитель задач, который автономно предлагает задачи для практики агента с информацией о контексте окружения, такой как демонстрации пользователей или даже просто название веб-сайта для агентов для просмотра интернета. Затем политика агента пытается выполнить эти задачи с мыслями и реальными операциями в реальном мире с последующим оцениванием траекторий автономным оценщиком успеха на основе VLM. Оценка успеха служит сигналом вознаграждения для агента для уточнения своих политик через RL. Мы проверяем PAE на сложной видеонавигации по веб-страницам, используя как реальные, так и самостоятельно размещенные веб-сайты из WebVoyager и WebArena. На наш взгляд, данная работа представляет собой первую эффективную систему обучения, применяющую автономное предложение задач с RL для агентов, которые обобщают аннотированные человеком бенчмарки реального мира с лучшими показателями. Наши открытые контрольные точки и код можно найти по адресу https://yanqval.github.io/PAE/
Завершение глубины обновляет разреженные измерения глубины в плотные карты глубины, направляемые обычным изображением. Существующие методы для этой высоко некорректной задачи работают в тесно ограниченных условиях и часто испытывают трудности при применении к изображениям за пределами области обучения или когда доступные измерения глубины разрежены, неравномерно распределены или имеют различную плотность. Вдохновленные последними достижениями в оценке монокулярной глубины, мы переосмыслили завершение глубины как генерацию карты глубины, зависящую от изображения и направляемую разреженными измерениями. Наш метод, Marigold-DC, основан на предварительно обученной модели латентной диффузии для оценки монокулярной глубины и вводит наблюдения глубины в качестве руководства на этапе тестирования с помощью схемы оптимизации, которая работает параллельно с итеративным выводом диффузии шумоподавления. Метод проявляет отличную обобщаемость без предварительного обучения в разнообразных средах и эффективно обрабатывает даже крайне разреженное руководство. Наши результаты показывают, что современные априорные знания о монокулярной глубине значительно укрепляют завершение глубины: возможно, лучше рассматривать задачу как восстановление плотной глубины из (плотных) пикселей изображения, направляемое разреженной глубиной; а не как заполнение (разреженной) глубины, направляемое изображением. Веб-сайт проекта: https://MarigoldDepthCompletion.github.io/
В разработке программного обеспечения реального мира неправильная или отсутствующая обработка исключений может серьезно повлиять на надежность и надежность кода. Механизмы обработки исключений требуют от разработчиков обнаруживать, захватывать и управлять исключениями в соответствии с высокими стандартами, но многие разработчики испытывают затруднения с этими задачами, что приводит к хрупкому коду. Эта проблема особенно заметна в проектах с открытым исходным кодом и влияет на общее качество программной экосистемы. Для решения этой проблемы мы исследуем применение больших языковых моделей (LLM) для улучшения обработки исключений в коде. Проведя обширный анализ, мы выявляем три ключевых проблемы: Нечувствительное обнаружение хрупкого кода, Неточный захват блока исключения и Искаженное решение обработки. Эти проблемы широко распространены в репозиториях реального мира, что указывает на то, что надежные практики обработки исключений часто игнорируются или неправильно обрабатываются. В ответ мы предлагаем Seeker, многоагентную платформу, вдохновленную стратегиями опытных разработчиков по обработке исключений. Seeker использует агентов: Сканер, Детектор, Хищник, Ранкер и Обработчик для помощи LLM в более эффективном обнаружении, захвате и разрешении исключений. Наша работа является первым систематическим исследованием по использованию LLM для улучшения практик обработки исключений в реальных сценариях разработки, предоставляя ценные идеи для будущих улучшений в надежности кода.
Мы представляем SUGAR, метод нулевого обучения для настраиваемого видео, управляемого объектом. Получив входное изображение, SUGAR способен генерировать видео для объекта, содержащегося на изображении, и выравнивать генерацию с произвольными визуальными атрибутами, такими как стиль и движение, указанные пользователем в тексте. В отличие от предыдущих методов, требующих настройки во время тестирования или не способных генерировать видео, выровненные по тексту, SUGAR достигает превосходных результатов без необходимости дополнительных затрат во время тестирования. Для обеспечения возможности нулевого обучения мы представляем масштабируемую платформу для создания синтетического набора данных, специально разработанного для настраиваемого видео, управляемого объектом, включающего 2,5 миллиона троек изображение-видео-текст. Кроме того, мы предлагаем несколько методов для улучшения нашей модели, включая специальные конструкции внимания, улучшенные стратегии обучения и уточненный алгоритм выборки. Проведены обширные эксперименты. По сравнению с предыдущими методами, SUGAR достигает передовых результатов в сохранении идентичности, динамике видео и выравнивании видео-текст для настраиваемого видео, управляемого объектом, демонстрируя эффективность нашего предложенного метода.
Недавние AI-основанные методы видеомонтажа позволяют пользователям редактировать видео с помощью простых текстовых подсказок, значительно упрощая процесс редактирования. Однако недавние техники нулевого видеомонтажа в основном сосредотачиваются на глобальных или одиночных объектах, что может привести к непреднамеренным изменениям в других частях видео. Когда требуется локализованный монтаж нескольких объектов, существующие методы сталкиваются с вызовами, такими как недостоверный монтаж, утечка монтажа и отсутствие подходящих наборов данных и метрик для оценки. Для преодоления этих ограничений мы предлагаем рамочную модель нулевого монтажа видео с множеством экземпляров, названную MIVE. MIVE является универсальной рамочной моделью на основе масок, не посвященной конкретным объектам (например, людям). MIVE вводит два ключевых модуля: (i) Дезентанглированная выборка множественных экземпляров (DMS) для предотвращения утечки монтажа и (ii) Перераспределение вероятности по экземплярам (IPR) для обеспечения точной локализации и надежного монтажа. Кроме того, мы представляем наш новый набор данных MIVE, включающий разнообразные сценарии видео, и представляем оценочный показатель Cross-Instance Accuracy (CIA) для оценки утечки монтажа в задачах множественного монтажа видео. Наши обширные качественные, количественные и пользовательские исследования демонстрируют, что MIVE значительно превосходит недавние передовые методы в плане надежности монтажа, точности и предотвращения утечки, устанавливая новый стандарт для множественного монтажа видео. Страница проекта доступна по адресу https://kaist-viclab.github.io/mive-site/
Большие языковые модели (LLM) демонстрируют исключительную производительность в различных задачах, используя как заранее обученные знания (т.е. параметрические знания), так и внешние знания (т.е. контекстуальные знания). Несмотря на значительные усилия по использованию обеих форм знаний, сценарии, в которых модель не располагает необходимыми знаниями, остаются недостаточно исследованными. Такие ограничения могут привести к проблемам, таким как галлюцинации, вызывая снижение надежности и потенциальные риски в приложениях с высокими ставками. Для решения таких ограничений настоящая статья расширяет область задач, чтобы охватить случаи, когда запрос пользователя не может быть выполнен из-за отсутствия соответствующих знаний. В этом контексте мы представляем метод контрастного декодирования с воздержанием (CDA), метод декодирования без обучения, который позволяет LLM генерировать ответы, когда имеются соответствующие знания, и воздерживаться в противном случае. CDA оценивает релевантность каждого знания для данного запроса, адаптивно определяя, какие знания приоритетны, а какие следует полностью игнорировать. Обширные эксперименты с четырьмя LLM на трех наборах данных вопросов и ответов показывают, что CDA может эффективно выполнять точную генерацию и воздержание одновременно. Эти результаты подчеркивают потенциал CDA для расширения применимости LLM, улучшая надежность и сохраняя доверие пользователя.