Ежедневно отобранные исследовательские статьи по ИИ с переводами
В больших моделях видео-языка (LVLM) изображения служат входными данными, несущими обилие информации. Как гласит поговорка "Картинка говорит больше, чем тысяча слов", представление одного изображения в текущих LVLM может потребовать сотен или даже тысяч токенов. Это приводит к значительным вычислительным затратам, которые увеличиваются квадратично по мере увеличения разрешения входного изображения, тем самым серьезно влияя на эффективность как обучения, так и вывода. Предыдущие подходы пытались уменьшить количество токенов изображения либо до, либо в начальных слоях LVLM. Однако эти стратегии неизбежно приводят к потере важной информации об изображении, что в конечном итоге снижает производительность модели. Для решения этой проблемы мы проводим эмпирическое исследование, показывающее, что все визуальные токены необходимы для LVLM в поверхностных слоях, и избыточность токенов постепенно увеличивается в более глубоких слоях модели. Для этой цели мы предлагаем PyramidDrop - стратегию уменьшения визуальной избыточности для LVLM с целью повышения их эффективности как в обучении, так и выводе с незначительной потерей производительности. Конкретно, мы разбиваем LVLM на несколько этапов и удаляем часть токенов изображения в конце каждого этапа с заранее определенным коэффициентом, создавая пирамидоподобные визуальные токены по слоям модели. Удаление основано на легком расчете сходства с незначительной временной нагрузкой. Обширные эксперименты показывают, что PyramidDrop может достичь ускорения времени обучения на 40% и FLOPs вывода на 55% для LLaVA-NeXT с сопоставимой производительностью. Кроме того, PyramidDrop также может служить стратегией "вставь и играй" для ускорения вывода без обучения, с лучшей производительностью и более низкой стоимостью вывода по сравнению с аналогами. Мы надеемся, что идеи и подход, представленные PyramidDrop, вдохновят будущие исследования для дальнейшего изучения роли токенов изображения в LVLM.
Мы представляем SpectroMotion, новый подход, который объединяет трехмерное гауссово сплетение (3DGS) с физически основанным рендерингом (PBR) и полями деформации для реконструкции динамических отражающих сцен. Предыдущие методы расширения 3DGS для моделирования динамических сцен испытывали трудности с точным представлением отражающих поверхностей. Наш метод решает эту проблему путем введения техники коррекции остатков для точного вычисления нормали поверхности во время деформации, дополненной деформируемой картой окружения, которая адаптируется к изменяющимся условиям освещения. Мы реализуем стратегию обучения от грубого к точному, которая значительно улучшает как геометрию сцены, так и предсказание цвета отражений. Мы демонстрируем, что наша модель превосходит предыдущие методы для синтеза изображений сцен, содержащих динамические отражающие объекты, и что это единственный существующий метод 3DGS, способный синтезировать фотореалистичные динамические отражающие сцены реального мира, превосходящий современные методы в рендеринге сложных, динамических и отражающих сцен.
Цепочка мыслей (CoT) в моделях языка зрения (VLM) имеет важное значение для улучшения интерпретируемости и надежности. Однако текущие методики обучения не обладают надежными данными для CoT рассуждений, полагаясь на наборы данных, где преобладают краткие аннотации с минимальными обоснованиями. В данной работе мы показываем, что обучение VLM на кратких ответах плохо обобщается на задачи рассуждений, требующие более детальных ответов. Для решения этой проблемы мы предлагаем двухэтапный подход. Во-первых, мы извлекаем обоснования из модели GPT-4o для обогащения обучающих данных и дообучения VLM, улучшая их производительность в CoT. Во-вторых, мы применяем обучение с подкреплением для дальнейшей калибровки качества рассуждений. Конкретно, мы создаем положительные (правильные) и отрицательные (неправильные) пары цепочек рассуждений, сравнивая их предсказания с аннотированными краткими ответами. Используя эти парные данные, мы применяем алгоритм оптимизации прямого предпочтения для улучшения способностей модели к рассуждениям. Наши эксперименты демонстрируют значительное улучшение в CoT рассуждениях на стандартных наборах данных и лучшее обобщение для прямого предсказания ответов. Эта работа подчеркивает важность включения детальных обоснований в обучение и использование обучения с подкреплением для укрепления способностей к рассуждениям у моделей языка зрения.
Автоматизированное выравнивание разрабатывает системы выравнивания с минимальным вмешательством человека. Ключ к автоматизированному выравниванию заключается в предоставлении обучаемых и точных сигналов предпочтения для обучения предпочтениям без человеческой аннотации. В данной статье мы представляем Self-Steering Optimization (SSO), алгоритм, который автономно генерирует высококачественные сигналы предпочтения на основе заранее определенных принципов во время итеративного обучения, устраняя необходимость в ручной аннотации. SSO поддерживает точность сигналов, обеспечивая постоянный разрыв между выбранными и отклоненными ответами, сохраняя их оба в политике для соответствия текущей способности обучения модели политики. SSO может быть полезен для онлайн и офлайн обучения модели политики, а также для улучшения обучения моделей вознаграждения. Мы подтверждаем эффективность SSO с помощью двух основных моделей, Qwen2 и Llama3.1, указывая на то, что он обеспечивает точные, в политике сигналы предпочтения на протяжении итеративного обучения. Без какой-либо ручной аннотации или внешних моделей, SSO приводит к значительному улучшению производительности по шести субъективным или объективным бенчмаркам. Кроме того, данные о предпочтениях, сгенерированные SSO, значительно улучшили производительность модели вознаграждения на Rewardbench. Наша работа представляет масштабируемый подход к оптимизации предпочтений, открывая путь к более эффективному и эффективному автоматизированному выравниванию.
Мы представляем xGen-MM-Vid (BLIP-3-Video): мультимодельную языковую модель для видео, специально разработанную для эффективного захвата временной информации на протяжении нескольких кадров. BLIP-3-Video использует 'временной кодер', помимо обычного визуального токенизатора, который отображает последовательность токенов на протяжении нескольких кадров в компактный набор визуальных токенов. Это позволяет BLIP3-Video использовать гораздо меньше визуальных токенов, чем его конкурирующие модели (например, 32 против 4608 токенов). Мы исследуем различные типы временных кодеров, включая обучаемые пространственно-временные пулинги, а также последовательные модели, такие как Токен-Машины Тьюринга. Мы экспериментально подтверждаем, что BLIP-3-Video достигает точности ответов на вопросы по видео, сравнимой с гораздо более крупными современными моделями (например, 34B), при этом она является гораздо более компактной (т. е. 4B) и эффективной за счет использования меньшего количества визуальных токенов. Веб-сайт проекта находится по адресу https://www.salesforceairesearch.com/opensource/xGen-MM-Vid/index.html
Недавние крупные модели языка и зрения (LVLM) обладают выдающимися возможностями нулевого обучения в разговоре и рассуждениях при мультимодальных запросах. Тем не менее, они страдают от галлюцинаций объектов, явления, при котором LVLM склонны генерировать текстовые ответы, не соответствующие фактически изображениям. Наш пилотный проект показывает, что галлюцинации объектов тесно связаны с Поворотным Кодированием Позиции (RoPE), широко применяемой моделью позиционной зависимости в существующих LVLM. Из-за долгосрочного затухания в RoPE LVLM склонны к галлюцинациям при отдаленных визуальных подсказках от инструкционных токенов в мультимодальной последовательности ввода. Кроме того, мы наблюдаем аналогичный эффект при изменении последовательного порядка визуальных токенов во время мультимодального выравнивания. Наши тесты показывают, что долгосрочное затухание в RoPE создает проблемы для LVLM при взаимодействии визуальных и инструкционных данных на большие расстояния. Мы предлагаем Концентрическое Причинное Внимание (CCA), простую, но эффективную стратегию позиционного выравнивания, которая смягчает влияние долгосрочного затухания в RoPE в LVLM естественным образом уменьшая относительное расстояние между визуальными и инструкционными токенами. С CCA визуальные токены могут лучше взаимодействовать с инструкционными токенами, тем самым улучшая способность модели к восприятию и уменьшая галлюцинации объектов. Без лишних украшательств наш метод позиционного выравнивания превосходит существующие стратегии борьбы с галлюцинациями объектов на множестве бенчмарков по галлюцинациям.
Дистилляция знаний (Knowledge Distillation, KD) широко используется для обучения небольших, высокопроизводительных языковых моделей (LM) студентов с использованием больших учителей LM. Хотя эффективна при настройке, дистилляция знаний во время предварительного обучения сталкивается с проблемами в эффективности, гибкости и эффективности. Существующие методы либо имеют высокие вычислительные затраты из-за онлайн-вывода учителя, требуют сопоставления токенизации между учителем и студентом LM, либо рискуют потерей сложности и разнообразия учебных данных, созданных учителем. Для решения этих проблем мы предлагаем MiniPLM, фреймворк дистилляции знаний для предварительного обучения LM путем улучшения распределения учебных данных с использованием знаний учителя. Для повышения эффективности MiniPLM выполняет офлайн-вывод учителя LM, позволяя дистиллировать знания для нескольких студенческих LM без дополнительных затрат времени обучения. Для обеспечения гибкости MiniPLM работает исключительно на корпусе обучения, позволяя дистиллировать знания между семействами моделей. Для повышения эффективности MiniPLM использует различия между большими и маленькими LM для улучшения сложности и разнообразия учебных данных, помогая студенческим LM приобрести разносторонние и сложные знания. Обширные эксперименты показывают, что MiniPLM повышает производительность студенческих LM на 9 широко используемых последующих задачах, улучшает возможности языкового моделирования и сокращает вычислительные затраты на предварительное обучение. Преимущества MiniPLM распространяются на большие масштабы предварительного обучения, что подтверждается экстраполяцией кривых масштабирования. Дополнительный анализ показывает, что MiniPLM поддерживает дистилляцию знаний между семействами моделей и улучшает использование учебных данных предварительного обучения. Наша модель, код и данные доступны по адресу https://github.com/thu-coai/MiniPLM.
В составной системе искусственного интеллекта компоненты, такие как LLM-вызов, извлекатель, интерпретатор кода или инструменты, взаимосвязаны. Поведение системы в основном определяется параметрами, такими как инструкции или определения инструментов. Недавние достижения позволяют осуществлять оптимизацию этих параметров от начала до конца с использованием LLM. Особенно эффективным является использование LLM в качестве оптимизатора, поскольку это позволяет избежать вычисления градиента и генерировать сложный код и инструкции. В данной статье представлен обзор принципов и новейших тенденций в области оптимизации составных систем искусственного интеллекта на основе LLM. Рассматриваются архетипы составных систем искусственного интеллекта, подходы к оптимизации от начала до конца на основе LLM, а также перспективы будущего и более широкие последствия. Важно отметить, что в данном обзоре используются концепции анализа программ для предоставления единой точки зрения на то, как LLM-оптимизатор стимулируется для оптимизации составной системы искусственного интеллекта. Полный список статей доступен по ссылке https://github.com/linyuhongg/LLM-based-Optimization-of-Compound-AI-Systems.
Ускорение исследований по большим мультимодельным моделям (LMM) на неанглийских языках крайне важно для улучшения пользовательских впечатлений среди более широких населенных групп. В данной статье мы представляем JMMMU (Japanese MMMU), первый крупномасштабный японский бенчмарк, разработанный для оценки LMM на задачах экспертного уровня, основанных на японском культурном контексте. Для облегчения всесторонней культурно-осознанной оценки JMMMU включает два взаимодополняющих подмножества: (i) культурно-агностическое (CA) подмножество, где выбраны культурно-независимые предметы (например, математика) и переведены на японский, что позволяет проводить сравнение один к одному с его англоязычным аналогом MMMU; и (ii) культурно-специфическое (CS) подмножество, включающее вновь созданные предметы, отражающие японский культурный контекст. Используя CA подмножество, мы наблюдаем снижение производительности многих LMM при оценке на японском языке, что полностью обусловлено языковыми различиями. Используя CS подмножество, мы выявляем их недостаточное понимание японской культуры. Кроме того, объединяя оба подмножества, мы определяем, что некоторые LMM хорошо справляются с CA подмножеством, но не с CS подмножеством, выявляя поверхностное понимание японского языка, лишенное глубокого культурного понимания. Мы надеемся, что данная работа не только поможет продвинуть производительность LMM на японском языке, но также послужит руководством по созданию высококачественных, культурно разнообразных бенчмарков для развития многоязычных LMM. Страница проекта: https://mmmu-japanese-benchmark.github.io/JMMMU/.
Высокие вычислительные затраты на большие языковые модели (LLM) привели к бурному росту исследований по сжатию LLM с использованием методов, таких как квантизация, разреженность или структурированное обрезание. Новым направлением в этой области являются динамические, неоднородные методы сжатия, которые регулируют уровни сжатия (например, разреженность) на уровне блока или даже слоя для минимизации потери точности, обеспечивая при этом глобальный порог сжатия. Однако текущие методы полагаются на эвристики для определения "важности" данного слоя для потерь, основываясь на предположениях, таких как монотонность ошибки, то есть то, что ошибка сжатия модели от начала до конца пропорциональна сумме ошибок по слоям. В данной статье мы пересматриваем эту область и предлагаем новый и общий подход для динамического сжатия, который доказанно оптимален в заданном диапазоне входных данных. Мы начинаем с мотивирующего наблюдения о том, что в общем случае монотонность ошибки не сохраняется для LLM: сжатые модели с меньшей суммой ошибок по слоям могут показывать худшую производительность, чем модели с более высокими суммами ошибок. Для решения этой проблемы мы предлагаем новую общую эволюционную структуру для динамического сжатия LLM под названием EvoPress, которая обладает доказанной сходимостью, низкой сложностью выборки и оценки. Мы показываем, что эти теоретические гарантии приводят к высокой конкурентоспособной практической производительности для динамического сжатия моделей Llama, Mistral и Phi. С помощью EvoPress мы устанавливаем новые результаты во всех подходах к сжатию: структурное обрезание (выбрасывание блоков/слоев), неструктурированная разреженность, а также квантизация с динамическими битовыми ширинами. Наш код доступен по ссылке https://github.com/IST-DASLab/EvoPress.
Математическое мышление является одной из наиболее активных областей исследований больших языковых моделей (LLM), поскольку оно является важным элементом искусственного интеллекта. Однако немногие работы исследовали, как математическое мышление закодировано в параметрах LLM и может ли оно быть выделено внутри модели как навык. Это позволило бы проводить целенаправленное вмешательство для улучшения математической производительности без изменения поведения в нематематических областях и способствовало бы пониманию того, как модели кодируют математическое мышление. Мы представляем метод Математической Нейрохирургии (MathNeuro), позволяющий выделить математические параметры в LLM с помощью только прямых проходов. MathNeuro основан на существующих работах, используя веса и активации для расчета важности параметров, но выделяет математические параметры путем удаления тех, которые важны для общих языковых задач. Обрезка параметров, выделенных MathNeuro, уничтожает способность LLM к математическому мышлению, не затрагивая его способности в области общего языка. Масштабирование этих параметров на небольшую константу улучшает производительность предварительно обученной или инструкционно настроенной LLM на 4-17% на GSM8K, не изменяя нематематического поведения. MathNeuro также эффективен с точки зрения данных: большая часть его эффективности сохраняется при выделении математических параметров с использованием одного образца. MathNeuro подчеркивает потенциал для будущих исследований по вмешательству в математические параметры.
Синтез нового вида направлен на создание новых видов сцены из нескольких входных изображений или видео, и недавние достижения, такие как трехмерное гауссово сглаживание (3DGS), добились значительного успеха в создании фотореалистичных рендерингов с эффективными конвейерами. Однако создание высококачественных новых видов в сложных условиях, таких как разреженные входные виды, остается сложной задачей из-за недостаточной информации в недостаточно выборочных областях, что часто приводит к заметным артефактам. В данной статье представлен 3DGS-Enhancer, новый конвейер для улучшения качества представления трехмерного гауссова сглаживания. Мы используем диффузионные априорные знания 2D-видео для решения проблемы сложности согласования трехмерного вида, переформулируя ее как достижение временной согласованности в процессе генерации видео. 3DGS-Enhancer восстанавливает согласованные с видом латентные особенности созданных новых видов и интегрирует их с входными видами через пространственно-временной декодер. Улучшенные виды затем используются для настройки начальной модели 3DGS, что значительно улучшает ее производительность рендеринга. Обширные эксперименты на крупных наборах данных неограниченных сцен показывают, что 3DGS-Enhancer обеспечивает превосходную производительность реконструкции и результаты рендеринга высокой точности по сравнению с передовыми методами. Веб-страница проекта: https://xiliu8006.github.io/3DGS-Enhancer-project.
Колоноскопия в настоящее время является одним из наиболее чувствительных методов скрининга рака толстой кишки. В данном исследовании рассматриваются перспективы интеллектуальных техник колоноскопии и их потенциальные последствия для мультимодальных медицинских приложений. Для достижения этой цели мы начинаем с оценки текущих данных и модельно-центричных пейзажей через четыре задачи для восприятия колоноскопической сцены, включая классификацию, детекцию, сегментацию и понимание зрения-языка. Эта оценка позволяет нам выявить специфические для области вызовы и показывает, что мультимодальные исследования в области колоноскопии остаются открытыми для дальнейшего изучения. Для встречи с наступающей мультимодальной эрой мы устанавливаем три основополагающих инициативы: крупномасштабный мультимодальный набор данных для настройки инструкций ColonINST, мультимодельный языковой модель ColonGPT, разработанный для колоноскопии, и мультимодальный бенчмарк. Для облегчения непрерывного мониторинга этой быстро развивающейся области мы предоставляем публичный веб-сайт для последних обновлений: https://github.com/ai4colonoscopy/IntelliScope.