HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

13 papers found

PyramidDrop: Ускорение ваших крупных моделей видео-языка с помощью пирамиды снижения визуальной избыточности
PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction

Oct 22

ByLong Xing, Qidong Huang, Xiaoyi Dong, Jiajie Lu, Pan Zhang, Yuhang Zang, Yuhang Cao, Conghui He, Jiaqi Wang, Feng Wu, Dahua Lin

В больших моделях видео-языка (LVLM) изображения служат входными данными, несущими обилие информации. Как гласит поговорка "Картинка говорит больше, чем тысяча слов", представление одного изображения в текущих LVLM может потребовать сотен или даже тысяч токенов. Это приводит к значительным вычислительным затратам, которые увеличиваются квадратично по мере увеличения разрешения входного изображения, тем самым серьезно влияя на эффективность как обучения, так и вывода. Предыдущие подходы пытались уменьшить количество токенов изображения либо до, либо в начальных слоях LVLM. Однако эти стратегии неизбежно приводят к потере важной информации об изображении, что в конечном итоге снижает производительность модели. Для решения этой проблемы мы проводим эмпирическое исследование, показывающее, что все визуальные токены необходимы для LVLM в поверхностных слоях, и избыточность токенов постепенно увеличивается в более глубоких слоях модели. Для этой цели мы предлагаем PyramidDrop - стратегию уменьшения визуальной избыточности для LVLM с целью повышения их эффективности как в обучении, так и выводе с незначительной потерей производительности. Конкретно, мы разбиваем LVLM на несколько этапов и удаляем часть токенов изображения в конце каждого этапа с заранее определенным коэффициентом, создавая пирамидоподобные визуальные токены по слоям модели. Удаление основано на легком расчете сходства с незначительной временной нагрузкой. Обширные эксперименты показывают, что PyramidDrop может достичь ускорения времени обучения на 40% и FLOPs вывода на 55% для LLaVA-NeXT с сопоставимой производительностью. Кроме того, PyramidDrop также может служить стратегией "вставь и играй" для ускорения вывода без обучения, с лучшей производительностью и более низкой стоимостью вывода по сравнению с аналогами. Мы надеемся, что идеи и подход, представленные PyramidDrop, вдохновят будущие исследования для дальнейшего изучения роли токенов изображения в LVLM.

SpectroMotion: Динамическая 3D реконструкция светоотражающих сцен
SpectroMotion: Dynamic 3D Reconstruction of Specular Scenes

Oct 22

ByCheng-De Fan, Chen-Wei Chang, Yi-Ruei Liu, Jie-Ying Lee, Jiun-Long Huang, Yu-Chee Tseng, Yu-Lun Liu

Мы представляем SpectroMotion, новый подход, который объединяет трехмерное гауссово сплетение (3DGS) с физически основанным рендерингом (PBR) и полями деформации для реконструкции динамических отражающих сцен. Предыдущие методы расширения 3DGS для моделирования динамических сцен испытывали трудности с точным представлением отражающих поверхностей. Наш метод решает эту проблему путем введения техники коррекции остатков для точного вычисления нормали поверхности во время деформации, дополненной деформируемой картой окружения, которая адаптируется к изменяющимся условиям освещения. Мы реализуем стратегию обучения от грубого к точному, которая значительно улучшает как геометрию сцены, так и предсказание цвета отражений. Мы демонстрируем, что наша модель превосходит предыдущие методы для синтеза изображений сцен, содержащих динамические отражающие объекты, и что это единственный существующий метод 3DGS, способный синтезировать фотореалистичные динамические отражающие сцены реального мира, превосходящий современные методы в рендеринге сложных, динамических и отражающих сцен.

Улучшение модели языка для зрительного анализа цепочки логических рассуждений.
Improve Vision Language Model Chain-of-thought Reasoning

Oct 21

ByRuohong Zhang, Bowen Zhang, Yanghao Li, Haotian Zhang, Zhiqing Sun, Zhe Gan, Yinfei Yang, Ruoming Pang, Yiming Yang

Цепочка мыслей (CoT) в моделях языка зрения (VLM) имеет важное значение для улучшения интерпретируемости и надежности. Однако текущие методики обучения не обладают надежными данными для CoT рассуждений, полагаясь на наборы данных, где преобладают краткие аннотации с минимальными обоснованиями. В данной работе мы показываем, что обучение VLM на кратких ответах плохо обобщается на задачи рассуждений, требующие более детальных ответов. Для решения этой проблемы мы предлагаем двухэтапный подход. Во-первых, мы извлекаем обоснования из модели GPT-4o для обогащения обучающих данных и дообучения VLM, улучшая их производительность в CoT. Во-вторых, мы применяем обучение с подкреплением для дальнейшей калибровки качества рассуждений. Конкретно, мы создаем положительные (правильные) и отрицательные (неправильные) пары цепочек рассуждений, сравнивая их предсказания с аннотированными краткими ответами. Используя эти парные данные, мы применяем алгоритм оптимизации прямого предпочтения для улучшения способностей модели к рассуждениям. Наши эксперименты демонстрируют значительное улучшение в CoT рассуждениях на стандартных наборах данных и лучшее обобщение для прямого предсказания ответов. Эта работа подчеркивает важность включения детальных обоснований в обучение и использование обучения с подкреплением для укрепления способностей к рассуждениям у моделей языка зрения.

Выравнивание больших языковых моделей с помощью оптимизации самонаправления
Aligning Large Language Models via Self-Steering Optimization

Oct 22

ByHao Xiang, Bowen Yu, Hongyu Lin, Keming Lu, Yaojie Lu, Xianpei Han, Le Sun, Jingren Zhou, Junyang Lin

Автоматизированное выравнивание разрабатывает системы выравнивания с минимальным вмешательством человека. Ключ к автоматизированному выравниванию заключается в предоставлении обучаемых и точных сигналов предпочтения для обучения предпочтениям без человеческой аннотации. В данной статье мы представляем Self-Steering Optimization (SSO), алгоритм, который автономно генерирует высококачественные сигналы предпочтения на основе заранее определенных принципов во время итеративного обучения, устраняя необходимость в ручной аннотации. SSO поддерживает точность сигналов, обеспечивая постоянный разрыв между выбранными и отклоненными ответами, сохраняя их оба в политике для соответствия текущей способности обучения модели политики. SSO может быть полезен для онлайн и офлайн обучения модели политики, а также для улучшения обучения моделей вознаграждения. Мы подтверждаем эффективность SSO с помощью двух основных моделей, Qwen2 и Llama3.1, указывая на то, что он обеспечивает точные, в политике сигналы предпочтения на протяжении итеративного обучения. Без какой-либо ручной аннотации или внешних моделей, SSO приводит к значительному улучшению производительности по шести субъективным или объективным бенчмаркам. Кроме того, данные о предпочтениях, сгенерированные SSO, значительно улучшили производительность модели вознаграждения на Rewardbench. Наша работа представляет масштабируемый подход к оптимизации предпочтений, открывая путь к более эффективному и эффективному автоматизированному выравниванию.

Смягчение галлюцинаций объектов с помощью концентрического причинного внимания
Mitigating Object Hallucination via Concentric Causal Attention

Oct 21

ByYun Xing, Yiheng Li, Ivan Laptev, Shijian Lu

Недавние крупные модели языка и зрения (LVLM) обладают выдающимися возможностями нулевого обучения в разговоре и рассуждениях при мультимодальных запросах. Тем не менее, они страдают от галлюцинаций объектов, явления, при котором LVLM склонны генерировать текстовые ответы, не соответствующие фактически изображениям. Наш пилотный проект показывает, что галлюцинации объектов тесно связаны с Поворотным Кодированием Позиции (RoPE), широко применяемой моделью позиционной зависимости в существующих LVLM. Из-за долгосрочного затухания в RoPE LVLM склонны к галлюцинациям при отдаленных визуальных подсказках от инструкционных токенов в мультимодальной последовательности ввода. Кроме того, мы наблюдаем аналогичный эффект при изменении последовательного порядка визуальных токенов во время мультимодального выравнивания. Наши тесты показывают, что долгосрочное затухание в RoPE создает проблемы для LVLM при взаимодействии визуальных и инструкционных данных на большие расстояния. Мы предлагаем Концентрическое Причинное Внимание (CCA), простую, но эффективную стратегию позиционного выравнивания, которая смягчает влияние долгосрочного затухания в RoPE в LVLM естественным образом уменьшая относительное расстояние между визуальными и инструкционными токенами. С CCA визуальные токены могут лучше взаимодействовать с инструкционными токенами, тем самым улучшая способность модели к восприятию и уменьшая галлюцинации объектов. Без лишних украшательств наш метод позиционного выравнивания превосходит существующие стратегии борьбы с галлюцинациями объектов на множестве бенчмарков по галлюцинациям.

xGen-MM-Vid (BLIP-3-Video): Вам нужно всего 32 токена, чтобы представить видео даже в моделях с очень большой длиной последовательности.
xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs

Oct 21

ByMichael S. Ryoo, Honglu Zhou, Shrikant Kendre, Can Qin, Le Xue, Manli Shu, Silvio Savarese, Ran Xu, Caiming Xiong, Juan Carlos Niebles

Мы представляем xGen-MM-Vid (BLIP-3-Video): мультимодельную языковую модель для видео, специально разработанную для эффективного захвата временной информации на протяжении нескольких кадров. BLIP-3-Video использует 'временной кодер', помимо обычного визуального токенизатора, который отображает последовательность токенов на протяжении нескольких кадров в компактный набор визуальных токенов. Это позволяет BLIP3-Video использовать гораздо меньше визуальных токенов, чем его конкурирующие модели (например, 32 против 4608 токенов). Мы исследуем различные типы временных кодеров, включая обучаемые пространственно-временные пулинги, а также последовательные модели, такие как Токен-Машины Тьюринга. Мы экспериментально подтверждаем, что BLIP-3-Video достигает точности ответов на вопросы по видео, сравнимой с гораздо более крупными современными моделями (например, 34B), при этом она является гораздо более компактной (т. е. 4B) и эффективной за счет использования меньшего количества визуальных токенов. Веб-сайт проекта находится по адресу https://www.salesforceairesearch.com/opensource/xGen-MM-Vid/index.html

Оптимизация составных систем искусственного интеллекта на основе LLM: обзор
LLM-based Optimization of Compound AI Systems: A Survey

Oct 21

ByMatthieu Lin, Jenny Sheng, Andrew Zhao, Shenzhi Wang, Yang Yue, Yiran Wu, Huan Liu, Jun Liu, Gao Huang, Yong-Jin Liu

В составной системе искусственного интеллекта компоненты, такие как LLM-вызов, извлекатель, интерпретатор кода или инструменты, взаимосвязаны. Поведение системы в основном определяется параметрами, такими как инструкции или определения инструментов. Недавние достижения позволяют осуществлять оптимизацию этих параметров от начала до конца с использованием LLM. Особенно эффективным является использование LLM в качестве оптимизатора, поскольку это позволяет избежать вычисления градиента и генерировать сложный код и инструкции. В данной статье представлен обзор принципов и новейших тенденций в области оптимизации составных систем искусственного интеллекта на основе LLM. Рассматриваются архетипы составных систем искусственного интеллекта, подходы к оптимизации от начала до конца на основе LLM, а также перспективы будущего и более широкие последствия. Важно отметить, что в данном обзоре используются концепции анализа программ для предоставления единой точки зрения на то, как LLM-оптимизатор стимулируется для оптимизации составной системы искусственного интеллекта. Полный список статей доступен по ссылке https://github.com/linyuhongg/LLM-based-Optimization-of-Compound-AI-Systems.

MiniPLM: Дистилляция знаний для Предварительного Обучения Языковых Моделей
MiniPLM: Knowledge Distillation for Pre-Training Language Models

Oct 22

ByYuxian Gu, Hao Zhou, Fandong Meng, Jie Zhou, Minlie Huang

Дистилляция знаний (Knowledge Distillation, KD) широко используется для обучения небольших, высокопроизводительных языковых моделей (LM) студентов с использованием больших учителей LM. Хотя эффективна при настройке, дистилляция знаний во время предварительного обучения сталкивается с проблемами в эффективности, гибкости и эффективности. Существующие методы либо имеют высокие вычислительные затраты из-за онлайн-вывода учителя, требуют сопоставления токенизации между учителем и студентом LM, либо рискуют потерей сложности и разнообразия учебных данных, созданных учителем. Для решения этих проблем мы предлагаем MiniPLM, фреймворк дистилляции знаний для предварительного обучения LM путем улучшения распределения учебных данных с использованием знаний учителя. Для повышения эффективности MiniPLM выполняет офлайн-вывод учителя LM, позволяя дистиллировать знания для нескольких студенческих LM без дополнительных затрат времени обучения. Для обеспечения гибкости MiniPLM работает исключительно на корпусе обучения, позволяя дистиллировать знания между семействами моделей. Для повышения эффективности MiniPLM использует различия между большими и маленькими LM для улучшения сложности и разнообразия учебных данных, помогая студенческим LM приобрести разносторонние и сложные знания. Обширные эксперименты показывают, что MiniPLM повышает производительность студенческих LM на 9 широко используемых последующих задачах, улучшает возможности языкового моделирования и сокращает вычислительные затраты на предварительное обучение. Преимущества MiniPLM распространяются на большие масштабы предварительного обучения, что подтверждается экстраполяцией кривых масштабирования. Дополнительный анализ показывает, что MiniPLM поддерживает дистилляцию знаний между семействами моделей и улучшает использование учебных данных предварительного обучения. Наша модель, код и данные доступны по адресу https://github.com/thu-coai/MiniPLM.

JMMMU: Японский масштабный мультидисциплинарный мультимодальный бенчмарк для оценки с учетом культуры
JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation

Oct 22

ByShota Onohara, Atsuyuki Miyai, Yuki Imajuku, Kazuki Egashira, Jeonghun Baek, Xiang Yue, Graham Neubig, Kiyoharu Aizawa

Ускорение исследований по большим мультимодельным моделям (LMM) на неанглийских языках крайне важно для улучшения пользовательских впечатлений среди более широких населенных групп. В данной статье мы представляем JMMMU (Japanese MMMU), первый крупномасштабный японский бенчмарк, разработанный для оценки LMM на задачах экспертного уровня, основанных на японском культурном контексте. Для облегчения всесторонней культурно-осознанной оценки JMMMU включает два взаимодополняющих подмножества: (i) культурно-агностическое (CA) подмножество, где выбраны культурно-независимые предметы (например, математика) и переведены на японский, что позволяет проводить сравнение один к одному с его англоязычным аналогом MMMU; и (ii) культурно-специфическое (CS) подмножество, включающее вновь созданные предметы, отражающие японский культурный контекст. Используя CA подмножество, мы наблюдаем снижение производительности многих LMM при оценке на японском языке, что полностью обусловлено языковыми различиями. Используя CS подмножество, мы выявляем их недостаточное понимание японской культуры. Кроме того, объединяя оба подмножества, мы определяем, что некоторые LMM хорошо справляются с CA подмножеством, но не с CS подмножеством, выявляя поверхностное понимание японского языка, лишенное глубокого культурного понимания. Мы надеемся, что данная работа не только поможет продвинуть производительность LMM на японском языке, но также послужит руководством по созданию высококачественных, культурно разнообразных бенчмарков для развития многоязычных LMM. Страница проекта: https://mmmu-japanese-benchmark.github.io/JMMMU/.

EvoPress: К Оптимальному Сжатию Динамической Модели через Эволюционный Поиск
EvoPress: Towards Optimal Dynamic Model Compression via Evolutionary Search

Oct 18

ByOliver Sieberling, Denis Kuznedelev, Eldar Kurtic, Dan Alistarh

Высокие вычислительные затраты на большие языковые модели (LLM) привели к бурному росту исследований по сжатию LLM с использованием методов, таких как квантизация, разреженность или структурированное обрезание. Новым направлением в этой области являются динамические, неоднородные методы сжатия, которые регулируют уровни сжатия (например, разреженность) на уровне блока или даже слоя для минимизации потери точности, обеспечивая при этом глобальный порог сжатия. Однако текущие методы полагаются на эвристики для определения "важности" данного слоя для потерь, основываясь на предположениях, таких как монотонность ошибки, то есть то, что ошибка сжатия модели от начала до конца пропорциональна сумме ошибок по слоям. В данной статье мы пересматриваем эту область и предлагаем новый и общий подход для динамического сжатия, который доказанно оптимален в заданном диапазоне входных данных. Мы начинаем с мотивирующего наблюдения о том, что в общем случае монотонность ошибки не сохраняется для LLM: сжатые модели с меньшей суммой ошибок по слоям могут показывать худшую производительность, чем модели с более высокими суммами ошибок. Для решения этой проблемы мы предлагаем новую общую эволюционную структуру для динамического сжатия LLM под названием EvoPress, которая обладает доказанной сходимостью, низкой сложностью выборки и оценки. Мы показываем, что эти теоретические гарантии приводят к высокой конкурентоспособной практической производительности для динамического сжатия моделей Llama, Mistral и Phi. С помощью EvoPress мы устанавливаем новые результаты во всех подходах к сжатию: структурное обрезание (выбрасывание блоков/слоев), неструктурированная разреженность, а также квантизация с динамическими битовыми ширинами. Наш код доступен по ссылке https://github.com/IST-DASLab/EvoPress.

Математическая нейрохирургия: Выделение математических рассуждений языковых моделей только с помощью прямых проходов.
Math Neurosurgery: Isolating Language Models' Math Reasoning Abilities Using Only Forward Passes

Oct 22

ByBryan R. Christ, Zack Gottesman, Jonathan Kropko, Thomas Hartvigsen

Математическое мышление является одной из наиболее активных областей исследований больших языковых моделей (LLM), поскольку оно является важным элементом искусственного интеллекта. Однако немногие работы исследовали, как математическое мышление закодировано в параметрах LLM и может ли оно быть выделено внутри модели как навык. Это позволило бы проводить целенаправленное вмешательство для улучшения математической производительности без изменения поведения в нематематических областях и способствовало бы пониманию того, как модели кодируют математическое мышление. Мы представляем метод Математической Нейрохирургии (MathNeuro), позволяющий выделить математические параметры в LLM с помощью только прямых проходов. MathNeuro основан на существующих работах, используя веса и активации для расчета важности параметров, но выделяет математические параметры путем удаления тех, которые важны для общих языковых задач. Обрезка параметров, выделенных MathNeuro, уничтожает способность LLM к математическому мышлению, не затрагивая его способности в области общего языка. Масштабирование этих параметров на небольшую константу улучшает производительность предварительно обученной или инструкционно настроенной LLM на 4-17% на GSM8K, не изменяя нематематического поведения. MathNeuro также эффективен с точки зрения данных: большая часть его эффективности сохраняется при выделении математических параметров с использованием одного образца. MathNeuro подчеркивает потенциал для будущих исследований по вмешательству в математические параметры.

3DGS-Enhancer: Улучшение неограниченного трехмерного гауссовского сплэтинга с 2D диффузионными априорными данными, согласованными с видом.
3DGS-Enhancer: Enhancing Unbounded 3D Gaussian Splatting with View-consistent 2D Diffusion Priors

Oct 21

ByXi Liu, Chaoyi Zhou, Siyu Huang

Синтез нового вида направлен на создание новых видов сцены из нескольких входных изображений или видео, и недавние достижения, такие как трехмерное гауссово сглаживание (3DGS), добились значительного успеха в создании фотореалистичных рендерингов с эффективными конвейерами. Однако создание высококачественных новых видов в сложных условиях, таких как разреженные входные виды, остается сложной задачей из-за недостаточной информации в недостаточно выборочных областях, что часто приводит к заметным артефактам. В данной статье представлен 3DGS-Enhancer, новый конвейер для улучшения качества представления трехмерного гауссова сглаживания. Мы используем диффузионные априорные знания 2D-видео для решения проблемы сложности согласования трехмерного вида, переформулируя ее как достижение временной согласованности в процессе генерации видео. 3DGS-Enhancer восстанавливает согласованные с видом латентные особенности созданных новых видов и интегрирует их с входными видами через пространственно-временной декодер. Улучшенные виды затем используются для настройки начальной модели 3DGS, что значительно улучшает ее производительность рендеринга. Обширные эксперименты на крупных наборах данных неограниченных сцен показывают, что 3DGS-Enhancer обеспечивает превосходную производительность реконструкции и результаты рендеринга высокой точности по сравнению с передовыми методами. Веб-страница проекта: https://xiliu8006.github.io/3DGS-Enhancer-project.

Перспективы в интеллектуальной колоноскопии
Frontiers in Intelligent Colonoscopy

Oct 22

ByGe-Peng Ji, Jingyi Liu, Peng Xu, Nick Barnes, Fahad Shahbaz Khan, Salman Khan, Deng-Ping Fan

Колоноскопия в настоящее время является одним из наиболее чувствительных методов скрининга рака толстой кишки. В данном исследовании рассматриваются перспективы интеллектуальных техник колоноскопии и их потенциальные последствия для мультимодальных медицинских приложений. Для достижения этой цели мы начинаем с оценки текущих данных и модельно-центричных пейзажей через четыре задачи для восприятия колоноскопической сцены, включая классификацию, детекцию, сегментацию и понимание зрения-языка. Эта оценка позволяет нам выявить специфические для области вызовы и показывает, что мультимодальные исследования в области колоноскопии остаются открытыми для дальнейшего изучения. Для встречи с наступающей мультимодальной эрой мы устанавливаем три основополагающих инициативы: крупномасштабный мультимодальный набор данных для настройки инструкций ColonINST, мультимодельный языковой модель ColonGPT, разработанный для колоноскопии, и мультимодальный бенчмарк. Для облегчения непрерывного мониторинга этой быстро развивающейся области мы предоставляем публичный веб-сайт для последних обновлений: https://github.com/ai4colonoscopy/IntelliScope.

PyramidDrop: Ускорение ваших крупных моделей видео-языка с помощью пирамиды снижения визуальной избыточности
PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction

Oct 22

ByLong Xing, Qidong Huang, Xiaoyi Dong, Jiajie Lu, Pan Zhang, Yuhang Zang, Yuhang Cao, Conghui He, Jiaqi Wang, Feng Wu, Dahua Lin