Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Файл 1: О переносимости улучшенных рассуждений LLM в финансы
Fino1: On the Transferability of Reasoning Enhanced LLMs to Finance

Feb 12

ByLingfei Qian, Weipeng Zhou, Yan Wang, Xueqing Peng, Jimin Huang, Qianqian Xie

Недавние достижения в области больших языковых моделей (БЯМ) показали сильные общие способности рассуждения, однако их эффективность в финансовом рассуждении остается мало исследованной. В данном исследовании мы всесторонне оцениваем 16 мощных моделей рассуждения и общих БЯМ на трех сложных финансовых задачах, включающих финансовый текст, табличные данные и уравнения, оценивая числовое рассуждение, интерпретацию табличных данных, понимание финансовой терминологии, обработку длинного контекста и решение задач на основе уравнений. Наши результаты показывают, что хотя лучшие наборы данных и предварительное обучение улучшают финансовое рассуждение, общие улучшения, такие как донастройка CoT, не всегда приносят последовательные приросты. Более того, все стратегии рассуждения сталкиваются с трудностями в улучшении производительности на задачах с длинным контекстом и множественными таблицами. Для преодоления этих ограничений мы разрабатываем модель с улучшенным финансовым рассуждением на основе Llama-3.1-8B-Instruct, с помощью донастройки CoT и обучения с подкреплением с использованием областно-специфических путей рассуждения. Даже с простой донастройкой на один финансовый набор данных наша модель достигает последовательного улучшения производительности на 10% по всем задачам, превосходя все модели 8B и даже Llama3-70B-Instruct и Llama3.1-70B-Instruct в среднем. Наши результаты подчеркивают необходимость областно-специфических адаптаций в финансовых задачах, акцентируя внимание на будущих направлениях, таких как рассуждение с множественными таблицами, обработка длинного контекста и понимание финансовой терминологии. Все наши наборы данных, модели и коды доступны публично. Кроме того, мы представляем таблицу лидеров для оценки будущих наборов данных и моделей.

TransMLA: Многоголовое скрытое внимание - все, что вам нужно.
TransMLA: Multi-head Latent Attention Is All You Need

Feb 11

ByFanxu Meng, Zengwei Yao, Muhan Zhang

Современные большие языковые модели (LLM) часто сталкиваются с узкими местами в области коммуникаций на текущем оборудовании, а не исключительно с вычислительными ограничениями. Метод многоголового латентного внимания (MLA) решает эту проблему, используя матрицы низкого ранга в слоях ключ-значение (KV), что позволяет кэшировать сжатые латентные состояния KV. Этот подход значительно сокращает размер кэша KV по сравнению с традиционным многоголовым вниманием, что приводит к более быстрой инференции. Более того, MLA использует матрицу повышения проекции для увеличения выразительности, обменивая дополнительные вычисления на сокращение коммуникационной нагрузки. Хотя MLA продемонстрировал эффективность и эффективность в Deepseek V2/V3/R1, многие крупные поставщики моделей до сих пор полагаются на групповое внимание к запросу (GQA) и не объявили о планах принять MLA. В этой статье мы показываем, что GQA всегда может быть представлено с помощью MLA, сохраняя ту же самую нагрузку кэша KV, но обратное не верно. Для поощрения более широкого использования MLA мы представляем **TransMLA**, метод посттренировочного преобразования, который преобразует широко используемые предварительно обученные модели на основе GQA (например, LLaMA, Qwen, Mixtral) в модели на основе MLA. После преобразования модель может пройти дополнительное обучение для увеличения выразительности без увеличения размера кэша KV. Кроме того, мы планируем разработать техники ускорения вывода, специфичные для MLA, чтобы сохранить низкую задержку в преобразованных моделях, обеспечивая более эффективное дистиллирование Deepseek R1.

BenchMAX: Комплексный многоязычный набор оценки для больших языковых моделей
BenchMAX: A Comprehensive Multilingual Evaluation Suite for Large Language Models

Feb 11

ByXu Huang, Wenhao Zhu, Hanxu Hu, Conghui He, Lei Li, Shujian Huang, Fei Yuan

Предыдущие многоязычные бенчмарки в основном сосредотачивались на простых задачах понимания, но для больших языковых моделей (LLM) мы акцентируем внимание на владении инструкциями, рассуждениях, понимании длинного контекста, генерации кода и т. д. Однако измерение этих продвинутых способностей на разных языках остается недостаточно исследованным. Для решения этого разрыва мы представляем BenchMAX - многосторонний многоязычный бенчмарк, который позволяет проводить справедливые сравнения этих важных способностей на разных языках. Для поддержания высокого качества три отдельных носителя языка независимо размечают каждый образец во всех задачах после того, как данные были машинно переведены с английского на 16 других языков. Кроме того, мы представляем новое испытание перевода, вытекающее из построения набора данных. Обширные эксперименты на BenchMAX показывают различную эффективность основных способностей на разных языках, выявляя разрывы в производительности, которые нельзя преодолеть просто увеличив размер модели. BenchMAX служит в качестве всесторонней многоязычной платформы оценки, предоставляя многообещающую площадку для развития многоязычных языковых моделей. Набор данных и код общедоступны.

Законы масштабирования дистилляции
Distillation Scaling Laws

Feb 12

ByDan Busbridge, Amitis Shidani, Floris Weers, Jason Ramapuram, Etai Littwin, Russ Webb

Мы представляем закон масштабирования дистилляции, который оценивает производительность дистиллированной модели на основе бюджета вычислений и его распределения между учеником и учителем. Наши результаты снижают риски, связанные с использованием дистилляции в масштабе; распределение вычислений для учителя и ученических моделей теперь может быть выполнено для максимизации производительности ученика. Мы предоставляем оптимальные вычисления рецепты дистилляции, когда 1) учитель существует, или 2) учитель нуждается в обучении. Если необходимо дистиллировать множество учеников или учитель уже существует, дистилляция превосходит надзорное предварительное обучение до уровня вычислений, который растет предсказуемо с размером ученика. Если необходимо дистиллировать одного ученика и учитель также нуждается в обучении, следует провести надзорное обучение. Кроме того, мы предоставляем исследования нашего масштабного изучения дистилляции, которые увеличивают наше понимание дистилляции и информируют экспериментальное проектирование.

TextAtlas5M: крупномасштабный набор данных для генерации плотных изображений текста.
TextAtlas5M: A Large-scale Dataset for Dense Text Image Generation

Feb 11

ByAlex Jinpeng Wang, Dongxing Mao, Jiawei Zhang, Weiming Han, Zhuobai Dong, Linjie Li, Yiqi Lin, Zhengyuan Yang, Libo Qin, Fuwei Zhang, Lijuan Wang, Min Li

Генерация изображений, зависящая от текста, привлекла значительное внимание в последние годы и обрабатывает все более длинные и комплексные текстовые подсказки. В повседневной жизни плотный и запутанный текст встречается в контекстах, таких как реклама, инфографика и указатели, где интеграция текста и визуальных элементов необходима для передачи сложной информации. Однако, несмотря на эти достижения, генерация изображений с длинным текстом остается настоящим вызовом, в значительной степени из-за ограничений существующих наборов данных, которые часто сосредоточены на более коротком и простом тексте. Для решения этого пробела мы представляем TextAtlas5M, новый набор данных, специально разработанный для оценки рендеринга длинного текста в генерации изображений, зависящей от текста. Наш набор данных состоит из 5 миллионов сгенерированных и собранных изображений с длинным текстом различных типов данных, обеспечивая комплексную оценку масштабных генеративных моделей в области генерации изображений с длинным текстом. Мы также подготовили 3000 тестовых наборов данных TextAtlasEval, улучшенных людьми, по 3 областям данных, устанавливая один из самых обширных бенчмарков для генерации изображений, зависящей от текста. Оценки показывают, что бенчмарки TextAtlasEval представляют существенные вызовы даже для самых передовых закрытых моделей (например, GPT4o с DallE-3), в то время как их открытые аналоги показывают еще большую разницу в производительности. Эти доказательства позиционируют TextAtlas5M как ценный набор данных для обучения и оценки моделей генерации изображений, зависящих от текста, будущего поколения.

CineMaster: Фреймворк для генерации видео из текста с учетом 3D и возможностью управления.
CineMaster: A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation

Feb 12

ByQinghe Wang, Yawen Luo, Xiaoyu Shi, Xu Jia, Huchuan Lu, Tianfan Xue, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai

В данной работе мы представляем CineMaster, новую структуру для генерации текста в видео с учетом 3D и возможностью управления процессом. Наша цель - предоставить пользователям сопоставимую возможность управления, как у профессиональных режиссеров: точное размещение объектов в сцене, гибкое управление как объектами, так и камерой в 3D пространстве, а также интуитивное управление компоновкой визуализированных кадров. Для достижения этой цели CineMaster работает в двух этапах. На первом этапе мы разрабатываем интерактивный рабочий процесс, который позволяет пользователям интуитивно создавать 3D-ориентированные условные сигналы, путем позиционирования ограничивающих рамок объектов и определения движений камеры в 3D пространстве. На втором этапе эти управляющие сигналы - включающие в себя визуализированные карты глубины, траектории камеры и метки классов объектов - служат руководством для модели диффузии текста в видео, обеспечивая генерацию видеоконтента, соответствующего намерениям пользователя. Более того, чтобы преодолеть недостаток наборов данных "in-the-wild" с аннотациями движения 3D объектов и позиций камеры, мы тщательно создаем автоматизированный конвейер аннотации данных, который извлекает 3D ограничивающие рамки и траектории камеры из видеоданных большого масштаба. Обширные качественные и количественные эксперименты демонстрируют, что CineMaster значительно превосходит существующие методы и реализует выдающуюся генерацию текста в видео с учетом 3D. Страница проекта: https://cinemaster-dev.github.io/.

Light-A-Video: Обучение-бесплатное изменение освещения видео с помощью постепенного слияния света
Light-A-Video: Training-free Video Relighting via Progressive Light Fusion

Feb 12

ByYujie Zhou, Jiazi Bu, Pengyang Ling, Pan Zhang, Tong Wu, Qidong Huang, Jinsong Li, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Anyi Rao, Jiaqi Wang, Li Niu

Недавние достижения в моделях переосвещения изображений, обусловленные масштабными наборами данных и предварительно обученными моделями диффузии, позволили обеспечить согласованное освещение. Однако видео переосвещение все еще отстает, в основном из-за излишних затрат на обучение и недостатка разнообразных, высококачественных наборов данных для видео переосвещения. Простое применение моделей переосвещения изображений на основе кадра приводит к нескольким проблемам: несогласованности источника освещения и несогласованности переосвещенного вида, что приводит к мерцанию на созданных видео. В данной работе мы предлагаем Light-A-Video, подход без обучения для достижения временно плавного видео переосвещения. Адаптированный из моделей переосвещения изображений, Light-A-Video вводит две ключевые техники для улучшения согласованности освещения. Во-первых, мы разрабатываем модуль Consistent Light Attention (CLA), который улучшает взаимодействия между кадрами в рамках слоев самовнимания для стабилизации генерации фона источника освещения. Во-вторых, используя физический принцип независимости транспорта света, мы применяем линейное смешивание между внешним видом исходного видео и переосвещенным видом, используя стратегию Progressive Light Fusion (PLF) для обеспечения плавных временных переходов в освещении. Эксперименты показывают, что Light-A-Video улучшает временную согласованность переосвещенного видео, сохраняя качество изображения и обеспечивая последовательные переходы освещения между кадрами. Страница проекта: https://bujiazi.github.io/light-a-video.github.io/.

Предварительное обучение LLM с непрерывными концепциями
LLM Pretraining with Continuous Concepts

Feb 12

ByJihoon Tack, Jack Lanchantin, Jane Yu, Andrew Cohen, Ilia Kulikov, Janice Lan, Shibo Hao, Yuandong Tian, Jason Weston, Xian Li

Прогнозирование следующего токена было стандартной целью обучения, используемой в предварительном обучении больших языковых моделей. Представления изучаются в результате оптимизации на уровне токенов. Мы предлагаем Continuous Concept Mixing (CoCoMix), новую предварительную обучающую структуру, которая объединяет дискретное прогнозирование следующего токена с непрерывными концепциями. Конкретно, CoCoMix предсказывает непрерывные концепции, изученные из предварительно обученного разреженного автокодировщика, и вкладывает их в скрытое состояние модели, чередуя с скрытыми представлениями токенов. Через эксперименты на нескольких бенчмарках, включая языковое моделирование и задачи логического вывода, мы показываем, что CoCoMix более эффективен по образцам и последовательно превосходит стандартное прогнозирование следующего токена, дистилляцию знаний и вставку токенов паузы. Мы обнаружили, что комбинирование как обучения концепций, так и чередования в единой структуре критично для увеличения производительности. Кроме того, CoCoMix улучшает интерпретируемость и управляемость, позволяя непосредственно проверять и изменять предсказанный концепт, предлагая прозрачный способ направлять внутренний процесс рассуждений модели.

WorldGUI: Динамическое тестирование для комплексной автоматизации графического интерфейса рабочего стола.
WorldGUI: Dynamic Testing for Comprehensive Desktop GUI Automation

Feb 12

ByHenry Hengyuan Zhao, Difei Gao, Mike Zheng Shou

Текущие агенты с графическим пользовательским интерфейсом (GUI) достигли выдающихся результатов в привязке к элементам GUI. Однако планирование остаётся чрезвычайно сложным, особенно из-за чувствительности к начальному состоянию окружения. Конкретно, даже незначительные различия в начальном состоянии, такие как незапущенное целевое программное обеспечение или интерфейс, не находящийся в состоянии по умолчанию, часто приводят к ошибкам в планировании. Эта проблема широко распространена в реальных сценариях использования пользователями, однако существующие бенчмарки не оценивают её. В данной статье мы представляем WorldGUI, новый бенчмарк GUI, который разрабатывает задачи GUI с различными начальными состояниями для имитации реального взаимодействия компьютера с пользователем. Бенчмарк охватывает широкий спектр задач по 10 популярным приложениям, включая PowerPoint, VSCode и Adobe Acrobat. Кроме того, для решения проблем динамических задач автоматизации GUI мы предлагаем GUI-Thinker, целостную платформу, использующую механизм критики, который эффективно управляет непредсказуемостью и сложностью взаимодействия с GUI. Экспериментальные результаты показывают, что GUI-Thinker значительно превосходит Claude-3.5 (Использование компьютера) на 14.9% по показателю успешности на задачах WorldGUI. Это улучшение подчёркивает эффективность нашей основанной на критическом мышлении платформы в улучшении автоматизации GUI.

LASP-2: Переосмысление последовательной параллельности для линейного внимания и его гибридного подхода
LASP-2: Rethinking Sequence Parallelism for Linear Attention and Its Hybrid

Feb 11

ByWeigao Sun, Disen Lan, Yiran Zhong, Xiaoye Qu, Yu Cheng

Подходы к моделированию линейной последовательности, такие как линейное внимание, обеспечивают преимущества, такие как обучение за линейное время и вывод с постоянной памятью по длине последовательности. Однако существующие методы параллелизма последовательности (SP) либо не оптимизированы для функции линейного внимания к правому произведению, либо используют стратегию кольцевого обмена информацией, что приводит к снижению параллелизма вычислений и ограничивает их масштабируемость для более длинных последовательностей в распределенных системах. В данной статье мы представляем LASP-2, новый метод SP, который улучшает как коммуникационный, так и вычислительный параллелизм при обучении моделей трансформера с линейным вниманием на очень длинных входных последовательностях. По сравнению с предыдущей работой LASP, LASP-2 переосмысливает минимальные требования к коммуникации для SP на слоях линейного внимания, переорганизует весь рабочий процесс коммуникации и вычислений LASP. Таким образом, требуется всего одно собирающееся общее общение AllGather на промежуточных состояниях памяти, размеры которых не зависят от длины последовательности, что приводит к значительному улучшению как коммуникационного, так и вычислительного параллелизма, а также их перекрытия. Кроме того, мы расширяем LASP-2 до LASP-2H, применяя аналогичную переработку коммуникации к стандартным модулям внимания, предлагая эффективное решение SP для гибридных моделей, объединяющих линейные и стандартные слои внимания. Наша оценка на модели Linear-Llama3, варианте Llama3 с линейным вниманием вместо стандартного внимания, демонстрирует эффективность LASP-2 и LASP-2H. В частности, LASP-2 достигает улучшения скорости обучения на 15,2% по сравнению с LASP и на 36,6% по сравнению с Ring Attention при длине последовательности 2048K на 64 GPU. Код выпущен как часть: https://github.com/OpenSparseLLMs/Linear-MoE.

Анимация любого персонажа 2: Анимация изображения персонажа высокой точности с учётом окружения
Animate Anyone 2: High-Fidelity Character Image Animation with Environment Affordance

Feb 10

ByLi Hu, Guangyuan Wang, Zhen Shen, Xin Gao, Dechao Meng, Lian Zhuo, Peng Zhang, Bang Zhang, Liefeng Bo

Недавние методы анимации изображений персонажей на основе моделей диффузии, такие как Animate Anyone, значительно продвинулись в создании последовательных и обобщаемых анимаций персонажей. Однако эти подходы не способны создавать разумные ассоциации между персонажами и их окружением. Для преодоления этого ограничения мы представляем Animate Anyone 2, нацеленный на анимацию персонажей с учетом окружающей среды. Помимо извлечения сигналов движения из исходного видео, мы дополнительно захватываем представления окружения как условные входы. Окружение формулируется как область за исключением персонажей, и наша модель генерирует персонажей для заполнения этих областей, сохраняя согласованность с окружающим контекстом. Мы предлагаем стратегию маски без учета формы, которая более эффективно характеризует отношение между персонажем и окружением. Кроме того, для улучшения достоверности взаимодействий объектов мы используем направляющий объект для извлечения признаков взаимодействующих объектов и применяем пространственное смешивание для внедрения признаков. Мы также представляем стратегию модуляции позы, которая позволяет модели обрабатывать более разнообразные шаблоны движения. Экспериментальные результаты демонстрируют превосходную производительность предложенного метода.

Игнорируйте штраф KL! Повышение исследования критических токенов для улучшения тонкой настройки RL.
Ignore the KL Penalty! Boosting Exploration on Critical Tokens to Enhance RL Fine-Tuning

Feb 10

ByJean Vassoyan, Nathanaël Beau, Roman Plaud

Способность достижения долгосрочных целей является ключевой проблемой в текущем развитии больших моделей языка (LLM). Для решения этой проблемы предварительно обученные LLM могут быть донастроены с помощью обучения с подкреплением (RL) для исследования решений, оптимизирующих заданную цель. Однако исследование с LLM затруднено, поскольку необходимо найти баланс между обнаружением новых решений и сохранением достаточной близости к предварительно обученной модели, чтобы не ухудшить базовые возможности. Обычно это контролируется с помощью штрафа Кульбака-Лейблера (KL). В данной статье мы исследуем динамику исследования небольшой модели языка на простой арифметической задаче. Мы показываем, как различные степени предварительного обучения влияют на исследование и демонстрируем важность "критических токенов", которые имеют решающее значение для конечного результата. В результате мы предлагаем простое изменение штрафа KL, которое способствует исследованию критических токенов, повышая эффективность этапа донастройки RL.

PDE-контроллер: LLM для автоформализации и рассуждений о уравнениях в частных производных
PDE-Controller: LLMs for Autoformalization and Reasoning of PDEs

Feb 3

ByMauricio Soroco, Jialin Song, Mengzhou Xia, Kye Emond, Weiran Sun, Wuyang Chen

В то время как недавние исследования в области искусственного интеллекта в математике сделали значительные успехи в чистой математике, области прикладной математики, в частности, уравнения в частных производных (УЧП), остаются недостаточно исследованными, несмотря на их значительное применение в реальном мире. Мы представляем PDE-Controller, фреймворк, который позволяет крупным языковым моделям (LLM) управлять системами, управляемыми уравнениями в частных производных (УЧП). Наш подход позволяет LLM преобразовывать неформальные естественноязыковые инструкции в формальные спецификации, а затем выполнять шаги рассуждения и планирования для улучшения полезности управления УЧП. Мы создаем комплексное решение, включающее наборы данных (как случаи, написанные людьми, так и 2 миллиона синтетических образцов), модели математического рассуждения и новые метрики оценки, все это требует значительных усилий. Наш PDE-Controller значительно превосходит последние модели с открытым исходным кодом и модели GPT в рассуждениях, автоформализации и синтезе программ, достигая до 62% улучшения в полезности управления УЧП. Связывая языковое поколение и системы УЧП, мы демонстрируем потенциал LLM в решении сложных научных и инженерных задач. Мы опубликуем все данные, контрольные точки моделей и код на https://pde-controller.github.io/.

DPO-Shift: Изменение распределения оптимизации прямых предпочтений
DPO-Shift: Shifting the Distribution of Direct Preference Optimization

Feb 11

ByXiliang Yang, Feng Jiang, Qianen Zhang, Lei Zhao, Xiao Li

Оптимизация Прямых Предпочтений (Direct Preference Optimization, DPO) и ее варианты стали все более популярными для выравнивания языковых моделей с человеческими предпочтениями. Эти методы направлены на обучение моделей лучше различать между выбранными (или предпочтительными) и отклоненными (или непредпочтительными) ответами. Однако предшествующие исследования выявили, что вероятность выбранных ответов часто снижается во время обучения, и это явление известно как смещение вероятности. Для преодоления этого вызова в данной работе мы представляем \method для контролируемого сдвига распределения вероятности выбора. Затем мы показываем, что \method демонстрирует фундаментальный компромисс между улучшением вероятности выбора и жертвованием маржой вознаграждения, что подтверждается как теоретическим анализом, так и экспериментальной проверкой. Более того, мы демонстрируем превосходство \method над DPO на последующих задачах, таких как MT-Bench и специально разработанный эксперимент по выигрышной доле. Мы считаем, что данное исследование показывает, что проблема смещения вероятности DPO может быть эффективно смягчена с помощью простого, теоретически обоснованного решения. Наш код доступен по адресу https://github.com/Meaquadddd/DPO-Shift.

NoLiMa: Оценка длинного контекста за пределами прямого сопоставления.
NoLiMa: Long-Context Evaluation Beyond Literal Matching

Feb 7

ByAli Modarressi, Hanieh Deilamsalehy, Franck Dernoncourt, Trung Bui, Ryan A. Rossi, Seunghyun Yoon, Hinrich Schütze

Недавние модели больших языков (LLM) поддерживают длинные контексты от 128K до 1M токенов. Популярным методом оценки этих возможностей является тест "иголка в стоге сена" (NIAH), который включает в себя поиск "иголки" (соответствующей информации) в "стоге сена" (длинном нерелевантном контексте). Расширения этого подхода включают увеличение отвлекающих элементов, цепочки фактов и рассуждения в контексте. Однако в этих бенчмарках модели могут использовать существующие буквальные совпадения между иголкой и стогом, чтобы упростить задачу. Для решения этой проблемы мы представляем NoLiMa, бенчмарк, расширяющий NIAH с тщательно разработанным набором иголок, где вопросы и иголки имеют минимальное лексическое перекрытие, требуя от моделей выводить скрытые ассоциации для нахождения иголки в стоге сена. Мы оцениваем 12 популярных LLM, которые утверждают, что поддерживают контексты длиной не менее 128K токенов. Хотя они хорошо справляются с короткими контекстами (<1K), производительность значительно снижается с увеличением длины контекста. Например, при 32K 10 моделей падают ниже 50% своих сильных базовых значений короткой длины. Даже GPT-4o, одно из лучших исключений, испытывает снижение с почти идеального базового значения 99.3% до 69.7%. Наш анализ показывает, что эти снижения обусловлены увеличенной сложностью, с которой сталкивается механизм внимания в длинных контекстах, когда буквальные совпадения отсутствуют, что затрудняет поиск соответствующей информации.

SARChat-Bench-2M: Мультизадачный бенчмарк для визуально-языковой интерпретации SAR-изображений
SARChat-Bench-2M: A Multi-Task Vision-Language Benchmark for SAR Image Interpretation

Feb 12

ByZhiming Ma, Xiayang Xiao, Sihao Dong, Peidong Wang, HaiPeng Wang, Qingyun Pan

В области интерпретации изображений синтетической апертурной радиолокации (SAR) с использованием дистанционного зондирования, несмотря на значительный прогресс языковых моделей Vision (VLM) в обработке естественного языка и понимании изображений, их применение остается ограниченным в профессиональных областях из-за недостаточной экспертизы в области. В данной статье впервые предлагается крупномасштабный мультимодальный диалоговый набор данных для изображений SAR под названием SARChat-2M, который содержит около 2 миллионов высококачественных пар изображение-текст, охватывает разнообразные сценарии с подробными аннотациями целей. Этот набор данных поддерживает несколько ключевых задач, таких как задачи визуального понимания и обнаружения объектов, а также имеет уникальные инновационные аспекты: в данном исследовании разрабатывается визуально-языковой набор данных и бенчмарк для области SAR, позволяющий оценить возможности VLM в интерпретации изображений SAR, что предоставляет парадигмальную основу для создания мультимодальных наборов данных в различных вертикальных областях дистанционного зондирования. Через эксперименты с 16 ведущими VLM полностью подтверждена эффективность набора данных, и успешно установлен первый многозадачный диалоговый бенчмарк в области SAR. Проект будет опубликован на https://github.com/JimmyMa99/SARChat с целью содействия глубокому развитию и широкому применению визуально-языковых моделей SAR.

Прогнозирование следующего блока: генерация видео с помощью полуавторегрессионного моделирования.
Next Block Prediction: Video Generation via Semi-Autoregressive Modeling

Feb 11

ByShuhuai Ren, Shuming Ma, Xu Sun, Furu Wei

Предсказание следующего токена (Next-Token Prediction, NTP) является фактическим подходом к авторегрессивной (AR) генерации видео, однако он страдает от неоптимальных однонаправленных зависимостей и медленной скорости вывода. В данной работе мы предлагаем полуавторегрессивную (semi-AR) структуру, названную Предсказание следующего блока (Next-Block Prediction, NBP), для генерации видео. Равномерно декомпозируя видеоконтент на блоки одинакового размера (например, строки или кадры), мы переносим единицу генерации отдельных токенов на блоки, позволяя каждому токену в текущем блоке одновременно предсказывать соответствующий токен в следующем блоке. В отличие от традиционного моделирования AR, наша структура использует двунаправленное внимание в каждом блоке, позволяя токенам захватывать более надежные пространственные зависимости. Предсказывая несколько токенов параллельно, модели NBP значительно сокращают количество шагов генерации, что приводит к более быстрому и эффективному выводу. Наша модель достигает показателей FVD на уровне 103.3 на UCF101 и 25.5 на K600, превосходя модель NTP на 4.4 в среднем. Благодаря сокращенному количеству шагов вывода, модель NBP генерирует 8.89 кадров (разрешение 128x128) в секунду, достигая ускорения в 11 раз. Мы также исследовали масштабы модели от 700M до 3B параметров, наблюдая значительные улучшения качества генерации, с показателями FVD снижающимися с 103.3 до 55.3 на UCF101 и с 25.5 до 19.5 на K600, демонстрируя масштабируемость нашего подхода.

К Надежному Поиску с Расширенной Генерацией для Больших Языковых Моделей: Обзор
Towards Trustworthy Retrieval Augmented Generation for Large Language Models: A Survey

Feb 8

ByBo Ni, Zheyuan Liu, Leyao Wang, Yongjia Lei, Yuying Zhao, Xueqi Cheng, Qingkai Zeng, Luna Dong, Yinglong Xia, Krishnaram Kenthapadi, Ryan Rossi, Franck Dernoncourt, Md Mehrab Tanjim, Nesreen Ahmed, Xiaorui Liu, Wenqi Fan, Erik Blasch, Yu Wang, Meng Jiang, Tyler Derr

Расширенная генерация с использованием поиска (RAG) - это передовая техника, разработанная для решения проблем, связанных с созданием контента искусственным интеллектом (AIGC). Интегрируя поиск контекста в генерацию контента, RAG обеспечивает надежные и актуальные внешние знания, снижает галлюцинации и обеспечивает соответствующий контекст в широком спектре задач. Однако, несмотря на успех и потенциал RAG, недавние исследования показали, что парадигма RAG также вносит новые риски, включая проблемы устойчивости, вопросы конфиденциальности, атаки злоумышленников и проблемы ответственности. Решение этих рисков критично для будущих приложений систем RAG, поскольку они напрямую влияют на их надежность. Хотя были разработаны различные методы для улучшения надежности методов RAG, отсутствует единая перспектива и рамка для исследований в этой области. Таким образом, в данной статье мы стремимся заполнить этот пробел, предоставив всестороннюю дорожную карту для разработки надежных систем RAG. Мы строим наше обсуждение вокруг пяти ключевых перспектив: надежность, конфиденциальность, безопасность, справедливость, объяснимость и ответственность. Для каждой перспективы мы представляем общую структуру и таксономию, предлагая структурированный подход к пониманию текущих проблем, оценке существующих решений и выявлению перспективных направлений будущих исследований. Для поощрения более широкого принятия и инноваций мы также выделяем прикладные области, где надежные системы RAG имеют значительное влияние.

Модули LLM: Передача знаний от большой модели к маленькой с использованием улучшенного кросс-внимания
LLM Modules: Knowledge Transfer from a Large to a Small Model using Enhanced Cross-Attention

Feb 12

ByKonstantin Kolomeitsev

В данной работе мы предлагаем архитектуру LLM-модулей, которая позволяет передавать знания от большой предварительно обученной модели к более маленькой модели с использованием механизма Улучшенного Перекрестного Внимания. В предложенной схеме модель Qwen2-1.5B замораживается, и ее представления передаются через специально разработанные слои внимания модели GPT-Neo-125M, которая обучена на ограниченных вычислительных ресурсах. Экспериментальные результаты на наборе данных Bespoke-Stratos-17k показывают, что после 15 эпох обучения комбинированная модель генерирует ответы с качеством, сравнимым с полученными при дистилляции. Мы обсуждаем преимущества модульного подхода, предоставляем примеры входных запросов и сравнительный анализ, а также намечаем перспективы для дальнейшего расширения метода.

Медиатор: Слияние LLM с эффективным использованием памяти с меньшим количеством конфликтующих параметров и маршрутизацией на основе неопределенности.
Mediator: Memory-efficient LLM Merging with Less Parameter Conflicts and Uncertainty Based Routing

Feb 6

ByKunfeng Lai, Zhenheng Tang, Xinglin Pan, Peijie Dong, Xiang Liu, Haolan Chen, Li Shen, Bo Li, Xiaowen Chu

Слияние моделей объединяет крупные языковые модели (LLM), донастроенные для различных задач, в более мощную. Однако конфликты параметров между моделями приводят к снижению производительности при усреднении. В то время как маршрутизация моделей решает эту проблему путем выбора отдельных моделей во время вывода, она накладывает избыточные затраты на хранение и вычисления, и не использует общие знания из различных моделей. В данной работе мы замечаем, что различные слои проявляют различные уровни конфликтов параметров. Основываясь на этом наблюдении, мы усредняем слои с минимальными конфликтами параметров и используем новую маршрутизацию экспертов на уровне задач для слоев с значительными конфликтами. Для дальнейшего снижения затрат на хранение, вдохновленные арифметической разреженностью задач, мы разделяем несколько донастроенных экспертов на плотного эксперта и несколько разреженных экспертов. Учитывая выборки вне распределения, мы выбираем и объединяем соответствующих экспертов на основе неопределенности задачи входных данных. Мы проводим обширные эксперименты как на LLaMA, так и на Qwen с различными масштабами параметров и оцениваем на реальных задачах рассуждения. Результаты показывают, что наш метод последовательно достигает значительного улучшения производительности, требуя меньших системных затрат по сравнению с существующими методами.

MetaSC: Оптимизация спецификации безопасности во время тестирования для языковых моделей
MetaSC: Test-Time Safety Specification Optimization for Language Models

Feb 11

ByVíctor Gallego

Мы предлагаем новую динамическую систему безопасности, которая оптимизирует рассуждения о безопасности модели языка (LM) во время вывода без изменения весов модели. Основываясь на последних достижениях в методах самокритики, наш подход использует механизм мета-критики, который итеративно обновляет безопасные подсказки, называемые спецификациями, для управления процессом критики и корректировки адаптивно. Эта оптимизация на этапе тестирования не только улучшает производительность против запросов на нарушение безопасности, но также в различных общих задачах безопасности, таких как избегание морального вреда или стремление к честным ответам. Наши эмпирические оценки на нескольких моделях языка показывают, что динамически оптимизированные безопасные подсказки значительно повышают показатели безопасности по сравнению с фиксированными системными подсказками и статическими методами самокритики. Код будет опубликован на https://github.com/vicgalle/meta-self-critique.git.

Приоритет гомеоморфизма для проблемы ложноположительных и ложноотрицательных результатов в медицинском изображении при обучении плотного контрастного представления.
Homeomorphism Prior for False Positive and Negative Problem in Medical Image Dense Contrastive Representation Learning

Feb 7

ByYuting He, Boyu Wang, Rongjun Ge, Yang Chen, Guanyu Yang, Shuo Li

Плотное контрастное обучение представлений (DCRL) значительно улучшило эффективность обучения для задач плотного прогнозирования изображений, показав свой большой потенциал для снижения больших затрат на сбор медицинских изображений и плотную аннотацию. Однако свойства медицинских изображений делают обнаружение ненадежных соответствий, что приводит к открытой проблеме большого количества ложноположительных и ложноотрицательных (FP&N) пар в DCRL. В данной статье мы предлагаем обучение GEoMetric vIsual deNse sImilarity (GEMINI), которое внедряет априорное гомеоморфное свойство в DCRL и обеспечивает надежное обнаружение соответствий для эффективного плотного контраста. Мы предлагаем обучение деформируемого гомеоморфизма (DHL), которое моделирует гомеоморфизм медицинских изображений и учится оценивать деформируемое отображение для предсказания соответствия пикселей с сохранением топологии. Это эффективно сокращает пространство поиска пар и обеспечивает неявное и мягкое обучение отрицательных пар с помощью градиента. Мы также предлагаем геометрическую семантическую схожесть (GSS), которая извлекает семантическую информацию из признаков для измерения степени выравнивания при обучении соответствию. Это способствует эффективности обучения и производительности деформации, обеспечивая надежное создание положительных пар. Мы реализуем два практических варианта на двух типичных задачах обучения представлений в наших экспериментах. Наши многообещающие результаты на семи наборах данных, превосходящие существующие методы, демонстрируют наше великое превосходство. Мы опубликуем наш код по ссылке-партнеру: https://github.com/YutingHe-list/GEMINI.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Файл 1: О переносимости улучшенных рассуждений LLM в финансы
Fino1: On the Transferability of Reasoning Enhanced LLMs to Finance

Feb 12

ByLingfei Qian, Weipeng Zhou, Yan Wang, Xueqing Peng, Jimin Huang, Qianqian Xie

TransMLA: Многоголовое скрытое внимание - все, что вам нужно.
TransMLA: Multi-head Latent Attention Is All You Need

Feb 11

ByFanxu Meng, Zengwei Yao, Muhan Zhang

BenchMAX: Комплексный многоязычный набор оценки для больших языковых моделей
BenchMAX: A Comprehensive Multilingual Evaluation Suite for Large Language Models

Feb 11

ByXu Huang, Wenhao Zhu, Hanxu Hu, Conghui He, Lei Li, Shujian Huang, Fei Yuan

Законы масштабирования дистилляции
Distillation Scaling Laws

Feb 12

ByDan Busbridge, Amitis Shidani, Floris Weers, Jason Ramapuram, Etai Littwin, Russ Webb

TextAtlas5M: крупномасштабный набор данных для генерации плотных изображений текста.
TextAtlas5M: A Large-scale Dataset for Dense Text Image Generation

Feb 11

ByAlex Jinpeng Wang, Dongxing Mao, Jiawei Zhang, Weiming Han, Zhuobai Dong, Linjie Li, Yiqi Lin, Zhengyuan Yang, Libo Qin, Fuwei Zhang, Lijuan Wang, Min Li

CineMaster: Фреймворк для генерации видео из текста с учетом 3D и возможностью управления.
CineMaster: A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation

Feb 12

ByQinghe Wang, Yawen Luo, Xiaoyu Shi, Xu Jia, Huchuan Lu, Tianfan Xue, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai

Light-A-Video: Обучение-бесплатное изменение освещения видео с помощью постепенного слияния света
Light-A-Video: Training-free Video Relighting via Progressive Light Fusion

Feb 12

ByYujie Zhou, Jiazi Bu, Pengyang Ling, Pan Zhang, Tong Wu, Qidong Huang, Jinsong Li, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Anyi Rao, Jiaqi Wang, Li Niu