ChatPaper.aiChatPaper.ai
Главная

arXiv

HuggingFace

ЦеныАккаунтРабочее пространство

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

1

VideoGrain: Модулирование пространственно-временного внимания для многоуровневого видео-редактирования
VideoGrain: Modulating Space-Time Attention for Multi-grained Video Editing

Feb 24
ByXiangpeng Yang, Linchao Zhu, Hehe Fan, Yi Yang
79
5

Недавние достижения в моделях диффузии значительно улучшили возможности генерации и редактирования видео. Однако многозернистое редактирование видео, которое включает в себя модификации на уровне класса, экземпляра и части, остается серьезным вызовом. Основные трудности в многозернистом редактировании включают семантическое несоответствие управления текстом к региону и связывание признаков в модели диффузии. Для решения этих трудностей мы представляем VideoGrain, подход с нулевой настройкой, который модулирует пространственно-временные механизмы внимания (перекрестные и собственные) для достижения тонкого контроля над содержимым видео. Мы улучшаем управление текстом к региону, усиливая внимание к каждому локальному подсказыванию к его соответствующему пространственно-разделенному региону, минимизируя взаимодействия с нерелевантными областями в перекрестном внимании. Кроме того, мы улучшаем разделение признаков путем увеличения осведомленности внутри региона и уменьшения межрегиональных помех в собственном внимании. Обширные эксперименты демонстрируют, что наш метод достигает передовой производительности в реальных сценариях. Наш код, данные и демонстрации доступны по адресу https://knightyxp.github.io/VideoGrain_project_page/

2

Так говорил модель языка с длинным контекстом
Thus Spake Long-Context Large Language Model

Feb 24
ByXiaoran Liu, Ruixiao Li, Mianqiu Huang, Zhigeng Liu, Yuerong Song, Qipeng Guo, Siyang He, Qiqi Wang, Linlin Li, Qun Liu, Yaqian Zhou, Xuanjing Huang, Xipeng Qiu
72
6

Длинный контекст является важной темой в обработке естественного языка (Natural Language Processing, NLP), пронизывая развитие архитектур NLP и предоставляя огромные возможности для моделей большого языкового объема (Large Language Models, LLMs), придавая LLMs потенциал к обучению на протяжении жизни, аналогичный человеческому. К сожалению, стремление к длинному контексту сопровождается многочисленными препятствиями. Тем не менее, длинный контекст остается основным конкурентным преимуществом для LLMs. За последние два года длина контекста LLMs достигла прорывного увеличения до миллионов токенов. Более того, исследования по LLMs с длинным контекстом расширились от экстраполяции длины до всестороннего фокуса на архитектуре, инфраструктуре, обучении и технологиях оценки. Вдохновленные симфонической поэмой "Так говорил Заратустра", мы проводим аналогию между путешествием по расширению контекста LLM и попытками людей преодолеть свою смертность. В этом обзоре мы проиллюстрируем, как LLM борется между огромной необходимостью в более длинном контексте и равной необходимостью принять тот факт, что он в конечном итоге ограничен. Для достижения этого мы представим общую картину жизненного цикла LLM с длинным контекстом с четырех точек зрения: архитектура, инфраструктура, обучение и оценка, демонстрируя полный спектр технологий длинного контекста. В конце этого обзора мы представим 10 неотвеченных вопросов, с которыми в настоящее время сталкиваются LLM с длинным контекстом. Мы надеемся, что этот обзор может служить систематическим введением в исследования по LLM с длинным контекстом.

3

Самминг: Обучение модели языка речи на одном GPU за один день
Slamming: Training a Speech Language Model on One GPU in a Day

Feb 19
ByGallil Maimon, Avishai Elmakies, Yossi Adi
69
2

Мы представляем Slam - рецепт для обучения высококачественных моделей речевого языка (SLM) на одном академическом GPU за 24 часа. Мы достигаем этого через эмпирический анализ инициализации модели и архитектуры, синтетических данных для обучения, оптимизации предпочтений с синтетическими данными и настройки всех остальных компонентов. Мы эмпирически демонстрируем, что этот метод обучения также хорошо масштабируется с увеличением вычислительных ресурсов, достигая результатов, сопоставимых с ведущими SLM при доле вычислительных затрат. Мы надеемся, что эти исследования сделают обучение и исследования SLM более доступными. В контексте законов масштабирования SLM наши результаты значительно превосходят предсказанную оптимальную производительность вычислений, что дает оптимистичное представление о возможности применения SLM. См. код, данные, модели, образцы по ссылке - https://pages.cs.huji.ac.il/adiyoss-lab/slamming.

4

DICEPTION: Обобщенная модель диффузии для визуальных восприятий.
DICEPTION: A Generalist Diffusion Model for Visual Perceptual Tasks

Feb 24
ByCanyu Zhao, Mingyu Liu, Huanyi Zheng, Muzhi Zhu, Zhiyue Zhao, Hao Chen, Tong He, Chunhua Shen
52
3

Наша основная цель здесь - создать хорошую обобщенную модель восприятия, способную решать несколько задач в пределах выделенных вычислительных ресурсов и обучающих данных. Для достижения этой цели мы прибегаем к моделям диффузии текста в изображение, предварительно обученным на миллиардах изображений. Наши исчерпывающие метрики оценки демонстрируют, что DICEPTION успешно справляется с несколькими задачами восприятия, достигая производительности на уровне передовых моделей. Мы достигаем результатов на уровне SAM-vit-h, используя всего лишь 0,06% их данных (например, 600 тыс. против 1 млрд. пиксельно размеченных изображений). Вдохновленный работой Ванга и др., DICEPTION формулирует результаты различных задач восприятия с использованием цветового кодирования; и мы показываем, что стратегия присвоения случайных цветов различным экземплярам является очень эффективной как для сегментации объектов, так и для семантической сегментации. Объединение различных задач восприятия как условной генерации изображения позволяет нам полностью использовать предварительно обученные модели текста в изображение. Таким образом, DICEPTION может быть эффективно обучен за счет порядков меньших затрат по сравнению с традиционными моделями, обученными с нуля. При адаптации нашей модели к другим задачам, требуется только тонкая настройка на столь же небольшом количестве, как 50 изображений и 1% ее параметров. DICEPTION предоставляет ценные идеи и более перспективное решение для обобщенных моделей визуального восприятия.

5

Аудио-FLAN: Предварительный выпуск
Audio-FLAN: A Preliminary Release

Feb 23
ByLiumeng Xue, Ziya Zhou, Jiahao Pan, Zixuan Li, Shuai Fan, Yinghao Ma, Sitong Cheng, Dongchao Yang, Haohan Guo, Yujia Xiao, Xinsheng Wang, Zixuan Shen, Chuanbo Zhu, Xinshen Zhang, Tianchi Liu, Ruibin Yuan, Zeyue Tian, Haohe Liu, Emmanouil Benetos, Ge Zhang, Yike Guo, Wei Xue
36
2

Недавние достижения в аудио-токенизации значительно улучшили интеграцию аудио-возможностей в большие языковые модели (LLM). Однако понимание и генерация звука часто рассматриваются как отдельные задачи, затрудняя развитие по-настоящему объединенных аудио-языковых моделей. В то время как настройка инструкций продемонстрировала замечательный успех в улучшении обобщения и обучения без примеров в тексте и зрении, ее применение к аудио остается в значительной степени неисследованным. Одним из основных препятствий является отсутствие комплексных наборов данных, объединяющих понимание и генерацию звука. Для решения этой проблемы мы представляем Audio-FLAN, крупномасштабный набор данных для настройки инструкций, охватывающий 80 разнообразных задач в областях речи, музыки и звука, с более чем 100 миллионами экземпляров. Audio-FLAN заложит основу для объединенных аудио-языковых моделей, которые могут безупречно обрабатывать как задачи понимания (например, транскрипция, понимание), так и генерации (например, речь, музыка, звук) в широком диапазоне аудио-областей в режиме обучения без примеров. Набор данных Audio-FLAN доступен на платформах HuggingFace и GitHub и будет непрерывно обновляться.

6

Сделать LoRA Великим Снова: Повышение Эффективности LoRA с Адаптивными Сингулярными Значениями и Оптимизацией Выравнивания Микса Экспертов
Make LoRA Great Again: Boosting LoRA with Adaptive Singular Values and Mixture-of-Experts Optimization Alignment

Feb 24
ByChenghao Fan, Zhenyi Lu, Sichen Liu, Xiaoye Qu, Wei Wei, Chengfeng Gu, Yu Cheng
32
4

Хотя метод адаптации низкого ранга (Low-Rank Adaptation, LoRA) обеспечивает эффективную настройку параметров для больших языковых моделей (Large Language Models, LLM), его производительность часто не дотягивает до полной настройки (Full Fine-Tuning, Full FT). Нынешние методы оптимизации LoRA начинают с инициализации статическими подмножествами сингулярного разложения (Singular Value Decomposition, SVD), что приводит к неоптимальному использованию предварительных знаний. Другим путем улучшения LoRA является внедрение архитектуры смеси экспертов (Mixture-of-Experts, MoE). Однако недопустимое выравнивание весов и сложная динамика градиентов затрудняют применение SVD перед архитектурой LoRA MoE. Для устранения этих проблем мы предлагаем Great LoRA Mixture-of-Expert (GOAT), фреймворк, который (1) адаптивно интегрирует соответствующие априорные знания с использованием структурированной по SVD MoE и (2) выравнивает оптимизацию с полностью настроенной MoE путем вывода теоретического коэффициента масштабирования. Мы демонстрируем, что правильное масштабирование, без изменения архитектуры или алгоритмов обучения, повышает эффективность и производительность LoRA MoE. Эксперименты на 25 наборах данных, включая понимание естественного языка, здравый смысл, классификацию изображений и генерацию естественного языка, показывают ведущую производительность GOAT, сокращая разрыв с Full FT.

7

GCC: Генеративная цветовая постоянство через диффузию цветовой шкалы.
GCC: Generative Color Constancy via Diffusing a Color Checker

Feb 24
ByChen-Wei Chang, Cheng-De Fan, Chia-Che Chang, Yi-Chen Lo, Yu-Chee Tseng, Jiun-Long Huang, Yu-Lun Liu
28
2

Методы постоянства цвета часто испытывают трудности с обобщением на различные камерные сенсоры из-за изменяющейся спектральной чувствительности. Мы представляем GCC, который использует модели диффузии для восстановления цветовых шахматных досок на изображениях для оценки освещения. Наши ключевые инновации включают (1) одношаговый детерминированный подход к восстановлению цветовых шахматных досок, отражающих освещение сцены, (2) технику лапласианского разложения, сохраняющую структуру доски, позволяя адаптацию цвета в зависимости от освещения, и (3) стратегию аугментации данных на основе маски для обработки неточных аннотаций цветовых шахматных досок. GCC демонстрирует превосходную устойчивость в сценариях между камерами, достигая уровня ошибок в худшем 25% на уровне 5.15° и 4.32° в двусторонних оценках. Эти результаты подчеркивают стабильность и способность к обобщению нашего метода на различные характеристики камер без необходимости специального обучения для каждого сенсора, делая его универсальным решением для прикладных задач в реальном мире.

8

CodeCriticBench: всесторонний бенчмарк для оценки кода для крупных языковых моделей
CodeCriticBench: A Holistic Code Critique Benchmark for Large Language Models

Feb 23
ByAlexander Zhang, Marcus Dong, Jiaheng Liu, Wei Zhang, Yejie Wang, Jian Yang, Ge Zhang, Tianyu Liu, Zhongyuan Peng, Yingshui Tan, Yuanxing Zhang, Zhexu Wang, Weixun Wang, Yancheng He, Ken Deng, Wangchunshu Zhou, Wenhao Huang, Zhaoxiang Zhang
27
3

Критическая способность крупных языковых моделей (LLM) является важной для способностей рассуждения, которые могут предоставить необходимые рекомендации (например, подробный анализ и конструктивную обратную связь). Поэтому вопрос оценки критической способности LLM привлекает большое внимание, и было предложено несколько критических бенчмарков. Однако существующие критические бенчмарки обычно имеют следующие ограничения: (1) сосредоточены на разнообразных задачах рассуждения в общих областях и недостаточно оценивают задачи с кодом (например, охватывают только задачу генерации кода), где сложность запросов относительно невелика (например, запросы кода CriticBench взяты из Humaneval и MBPP). (2) Отсутствие всесторонней оценки с разных точек зрения. Для преодоления этих ограничений мы представляем всесторонний кодовый критический бенчмарк для LLM под названием CodeCriticBench. Конкретно, наш CodeCriticBench включает две основные задачи с кодом (т.е. генерацию кода и вопросы-ответы по коду) с разной сложностью. Кроме того, протоколы оценки включают базовую оценку критики и продвинутую оценку критики для различных характеристик, где для продвинутых настроек хорошо разработаны детализированные списки оценки. Наконец, мы проводим обширные экспериментальные результаты существующих LLM, которые показывают эффективность CodeCriticBench.

9

Лингвистическая обобщаемость масштабирования времени тестирования в математическом рассуждении
Linguistic Generalizability of Test-Time Scaling in Mathematical Reasoning

Feb 24
ByGuijin Son, Jiwoo Hong, Hyunwoo Ko, James Thorne
26
2

Масштабирование вычислений на этапе предварительного обучения доказало свою эффективность для достижения мультиязычности, но справедливо ли это и для масштабирования на этапе тестирования? В данной работе мы представляем MCLM - мультиязычный математический бенчмарк, включающий задачи уровня соревнований на 55 языках. Мы тестируем три метода масштабирования на этапе тестирования - моделирование вознаграждения за результат (ORM), моделирование процесса вознаграждения (ORM) и принуждение к бюджету (BF) - как на Qwen2.5-1.5B Math, так и на MR1-1.5B, мультиязычной LLM, на которой мы обучались для расширенного рассуждения. Наши эксперименты показывают, что использование Qwen2.5-1.5B Math с ORM достигает оценки 35.8 на MCLM, в то время как BF на MR1-1.5B достигает 35.2. Хотя "мыслящие LLM" недавно привлекли значительное внимание, мы обнаружили, что их производительность сравнима с традиционными методами масштабирования, такими как выбор лучшего из N, когда они ограничены сходными уровнями операций с плавающей запятой вывода. Более того, хотя BF приводит к улучшению на 20 пунктов на английском AIME, он обеспечивает лишь средний прирост в 1.94 пункта по другим языкам - что является типичным для других методов масштабирования на этапе тестирования, которые мы изучали, подчеркивая, что масштабирование на этапе тестирования может не так эффективно обобщаться на мультиязычные задачи. Для поощрения дальнейших исследований мы публикуем MCLM, MR1-1.5B и результаты оценки.

10

Стабильный-SPAM: Как обучаться в 4 бита более стабильно, чем с помощью 16-битного метода оптимизации Adam.
Stable-SPAM: How to Train in 4-Bit More Stably than 16-Bit Adam

Feb 24
ByTianjin Huang, Haotian Hu, Zhenyu Zhang, Gaojie Jin, Xiang Li, Li Shen, Tianlong Chen, Lu Liu, Qingsong Wen, Zhangyang Wang, Shiwei Liu
20
2

Эта статья всесторонне оценивает несколько недавно предложенных оптимизаторов для тренировки с использованием 4-битной точности, выявляя, что низкая точность битов усиливает чувствительность к скоростям обучения и часто вызывает нестабильность норм градиента, что приводит к расходимости при более высоких скоростях обучения. Среди них SPAM, недавно представленный оптимизатор с функцией сброса импульса и обрезки градиента, достигает лучшей производительности на различных уровнях битов, но испытывает затруднения с стабилизацией норм градиента, требуя тщательной настройки скорости обучения. Для преодоления этих ограничений мы предлагаем Stable-SPAM, который включает улучшенные техники нормализации и обрезки градиента. В частности, Stable-SPAM (1) адаптивно обновляет порог обрезки для высоких градиентов, отслеживая их исторические максимумы; (2) нормализует весь градиентный массив на основе его статистики исторической l_2-нормы; и (3) наследует сброс импульса от SPAM для периодического сброса первого и второго моментов Adam, смягчая накопление высоких градиентов. Обширные эксперименты показывают, что Stable-SPAM эффективно стабилизирует нормы градиента при обучении с использованием 4-битной точности, обеспечивая превосходную производительность по сравнению с Adam и SPAM. Заметно, что наша модель LLaMA-1B с 4-битной точностью, обученная с использованием Stable-SPAM, превосходит модель LLaMA-1B с BF16, обученную с помощью Adam, на до 2 плутония. Более того, когда обе модели обучаются с использованием 4-битной точности, Stable-SPAM достигает той же потери, что и Adam, требуя при этом всего примерно половину шагов обучения. Код доступен по адресу https://github.com/TianjinYellow/StableSPAM.git.

11

RIFLEx: Бесплатный обед для экстраполяции длины в видео диффузии трансформеров
RIFLEx: A Free Lunch for Length Extrapolation in Video Diffusion Transformers

Feb 21
ByMin Zhao, Guande He, Yixiao Chen, Hongzhou Zhu, Chongxuan Li, Jun Zhu
20
3

Недавние достижения в области генерации видео позволили моделям синтезировать видеоролики высокого качества продолжительностью в минуту. Однако создание даже более длинных видео с сохранением временной согласованности остается значительной проблемой, и существующие методы экстраполяции длины приводят к временным повторам или замедлению движения. В данной работе мы систематически анализируем роль частотных компонентов в позиционных вложениях и выявляем внутреннюю частоту, которая в основном управляет поведением экстраполяции. Исходя из этого понимания, мы предлагаем RIFLEx, минимальный, но эффективный подход, который снижает внутреннюю частоту для подавления повторов, сохраняя при этом согласованность движения, без необходимости в дополнительных модификациях. RIFLEx предлагает истинно бесплатный обед - достигая высококачественной экстраполяции в 2 раза на передовых видео-трансформерах диффузии в полностью обучающемся режиме. Более того, он повышает качество и позволяет экстраполировать в 3 раза с минимальной донастройкой без длинных видеороликов. Страница проекта и коды: https://riflex-video.github.io/{https://riflex-video.github.io/.}

12

Многомодальное рассуждение о несогласованности (MMIR): новый бенчмарк для моделей многомодального рассуждения
Multimodal Inconsistency Reasoning (MMIR): A New Benchmark for Multimodal Reasoning Models

Feb 22
ByQianqi Yan, Yue Fan, Hongquan Li, Shan Jiang, Yang Zhao, Xinze Guan, Ching-Chen Kuo, Xin Eric Wang
18
2

Существующие мультимодальные модели языка большого масштаба (MLLM) в основном обучаются и тестируются на согласованных визуально-текстовых входах, оставляя открытым вопрос о том, способны ли они справиться с несоответствиями в контенте реального мира, богатом макетами. Для преодоления этого разрыва мы предлагаем бенчмарк Мультимодального Рассуждения о Несоответствиях (MMIR) для оценки способности MLLM обнаруживать и рассуждать о семантических расхождениях в артефактах, таких как веб-страницы, презентационные слайды и плакаты. MMIR включает 534 сложных образца, каждый из которых содержит синтетически внедренные ошибки в пять категорий, требующих серьезного рассуждения: Фактическое Противоречие, Неверное Присвоение Личности, Контекстное Несоответствие, Количественное Расхождение и Временное/Пространственное Несогласование. Мы оценили шесть современных моделей MLLM, показав, что модели с выделенными возможностями мультимодального рассуждения, такие как o1, значительно превосходят своих аналогов, в то время как модели с открытым исходным кодом остаются особенно уязвимыми к ошибкам несоответствия. Детальные анализы ошибок также показывают, что модели отлично справляются с обнаружением несоответствий, ограниченных одной модальностью, особенно в тексте, но испытывают трудности с межмодальными конфликтами и сложными макетами. Эксперименты показывают, что подходы с одной модальностью, включая методы Цепочка Мыслей (CoT) и Множество Меток (SoM), приносят незначительные улучшения, выявляя ключевое узкое место в межмодальном рассуждении. Наши результаты подчеркивают необходимость продвинутого мультимодального рассуждения и указывают на будущие исследования в области мультимодального несоответствия.

13

За пределами выпуска: вопросы доступа к генеративным ИИ-системам.
Beyond Release: Access Considerations for Generative AI Systems

Feb 23
ByIrene Solaiman, Rishi Bommasani, Dan Hendrycks, Ariel Herbert-Voss, Yacine Jernite, Aviya Skowron, Andrew Trask
16
4

Решения о выпуске генеративного искусственного интеллекта определяют, будут ли компоненты системы доступны, однако выпуск не решает многих других элементов, которые изменяют способы взаимодействия пользователей и заинтересованных сторон с системой. Помимо выпуска, доступ к компонентам системы информирует о потенциальных рисках и выгодах. Доступ относится к практическим потребностям, инфраструктурным, техническим и социальным, необходимым для использования доступных компонентов каким-либо образом. Мы деконструируем доступ по трем осям: ресурсы, техническая применимость и полезность. В каждой категории набор переменных на каждый компонент системы уточняет компромиссы. Например, для ресурсов требуется доступ к вычислительной инфраструктуре для обслуживания весов модели. Мы также сравниваем доступность четырех высокопроизводительных языковых моделей, две с открытыми весами и две с закрытыми весами, показывая сходные соображения для всех, основанные вместо этого на переменных доступа. Переменные доступа заложены в основу возможности масштабирования или увеличения доступа к пользователям; мы исследуем масштаб доступа и то, как масштаб влияет на способность управлять и вмешиваться в риски. Этот фреймворк лучше охватывает ландшафт и компромиссы между рисками и выгодами выпусков системы для информирования решений о выпуске системы, исследований и политики.

14

X-Dancer: Генерация выразительного музыкального видео человеческого танца
X-Dancer: Expressive Music to Human Dance Video Generation

Feb 24
ByZeyuan Chen, Hongyi Xu, Guoxian Song, You Xie, Chenxu Zhang, Xin Chen, Chao Wang, Di Chang, Linjie Luo
14
3

Мы представляем X-Dancer, новый конвейер анимации изображений под музыку с нулевой настройкой, который создает разнообразные и долгосрочные реалистичные видеоролики человеческого танца из одного статического изображения. В его основе мы представляем единый трансформерно-диффузионный каркас, включающий авторегрессионную модель трансформера, которая синтезирует расширенные и синхронизированные с музыкой последовательности токенов для 2D поз тела, головы и рук, которые затем направляют модель диффузии для создания согласованных и реалистичных кадров танцев. В отличие от традиционных методов, в основном генерирующих движение человека в 3D, X-Dancer решает ограничения данных и увеличивает масштабируемость, моделируя широкий спектр 2D танцевальных движений, захватывая их тонкую согласованность с музыкальными ритмами через легко доступные монокулярные видеоролики. Для достижения этого мы сначала создаем пространственно композиционное представление токенов из 2D меток поз человека, связанных с уверенностями ключевых точек, кодируя как крупные артикулированные движения тела (например, верхняя и нижняя части тела), так и мелкозернистые движения (например, голова и руки). Затем мы разрабатываем модель трансформера от музыки к движению, которая авторегрессивно генерирует последовательности токенов поз танца, согласованных с музыкой, интегрируя глобальное внимание как к музыкальному стилю, так и к контексту предыдущего движения. Наконец, мы используем диффузионную основу для анимации эталонного изображения с помощью синтезированных токенов поз через AdaIN, формируя полностью дифференцируемый каркас от начала до конца. Экспериментальные результаты показывают, что X-Dancer способен производить как разнообразные, так и характеризованные видеоролики танца, значительно превосходя современные методы по разнообразию, выразительности и реализму. Код и модель будут доступны для исследовательских целей.

15

Рефлексивное планирование: модели видео-языков для многоэтапной долгосрочной робототехнической манипуляции
Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation

Feb 23
ByYunhai Feng, Jiaming Han, Zhuoran Yang, Xiangyu Yue, Sergey Levine, Jianlan Luo
13
2

Решение сложных задач манипулирования роботов с длительным горизонтом требует высокоуровневых планировочных возможностей, способности рассуждать о физическом мире и реактивного выбора соответствующих моторных навыков. Модели видения-языка (VLM), предварительно обученные на данных из Интернета, в принципе могут предложить рамочное решение для решения таких проблем. Однако в их текущей форме VLM лишены как тонкого понимания сложной физики, необходимой для робототехнического манипулирования, так и способности рассуждать на длительных горизонтах для решения проблем накапливания ошибок. В данной статье мы представляем новую рамочную вычислительную модель для тестирования, которая улучшает возможности физического рассуждения VLM для многоэтапных задач манипулирования. В центре нашего подхода лежит итеративное улучшение предварительно обученного VLM с механизмом "отражения" - он использует генеративную модель для воображения будущих состояний мира, использует эти предсказания для направления выбора действий и критически отражается на потенциальных подоптимальностях для уточнения своего рассуждения. Экспериментальные результаты демонстрируют, что наш метод значительно превосходит несколько современных коммерческих VLM, а также другие подходы послеобучения, такие как Монте-Карло деревоискатель (MCTS). Видеоролики доступны на https://reflect-vlm.github.io.

16

Мобильный агент-V: Обучение операциям на мобильных устройствах через видео-руководство Мультиагентное сотрудничество.
Mobile-Agent-V: Learning Mobile Device Operation Through Video-Guided Multi-Agent Collaboration

Feb 24
ByJunyang Wang, Haiyang Xu, Xi Zhang, Ming Yan, Ji Zhang, Fei Huang, Jitao Sang
13
2

Быстрый рост использования мобильных устройств требует улучшенной автоматизации для беспрепятственного управления задачами. Однако многие фреймворки, основанные на искусственном интеллекте, испытывают трудности из-за недостаточных операционных знаний. Ручное написание знаний помогает, но требует много труда и неэффективно. Для решения этих проблем мы представляем Mobile-Agent-V, фреймворк, который использует видео-руководство для предоставления богатых и экономически эффективных операционных знаний для мобильной автоматизации. Mobile-Agent-V улучшает возможности выполнения задач, используя видео входы без необходимости специализированной выборки или предварительной обработки. Mobile-Agent-V интегрирует стратегию скользящего окна и включает видеоагента и агента глубокого отражения, чтобы гарантировать соответствие действий инструкциям пользователя. Через этот инновационный подход пользователи могут записывать процессы задач с руководством, что позволяет системе автономно изучать и эффективно выполнять задачи. Экспериментальные результаты показывают, что Mobile-Agent-V достигает улучшения производительности на 30% по сравнению с существующими фреймворками.

17

Основанная на данных генерация убедительного языка для автоматизированного маркетинга
Grounded Persuasive Language Generation for Automated Marketing

Feb 24
ByJibang Wu, Chenghao Yang, Simon Mahns, Chaoqi Wang, Hao Zhu, Fei Fang, Haifeng Xu
12
3

Данный документ разрабатывает агентский каркас, который использует большие языковые модели (LLM) для автоматизации создания убедительного и обоснованного маркетингового контента, используя описания недвижимости в качестве нашей основной области применения. Наш метод разработан для согласования созданного контента с предпочтениями пользователей, выделяя полезные фактические атрибуты. Этот агент состоит из трех ключевых модулей: (1) Модуль Оснований, имитирующий экспертное человеческое поведение для прогнозирования маркетинговых особенностей; (2) Модуль Персонализации, согласующий контент с предпочтениями пользователя; (3) Модуль Маркетинга, обеспечивающий фактическую точность и включение локализованных особенностей. Мы проводим систематические эксперименты с участием людей в области маркетинга недвижимости, с участием фокусной группы потенциальных покупателей домов. Результаты показывают, что описания маркетинга, созданные нашим подходом, предпочтительнее, чем те, которые написаны экспертами-людьми с большим отрывом. Наши результаты предполагают перспективный агентский каркас на основе LLM для автоматизации масштабного целевого маркетинга, обеспечивая ответственное создание, используя только факты.

18

Прогнозирование роста моделей искусственного интеллекта с открытым доступом на платформе Hugging Face
Forecasting Open-Weight AI Model Growth on Hugging Face

Feb 21
ByKushal Raj Bhandari, Pin-Yu Chen, Jianxi Gao
10
3

Поскольку ландшафт искусственного интеллекта с открытым исходным кодом продолжает расширяться - с развитием моделей, значительными инвестициями и интересом пользователей - становится все более важным предсказать, какие модели в конечном итоге будут стимулировать инновации и формировать экосистемы искусственного интеллекта. Основываясь на параллелях с динамикой цитирования в научной литературе, мы предлагаем фреймворк для количественной оценки того, как развивается влияние модели с открытым исходным кодом. Конкретно, мы адаптируем модель, представленную Вангом и др. для научных цитат, используя три ключевых параметра - немедленность, долговечность и относительную приспособленность - для отслеживания накопительного числа тонко настроенных моделей модели с открытым исходным кодом. Наши результаты показывают, что этот подход в стиле цитирования может эффективно отражать разнообразные траектории принятия моделей с открытым исходным кодом, причем большинство моделей хорошо соответствуют, а выбросы указывают на уникальные шаблоны или резкие скачки в использовании.

19

МЕТКА: Децентрализованная структура для многоагентного иерархического обучения с подкреплением
TAG: A Decentralized Framework for Multi-Agent Hierarchical Reinforcement Learning

Feb 21
ByGiuseppe Paolo, Abdelhakim Benechehab, Hamza Cherkaoui, Albert Thomas, Balázs Kégl
9
2

Иерархическая организация является фундаментальной для биологических систем и человеческих обществ, однако системы искусственного интеллекта часто полагаются на монолитные архитектуры, которые ограничивают адаптивность и масштабируемость. Существующие подходы к иерархическому обучению с подкреплением (HRL) обычно ограничивают иерархии двумя уровнями или требуют централизованного обучения, что снижает их практическую применимость. Мы представляем TAME Agent Framework (TAG), фреймворк для построения полностью децентрализованных иерархических мультиагентных систем. TAG позволяет создавать иерархии произвольной глубины с помощью нового концепта LevelEnv, который абстрагирует каждый уровень иерархии как окружение для агентов на более высоких уровнях. Этот подход стандартизирует поток информации между уровнями, сохраняя слабую связь и обеспечивая безшовную интеграцию различных типов агентов. Мы демонстрируем эффективность TAG, реализуя иерархические архитектуры, объединяющие различных агентов RL на нескольких уровнях и достигая улучшенной производительности по сравнению с классическими базовыми моделями мультиагентного RL на стандартных бенчмарках. Наши результаты показывают, что децентрализованная иерархическая организация улучшает как скорость обучения, так и конечную производительность, позиционируя TAG как многообещающее направление для масштабируемых мультиагентных систем.

20

Измерение временных рассуждений и выравнивания по временным периодам китайских династий.
Benchmarking Temporal Reasoning and Alignment Across Chinese Dynasties

Feb 24
ByZhenglin Wang, Jialong Wu, Pengfei LI, Yong Jiang, Deyu Zhou
8
4

Временное рассуждение является фундаментальным для человеческого познания и имеет важное значение для различных прикладных областей. В то время как недавние достижения в области больших языковых моделей продемонстрировали многообещающие возможности во временном рассуждении, существующие бенчмарки в основном опираются на правила, лишены контекстуальной глубины и охватывают ограниченный набор временных сущностей. Для преодоления этих ограничений мы представляем Китайское Временное Рассуждение (CTM), бенчмарк, разработанный для оценки больших языковых моделей во временном рассуждении в обширной области китайской династической хронологии. CTM акцентирует взаимосвязи между сущностями, парное временное выравнивание и контекстуализированное и культурно обусловленное рассуждение, предоставляя комплексную оценку. Обширные экспериментальные результаты раскрывают вызовы, предъявляемые CTM, и выделяют потенциальные пути улучшения.

21

InductionBench: LLM-модели не справляются с самым простым классом сложности.
InductionBench: LLMs Fail in the Simplest Complexity Class

Feb 20
ByWenyue Hua, Tyler Wong, Sun Fei, Liangming Pan, Adam Jardine, William Yang Wang
7
2

Большие языковые модели (LLM) продемонстрировали замечательные улучшения в рассуждениях, и многие существующие бенчмарки были решены моделями, такими как o1 и o3, полностью или частично. Однако большинство этих бенчмарков акцентируются на дедуктивных рассуждениях, включая математические и программные задачи, в которых правила, такие как математические аксиомы или синтаксис программирования, четко определены, на основе которых LLM могут планировать и применять эти правила для получения решения. В отличие от этого, индуктивные рассуждения, где из наблюдаемых данных делаются выводы о базовых правилах, остаются менее исследованными. Такие индуктивные процессы лежат в основе научных открытий, поскольку они позволяют исследователям извлекать общие принципы из эмпирических наблюдений. Для оценки наличия у LLM этой способности мы представляем InductionBench, новый бенчмарк, разработанный для оценки индуктивной способности рассуждения у LLM. Наши экспериментальные результаты показывают, что даже самые передовые доступные модели испытывают трудности с освоением простейших классов сложности в подрегулярной иерархии функций, подчеркивая значительные недостатки в индуктивной способности рассуждения текущих LLM. Код и данные доступны на https://github.com/Wenyueh/inductive_reasoning_benchmark.

22

Исследование влияния методов квантования на безопасность и надежность больших языковых моделей
Investigating the Impact of Quantization Methods on the Safety and Reliability of Large Language Models

Feb 18
ByArtyom Kharinaev, Viktor Moskvoretskii, Egor Shvetsov, Kseniia Studenikina, Bykov Mikhail, Evgeny Burnaev
7
2

Большие языковые модели (LLM) стали мощным инструментом для решения современных задач и обеспечения практических применений. Однако их вычислительные затраты остаются значительным барьером для широкого принятия. Квантование выделяется как многообещающая техника для демократизации доступа и обеспечения развертывания на устройствах с ограниченными ресурсами. Несмотря на эти достижения, безопасность и надежность квантованных моделей остаются малоизученными, поскольку предыдущие исследования часто игнорируют современные архитектуры и полагаются на чрезмерно упрощенные бенчмарки и оценки. Для заполнения этого пробела мы представляем OpenSafetyMini, новый набор данных по безопасности, разработанный для более точного различения моделей. Мы оцениваем 4 передовые техники квантования на моделях LLaMA и Mistral с использованием 4 бенчмарков, включая оценки человека. Наши результаты показывают, что оптимальный метод квантования варьируется для 4-битной точности, в то время как техники векторного квантования обеспечивают лучшую производительность по безопасности и надежности на 2-битной точности, что является основой для будущих исследований.

23

Pandora3D: Комплексная платформа для генерации трехмерных форм и текстур высокого качества
Pandora3D: A Comprehensive Framework for High-Quality 3D Shape and Texture Generation

Feb 20
ByJiayu Yang, Taizhang Shang, Weixuan Sun, Xibin Song, Ziang Cheng, Senbo Wang, Shenzhou Chen, Weizhe Liu, Hongdong Li, Pan Ji
6
2

Данный отчет представляет собой комплексную структуру для создания высококачественных 3D форм и текстур из разнообразных входных данных, включая одиночные изображения, многоплоскостные изображения и текстовые описания. Структура состоит из генерации 3D формы и генерации текстуры. (1). Пайплайн генерации 3D формы использует Вариационный автоэнкодер (VAE) для кодирования неявных 3D геометрий в латентное пространство и диффузионную сеть для генерации латентов, условных по входным данным, с модификациями для увеличения емкости модели. Также исследуется альтернативный подход к генерации сетки, созданной художником (AM), что приводит к многообещающим результатам для более простых геометрий. (2). Генерация текстуры включает многоэтапный процесс, начиная с генерации фронтальных изображений, за которыми следует генерация многоплоскостных изображений, преобразование RGB в PBR текстуру и улучшение текстуры многоплоскостного изображения высокого разрешения. В каждом этапе используется планировщик согласованности, чтобы обеспечить пиксельную согласованность между многоплоскостными текстурами во время вывода, гарантируя бесшовную интеграцию. Данный пайплайн демонстрирует эффективную обработку разнообразных форматов входных данных, используя передовые нейронные архитектуры и новые методологии для создания высококачественного 3D контента. В отчете подробно описана архитектура системы, экспериментальные результаты и потенциальные направления для улучшения и расширения структуры. Исходный код и предварительно обученные веса доступны по ссылке: https://github.com/Tencent/Tencent-XR-3DGen.

24

Могут ли заметки сообщества заменить профессиональных проверяющих фактов?
Can Community Notes Replace Professional Fact-Checkers?

Feb 19
ByNadav Borenstein, Greta Warren, Desmond Elliott, Isabelle Augenstein
6
2

Две распространенные стратегии борьбы с ростом дезинформации в социальных сетях - это (i) факт-чекинг профессиональными организациями и (ii) модерация сообществом пользователями платформы. Изменения в политике Twitter/X и, более недавно, Meta, сигнализируют о переходе от партнерств с факт-чекинговыми организациями к увеличенной зависимости от сообщества, основанного на принципе «толпы». Однако степень и характер взаимосвязей между факт-чекингом и полезными заметками сообщества остаются неясными. Для решения этих вопросов мы используем языковые модели для аннотации большого корпуса заметок сообщества Twitter/X атрибутами, такими как тема, упомянутые источники и то, опровергают ли они утверждения, связанные с более широкими навязчивыми мифами. Наш анализ показывает, что сообщества цитируют источники факт-чекинга вплоть до пяти раз чаще, чем ранее сообщалось. Факт-чекинг особенно важен для заметок о публикациях, связанных с более широкими повествованиями, которые вдвое чаще упоминают источники факт-чекинга по сравнению с другими источниками. В заключение, наши результаты показывают, что успешная модерация сообщества тесно связана с профессиональным факт-чекингом.

25

MegaLoc: Одно извлечение для размещения их всех
MegaLoc: One Retrieval to Place Them All

Feb 24
ByGabriele Berton, Carlo Masone
5
2

Извлечение изображений из того же местоположения, что и заданный запрос, является важным компонентом множества задач компьютерного зрения, таких как Визуальное распознавание мест, Поиск ориентиров, Визуальная локализация, 3D-реконструкция и SLAM. Однако существующие решения созданы специально для работы с одной из этих задач и известно, что они терпят неудачу, когда требования немного меняются или когда они сталкиваются с данными вне распределения. В данной статье мы объединяем разнообразные существующие методы, техники обучения и наборы данных для обучения модели извлечения, названной MegaLoc, которая демонстрирует хорошую производительность на нескольких задачах. Мы обнаружили, что MegaLoc (1) достигает современного уровня на большом количестве наборов данных по визуальному распознаванию мест, (2) показывает впечатляющие результаты на распространенных наборах данных по поиску ориентиров и (3) устанавливает новый современный уровень для визуальной локализации на наборах данных LaMAR, где мы просто заменили метод извлечения в существующем пайплайне локализации. Код для MegaLoc доступен по ссылке https://github.com/gmberton/MegaLoc

26

MutaGReP: Поиск планов на основе репозитория без выполнения для использования кода
MutaGReP: Execution-Free Repository-Grounded Plan Search for Code-Use

Feb 21
ByZaid Khan, Ali Farhadi, Ranjay Krishna, Luca Weihs, Mohit Bansal, Tanmay Gupta
5
2

Когда человек запрашивает от LLM завершение задачи по кодированию, используя функционал из большого репозитория кода, как мы можем предоставить контекст из репозитория LLM? Один из подходов - добавить весь репозиторий в окно контекста LLM. Однако большинство задач включают лишь долю символов из репозитория, более длинные контексты вредят способностям рассуждения LLM, а окна контекста не безграничны. В качестве альтернативы, мы могли бы эмулировать способность человека навигировать по большому репозиторию, выбирать нужный функционал и формировать план для решения задачи. Мы предлагаем MutaGReP (Поиск планов на основе мутаций в наземном репозитории), подход к поиску планов, декомпозирующих запрос пользователя на естественноязычные шаги, опираясь на кодовую базу. MutaGReP выполняет нейронный поиск дерева в пространстве планов, исследуя путем мутации планов и используя извлекатель символов для опоры. На сложном бенчмарке LongCodeArena, наши планы используют менее 5% из 128K окна контекста для GPT-4o, но конкурируют с производительностью кодирования GPT-4o с окном контекста, заполненным репозиторием. Планы, созданные MutaGReP, позволяют Qwen 2.5 Coder 32B и 72B соответствовать производительности GPT-4o с полным контекстом репозитория и обеспечивают прогресс в самых сложных задачах LongCodeArena. Страница проекта: zaidkhan.me/MutaGReP

27

Берегитесь пробела! Статическая и интерактивная оценка больших аудиомоделей
Mind the Gap! Static and Interactive Evaluations of Large Audio Models

Feb 21
ByMinzhi Li, William Barr Held, Michael J Ryan, Kunat Pipatanakul, Potsawee Manakul, Hao Zhu, Diyi Yang
4
2

Поскольку искусственные интеллектом чат-боты становятся все более распространенными, голосовое взаимодействие представляет собой убедительный способ обеспечить быструю, высокоскоростную коммуникацию как для семантических, так и для социальных сигналов. Это побудило исследования в области Больших Аудиомоделей (Large Audio Models, LAMs) для создания голосовых пользовательских интерфейсов. Однако для успешного развития LAM необходимо четкое понимание потребностей и предпочтений пользователей для установления надежных метрик прогресса. Данное исследование решает эти проблемы, предлагая интерактивный подход к оценке LAM и собрав 7 500 взаимодействий с LAM от 484 участников. Путем тематического моделирования пользовательских запросов мы выявляем основные сценарии использования аудиоинтерфейсов. Затем мы анализируем предпочтения пользователей и качественную обратную связь, чтобы определить, какие модели наилучшим образом соответствуют потребностям пользователей. Наконец, мы оцениваем, насколько статические бенчмарки предсказывают интерактивную производительность - наш анализ показывает, что ни один отдельный бенчмарк не сильно коррелирует с интерактивными результатами (tau ≤ 0.33 для всех бенчмарков). Хотя комбинация нескольких грубых признаков дает умеренную предсказательную силу (R^2=0.30), лишь два из двадцати наборов данных по ответам на устные вопросы и предсказанию возраста показывают значительно положительные корреляции. Это указывает на явную необходимость разработки оценок LAM, которые лучше коррелируют с предпочтениями пользователей.

28

Оценка качества перевода с использованием раннего прерывания и мгновенной уверенности
Early-Exit and Instant Confidence Translation Quality Estimation

Feb 20
ByVilém Zouhar, Maike Züfle, Beni Egressy, Julius Cheng, Jan Niehues
4
2

Оценка качества является повсеместной в машинном переводе, как для оценки, так и для генерации. К сожалению, модели оценки качества часто непрозрачны и вычислительно затратны, что делает их непрактичными для включения в масштабные конвейеры. В данной работе мы решаем две связанные задачи: (1) снижение стоимости оценки качества в масштабе и (2) разработка недорогого метода оценки неопределенности для оценки качества. Для решения последней задачи мы представляем модель оценки качества Instant Confidence COMET, учитывающую неопределенность, которая соответствует производительности предыдущих подходов при доле их затрат. Мы расширяем это до Early-Exit COMET, модели оценки качества, способной вычислять оценки качества и связанные уверенности уже на ранних слоях модели, что позволяет нам досрочно завершать вычисления и снижать затраты на оценку. Мы также применяем нашу модель к переупорядочиванию машинного перевода. Мы комбинируем Early-Exit COMET с алгоритмом бандита верхней доверительной границы для поиска лучшего кандидата из большого пула без необходимости запуска полной модели оценки на всех кандидатах. В обоих случаях (оценка и переупорядочивание) наши методы снижают требуемые вычисления на 50% при очень незначительном ухудшении производительности.

29

МОНСТР: Репозиторий оценки масштабируемых временных рядов Монашского университета
MONSTER: Monash Scalable Time Series Evaluation Repository

Feb 21
ByAngus Dempster, Navid Mohammadi Foumani, Chang Wei Tan, Lynn Miller, Amish Mishra, Mahsa Salehi, Charlotte Pelletier, Daniel F. Schmidt, Geoffrey I. Webb
4
2

Мы представляем MONSTER - MONash Scalable Time Series Evaluation Repository - коллекцию больших наборов данных для классификации временных рядов. Область классификации временных рядов получила пользу от общих стандартов, установленных репозиториями классификации временных рядов UCR и UEA. Однако наборы данных в этих стандартах небольшие, с медианными размерами соответственно 217 и 255 примеров. В результате они предпочитают узкое подпространство моделей, оптимизированных для достижения низкой ошибки классификации на разнообразных небольших наборах данных, то есть моделей, которые минимизируют дисперсию и уделяют мало внимания вопросам масштабируемости. Наша цель - разнообразить область путем введения стандартов с использованием больших наборов данных. Мы считаем, что есть огромный потенциал для нового прогресса в области, занимаясь теоретическими и практическими вызовами эффективного обучения на больших объемах данных.

30

Самообучение агентного понимания длинного контекста
Self-Taught Agentic Long Context Understanding

Feb 21
ByYufan Zhuang, Xiaodong Yu, Jialian Wu, Ximeng Sun, Ze Wang, Jiang Liu, Yusheng Su, Jingbo Shang, Zicheng Liu, Emad Barsoum
3
2

Ответ на сложные вопросы с длинным контекстом остается одним из основных вызовов для больших языковых моделей (LLM), поскольку это требует эффективной уточнения вопросов и извлечения контекста. Мы предлагаем Agentic Long-Context Understanding (AgenticLU), фреймворк, разработанный для улучшения понимания таких запросов LLM путем интеграции целевого самоуточнения с контекстуальной привязкой в рамках агентного рабочего процесса. В основе AgenticLU лежит Chain-of-Clarifications (CoC), где модели улучшают свое понимание через самостоятельно сгенерированные уточняющие вопросы и соответствующие контекстуальные привязки. Масштабируя вывод как поиск по дереву, где каждый узел представляет собой шаг CoC, мы достигаем 97,8% воспроизведения ответа на NarrativeQA при глубине поиска до трех и коэффициенте ветвления восемь. Для амортизации высокой стоимости этого процесса поиска во время обучения мы используем пары предпочтений для каждого шага, полученные рабочим процессом CoC, и выполняем двухэтапное дообучение модели: (1) надзорное дообучение для изучения эффективных стратегий декомпозиции и (2) прямая оптимизация предпочтений для улучшения качества рассуждений. Это позволяет моделям AgenticLU генерировать уточнения и извлекать соответствующий контекст эффективно и эффективно за один проход вывода. Обширные эксперименты по семи задачам с длинным контекстом показывают, что AgenticLU значительно превосходит современные методы подсказок и специализированные LLM с длинным контекстом, достигая надежного многопереходного рассуждения и поддерживая постоянное качество работы по мере увеличения длины контекста.

31

Диагностика тяжести COVID-19 по изображениям грудной клетки с использованием архитектур ViT и CNN
Diagnosing COVID-19 Severity from Chest X-Ray Images Using ViT and CNN Architectures

Feb 23
ByLuis Lara, Lucia Eve Berger, Rajesh Raju, Shawn Whitfield
2
2

Пандемия COVID-19 нагрузила ресурсы здравоохранения и вызвала обсуждение о том, как машинное обучение может облегчить бремя врачей и способствовать диагностике. Рентгенографии грудной клетки (CXR) используются для диагностики COVID-19, но немногие исследования предсказывают тяжесть состояния пациента по CXR. В данном исследовании мы создаем большой набор данных о тяжести COVID, объединяя три источника, и исследуем эффективность трансферного обучения с использованием моделей, предобученных на ImageNet и CXR, а также видовых трансформеров (ViTs) как в задачах регрессии тяжести, так и классификации. Предобученная модель DenseNet161 показала лучшие результаты в задаче предсказания тяжести по трем классам, достигнув общей точности 80% и 77,3%, 83,9% и 70% для легких, умеренных и тяжелых случаев соответственно. ViT продемонстрировал лучшие результаты в регрессии, средняя абсолютная ошибка составила 0,5676 по сравнению с предсказанными радиологами баллами тяжести. Исходный код проекта доступен публично.

32

M3-AGIQA: Мультимодальная, многокруговая, многоаспектная оценка качества изображений, созданных искусственным интеллектом.
M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment

Feb 21
ByChuan Cui, Kejiang Chen, Zhihua Wei, Wen Shen, Weiming Zhang, Nenghai Yu
2
2

Быстрое развитие моделей искусственного интеллекта, создающих изображения (AGI), представляет существенные вызовы при оценке их качества, что требует учета нескольких измерений, таких как качество восприятия, оперативная соответственность и подлинность. Для решения этих проблем мы предлагаем M3-AGIQA, комплексную систему оценки качества AGI, которая является мультимодальной, многокруговой и многоплановой. Наш подход использует возможности мультимодальных больших языковых моделей (MLLMs) в качестве совместных кодировщиков текста и изображения и извлекает передовые возможности подписывания изображений из онлайн MLLMs в локальную модель с помощью тонкой настройки с использованием метода низкоранговой адаптации (LoRA). Система включает структурированный многокруговой механизм оценки, в рамках которого генерируются промежуточные описания изображений для предоставления более глубокого понимания качества, соответствия и подлинности. Для согласования предсказаний с восприятием человека включен предсказатель, построенный на основе xLSTM и регрессионной головы, для обработки последовательных логитов и предсказания средних оценок мнения (MOSs). Обширные эксперименты, проведенные на нескольких эталонных наборах данных, показывают, что M3-AGIQA достигает передовых показателей производительности, эффективно улавливая тонкие аспекты качества AGI. Кроме того, проверка на перекрестных наборах данных подтверждает его высокую обобщаемость. Код доступен по адресу https://github.com/strawhatboy/M3-AGIQA.

33

Змея в броуновской сфере
The snake in the Brownian sphere

Feb 18
ByOmer Angel, Emmanuel Jacob, Brett Kolesnik, Grégory Miermont
2
2

Коричневый шар - это случайное метрическое пространство, гомеоморфное двумерной сфере, которое возникает как универсальный предельный масштаб многих типов случайных плоских карт. Прямое построение коричневого шара происходит через непрерывный аналог биекции Кори-Воклен-Шеффера (CVS). Биекция CVS отображает помеченные деревья на плоские карты, а непрерывная версия отображает непрерывное случайное дерево Олда с коричневыми метками (коричневая змея) на коричневый шар. В данной работе мы описываем обратное преобразование непрерывной биекции CVS, конструируя коричневую змею как измеримую функцию коричневого шара. Особое внимание требуется для работы с ориентацией коричневого шара.

Feb 24
Feb 25
Feb 26