ChatPaper.aiChatPaper.ai
Главная

arXiv

HuggingFace

ЦеныАккаунтРабочее пространство

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

1

Guide-and-Rescale: Механизм самонаведения для эффективного редактирования реальных изображений без настройки
Guide-and-Rescale: Self-Guidance Mechanism for Effective Tuning-Free Real Image Editing

Sep 2
ByVadim Titov, Madina Khalmatova, Alexandra Ivanova, Dmitry Vetrov, Aibek Alanov
96
2

Несмотря на недавние достижения в области крупномасштабных моделей генерации изображений из текста, манипулирование реальными изображениями с использованием этих моделей остается сложной задачей. Основные ограничения существующих методов редактирования заключаются в том, что они либо не обеспечивают стабильного качества для широкого спектра изменений изображений, либо требуют трудоемкой настройки гиперпараметров или дообучения модели диффузии для сохранения специфического внешнего вида исходного изображения. Мы предлагаем новый подход, основанный на модифицированном процессе сэмплирования диффузии с использованием механизма управления. В данной работе мы исследуем технику самоконтроля для сохранения общей структуры входного изображения и внешнего вида его локальных областей, которые не должны подвергаться редактированию. В частности, мы явно вводим энергетические функции, сохраняющие композицию, которые направлены на сохранение локальных и глобальных структур исходного изображения. Кроме того, мы предлагаем механизм перемасштабирования шума, который позволяет сохранить распределение шума за счет балансировки норм управления без классификатора и предложенных нами направляющих в процессе генерации. Такой подход не требует дообучения модели диффузии и точного процесса инверсии. В результате предложенный метод обеспечивает быстрый и качественный механизм редактирования. В наших экспериментах мы показываем с помощью оценки людьми и количественного анализа, что предложенный метод позволяет достичь желаемого редактирования, которое более предпочтительно для людей, а также обеспечивает лучший баланс между качеством редактирования и сохранением исходного изображения. Наш код доступен по адресу https://github.com/FusionBrainLab/Guide-and-Rescale.

2

Внимание механизмов в больших языковых моделях: обзор
Attention Heads of Large Language Models: A Survey

Sep 5
ByZifan Zheng, Yezhaohui Wang, Yuxin Huang, Shichao Song, Bo Tang, Feiyu Xiong, Zhiyu Li
92
5

С момента появления ChatGPT крупные языковые модели (LLMs) демонстрируют выдающиеся результаты в различных задачах, но по-прежнему остаются в значительной степени системами типа «черного ящика». Как следствие, их разработка в основном опирается на подходы, основанные на данных, что ограничивает повышение производительности за счет изменений внутренней архитектуры и путей рассуждений. В результате многие исследователи начали изучать потенциальные внутренние механизмы LLM, стремясь определить суть узких мест в их рассуждениях, причем большинство исследований сосредоточено на головах внимания. Цель нашего обзора — пролить свет на внутренние процессы рассуждений LLM, сконцентрировавшись на интерпретируемости и базовых механизмах голов внимания. Сначала мы абстрагируем человеческий мыслительный процесс в виде четырехэтапной структуры: Вспоминание Знаний, Контекстная Идентификация, Скрытое Рассуждение и Подготовка Выражения. Используя эту структуру, мы систематически анализируем существующие исследования, чтобы выявить и классифицировать функции конкретных голов внимания. Кроме того, мы обобщаем экспериментальные методики, используемые для обнаружения этих специальных голов, разделяя их на две категории: методы, не требующие моделирования (Modeling-Free), и методы, требующие моделирования (Modeling-Required). Также мы описываем соответствующие методы оценки и бенчмарки. Наконец, мы обсуждаем ограничения текущих исследований и предлагаем несколько потенциальных направлений для будущей работы. Наш список литературы находится в открытом доступе по адресу https://github.com/IAAR-Shanghai/Awesome-Attention-Heads.

3

FuzzCoder: фаззинг-тестирование на уровне байтов с помощью большой языковой модели
FuzzCoder: Byte-level Fuzzing Test via Large Language Model

Sep 3
ByLiqun Yang, Jian Yang, Chaoren Wei, Guanglin Niu, Ge Zhang, Yunli Wang, Linzheng ChaI, Wanxu Xia, Hongcheng Guo, Shun Zhang, Jiaheng Liu, Yuwei Yin, Junran Peng, Jiaxin Ma, Liang Sun, Zhoujun Li
45
3

Фаззинг — это важная методика динамического анализа программ, предназначенная для поиска уязвимостей в сложном программном обеспечении. Фаззинг предполагает подачу целевой программе специально сформированных вредоносных входных данных, чтобы вызвать сбои, переполнения буфера, ошибки памяти и исключения. Эффективное создание вредоносных входных данных является сложной нерешенной проблемой, и лучшие подходы часто применяют равномерные случайные мутации к уже существующим корректным входным данным. В данной работе мы предлагаем использовать тонко настроенные большие языковые модели (FuzzCoder) для изучения паттернов во входных файлах на основе успешных атак с целью направления будущих исследований в области фаззинга. В частности, мы разрабатываем framework, который использует код-ориентированные LLM для управления процессом мутации входных данных при фаззинге. Процесс мутации формулируется как моделирование последовательность-к-последовательности, где LLM получает последовательность байтов и выводит мутированную последовательность байтов. FuzzCoder дорабатывается на созданном наборе инструкций (Fuzz-Instruct), где история успешного фаззинга собирается с помощью эвристического инструмента фаззинга. FuzzCoder способен предсказывать местоположения мутаций и стратегии изменений во входных файлах для провоцирования аномального поведения программы. Результаты экспериментов показывают, что FuzzCoder на основе AFL (American Fuzzy Lop) демонстрирует значительное улучшение по показателям эффективной доли мутаций (EPM) и количества сбоев (NC) для различных форматов входных данных, включая ELF, JPG, MP3 и XML.

4

От MOOC к MAIC: трансформация онлайн-обучения с помощью агентов на базе больших языковых моделей
From MOOC to MAIC: Reshaping Online Teaching and Learning through LLM-driven Agents

Sep 5
ByJifan Yu, Zheyuan Zhang, Daniel Zhang-li, Shangqing Tu, Zhanxin Hao, Rui Miao Li, Haoxuan Li, Yuanchun Wang, Hanming Li, Linlu Gong, Jie Cao, Jiayin Lin, Jinchang Zhou, Fei Qin, Haohua Wang, Jianxiao Jiang, Lijun Deng, Yisi Zhan, Chaojun Xiao, Xusheng Dai, Xuan Yan, Nianyi Lin, Nan Zhang, Ruixin Ni, Yang Dang, Lei Hou, Yu Zhang, Xu Han, Manli Li, Juanzi Li, Zhiyuan Liu, Huiqin Liu, Maosong Sun
29
3

С момента первых примеров онлайн-образования, когда курсы загружались на общедоступные платформы, этот способ масштабирования распространения знаний для охвата широкой аудитории вызвал активное обсуждение и широкое внедрение. Понимая, что персонализированное обучение仍有 значительный потенциал для улучшения, новые технологии ИИ постоянно интегрируются в этот формат, что привело к появлению разнообразных образовательных приложений на основе ИИ, таких как рекомендательные системы и интеллектуальные тьюторы. Появление интеллекта в больших языковых моделях (LLM) позволило строить эти образовательные усовершенствования на единой базовой модели, обеспечивая более глубокую интеграцию. В этом контексте мы предлагаем MAIC (Massive AI-empowered Course) — новую форму онлайн-образования, использующую управляемые LLM мульти-агентные системы для создания дополненной ИИ учебной среды, сочетающей масштабируемость и адаптивность. Помимо изучения концептуальной основы и технических инноваций, мы проводим предварительные эксперименты в Университете Цинхуа, одном из ведущих вузов Китая. На основе более 100 000 учебных записей 500 студентов мы получаем ряд ценных наблюдений и первоначальный анализ. Проект будет продолжать развиваться с целью создания комплексной открытой платформы, объединяющей исследования, технологии и приложения для изучения возможностей онлайн-образования в эпоху больших моделей ИИ. Мы представляем эту платформу как центр сотрудничества, объединяющий педагогов, исследователей и новаторов для совместного изучения будущего онлайн-образования на основе ИИ.

5

Диффузия геометрических изображений: Быстрое и эффективное по данным создание 3D-объектов из текста с помощью поверхностного представления на основе изображений
Geometry Image Diffusion: Fast and Data-Efficient Text-to-3D with Image-Based Surface Representation

Sep 5
BySlava Elizarov, Ciara Rowles, Simon Donné
27
3

Создание высококачественных 3D-объектов по текстовым описаниям остается сложной задачей из-за высоких вычислительных затрат, дефицита 3D-данных и сложности представления 3D-информации. Мы представляем Geometry Image Diffusion (GIMDiffusion) — новую модель для генерации 3D-объектов по тексту, которая использует геометрические изображения для эффективного представления 3D-форм с помощью 2D-изображений, что позволяет обойтись без сложных 3D-ориентированных архитектур. Благодаря интеграции механизма Collaborative Control мы используем богатые априорные знания существующих моделей генерации изображений по тексту, таких как Stable Diffusion. Это обеспечивает надежную генерализацию даже при ограниченных объемах обучающих 3D-данных (что позволяет использовать только высококачественные данные для обучения), а также сохраняет совместимость с техниками управления, такими как IPAdapter. Таким образом, GIMDiffusion позволяет создавать 3D-ассеты со скоростью, сопоставимой с современными моделями генерации изображений по тексту. Сгенерированные объекты состоят из семантически значимых отдельных частей и включают внутренние структуры, что повышает как удобство использования, так и универсальность.

6

mPLUG-DocOwl2: Высокодетальное сжатие для понимания многостраничных документов без использования OCR
mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding

Sep 5
ByAnwen Hu, Haiyang Xu, Liang Zhang, Jiabo Ye, Ming Yan, Ji Zhang, Qin Jin, Fei Huang, Jingren Zhou
26
4

Мультимодальные большие языковые модели (MLLM) достигли значительных успехов в области понимания документов без использования OCR за счет увеличения поддерживаемого разрешения изображений документов. Однако это достигается ценой генерации тысяч визуальных токенов для одного изображения документа, что приводит к чрезмерному потреблению памяти GPU и замедлению времени вывода, особенно при понимании многстраничных документов. В данной работе для решения этих проблем мы предлагаем модуль High-resolution DocCompressor, который сжимает каждое изображение документа высокого разрешения до 324 токенов под руководством глобальных визуальных признаков низкого разрешения. Используя этот модуль сжатия, для усиления способности понимания многстраничных документов и баланса между эффективностью использования токенов и производительностью вопросно-ответных систем мы разработали DocOwl2 в рамках трехэтапной схемы обучения: предварительное обучение на одиночных изображениях, продолженное предварительное обучение на множественных изображениях и многозадачная тонкая настройка. DocOwl2 устанавливает новое состояние искусства в бенчмарках понимания многстраничных документов и сокращает задержку до первого токена более чем на 50%, демонстрируя передовые возможности в ответах на вопросы по многстраничным документам, объяснении с указанием страниц-доказательств и понимании кросс-страничной структуры. Кроме того, по сравнению с одноизобразивыми MLLM, обученными на аналогичных данных, наш DocOwl2 достигает сопоставимой производительности понимания одностраничных документов, используя менее 20% визуальных токенов. Наши код, модели и данные общедоступны по адресу https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl2.

7

WildVis: открытая система визуализации миллионных логов чатов в естественной среде
WildVis: Open Source Visualizer for Million-Scale Chat Logs in the Wild

Sep 5
ByYuntian Deng, Wenting Zhao, Jack Hessel, Xiang Ren, Claire Cardie, Yejin Choi
19
3

Растущая доступность данных реальных разговоров открывает перед исследователями уникальные возможности для изучения взаимодействий пользователей с чат-ботами. Однако значительный объем таких данных делает ручной анализ отдельных диалогов непрактичным. Для решения этой проблемы мы представляем WildVis — интерактивный инструмент, позволяющий проводить быстрый, гибкий и масштабируемый анализ бесед. WildVis предоставляет возможности поиска и визуализации в текстовом и эмбеддинговом пространствах на основе заданных критериев. Для работы с наборами данных масштаба миллионов диалогов мы реализовали оптимизации, включая построение поискового индекса, предварительное вычисление и сжатие эмбеддингов, а также кэширование для обеспечения отзывчивого взаимодействия с пользователем в течение секунд. Мы демонстрируем полезность WildVis на трех примерах: содействие исследованию злоупотреблений чат-ботами, визуализация и сравнение тематических распределений в различных наборах данных, а также выявление пользовательских паттернов коммуникации. WildVis имеет открытый исходный код и разработан с возможностью расширения, поддерживая подключение дополнительных наборов данных и настраиваемые функции поиска и визуализации.

8

CDM: Надежный показатель для справедливой и точной оценки распознавания формул
CDM: A Reliable Metric for Fair and Accurate Formula Recognition Evaluation

Sep 5
ByBin Wang, Fan Wu, Linke Ouyang, Zhuangcheng Gu, Rui Zhang, Renqiu Xia, Bo Zhang, Conghui He
19
3

Распознавание формул представляет значительные трудности из-за сложной структуры и разнообразных обозначений математических выражений. Несмотря на постоянное совершенствование моделей распознавания формул, используемые ими метрики оценки, такие как BLEU и редакционное расстояние, по-прежнему имеют существенные ограничения. Они упускают из виду тот факт, что одна и та же формула имеет различные представления и высокочувствительна к распределению обучающих данных, что приводит к необъективности оценки распознавания формул. Для решения этой проблемы мы предлагаем метрику сопоставления на основе детектирования символов (Character Detection Matching, CDM), которая обеспечивает объективность оценки за счет расчета показателя на уровне изображения, а не на уровне LaTeX. В частности, CDM преобразует предсказанную моделью LaTeX-разметку и эталонную LaTeX-формулу в формулы в формате изображения, а затем использует методы извлечения визуальных признаков и локализации для точного посимвольного сопоставления с учетом пространственной информации. Такой метод, ориентированный на пространственное расположение и посимвольное сравнение, обеспечивает более точную и справедливую оценку по сравнению с предыдущими метриками BLEU и редакционного расстояния, которые полагаются исключительно на текстовое сопоставление символов. Экспериментально мы оценили различные модели распознавания формул с использованием метрик CDM, BLEU и ExpRate. Полученные результаты демонстрируют, что CDM в большей степени соответствует стандартам человеческой оценки и обеспечивает более справедливое сравнение различных моделей за счет устранения расхождений, вызванных разнообразными представлениями формул.

9

Создание математических агентов с помощью многошагового итеративного обучения с подкреплением на основе предпочтений
Building Math Agents with Multi-Turn Iterative Preference Learning

Sep 4
ByWei Xiong, Chengshuai Shi, Jiaming Shen, Aviv Rosenberg, Zhen Qin, Daniele Calandriello, Misha Khalman, Rishabh Joshi, Bilal Piot, Mohammad Saleh, Chi Jin, Tong Zhang, Tianqi Liu
16
2

Недавние исследования показали, что способности больших языковых моделей (LLM) к решению математических задач могут быть улучшены за счет интеграции внешних инструментов, таких как интерпретаторы кода, и применения многошаговых рассуждений по цепочке мыслей (CoT). В то время как современные методы сосредоточены на генерации синтетических данных и обучении с учителем (SFT), данная работа исследует дополнительный подход прямого обучения на основе предпочтений для дальнейшего повышения производительности модели. Однако существующие алгоритмы прямого обучения предпочтениям изначально разработаны для одношаговых чат-задач и не в полной мере учитывают сложности многошаговых рассуждений и интеграции внешних инструментов, необходимых для математических задач с использованием инструментов. Чтобы заполнить этот пробел, мы представляем многошаговую систему прямого обучения предпочтениям, адаптированную для данного контекста, которая использует обратную связь от интерпретаторов кода и оптимизирует предпочтения на уровне траекторий. Данная система включает многошаговый DPO и многошаговый KTO в качестве конкретных реализаций. Эффективность нашего подхода подтверждена в ходе обучения различных языковых моделей с использованием расширенного набора промптов из наборов данных GSM8K и MATH. Наши результаты демонстрируют значительное улучшение: производительность модели Gemma-1.1-it-7B, дообученной с учителем, повысилась с 77.5% до 83.9% на GSM8K и с 46.1% до 51.2% на MATH. Аналогичным образом, модель Gemma-2-it-9B улучшила свои показатели с 84.1% до 86.3% на GSM8K и с 51.0% до 54.5% на MATH.

10

Табели успеваемости: качественная оценка языковых моделей с использованием сводок на естественном языке
Report Cards: Qualitative Evaluation of Language Models Using Natural Language Summaries

Sep 1
ByBlair Yang, Fuyang Cui, Keiran Paster, Jimmy Ba, Pashootan Vaezipoor, Silviu Pitis, Michael R. Zhang
12
2

Быстрое развитие и динамичный характер больших языковых моделей (LLM) затрудняют точную оценку их возможностей с помощью традиционных количественных бенчмарков. Мы предлагаем "табели успеваемости" — интерпретируемые человеком сводки на естественном языке, описывающие поведение модели в рамках конкретных навыков или тем. Мы разрабатываем систему оценки табелей по трем критериям: специфичность (способность различать модели), достоверность (точное отражение возможностей модели) и интерпретируемость (понятность и релевантность для человека). Также предлагается итеративный алгоритм генерации табелей без участия человека и исследуется его эффективность путем абляции различных вариантов проектирования. Эксперименты с популярными LLM показывают, что табели дают информацию, выходящую за рамки традиционных бенчмарков, и могут удовлетворить потребность в более интерпретируемой и целостной оценке языковых моделей.

11

FrozenSeg: Согласование замороженных базовых моделей для сегментации с открытой лексикой
FrozenSeg: Harmonizing Frozen Foundation Models for Open-Vocabulary Segmentation

Sep 5
ByXi Chen, Haosen Yang, Sheng Jin, Xiatian Zhu, Hongxun Yao
12
2

Сегментация с открытым словарём представляет значительные трудности, поскольку требует сегментирования и распознавания объектов из открытого набора категорий в неограниченных условиях. Опираясь на успех мощных базовых моделей «компьютерное зрение–естественный язык» (ViL), таких как CLIP, недавние исследования были направлены на использование их возможностей zero-shot для распознавания невидимых категорий. Несмотря на заметное улучшение производительности, эти модели по-прежнему сталкиваются с ключевой проблемой генерации точных предложений масок для невидимых категорий и сценариев, что в конечном итоге приводит к неудовлетворительной производительности сегментации. Для решения этой задачи мы представляем новый подход FrozenSeg, предназначенный для интеграции пространственных знаний из базовой модели локализации (например, SAM) и семантических знаний, извлеченных из ViL-модели (например, CLIP), в синергетическую framework. Используя визуальный энкодер ViL-модели в качестве признакового бэкбона, мы внедряем пространственно-осведомлённые признаки в обучаемые запросы и признаки CLIP внутри трансформерного декодера. Кроме того, мы разрабатываем стратегию ансамбля предложений масок для дальнейшего повышения полноты и качества масок. Чтобы полностью использовать предварительно обученные знания, минимизируя при этом вычислительные затраты на обучение, мы замораживаем обе базовые модели, сосредотачивая усилия по оптимизации исключительно на лёгком трансформерном декодере для генерации предложений масок — узком месте производительности. Многочисленные эксперименты демонстрируют, что FrozenSeg улучшает state-of-the-art результаты на различных бенчмарках сегментации, будучи обученной исключительно на паноптических данных COCO и протестированной в режиме zero-shot. Код доступен по адресу https://github.com/chenxi52/FrozenSeg.

12

Статическая контекстуализация больших языковых моделей с использованием типизированных пропусков
Statically Contextualizing Large Language Models with Typed Holes

Sep 2
ByAndrew Blinn, Xiang Li, June Hyung Kim, Cyrus Omar
4
2

Крупные языковые модели (LLMs) коренным образом изменили ландшафт синтеза программ. Однако современные системы автодополнения кода на основе LLM часто генерируют ошибочный код, поскольку им не хватает соответствующего контекста, особенно при работе с определениями, отсутствующими в обучающих данных или находящимися далеко от позиции курсора. В данной статье показано, что тесная интеграция со структурой типов и привязок языка, предоставляемой его языковым сервером, позволяет решить эту проблему контекстуализации эффективным с точки зрения токенов способом. Короче говоря, мы утверждаем, что ИИ тоже нуждаются в IDE! В частности, мы интегрируем генерацию кода с помощью LLM в среду инкрементального проектирования программ Hazel. Языковой сервер Hazel идентифицирует тип и контекст типизации заполняемой "дыры", даже при наличии ошибок, гарантируя, что осмысленный эскиз программы всегда доступен. Это позволяет использовать для промптинга контекстную информацию со всего кодовой базы, которая не является лексически локальной для курсора и не обязательно находится в том же файле, но, вероятно, семантически близка к цели разработчика. Затем варианты автодополнения, синтезированные LLM, итеративно уточняются посредством дальнейшего диалога с языковым сервером. Для оценки этих методов мы представляем MVUBench, набор данных веб-приложений, построенных по принципу "модель-представление-обновление" (MVU). Эти приложения служат сложными задачами из-за их зависимости от специфичных для приложения структур данных. Мы обнаруживаем, что контекстуализация с использованием определений типов особенно эффективна. После представления наших идей в контексте Hazel мы воспроизводим наши методы и портируем MVUBench на TypeScript, чтобы подтвердить применимость этих методов к языкам с большими ресурсами. Наконец, мы описываем ChatLSP — консервативное расширение протокола языкового сервера (LSP), которое языковые серверы могут реализовать, чтобы предоставить возможности, используемые системами автодополнения кода на основе ИИ различной архитектуры для включения статического контекста при генерации промптов для LLM.

Sep 5
Sep 6
Sep 9