ChatPaper.aiChatPaper.ai
Главная

arXiv

HuggingFace

ЦеныАккаунтРабочее пространство

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

nabla^2DFT: Универсальный набор данных по квантовой химии для молекул, подобных лекарствам, и эталон для потенциалов нейронных сетей
nabla^2DFT: A Universal Quantum Chemistry Dataset of Drug-Like Molecules and a Benchmark for Neural Network Potentials

Jun 20, 2024
Kuzma Khrabrov, Anton Ber, Artem Tsypin, Konstantin Ushenin, Egor Rumiantsev, Alexander Telepov, Dmitry Protasov, Ilya Shenbin, Anton Alekseev, Mikhail Shirokikh, Sergey Nikolenko, Elena Tutubalina, Artur Kadurin
1024

Методы вычислительной квантовой химии обеспечивают точные приближения молекулярных свойств, критически важных для компьютерного поиска лекарств и других областей химической науки. Однако высокая вычислительная сложность ограничивает масштабируемость их применения. Потенциалы нейронных сетей (NNP) представляют собой многообещающую альтернативу методам квантовой химии, но требуют больших и разнообразных наборов данных для обучения. В данной работе представлен новый набор данных и бенчмарк под названием nabla^2DFT, основанный на nablaDFT. Он содержит вдвое больше молекулярных структур, в три раза больше конформаций, новые типы данных и задачи, а также современные модели. Набор данных включает энергии, силы, 17 молекулярных свойств, матрицы Гамильтона и перекрытия, а также объект волновой функции. Все расчеты были выполнены на уровне DFT (omegaB97X-D/def2-SVP) для каждой конформации. Более того, nabla^2DFT является первым набором данных, содержащим траектории релаксации для значительного количества молекул, похожих на лекарства. Мы также представляем новый бенчмарк для оценки NNP в предсказании молекулярных свойств, предсказании Гамильтона и задачах конформационной оптимизации. Наконец, мы предлагаем расширяемую структуру для обучения NNP и реализуем 10 моделей в ее рамках.

Инструкция предварительного обучения: языковые модели являются обучаемыми многозадачными обучающимися.
Instruction Pre-Training: Language Models are Supervised Multitask Learners

Jun 20, 2024
Daixuan Cheng, Yuxian Gu, Shaohan Huang, Junyu Bi, Minlie Huang, Furu Wei
9525

Несупервизированное многозадачное предварительное обучение стало ключевым методом за последнее время для достижения успеха моделей языка (LMs). Тем не менее, супервизированное многозадачное обучение все еще обладает значительным потенциалом, так как масштабирование на этапе послеобучения ведет к лучшей обобщаемости. В данной статье мы исследуем супервизированное многозадачное предварительное обучение, предлагая предварительное обучение по инструкциям, фреймворк, который масштабируемо дополняет массивные наборы данных инструкциями-ответами для предварительного обучения LMs. Пары инструкция-ответ генерируются эффективным синтезатором инструкций, построенным на моделях с открытым исходным кодом. В наших экспериментах мы синтезируем 200 миллионов пар инструкция-ответ, охватывающих 40+ категорий задач, чтобы проверить эффективность предварительного обучения по инструкциям. При предварительном обучении с нуля предварительное обучение по инструкциям не только последовательно улучшает базовые предварительно обученные модели, но также больше выигрывает от дальнейшей настройки по инструкциям. При непрерывном предварительном обучении предварительное обучение по инструкциям позволяет модели Llama3-8B быть сравнимой или даже превосходить Llama3-70B. Наша модель, код и данные доступны по адресу https://github.com/microsoft/LMOps.

Дьявол кроется в деталях: StyleFeatureEditor для StyleGAN с богатыми деталями. Инверсия и редактирование изображений высокого качества.
The Devil is in the Details: StyleFeatureEditor for Detail-Rich StyleGAN Inversion and High Quality Image Editing

Jun 15, 2024
Denis Bobkov, Vadim Titov, Aibek Alanov, Dmitry Vetrov
702

Задача манипулирования реальными атрибутами изображений с помощью инверсии StyleGAN была широко исследована. Этот процесс включает поиск латентных переменных из хорошо обученного генератора StyleGAN, способного синтезировать реальное изображение, модификацию этих латентных переменных, а затем синтезирование изображения с желаемыми изменениями. Необходим баланс между качеством реконструкции и возможностью редактирования. Ранее проводившиеся исследования использовали низкоразмерное пространство W-латент для поиска латентных переменных, что способствовало эффективному редактированию, но затрудняло восстановление сложных деталей. Более новые исследования обратились к высокоразмерному пространству признаков F, которое успешно инвертирует входное изображение, но теряет много деталей во время редактирования. В данной статье мы представляем StyleFeatureEditor — новый метод, позволяющий редактирование как в W-латентах, так и в F-латентах. Эта техника не только позволяет восстанавливать более тонкие детали изображения, но и обеспечивает их сохранение во время редактирования. Мы также представляем новый обучающий процесс, специально разработанный для обучения нашей модели точному редактированию F-латент. Наш метод сравнивается с передовыми методами кодирования, демонстрируя, что наша модель превосходит их по качеству реконструкции и способна редактировать даже сложные примеры из других областей. Код доступен по ссылке https://github.com/AIRI-Institute/StyleFeatureEditor.

HARE: Человеческие приоритеты, ключ к эффективности небольших языковых моделей
HARE: HumAn pRiors, a key to small language model Efficiency

Jun 17, 2024
Lingyun Zhang, Bin jin, Gaojian Ge, Lunhui Liu, Xuewen Shen, Mingyong Wu, Houqian Zhang, Yongneng Jiang, Shiqi Chen, Shi Pu
401

Человеческие априорные предположения играют ключевую роль в эффективном использовании данных в глубоком обучении. Однако с развитием крупных языковых моделей (LLM) наблюдается увеличение акцента на масштабирование как размера модели, так и объема данных, что часто снижает важность человеческих априорных предположений при создании данных. Под влиянием этих тенденций существующие малые языковые модели (SLM) в основном полагаются на данные обучения крупного масштаба, полученные из веб-скрапинга, пренебрегая должным включением человеческих априорных предположений. Это упущение ограничивает эффективность обучения языковых моделей в условиях ограниченных ресурсов. В данной статье мы предлагаем принцип использования человеческих априорных предположений для создания данных. Этот принцип подчеркивает достижение высокопроизводительных SLM путем обучения на кратком наборе данных, который учитывает как семантическое разнообразие, так и согласованность качества данных, избегая утечки данных оценочных испытаний. Следуя этому принципу, мы обучаем SLM под названием HARE-1.1B. Обширные эксперименты на крупных наборах данных оценочных испытаний показывают, что HARE-1.1B показывает себя благоприятно по сравнению с современными SLM, подтверждая эффективность предложенного принципа. Кроме того, это предоставляет новые идеи для эффективного обучения языковых моделей в условиях ограниченных ресурсов с точки зрения человеческих априорных предположений.

Призма: Фреймворк для разделения и оценки возможностей VLMs
Prism: A Framework for Decoupling and Assessing the Capabilities of VLMs

Jun 20, 2024
Yuxuan Qiao, Haodong Duan, Xinyu Fang, Junming Yang, Lin Chen, Songyang Zhang, Jiaqi Wang, Dahua Lin, Kai Chen
362

Модели видеоязыкового восприятия (VLM) демонстрируют замечательную компетентность в решении широкого спектра визуальных вопросов, что требует сильных способностей восприятия и рассуждения. Оценка этих двух компетенций независимо друг от друга имеет важное значение для усовершенствования модели, несмотря на сложность из-за взаимосвязи восприятия и рассуждения в существующих VLM. Для решения этой проблемы мы представляем Prism, инновационную структуру, разработанную для разъединения процессов восприятия и рассуждения, участвующих в решении визуальных вопросов. Prism состоит из двух отдельных этапов: этапа восприятия, который использует VLM для извлечения и формулирования визуальной информации в текстовой форме, и этапа рассуждения, который формулирует ответы на основе извлеченной визуальной информации с использованием большой языковой модели (LLM). Этот модульный дизайн позволяет систематическое сравнение и оценку как закрытых, так и открытых VLM по их сильным сторонам в восприятии и рассуждении. Наш аналитический каркас предоставляет несколько ценных идей, подчеркивая потенциал Prism как экономически выгодного решения для задач видеоязыкового восприятия. Сочетая в себе упрощенный VLM, сфокусированный на восприятии, с мощным LLM, нацеленным на рассуждение, Prism достигает превосходных результатов в общих задачах видеоязыкового восприятия, существенно снижая расходы на обучение и эксплуатацию. Количественные оценки показывают, что Prism, сконфигурированный с обычным 2B LLaVA и свободно доступным GPT-3.5, демонстрирует производительность на уровне VLM в 10 раз больших на строгом мультимодальном бенчмарке MMStar. Проект доступен по ссылке: https://github.com/SparksJoe/Prism.

MMBench-Video: Долгоформатный многокадровый бенчмарк для комплексного понимания видео
MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding

Jun 20, 2024
Xinyu Fang, Kangrui Mao, Haodong Duan, Xiangyu Zhao, Yining Li, Dahua Lin, Kai Chen
341

Появление крупных моделей видео-языка (LVLM) побудило исследования их применения в мультимодальных контекстах, особенно в понимании видео. Традиционные бенчмарки VideoQA, несмотря на предоставление количественных метрик, часто не охватывают полный спектр видеоконтента и недостаточно оценивают временное понимание моделей. Для решения этих ограничений мы представляем MMBench-Video, количественный бенчмарк, разработанный для тщательной оценки профессионализма LVLM в понимании видео. MMBench-Video включает длинные видеоролики с YouTube и использует вопросы свободной формы, отражая практические сценарии использования. Бенчмарк тщательно разработан для проверки навыков временного рассуждения моделей, все вопросы аннотированы людьми согласно тщательно разработанной таксономии способностей. Мы используем GPT-4 для автоматической оценки, демонстрируя превосходную точность и надежность по сравнению с ранее использовавшимися оценками на основе LLM. Используя MMBench-Video, мы провели всесторонние оценки, включающие как собственные, так и открытые LVLM для изображений и видео. MMBench-Video является ценным ресурсом для исследовательского сообщества, облегчая улучшение оценки LVLM и стимулируя прогресс в области понимания видео. Код оценки MMBench-Video будет интегрирован в VLMEvalKit: https://github.com/open-compass/VLMEvalKit.

Слияние моделей и выравнивание безопасности: одна плохая модель портит все остальные
Model Merging and Safety Alignment: One Bad Model Spoils the Bunch

Jun 20, 2024
Hasan Abed Al Kader Hammoud, Umberto Michieli, Fabio Pizzati, Philip Torr, Adel Bibi, Bernard Ghanem, Mete Ozay
311

Слияние крупных языковых моделей (LLM) является экономически эффективной техникой для объединения нескольких экспертных LLM в одну универсальную модель, сохраняя экспертизу оригинальных моделей. Однако текущие подходы часто не уделяют должного внимания важности обеспечения безопасного выравнивания во время слияния, что приводит к сильно несогласованным моделям. В данной работе исследуются эффекты слияния моделей на выравнивание. Мы оцениваем несколько популярных техник слияния моделей, демонстрируя, что существующие методы не только передают экспертизу в области, но также распространяют несогласованность. Мы предлагаем простой двухэтапный подход для решения этой проблемы: (i) генерация синтетических данных безопасности и данных, специфичных для области, и (ii) включение этих сгенерированных данных в процесс оптимизации существующих техник слияния моделей, основанных на данных. Это позволяет нам рассматривать выравнивание как навык, который можно максимизировать в полученной объединенной LLM. Наши эксперименты иллюстрируют эффективность интеграции данных, связанных с выравниванием, во время слияния, что приводит к моделям, которые превосходят как в области экспертизы, так и в выравнивании.

Доска мыслей: мышление шаг за шагом через различные модальности
Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities

Jun 20, 2024
Sachit Menon, Richard Zemel, Carl Vondrick
291

При столкновении с вопросами, связанными с визуальным мышлением, люди естественным образом переключают модальности рассуждения, часто формируя ментальные образы или создавая визуальные вспомогательные средства. Большие языковые модели показали многообещающие результаты в арифметике и символическом рассуждении, выражая промежуточное рассуждение в тексте как цепочку мыслей, однако испытывают трудности в расширении этой способности для ответов на текстовые запросы, которые легко решаются визуальным рассуждением, даже с обширным мультимодальным предварительным обучением. Мы представляем простой метод, под названием "доска мыслей", для разблокировки визуальных рассуждений мультимодальных больших языковых моделей в различных модальностях. "Доска мыслей" предоставляет мультимодальным большим языковым моделям метафорическую "доску", чтобы изобразить шаги рассуждения в виде изображений, затем возвращает эти изображения обратно модели для дальнейшей обработки. Мы обнаружили, что это можно сделать без демонстраций или специализированных модулей, вместо этого используя существующую способность моделей писать код с библиотеками, такими как Matplotlib и Turtle. Этот простой подход показывает результаты, соответствующие передовому уровню, на четырех сложных задачах естественного языка, которые включают визуальное и пространственное рассуждение. Мы выявляем несколько ситуаций, в которых GPT-4o с использованием цепочки мыслей терпит крах, включая более одной, где он достигает точности 0%, в то время как "доска мыслей" позволяет достичь до 92% точности в этих же ситуациях. Мы представляем подробное исследование того, где техника успешна, а также ее источники ошибок.

Дистилляция инвертируемой согласованности для редактирования изображений по тексту Примерно за 7 шагов
Invertible Consistency Distillation for Text-Guided Image Editing in Around 7 Steps

Jun 20, 2024
Nikita Starodubcev, Mikhail Khoroshikh, Artem Babenko, Dmitry Baranchuk
281

Диффузионная дистилляция представляет собой очень многообещающее направление для достижения точной генерации текста в изображение за несколько шагов выборки. Однако, несмотря на недавние успехи, существующие дистиллированные модели до сих пор не обеспечивают полный спектр возможностей диффузии, таких как реальная инверсия изображения, которая позволяет использовать множество точных методов манипуляции изображениями. Цель данной работы заключается в обогащении дистиллированных моделей текст в изображение с помощью способности эффективно кодировать реальные изображения в их латентное пространство. Для этого мы представляем инвертируемую дистилляцию согласованности (iCD), обобщенную систему дистилляции согласованности, которая облегчает как синтез изображений высокого качества, так и точное кодирование изображений всего за 3-4 шага вывода. Хотя проблема инверсии для моделей текст в изображение с помощью диффузии усугубляется при больших масштабах руководства без классификатора, мы замечаем, что динамическое руководство значительно снижает ошибки реконструкции без заметного ухудшения в производительности генерации. В результате мы демонстрируем, что iCD, оснащенный динамическим руководством, может служить очень эффективным инструментом для редактирования изображений с помощью текста на основе нулевого обучения, конкурируя с более дорогостоящими передовыми альтернативами.

GLiNER multi-task: Обобщенная легкая модель для различных задач извлечения информации.
GLiNER multi-task: Generalist Lightweight Model for Various Information Extraction Tasks

Jun 14, 2024
Ihor Stepanov, Mykhailo Shtopko
263

Задачи извлечения информации требуют точных, эффективных и обобщаемых моделей. Классические надзорные подходы глубокого обучения могут достичь необходимой производительности, но им требуются большие наборы данных и они ограничены в своей способности к адаптации к различным задачам. С другой стороны, большие языковые модели (LLM) демонстрируют хорошую обобщаемость, что означает, что они могут адаптироваться к множеству различных задач на основе запросов пользователей. Однако LLM являются вычислительно затратными и обычно не могут генерировать структурированные выходные данные. В данной статье мы представим новый тип модели GLiNER, который может использоваться для различных задач извлечения информации, оставаясь при этом небольшой моделью кодировщика. Наша модель достигла лучшей производительности на нулевых бенчмарках NER и ведущую производительность в задачах вопросно-ответной системы, суммаризации и извлечения отношений. Кроме того, в данной статье мы рассмотрим экспериментальные результаты самообучения для распознавания именованных сущностей с использованием моделей GLiNER.

PIN: Знаниевооруженный набор данных для сопоставленных и чередующихся мультимодальных документов
PIN: A Knowledge-Intensive Dataset for Paired and Interleaved Multimodal Documents

Jun 20, 2024
Junjie Wang, Yin Zhang, Yatai Ji, Yuxiang Zhang, Chunyang Jiang, Yubo Wang, Kang Zhu, Zekun Wang, Tiezhen Wang, Wenhao Huang, Jie Fu, Bei Chen, Qunshu Lin, Minghao Liu, Ge Zhang, Wenhu Chen
241

Недавние достижения в области крупных мультимодальных моделей (LMM) использовали обширные мультимодальные наборы данных для улучшения возможностей в сложных задачах, основанных на знаниях. Однако постоянные вызовы в восприятии и ошибки рассуждения ограничивают их эффективность, особенно в интерпретации сложных визуальных данных и выводе мультимодальных отношений. Для решения этих проблем мы представляем новый формат набора данных, PIN (Сопоставленные и Переплетенные мультимодальные документы), разработанный для значительного улучшения как глубины, так и ширины мультимодального обучения. Формат PIN основан на трех основных принципах: интенсивности знаний, масштабируемости и поддержке различных обучающих модальностей. Этот инновационный формат объединяет файлы разметки и обширные изображения для обогащения обучающих данных плотной структурой знаний и гибкими стратегиями обучения. Мы представляем набор данных PIN-14M, открытый набор данных, включающий 14 миллионов образцов, полученных из разнообразных источников на китайском и английском языках, адаптированный для включения сложного веб- и научного контента. Этот набор данных создан тщательно для обеспечения качества данных и этической целостности с целью облегчить продвинутые стратегии обучения и улучшить устойчивость модели к распространенным проблемам мультимодального обучения. Наши первоначальные результаты, лежащие в основе данного технического отчета, указывают на значительный потенциал формата PIN для улучшения производительности LMM, с планами на будущие расширения и подробные оценки его влияния на возможности модели.

DigiRL: Обучение агентов управления устройствами на местности с использованием автономного обучения с подкреплением
DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning

Jun 14, 2024
Hao Bai, Yifei Zhou, Mert Cemri, Jiayi Pan, Alane Suhr, Sergey Levine, Aviral Kumar
201

Тренировочные корпуса для моделей визуального языка (VLM) обычно не содержат достаточного количества данных, связанных с принятием решений. Это делает готовые к использованию VLM неоптимальными для задач принятия решений, таких как управление устройствами в реальном мире через графические пользовательские интерфейсы (GUI). Хотя обучение на статических демонстрациях показало определенный потенциал, мы показываем, что такие методы недостаточны для управления реальными GUI из-за неспособности справиться с стохастичностью и нестационарностью реального мира, которые не учитываются в статических наблюдательных данных. В данной статье представлен новый автономный подход к обучению RL, названный DigiRL, для обучения агентов управления устройствами в реальном мире путем дообучения заранее обученной модели VLM в два этапа: RL в оффлайне для инициализации модели, а затем переход к RL в онлайне. Для этого мы создаем масштабируемую и параллельную среду обучения на Android, оснащенную оценщиком на основе VLM, и разрабатываем простой, но эффективный подход RL для обучения в этой области. Наш подход использует RL с взвешенными преимуществами и улучшенными оценщиками преимуществ для учета стохастичности, а также автоматическую программу обучения для получения максимального сигнала обучения. Мы демонстрируем эффективность DigiRL, используя набор данных Android-in-the-Wild (AitW), где наша модель VLM объемом 1,3 млрд параметров, обученная с помощью RL, достигает абсолютного улучшения в 49,5% -- с 17,7% до 67,2% успешных действий -- по сравнению с обучением с учителем на статических данных демонстраций. Эти результаты значительно превосходят не только предыдущих лучших агентов, включая AppAgent с GPT-4V (8,3% успешных действий) и CogAgent объемом 17 млрд параметров, обученного на данных AitW (38,5%), но и предыдущий лучший автономный подход RL на основе фильтрованного клонирования поведения (57,8%), тем самым устанавливая новый уровень качества для цифровых агентов управления устройствами в реальном мире.

Самостоятельное обучение с обратной связью по выполнению: улучшение способностей к следованию инструкциям у больших языковых моделей.
Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models

Jun 19, 2024
Guanting Dong, Keming Lu, Chengpeng Li, Tingyu Xia, Bowen Yu, Chang Zhou, Jingren Zhou
172

Одной из основных возможностей больших языковых моделей (LLM) является выполнение инструкций на естественном языке. Однако проблема автоматического создания высококачественных обучающих данных для улучшения способностей LLM к выполнению сложных инструкций без ручной аннотации остается нерешенной. В данной статье мы представляем AutoIF - первый масштабируемый и надежный метод для автоматического создания обучающих данных по выполнению инструкций. AutoIF преобразует проверку качества данных по выполнению инструкций в проверку кода, требуя от LLM генерировать инструкции, соответствующий код для проверки правильности ответов на инструкции и образцы модульного тестирования для проверки правильности кода. Затем на основе обратной связи выполнения метод отбора на основе отклонения может генерировать данные для обучения с применением методов Надзорного Тонкой Настройки (SFT) и Обучения с Подкреплением на основе Обратной Связи от Человека (RLHF). AutoIF достигает значительных улучшений при применении к трем алгоритмам обучения - SFT, Offline DPO и Online DPO, когда применяется к лучшим LLM с открытым исходным кодом, Qwen2 и LLaMA3, в настройках само-выравнивания и сильного-слабого дистилляции. Наш код общедоступен по адресу https://github.com/QwenLM/AutoIF.

LiveMind: Модели больших языков с низкой задержкой с одновременным выводом
LiveMind: Low-latency Large Language Models with Simultaneous Inference

Jun 20, 2024
Chuangtao Chen, Grace Li Zhang, Xunzhao Yin, Cheng Zhuo, Ulf Schlichtmann, Bing Li
144

В данной статье мы представляем новую схему вывода с низкой задержкой для больших языковых моделей (LLM), которая позволяет LLM выполнять выводы с неполными подсказками. Перераспределяя вычислительные процессы на этапе ввода подсказки, мы добиваемся существенного снижения задержки, тем самым значительно улучшая интерактивный опыт пользователей LLM. Схема умело управляет видимостью потоковой подсказки для модели, позволяя ей делать выводы на основе неполных подсказок или ожидать дополнительных. По сравнению с традиционными методами вывода, использующими полные подсказки, наш подход демонстрирует среднее сокращение задержки ответа на 59% на наборе данных MMLU-Pro, сохраняя при этом сопоставимую точность. Кроме того, наша схема облегчает совместный вывод и вывод по разным моделям. Используя LLM для вывода и небольшую языковую модель (SLM) для вывода, мы добиваемся среднего сокращения задержки ответа на 68%, а также улучшения точности на 5.5% на наборе данных MMLU-Pro по сравнению с базовым значением SLM. Для длинных подсказок, превышающих 20 предложений, задержка ответа может быть сокращена до 93%.

Улучшение визуального здравого смысла в языковых моделях с помощью генерации нескольких изображений.
Improving Visual Commonsense in Language Models via Multiple Image Generation

Jun 19, 2024
Guy Yariv, Idan Schwartz, Yossi Adi, Sagie Benaim
132

Рассуждения на основе здравого смысла фундаментально базируются на мультимодальных знаниях. Однако существующие большие языковые модели (LLM) в основном обучаются с использованием только текстовых данных, что ограничивает их способность интегрировать важную визуальную информацию. В отличие от этого, модели визуального языка, которые отлично справляются с задачами, ориентированными на изображения, часто терпят неудачу в невизуальных задачах, таких как базовые рассуждения на основе здравого смысла. Это расхождение подчеркивает критическое испытание - интеграцию надежного визуального понимания с фундаментальным текстовым языковым рассуждением. Для этой цели мы представляем метод, направленный на улучшение визуального здравого смысла LLM. Конкретно, наш метод генерирует несколько изображений на основе входного текстового подсказки и интегрирует их в процесс принятия решения модели путем смешивания их вероятностей предсказания. Для облегчения мультимодального обоснованного языкового моделирования мы используем слой позднего объединения, который объединяет отображенные визуальные особенности с выводом предварительно обученного LLM, условного только на текст. Этот слой позднего объединения позволяет делать прогнозы на основе всесторонних знаний об изображениях и тексте только тогда, когда это необходимо. Мы оцениваем наш подход, используя несколько задач визуального рассуждения на основе здравого смысла вместе с традиционными задачами обработки естественного языка, включая рассуждения на основе здравого смысла и понимание текста. Наши экспериментальные результаты демонстрируют значительное превосходство над существующими базовыми уровнями. Применяя к недавним передовым LLM (например, Llama3), мы наблюдаем улучшения не только в визуальном здравом смысле, но и в традиционных бенчмарках обработки естественного языка. Код и модели доступны по ссылке https://github.com/guyyariv/vLMIG.

Итеративная оптимизация прямых предпочтений с регуляризацией длины: исследование случая по улучшению языковых моделей объемом 7 миллиардов до уровня GPT-4
Iterative Length-Regularized Direct Preference Optimization: A Case Study on Improving 7B Language Models to GPT-4 Level

Jun 17, 2024
Jie Liu, Zhanhui Zhou, Jiaheng Liu, Xingyuan Bu, Chao Yang, Han-Sen Zhong, Wanli Ouyang
131

Оптимизация Прямых Предпочтений (DPO), стандартный метод выравнивания языковых моделей с человеческими предпочтениями, традиционно применяется к офлайновым предпочтениям. Недавние исследования показывают, что DPO получает выгоду от итеративного обучения с онлайновыми предпочтениями, помеченными обученной моделью вознаграждения. В данной работе мы выявляем подводный камень обычного итеративного DPO - улучшенное качество ответов может привести к увеличению многословности. Для решения этой проблемы мы представляем итеративную DPO с регуляризацией длины (iLR-DPO) для наказания длины ответа. Наши эмпирические результаты показывают, что iLR-DPO может улучшить модель 7B, чтобы она работала на уровне GPT-4 без увеличения многословности. Конкретно, наша модель 7B достигает победы со степенью контроля длины 50.5% против GPT-4 Preview на AlpacaEval 2.0 и превосходит стандартные бенчмарки, включая MT-Bench, Arena-Hard и OpenLLM Leaderboard. Эти результаты демонстрируют эффективность итеративного DPO в выравнивании языковых моделей с обратной связью от людей.

REPOEXEC: Оценка генерации кода с исполняемым бенчмарком на уровне репозитория
REPOEXEC: Evaluate Code Generation with a Repository-Level Executable Benchmark

Jun 17, 2024
Nam Le Hai, Dung Manh Nguyen, Nghi D. Q. Bui
111

Способность CodeLLM генерировать исполняемый и функционально корректный код на уровне репозитория остается в значительной степени неизученной. Мы представляем RepoExec, новый бенчмарк для оценки генерации кода на уровне репозитория. RepoExec фокусируется на трех основных аспектах: исполнимости, функциональной корректности через автоматическую генерацию тестов с высоким покрытием и тщательно разработанных контекстах между файлами для точной генерации кода. Наша работа исследует контролируемый сценарий, где разработчики указывают необходимые зависимости кода, ставя перед моделью задачу их точного интегрирования. Эксперименты показывают, что хотя предварительно обученные LLM превосходят модели, настроенные на инструкции, по корректности, последние превосходят в использовании предоставленных зависимостей и демонстрируют возможности по отладке. Мы также представляем новый набор данных, настроенный на инструкции, который фокусируется на зависимостях кода и демонстрируем, что CodeLLM, донастроенные на нашем наборе данных, обладают лучшей способностью эффективно использовать эти зависимости. RepoExec нацелен на предоставление всесторонней оценки функциональности кода и соответствия намерениям разработчика, открывая путь для более надежных и применимых CodeLLM в реальных сценариях. Набор данных и исходный код можно найти по ссылке: https://github.com/FSoft-AI4Code/RepoExec.

ExVideo: Расширение моделей диффузии видео с помощью эффективной настройки параметров.
ExVideo: Extending Video Diffusion Models via Parameter-Efficient Post-Tuning

Jun 20, 2024
Zhongjie Duan, Wenmeng Zhou, Cen Chen, Yaliang Li, Weining Qian
103

В последнее время прогресс в области синтеза видео привлек значительное внимание. Модели синтеза видео, такие как AnimateDiff и Stable Video Diffusion, продемонстрировали практическую применимость моделей диффузии в создании динамического визуального контента. Появление SORA дополнительно подчеркнуло потенциал технологий генерации видео. Тем не менее, увеличение длины видео ограничено ограничениями вычислительных ресурсов. Большинство существующих моделей синтеза видео могут генерировать только короткие видеоролики. В данной статье мы предлагаем новую методологию постнастройки для моделей синтеза видео, названную ExVideo. Этот подход разработан для улучшения возможностей текущих моделей синтеза видео, позволяя им создавать контент на продолжительные временные промежутки при более низких затратах на обучение. В частности, мы разрабатываем стратегии расширения для общих архитектур временных моделей, включая 3D свертку, временное внимание и позиционное вложение. Для оценки эффективности нашего предложенного подхода по постнастройке мы проводим обучение расширения на модели Stable Video Diffusion. Наш подход увеличивает возможности модели генерировать до 5 раз больше кадров, требуя всего 1,5 тыс. часов GPU для обучения на наборе данных, включающем 40 тыс. видео. Важно отметить, что значительное увеличение длины видео не ущемляет врожденные обобщающие способности модели, и модель продемонстрировала свои преимущества в создании видео различных стилей и разрешений. Мы планируем публично опубликовать исходный код и улучшенную модель.

τ-bench: Набор тестов для взаимодействия инструмента-агента-пользователя в областях реального мира
τ-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains

Jun 17, 2024
Shunyu Yao, Noah Shinn, Pedram Razavi, Karthik Narasimhan
93

Существующие бенчмарки не тестируют языковых агентов на их взаимодействие с человеческими пользователями или способность следовать доменно-специфическим правилам, что оба являются важными для их применения в реальных приложениях. Мы предлагаем tau-bench, бенчмарк, эмулирующий динамические разговоры между пользователем (симулируемым языковыми моделями) и языковым агентом, обеспеченным доменно-специфическими API-инструментами и политикой руководства. Мы используем эффективный и точный процесс оценки, который сравнивает состояние базы данных в конце разговора с аннотированным целевым состоянием. Мы также предлагаем новую метрику (pass^k) для оценки надежности поведения агента на протяжении нескольких испытаний. Наши эксперименты показывают, что даже современные агенты вызова функций (например, gpt-4o) успешны менее чем в 50% случаев, и довольно неустойчивы (pass^8 <25% в розничной торговле). Наши результаты указывают на необходимость методов, способных улучшить способность агентов действовать согласованно и надежно следовать правилам.

Атрибуция ответов на основе внутренних характеристик модели для надежного увеличения генерации запросов.
Model Internals-based Answer Attribution for Trustworthy Retrieval-Augmented Generation

Jun 19, 2024
Jirui Qi, Gabriele Sarti, Raquel Fernández, Arianna Bisazza
71

Обеспечение проверяемости модельных ответов является фундаментальным вызовом для расширенной генерации с использованием информации из поиска (RAG) в области вопросно-ответных систем (QA). Недавно было предложено использование самоцитирования для того, чтобы большие языковые модели (LLM) генерировали ссылки на поддерживающие документы наряду с ответами. Однако самоцитирующиеся LLM часто испытывают трудности с соответствием требуемому формату, ссылками на несуществующие источники и не могут точно отражать контекстное использование LLM на протяжении генерации. В данной работе мы представляем MIRAGE -- Модельные внутренности для объяснений в RAG -- подход "включить и использовать" с использованием внутренностей модели для точной атрибуции ответов в приложениях RAG. MIRAGE обнаруживает контекстно-чувствительные токены ответов и связывает их с извлеченными документами, вносящими вклад в их предсказание с помощью методов выделения значимости. Мы оцениваем наш предложенный подход на многоязычном наборе данных для извлекающих QA, обнаруживая высокое согласие с атрибуцией ответов человеком. В открытых QA MIRAGE достигает качества и эффективности цитирования, сравнимых с самоцитированием, а также позволяет более тонкое управление параметрами атрибуции. Наша качественная оценка подчеркивает правдивость атрибуций MIRAGE и подчеркивает перспективное применение внутренностей модели для атрибуции ответов в RAG.

StableSemantics: Синтетический набор данных языка и зрения семантических представлений в естественных изображениях
StableSemantics: A Synthetic Language-Vision Dataset of Semantic Representations in Naturalistic Images

Jun 19, 2024
Rushikesh Zawar, Shaurya Dewan, Andrew F. Luo, Margaret M. Henderson, Michael J. Tarr, Leila Wehbe
51

Понимание семантики визуальных сцен является фундаментальным вызовом в области Компьютерного Зрения. Одним из ключевых аспектов этого вызова является то, что объекты, имеющие сходные семантические значения или функции, могут иметь заметные визуальные различия, что затрудняет точную идентификацию и категоризацию. Недавние достижения в области фреймворков текст-к-изображению привели к моделям, которые неявно улавливают естественную статистику сцены. Эти фреймворки учитывают визуальную изменчивость объектов, а также сложные совместные встречаемости объектов и источники шума, такие как разнообразные условия освещения. Используя масштабные наборы данных и кросс-внимание, эти модели генерируют детальные и контекстно насыщенные представления сцены. Эта возможность открывает новые пути для улучшения распознавания объектов и понимания сцены в разнообразных и сложных средах. Наша работа представляет StableSemantics, набор данных, включающий 224 тысячи тщательно отобранных человеком подсказок, обработанных описаний естественного языка, более 2 миллионов синтетических изображений и 10 миллионов карт внимания, соответствующих отдельным существительным. Мы явно используем подсказки, созданные людьми, соответствующие визуально интересным стабильным генерациям диффузии, предоставляем по 10 генераций на фразу и извлекаем карты кросс-внимания для каждого изображения. Мы исследуем семантическое распределение сгенерированных изображений, изучаем распределение объектов на изображениях и проводим бенчмаркинг методов подписывания и сегментации с открытым словарем на наших данных. На наш взгляд, мы первые, кто выпустил набор данных диффузии с семантическими атрибутами. Мы ожидаем, что наш предложенный набор данных стимулирует прогресс в визуальном семантическом понимании и обеспечит основу для разработки более сложных и эффективных визуальных моделей. Веб-сайт: https://stablesemantics.github.io/StableSemantics

От идей к действиям: влияние интерпретируемости и анализа Исследование в области обработки естественного языка
From Insights to Actions: The Impact of Interpretability and Analysis Research on NLP

Jun 18, 2024
Marius Mosbach, Vagrant Gautam, Tomás Vergara-Browne, Dietrich Klakow, Mor Geva
51

Исследования интерпретируемости и анализа (IA) являются растущим подразделом в рамках обработки естественного языка (NLP) с целью развития более глубокого понимания поведения или внутренних механизмов систем и методов NLP. Несмотря на возрастающий интерес к этому подразделу, часто высказывается критика в том, что ему не хватает действенных идей, и, следовательно, он оказывает небольшое влияние на NLP. В данной статье мы стремимся количественно оценить влияние исследований IA на более широкое поле NLP. Мы подходим к этому с помощью смешанного анализа методов: (1) графа цитирования из более чем 185 тыс. статей, построенного из всех статей, опубликованных на конференциях ACL и EMNLP с 2018 по 2023 год, и (2) опроса 138 участников сообщества NLP. Наши количественные результаты показывают, что работы по IA широко цитируются за пределами самой области IA и занимают центральное место в графе цитирования NLP. Через качественный анализ ответов на опрос и ручную аннотацию 556 статей мы обнаружили, что исследователи NLP опираются на результаты работы по IA и считают ее важной для прогресса в NLP, в различных подобластях, и полагаются на ее результаты и терминологию для своей собственной работы. Множество новых методов предлагается на основе результатов работы по IA и сильно на них влияют, но высоко влиятельные работы вне области IA цитируют результаты работы по IA, не будучи направляемыми ими. Мы завершаем, подводя итоги тому, что сегодня отсутствует в работе по IA, и призываем к действию, чтобы проложить путь для более значимого будущего исследований IA.

Систематический обзор сжатия текста: от статистических методов до больших языковых моделей
A Systematic Survey of Text Summarization: From Statistical Methods to Large Language Models

Jun 17, 2024
Haopeng Zhang, Philip S. Yu, Jiawei Zhang
52

Исследования в области сжатия текста претерпели значительные изменения с появлением глубоких нейронных сетей, предварительно обученных языковых моделей (PLM) и недавних больших языковых моделей (LLM). В данном обзоре представлено всестороннее рассмотрение прогресса и эволюции исследований в области сжатия текста через призму этих парадигмальных сдвигов. Он разделен на две основные части: (1) подробный обзор наборов данных, метрик оценки и методов сжатия текста до эры LLM, охватывающий традиционные статистические методы, подходы глубокого обучения и техники настройки PLM, и (2) первое детальное рассмотрение недавних достижений в оценке, моделировании и оценке сжатия в эпоху LLM. Синтезируя существующую литературу и представляя цельный обзор, данный обзор также обсуждает тенденции исследований, открытые проблемы и предлагает многообещающие направления исследований в области сжатия, с целью направить исследователей через изменяющийся ландшафт исследований в области сжатия текста.

Сэмплирование трехмерных гауссовских сцен за секунды с помощью моделей латентной диффузии
Sampling 3D Gaussian Scenes in Seconds with Latent Diffusion Models

Jun 18, 2024
Paul Henderson, Melonie de Almeida, Daniela Ivanova, Titas Anciukevičius
41

Мы представляем модель латентной диффузии по трёхмерным сценам, которую можно обучать, используя только двумерные изображения. Для этого мы сначала разрабатываем автоэнкодер, который отображает многовидовые изображения в трёхмерные гауссовские пятна, одновременно создавая сжатое латентное представление этих пятен. Затем мы обучаем модель диффузии по многовидовым изображениям в латентном пространстве для изучения эффективной генеративной модели. Этот подход не требует масок объектов или глубины и подходит для сложных сцен с произвольными положениями камеры. Мы проводим тщательные эксперименты на двух крупных наборах данных сложных трёхмерных сцен реального мира - MVImgNet и RealEstate10K. Мы показываем, что наш подход позволяет генерировать трёхмерные сцены всего за 0.2 секунды, как с нуля, так и из одного входного вида или из разреженных входных видов. Он производит разнообразные и качественные результаты, работая в десятки раз быстрее, чем модели диффузии без латентности и ранние генеративные модели на основе NeRF.

Jun 20
Jun 21
Jun 24