Ежедневно отобранные исследовательские статьи по ИИ с переводами
Недавние достижения в области многомодальных крупных языковых моделей (MLLMs) открыли новые перспективы для применения во воплощенном искусственном интеллекте. На основе предыдущих работ, таких как EgoThink, мы представляем VidEgoThink - комплексный бенчмарк для оценки возможностей понимания эгоцентрического видео. Для сокращения разрыва между MLLMs и управлением на низком уровне во воплощенном искусственном интеллекте, мы разрабатываем четыре ключевых взаимосвязанных задачи: ответы на вопросы по видео, планирование иерархии, визуальное опорное планирование и моделирование вознаграждения. Для минимизации затрат на ручную аннотацию мы разрабатываем автоматизированный конвейер генерации данных на основе набора данных Ego4D, используя предварительные знания и многомодальные возможности GPT-4o. Затем три человеческих аннотатора фильтруют сгенерированные данные для обеспечения разнообразия и качества, что приводит к созданию бенчмарка VidEgoThink. Мы проводим обширные эксперименты с тремя типами моделей: MLLMs на основе API, MLLMs на основе изображений с открытым исходным кодом и MLLMs на основе видео с открытым исходным кодом. Экспериментальные результаты показывают, что все MLLMs, включая GPT-4o, плохо справляются со всеми задачами, связанными с пониманием эгоцентрического видео. Эти результаты указывают на то, что базовым моделям все еще требуются значительные улучшения для эффективного применения в сценариях от первого лица во воплощенном искусственном интеллекте. В заключение, VidEgoThink отражает тенденцию в исследованиях к использованию MLLMs для эгоцентрического зрения, подобно человеческим способностям, обеспечивая активное наблюдение и взаимодействие в сложных реальных средах.
Задачи на программирование были ценны для оценки Больших Языковых Моделей (LLM), поскольку они требуют понимания инструкций высокого уровня, сложного рассуждения и реализации функциональных программ - ключевых способностей для развития Искусственного Общего Интеллекта. Несмотря на прогресс в Больших Мультимодальных Моделях (LMM), которые расширяют LLM с возможностями визуального восприятия и понимания, остается заметный дефицит бенчмарков по программированию, которые строго оценивают эти модели, особенно в задачах, акцентирующих визуальное рассуждение. Для решения этого пробела мы представляем HumanEval-V, новый и легкий бенчмарк, специально разработанный для оценки визуального понимания и рассуждения LMM через генерацию кода. HumanEval-V включает 108 тщательно разработанных начальных задач на Python, происходящих из платформ, таких как CodeForces и Stack Overflow. Каждая задача адаптирована путем изменения контекста и алгоритмических шаблонов оригинальных проблем, с визуальными элементами, перерисованными для обеспечения отличия от источника и предотвращения потенциального утечки данных. LMM должны завершить решение кода на основе предоставленного визуального контекста и предопределенной сигнатуры функции Python, описывающей требования задачи. Каждая задача оснащена тщательно созданными тестовыми случаями для обеспечения тщательной и надежной оценки сгенерированных моделью решений. Мы оценили 19 современных LMM с использованием HumanEval-V, выявив значительные вызовы. Собственные модели, такие как GPT-4o, достигают лишь 13% pass@1 и 36.4% pass@10, в то время как модели с открытым весом с 70 млрд параметров набирают менее 4% pass@1. Анализ абляции дополнительно раскрывает ограничения текущих LMM в визуальном рассуждении и способностях программирования. Эти результаты подчеркивают ключевые области для будущих исследований по улучшению способностей LMM. Мы опубликовали наш код и бенчмарк на https://github.com/HumanEval-V/HumanEval-V-Benchmark.
Анализ макета документа является ключевым для систем понимания документов в реальном мире, но сталкивается с трудным компромиссом между скоростью и точностью: мультимодальные методы, использующие как текстовые, так и визуальные особенности, достигают более высокой точности, но страдают от значительной задержки, в то время как унимодальные методы, опирающиеся исключительно на визуальные особенности, обеспечивают более быструю обработку за счет точности. Для решения этой дилеммы мы представляем DocLayout-YOLO, новый подход, который повышает точность, сохраняя преимущества скорости благодаря оптимизациям, специфичным для документов, как в предварительном обучении, так и в конструкции модели. Для надежного предварительного обучения документов мы предлагаем алгоритм Mesh-candidate BestFit, который формулирует синтез документа как задачу двумерной упаковки бинов, создавая крупномасштабный и разнообразный набор данных DocSynth-300K. Предварительное обучение на полученном наборе данных DocSynth-300K значительно улучшает производительность донастройки на различных типах документов. В части оптимизации модели мы предлагаем модуль Global-to-Local Controllable Receptive, способный лучше обрабатывать многошкальные вариации элементов документа. Кроме того, для проверки производительности на различных типах документов мы представляем сложный и вызывающий бенчмарк с названием DocStructBench. Обширные эксперименты на вспомогательных наборах данных показывают, что DocLayout-YOLO превосходит как по скорости, так и по точности. Код, данные и модели доступны на https://github.com/opendatalab/DocLayout-YOLO.
Недавние достижения в области крупных мультимодальных моделей (LMM) значительно улучшили производительность в различных задачах, с продолжающимися усилиями по дальнейшему интегрированию дополнительных модальностей, таких как видео и аудио. Однако большинство существующих LMM по-прежнему уязвимы к галлюцинациям, разрыву между фактическим мультимодальным входом и сгенерированным текстовым выводом, что ограничивает их применимость в различных реальных сценариях. В данной статье представлено первое систематическое исследование галлюцинаций в LMM, включающее три наиболее распространенные модальности: язык, визуальное и аудио. Наше исследование выявляет два ключевых фактора галлюцинаций: чрезмерную зависимость от унимодальных априорных данных и ложные межмодальные корреляции. Для решения этих проблем мы представляем бенчмарк "Проклятие Мульти-Модальностей" (CMM), который всесторонне оценивает галлюцинации в LMM, предоставляя детальный анализ их основных проблем. Наши результаты выявляют ключевые уязвимости, включая дисбалансы в интеграции модальностей и предвзятости от обучающих данных, подчеркивая необходимость сбалансированного кросс-модального обучения и усовершенствованных стратегий смягчения галлюцинаций. Основываясь на наших наблюдениях и результатам, мы предлагаем потенциальные направления исследований, которые могли бы улучшить надежность LMM.
Автономное планирование является постоянным streben с момента зарождения искусственного интеллекта. Основываясь на отобранных решателях проблем, ранние агенты планирования могли предоставлять точные решения для конкретных задач, но страдали от отсутствия обобщения. Появление больших языковых моделей (БЯМ) и их мощных способностей к рассуждению возродило интерес к автономному планированию путем автоматического генерирования разумных решений для заданных задач. Однако предыдущие исследования и наши эксперименты показывают, что текущим языковым агентам все еще не хватает планировочных способностей на уровне человека. Даже передовая модель рассуждения, OpenAI o1, достигает всего лишь 15,6% на одном из сложных планировочных бенчмарков реального мира. Это подчеркивает критический вопрос: Что мешает языковым агентам достичь планирования на уровне человека? Хотя существующие исследования выявили слабую производительность в планировании агента, более глубокие основные проблемы и механизмы и ограничения предложенных стратегий для их решения остаются недостаточно понятыми. В данной работе мы применяем исследование атрибуции признаков и выявляем два ключевых фактора, которые мешают планированию агента: ограниченная роль ограничений и уменьшающееся влияние вопросов. Мы также обнаруживаем, что хотя текущие стратегии помогают смягчить эти проблемы, они не полностью их решают, указывая на то, что агентам еще предстоит пройти долгий путь перед достижением уровня интеллекта человека.
Слияние моделей стало одной из ключевых технологий для улучшения возможностей и эффективности больших языковых моделей (LLM). Однако наше понимание ожидаемого прироста производительности и принципов при слиянии любых двух моделей остается ограниченным. В данной работе мы представляем концепцию родства моделей, степень сходства или родства между LLM, аналогичную биологической эволюции. Проведя обширный эмпирический анализ, мы обнаружили, что существует определенная связь между родством моделей и приростом производительности после слияния моделей, что может помочь в выборе кандидатов для слияния. Вдохновленные этим, мы предлагаем новую стратегию слияния моделей: жадное слияние Top-k с учетом родства моделей, которая может обеспечить лучшую производительность на стандартных наборах данных. В частности, мы обнаружили, что использование родства моделей в качестве критерия может помочь нам непрерывно выполнять слияние моделей, смягчая деградацию (локальные оптимумы) в эволюции моделей, тогда как родство моделей может служить направляющим принципом для избегания этих ловушек. Код доступен по адресу https://github.com/zjunlp/ModelKinship.
Модели согласованности (CM) представляют собой мощный класс генеративных моделей на основе диффузии, оптимизированных для быстрого сэмплирования. Большинство существующих CM обучаются с использованием дискретизированных временных шагов, что вводит дополнительные гиперпараметры и подвержено ошибкам дискретизации. В то время как формулировки в непрерывном времени могут смягчить эти проблемы, их успех ограничен нестабильностью обучения. Для решения этой проблемы мы предлагаем упрощенную теоретическую основу, объединяющую предыдущие параметризации моделей диффузии и CM, выявляя коренные причины нестабильности. Основываясь на этом анализе, мы вносим ключевые улучшения в параметризацию процесса диффузии, архитектуру сети и цели обучения. Эти изменения позволяют нам обучать CM в непрерывном времени на беспрецедентном масштабе, достигая 1.5 миллиарда параметров на ImageNet 512x512. Наш предложенный алгоритм обучения, использующий всего два шага сэмплирования, достигает значений FID 2.06 на CIFAR-10, 1.48 на ImageNet 64x64 и 1.88 на ImageNet 512x512, сокращая разрыв в значениях FID с лучшими существующими моделями диффузии до 10%.
Поскольку большие языковые модели (LLM) продолжают развиваться, эффективные метрики оценки играют важную роль в оценке их способности сжимать информацию и уменьшать избыточность. В то время как традиционные метрики, такие как Матричная Энтропия, предлагают ценные идеи, они требуют вычислительных ресурсов для моделей крупного масштаба из-за их временной сложности \( O(n^3) \) с сингулярным разложением (SVD). Для решения этой проблемы мы представляем Матричную Ядерную Норму, которая не только служит метрикой для количественной оценки способности LLM к сжатию данных, но также предоставляет выпуклое приближение ранга матрицы для улавливания как предсказательной дискриминации, так и разнообразия. Применяя \( L_{1,2}-норму \) для дальнейшего приближения ядерной нормы, мы можем эффективно оценить способности модели к сжатию информации. Этот подход снижает временную сложность до \( O(n^2) \) и устраняет необходимость в вычислении SVD. В результате Матричная Ядерная Норма достигает скорости в 8-24 раза выше, чем Матричная Энтропия для модели CEREBRAS-GPT при увеличении размеров от 111M до 6.7B. Этот разрыв в производительности становится более выраженным с увеличением размеров моделей, что подтверждается в тестах с другими моделями, такими как Pythia. Кроме того, оценки на тестах и ответы модели подтверждают, что наша предложенная Матричная Ядерная Норма является надежным, масштабируемым и эффективным инструментом для оценки производительности LLM, находя баланс между точностью и вычислительной эффективностью. Код доступен по ссылке https://github.com/MLGroupJLU/MatrixNuclearNorm.
Быстрое развитие моделей диффузии текста в изображение (T2I) позволило им генерировать беспрецедентные результаты по заданным текстам. Однако с увеличением длины текстовых входов существующие методы кодирования, такие как CLIP, сталкиваются с ограничениями, и выравнивание сгенерированных изображений с длинными текстами становится сложной задачей. Для решения этих проблем мы предлагаем LongAlign, который включает метод кодирования на уровне сегментов для обработки длинных текстов и метод оптимизации предпочтений с декомпозицией для эффективного обучения выравниванию. Для кодирования на уровне сегментов длинные тексты разделяются на несколько сегментов и обрабатываются отдельно. Этот метод преодолевает ограничения максимальной длины входа моделей предварительного кодирования. Для оптимизации предпочтений мы предоставляем декомпозированные модели предпочтений на основе CLIP для настройки моделей диффузии. Конкретно, для использования моделей предпочтений на основе CLIP для выравнивания T2I, мы изучаем их механизмы оценки и обнаруживаем, что оценки предпочтений могут быть декомпозированы на две составляющие: часть, связанную с текстом, которая измеряет выравнивание T2I, и часть, не связанную с текстом, которая оценивает другие визуальные аспекты человеческого предпочтения. Кроме того, мы обнаруживаем, что часть, не связанная с текстом, способствует распространенной проблеме переобучения во время настройки. Для решения этой проблемы мы предлагаем стратегию перевзвешивания, которая назначает разные веса этим двум компонентам, тем самым уменьшая переобучение и улучшая выравнивание. После настройки 512 раз 512 Stable Diffusion (SD) v1.5 примерно на 20 часов с использованием нашего метода, настроенный SD превосходит более сильные базовые модели в выравнивании T2I, такие как PixArt-alpha и Kandinsky v2.2. Код доступен по ссылке https://github.com/luping-liu/LongAlign.
Существующая парадигма обеспечения безопасности больших языковых моделей (LLM) следует принципу универсального подхода: модель отказывается взаимодействовать с любым контентом, считаемым небезопасным поставщиком модели. Такой подход лишен гибкости перед различными социокультурными нормами в различных культурах и регионах. Кроме того, пользователи могут иметь различные потребности в безопасности, что делает модель со статическими стандартами безопасности слишком ограничивающей для использования и слишком дорогостоящей для перенастройки. Мы предлагаем фреймворк "Управляемое выравнивание безопасности" (CoSA), разработанный для адаптации моделей к разнообразным требованиям безопасности без повторного обучения. Вместо выравнивания фиксированной модели мы выравниваем модели для следования конфигурациям безопасности - свободным описаниям желаемого поведения в области безопасности на естественном языке, предоставляемым в качестве части запроса системы. Чтобы настроить поведение безопасности модели, авторизованным пользователям нужно только изменить такие конфигурации безопасности во время вывода. Для обеспечения этого мы предлагаем CoSAlign, метод на основе данных для выравнивания LLM с возможностью легкой адаптации к различным конфигурациям безопасности. Кроме того, мы разрабатываем новый протокол оценки управляемости, который учитывает как полезность, так и настроенную безопасность, обобщая их в CoSA-Score, и создаем CoSApien, человекопонятный бенчмарк, состоящий из реальных случаев использования LLM с разнообразными требованиями безопасности и соответствующими запросами на оценку. Мы показываем, что CoSAlign приводит к значительному увеличению управляемости по сравнению с сильными базовыми вариантами, включая выравнивание в контексте. Наш фреймворк поощряет лучшее представление и адаптацию к плюралистическим человеческим ценностям в LLM, тем самым повышая их практичность.
Большие языковые модели (LLM) продемонстрировали впечатляющие возможности в различных задачах, однако их производительность крайне чувствительна к используемым подсказкам. Эта изменчивость создает проблемы для точной оценки и удовлетворенности пользователей. Текущие исследования часто не учитывают вариации подсказок на уровне экземпляра и их влияние на субъективные оценки. Для решения этих недостатков мы представляем ProSA, фреймворк, разработанный для оценки и понимания чувствительности к подсказкам в LLM. ProSA включает новую метрику чувствительности, PromptSensiScore, и использует уверенность декодирования для разъяснения основных механизмов. Наше обширное исследование, охватывающее несколько задач, показывает, что чувствительность к подсказкам колеблется в зависимости от наборов данных и моделей, причем более крупные модели проявляют улучшенную устойчивость. Мы замечаем, что примеры с небольшим числом обучающих примеров могут смягчить эту проблему чувствительности, и субъективные оценки также подвержены чувствительности к подсказкам, особенно в сложных задачах, ориентированных на рассуждения. Более того, наши результаты показывают, что более высокая уверенность модели коррелирует с увеличением устойчивости к подсказкам. Мы считаем, что эта работа станет полезным инструментом для изучения чувствительности к подсказкам в LLM. Проект доступен по ссылке: https://github.com/open-compass/ProSA.
Модели Learned Sparse Retrieval (LSR) используют словари из предварительно обученных трансформеров, которые часто разбивают сущности на бессмысленные фрагменты. Разделение сущностей может снизить точность поиска и ограничить способность модели включать актуальные знания о мире, которые не были включены в обучающие данные. В данной работе мы улучшаем словарь LSR с помощью концепций и сущностей из Википедии, позволяя модели эффективнее разрешать неоднозначности и быть в курсе с развивающимися знаниями. Центральным элементом нашего подхода является голова Dynamic Vocabulary (DyVo), которая использует существующие векторные представления сущностей и компонент поиска сущностей, идентифицирующий сущности, связанные с запросом или документом. Мы используем голову DyVo для создания весов сущностей, которые затем объединяются с весами слов для создания совместных представлений для эффективного индексирования и поиска с использованием инвертированного индекса. В экспериментах на трех наборах данных по ранжированию документов с богатым содержанием сущностей полученная модель DyVo значительно превосходит современные базовые модели.
Эффективность крупных моделей видео-языка (LVLM) ограничена вычислительным узким местом механизма внимания в фазе предварительного заполнения и узким местом памяти при получении кэша ключ-значение (KV) в фазе декодирования, особенно в сценариях с высоким разрешением изображений или видео. Визуальный контент часто проявляет значительную избыточность, что приводит к очень разреженным картам внимания в LVLM. Эту разреженность можно использовать для ускорения вычислений внимания или сжатия кэша KV с помощью различных подходов. Однако большинство исследований сосредотачиваются только на одном из этих узких мест и недостаточно поддерживают динамическую настройку разреженности для различных слоев или задач. В данной статье мы представляем ZipVL, эффективную инференционную платформу, разработанную для LVLM, которая решает как вычислительные, так и памятные узкие места через стратегию динамического распределения важных токенов. Этот коэффициент определяется адаптивно на основе распределения оценок внимания для конкретного слоя, а не фиксированных гиперпараметров, тем самым повышая эффективность для менее сложных задач, сохраняя при этом высокую производительность для более сложных. Затем мы выбираем важные токены на основе их нормализованных оценок внимания и выполняем механизм внимания исключительно на этих важных токенах для ускорения фазы предварительного заполнения. Для смягчения узкого места памяти в фазе декодирования мы используем квантование смешанной точности для кэша KV, где высокобитовое квантование используется для кэша важных токенов, в то время как низкобитовое квантование применяется к менее важным. Наши эксперименты показывают, что ZipVL может ускорить фазу предварительного заполнения в 2,6 раза и снизить использование памяти GPU на 50,0%, с минимальным снижением точности всего на 0,2% на бенчмарке Video-MME по сравнению с моделью LongVA-7B, эффективно повышая эффективность генерации LVLM.
Модели генерации изображений на основе латентных переменных, такие как модели латентной диффузии (LDM) и модели маскирования изображений (MIM), достигли значительного успеха в задачах генерации изображений. Эти модели обычно используют реконструктивные автоэнкодеры, такие как VQGAN или VAE, для кодирования пикселей в более компактное латентное пространство и изучения распределения данных в латентном пространстве вместо прямого изучения пикселей. Однако это поднимает важный вопрос: является ли это действительно оптимальным выбором? В ответ на это мы начинаем с интересного наблюдения: несмотря на то, что они используют одно и то же латентное пространство, авторегрессионные модели значительно уступают LDM и MIM в генерации изображений. Это открытие резко контрастирует с областью обработки естественного языка, где авторегрессионная модель GPT установила доминирующее положение. Для решения этого расхождения мы представляем унифицированную перспективу на отношения между латентным пространством и генеративными моделями, акцентируя стабильность латентного пространства в моделировании генерации изображений. Более того, мы предлагаем простой, но эффективный дискретный токенизатор изображений для стабилизации латентного пространства в генеративном моделировании изображений. Экспериментальные результаты показывают, что моделирование изображений с использованием нашего токенизатора (DiGIT) приносит пользу как пониманию изображений, так и их генерации с принципом предсказания следующего токена, что врожденно просто для моделей GPT, но вызывает трудности для других генеративных моделей. Замечательно, впервые модель авторегрессии в стиле GPT для изображений превосходит LDM, что также проявляет значительное улучшение, подобное GPT, при увеличении размера модели. Наши результаты подчеркивают потенциал оптимизированного латентного пространства и интеграции дискретной токенизации в развитии возможностей генеративных моделей изображений. Код доступен по ссылке https://github.com/DAMO-NLP-SG/DiGIT.
Большие языковые модели (LLM) значительно повлияли на многие аспекты нашей жизни. Однако оценка и обеспечение их хронологических знаний остаются сложными задачами. Существующие подходы не справляются с учетом накопительного характера знаний, часто опираясь на один временной штамп. Для преодоления этого мы представляем ChroKnowBench, набор данных для оценки хронологически накапливающихся знаний по трем ключевым аспектам: множественные области, зависимость от времени, временное состояние. Наш набор данных различает знания, которые развиваются (например, научные открытия, измененные законы) и знания, которые остаются постоянными (например, математические истины, здравый смысл). Основываясь на этом наборе данных, мы представляем ChroKnowledge (Хронологическая категоризация знаний), новую основанную на выборке структуру для оценки и обновления не параметрических хронологических знаний LLM. Наша оценка показывает: (1) Способность извлечения временных знаний варьируется в зависимости от формата данных, на которых была обучена модель. (2) LLM частично вспоминают знания или показывают обрыв на временных границах, вместо того чтобы правильно вспомнить все аспекты знаний. Таким образом, мы применяем наш ChroKnowPrompt, подробное побуждение для извлечения хронологических знаний, проходя шаг за шагом через окружающие временные промежутки. Мы наблюдаем, что наша структура успешно обновляет общие знания на протяжении всего временного промежутка как в биомедицинской области (+11.9%), так и в общей области (+2.8%), демонстрируя ее эффективность в уточнении временных знаний. Этот не параметрический подход также позволяет обновлять знания не только в моделях с открытым исходным кодом, но и в собственных LLM, обеспечивая всеобъемлющую применимость для различных типов моделей. Мы проводим комплексный анализ на основе временных характеристик ChroKnowPrompt и подтверждаем потенциал различных моделей для извлечения внутренних временных знаний через наш метод.
Данный документ представляет новую парадигму обучения, названную Нейроморфоза нейронных сетей (NeuMeta), которая направлена на создание самоморфных нейронных сетей. В отличие от создания отдельных моделей для различных архитектур или размеров, NeuMeta непосредственно обучает непрерывное весовое многообразие нейронных сетей. После обучения мы можем выбирать веса для сетей любого размера непосредственно из многообразия, даже для ранее не встречавшихся конфигураций, без повторного обучения. Для достижения этой амбициозной цели NeuMeta обучает нейронные неявные функции как гиперсети. Они принимают координаты в пределах пространства модели в качестве входных данных и генерируют соответствующие значения весов на многообразии. Другими словами, неявная функция обучается таким образом, что предсказанные веса хорошо работают для различных размеров моделей. При обучении этих моделей мы замечаем, что окончательная производительность тесно связана с гладкостью изученного многообразия. Для улучшения этой гладкости мы используем две стратегии. Во-первых, мы переставляем матрицы весов для достижения внутримодельной гладкости, решая проблему кратчайшего гамильтонова пути. Кроме того, мы добавляем шум на входные координаты при обучении неявной функции, обеспечивая согласованные выводы для моделей различных размеров. Таким образом, NeuMeta показывает многообещающие результаты в синтезе параметров для различных конфигураций сетей. Наши обширные тесты в классификации изображений, семантической сегментации и генерации изображений показывают, что NeuMeta сохраняет производительность полного размера даже при степени сжатия 75%.
Многомодельные/модели языка с видением (VLM) все чаще применяются в медицинских учреждениях по всему миру, что требует создания надежных бенчмарков для обеспечения их безопасности, эффективности и справедливости. Наборы данных с вопросами и ответами (QA) с множественным выбором, полученные из национальных медицинских экзаменов, давно служат ценными инструментами оценки, но существующие наборы данных в основном содержат только текст и доступны на ограниченном наборе языков и стран. Для решения этих проблем мы представляем WorldMedQA-V, обновленный многоязычный, многомодальный набор данных для оценки VLM в области здравоохранения. WorldMedQA-V включает 568 помеченных вопросов и ответов с множественным выбором, сопоставленных с 568 медицинскими изображениями из четырех стран (Бразилия, Израиль, Япония и Испания), охватывая оригинальные языки и подтвержденные английские переводы от местных врачей. Предоставляются базовые показатели производительности для общедоступных и закрытых моделей как на местном языке, так и на английском языке, с изображениями и без них. Бенчмарк WorldMedQA-V направлен на более точное соответствие искусственного интеллекта разнообразным средам здравоохранения, в которых они применяются, способствуя более справедливым, эффективным и репрезентативным приложениям.
Мы изучаем, как признаки возникают, исчезают и сохраняются в различных моделях, настраиваемых на различных доменах текста. Более конкретно, мы начинаем с базовой однослойной модели языкового трансформера, обученной на комбинации корпуса BabyLM и коллекции кода Python из The Stack. Эта базовая модель адаптируется к двум новым доменам текста: TinyStories и языку программирования Lua, соответственно; затем эти две модели объединяются с использованием сферической линейной интерполяции. Наше исследование направлено на более глубокое понимание стабильности и преобразования признаков в типичных сценариях обучения передаче с использованием моделей малого масштаба и разреженных автоэнкодеров.
Большие языковые модели (LLM), обученные с использованием обучения с подкреплением на основе обратной связи от человека (RLHF), продемонстрировали выдающиеся возможности, но их базовые функции вознаграждения и процессы принятия решений остаются непрозрачными. В данной статье представлен новый подход к интерпретации LLM путем применения обратного обучения с подкреплением (IRL) для восстановления их неявных функций вознаграждения. Мы проводим эксперименты на LLM, выравненных по токсичности, различного размера, извлекая модели вознаграждения, которые достигают до 80,40% точности в предсказании предпочтений человека. Наш анализ раскрывает ключевые идеи о неидентифицируемости функций вознаграждения, связи между размером модели и интерпретируемостью, а также потенциальные проблемы в процессе RLHF. Мы демонстрируем, что модели вознаграждения, полученные с помощью IRL, могут быть использованы для настройки новых LLM, что приводит к сопоставимой или улучшенной производительности на бенчмарках токсичности. Эта работа предоставляет новый инструмент для понимания и улучшения выравнивания LLM, с важными последствиями для ответственного развития и внедрения этих мощных систем.
Большие языковые модели (LLM) сделали значительные успехи в генерации и понимании текста, с недавними достижениями, расширяющимися на мультимодальные LLM, интегрирующие визуальные и звуковые входы. Однако эти модели продолжают испытывать трудности с детализированным кросс-модальным временным пониманием, особенно при корреляции событий по аудио- и видеопотокам. Мы решаем эти проблемы с помощью двух ключевых вкладов: нового набора данных и модели, названных соответственно OCTAV и OMCAT. OCTAV (Omni Context and Temporal Audio Video) - это новый набор данных, разработанный для захвата переходов событий по аудио и видео. Во-вторых, OMCAT (Omni Context Aware Transformer) - мощная модель, использующая RoTE (Rotary Time Embeddings), инновационное расширение RoPE, для улучшения временной привязки и вычислительной эффективности в задачах, связанных со временем. Через устойчивый трехэтапный процесс обучения - выравнивание признаков, настройка инструкций и обучение, специфичное для OCTAV - OMCAT превосходит в кросс-модальном временном понимании. Наша модель демонстрирует передовые результаты в задачах вопросов и ответов по аудио и видео (AVQA) и на бенчмарке OCTAV, показывая значительные улучшения во временном рассуждении и кросс-модальном выравнивании, что подтверждается через обширные эксперименты и исследования абляции. Наш набор данных и код будут общедоступны. Ссылка на нашу демонстрационную страницу: https://om-cat.github.io.
Современные подходы к вопросно-ответной системе (QA) и рассуждениям на основе больших языковых моделей (LLM) обычно используют техники подсказок, такие как Цепочка Мысли (CoT), предполагая, что результативная генерация будет иметь более детальное исследование и рассуждение по пространству и области вопросов. Однако такие методы сталкиваются с трудностями в создании выводов, которые верно отражают промежуточную цепочку рассуждений, созданную моделью. На другом конце спектра нейросимволические методы, такие как Верная Цепочка Мысли (F-CoT), предлагают объединить LLM с внешними символьными решателями. Хотя такие подходы гордятся высокой степенью верности, они обычно требуют модели, обученной для генерации кода, и испытывают трудности с задачами, которые являются неоднозначными или трудными для строгой формализации. Мы представляем Верное Логико-Помогаемое Рассуждение и Исследование (\ours), новый интерпретируемый подход для исследования пространства проблем с использованием декомпозиции задач. Мы используем LLM для планирования решения, мягко формализуем запрос в факты и предикаты, используя код логического программирования, и симулируем выполнение этого кода с помощью исчерпывающего многопереходного поиска по определенному пространству. Наш метод позволяет вычислить верность процесса рассуждения относительно сгенерированного кода и проанализировать шаги многопереходного поиска без использования внешних решателей. Наши методы достигают лучших результатов на 7 из 9 разнообразных бенчмарков рассуждения. Мы также показываем, что верность модели положительно коррелирует с общей производительностью и демонстрируем, что {\ours} позволяет выявить решающие факторы, достаточные для и приводящие к правильному ответу с оптимальным рассуждением во время многопереходного поиска.
Калибровка языковой модели относится к соответствию между уверенностью модели и фактическим выполнением ее ответов. В то время как предыдущие исследования указывают на явление чрезмерной уверенности в больших языковых моделях (LLM) и показывают, что LLM, обученные с использованием обучения с подкреплением на основе обратной связи от человека (RLHF), обладают чрезмерной уверенностью с более выраженной вероятностью вывода, в данном исследовании мы выявляем, что RLHF склонен приводить модели к выражению вербализованной чрезмерной уверенности в собственных ответах. Мы исследуем основную причину этой чрезмерной уверенности и демонстрируем, что модели вознаграждения, используемые для оптимизации ближайшей политики (PPO), проявляют врожденные предвзятости в пользу высоких оценок уверенности независимо от фактического качества ответов. Основываясь на этом понимании, мы предлагаем два варианта PPO: PPO-M: PPO с калибровкой моделирования вознаграждения и PPO-C: PPO с калибровкой расчета вознаграждения. PPO-M интегрирует явные оценки уверенности в обучение модели вознаграждения, что калибрует модели вознаграждения для лучшего улавливания соответствия между качеством ответа и выраженной уверенностью. PPO-C корректирует оценку вознаграждения во время PPO на основе разницы между текущим вознаграждением и скользящим средним прошлых вознаграждений. Оба подхода PPO-M и PPO-C могут быть легко интегрированы в текущий конвейер PPO и не требуют дополнительных золотых меток. Мы оцениваем наши методы на Llama3-8B и Mistral-7B на шести разнообразных наборах данных, включая множественный выбор и генерацию открытого текста. Результаты эксперимента показывают, что оба наших метода могут снизить ошибку калибровки и сохранить производительность, сравнимую со стандартным PPO. Мы также показываем, что они не ущемляют возможности модели в настройках разговора с открытым окончанием.
Большие языковые модели (LLM) продемонстрировали значительный потенциал в разработке интеллектуальных приложений и систем, таких как агенты на основе LLM и операционные системы агентов (AIOS). Однако, когда эти приложения и системы взаимодействуют с базовой файловой системой, файловая система по-прежнему остается традиционной парадигмой: зависит от ручной навигации с помощью точных команд. Эта парадигма создает узкое место для использования этих систем, поскольку пользователям необходимо перемещаться по сложным иерархиям папок и запоминать криптографические имена файлов. Для преодоления этого ограничения мы предлагаем семантическую файловую систему на основе LLM (LSFS) для управления файлами посредством подсказок. В отличие от традиционных подходов, LSFS включает в себя LLM для возможности взаимодействия пользователей или агентов с файлами через естественноязыковые подсказки, облегчая семантическое управление файлами. На макро-уровне мы разрабатываем полный набор API для достижения функциональностей семантического управления файлами, таких как семантическое извлечение файлов, мониторинг и суммирование обновлений файлов, а также семантическое откатывание файлов. На микро-уровне мы храним файлы, создавая для них семантические индексы, разрабатываем и реализуем системные вызовы различных семантических операций (например, CRUD, группировка, объединение), работающие на основе векторной базы данных. Наши эксперименты показывают, что LSFS предлагает значительные улучшения по сравнению с традиционными файловыми системами в терминах удобства использования для пользователя, разнообразия поддерживаемых функций, а также точности и эффективности операций с файлами. Кроме того, благодаря интеграции LLM, наша система позволяет выполнять более интеллектуальные задачи управления файлами, такие как суммирование содержимого и сравнение версий, дополнительно расширяя ее возможности.