Ежедневно отобранные исследовательские статьи по ИИ с переводами
Большие языковые модели (LLM) демонстрируют многообещающие возможности в решении простых научных задач, но часто проявляют галлюцинации при сложных. Интеграция LLM с инструментами может повысить надежность, однако такой подход обычно приводит к чрезмерной зависимости от инструментов, что уменьшает способность модели решать простые задачи на основе базового рассуждения. В отличие от этого, человеческие эксперты сначала оценивают сложность задачи, используя знания области, прежде чем выбрать подходящий способ решения. Вдохновленные этим процессом человеческого решения проблем, мы предлагаем новый метод настройки из двух компонентов. В первом компоненте Дистилляция Мировых Знаний (WKD) LLM учится непосредственно из решений, сгенерированных с использованием информации инструмента, чтобы внутренне усвоить областные знания. Во втором компоненте Адаптация Использования Инструментов (TUA) мы разделяем задачи на простые и сложные категории на основе точности прямого ответа модели. Поддерживая тот же целевой уровень для простых задач, что и в WKD, мы обучаем модель интеллектуально переключаться на использование инструментов для более сложных задач. Мы проверяем наш метод на шести научных эталонных наборах данных, охватывающих математику, климатологию и эпидемиологию. В среднем наши модели демонстрируют улучшение точности ответа на 28,18% и увеличение точности использования инструментов на 13,89% по всем наборам данных, превосходя современные модели, включая GPT-4o и Claude-3.5.
Существующие усилия по созданию агентов с графическим интерфейсом сильно зависят от наличия надежных коммерческих моделей видео-языка (VLM), таких как GPT-4o и GeminiProVision. Практики часто неохотно используют открытые исходные коды VLM из-за значительного отставания в производительности по сравнению с закрытыми аналогами, особенно в задачах привязки к графическому интерфейсу и сценариях вне распределения (OOD). Для облегчения будущих исследований в этой области мы разработали OS-Atlas - фундаментальную модель действий с графическим интерфейсом, которая превосходит в привязке к графическому интерфейсу и выполнении задач OOD благодаря инновациям как в данных, так и в моделировании. Мы вложили значительные инженерные усилия в разработку открытого набора инструментов для синтеза данных привязки к графическому интерфейсу на различных платформах, включая Windows, Linux, MacOS, Android и веб. Используя этот набор инструментов, мы выпускаем к настоящему времени самый крупный открытый кроссплатформенный корпус данных привязки к графическому интерфейсу, который содержит более 13 миллионов элементов графического интерфейса. Этот набор данных, в сочетании с инновациями в обучении моделей, обеспечивает прочную основу для OS-Atlas для понимания скриншотов графического интерфейса и обобщения на невидимые интерфейсы. После обширной оценки по шести бенчмаркам, охватывающим три различные платформы (мобильные, настольные и веб-приложения), OS-Atlas демонстрирует значительное улучшение производительности по сравнению с предыдущими передовыми моделями. Наша оценка также выявляет ценные идеи для непрерывного улучшения и масштабирования агентских возможностей открытых исходных кодов VLM.
Персонализация больших языковых моделей (LLM) в последнее время стала все более важной с широким спектром применений. Несмотря на важность и недавние успехи, большинство существующих работ по персонализированным LLM сосредоточены либо исключительно на (a) генерации персонализированного текста, либо (b) использовании LLM для персонализации связанных с ней прикладных приложений, таких как системы рекомендаций. В данной работе мы впервые соединяем эти два отдельных основных направления, представляя таксономию использования персонализированных LLM и обобщая ключевые различия и вызовы. Мы формализуем основы персонализированных LLM, консолидируя и расширяя понятия персонализации LLM, определяя и обсуждая новые аспекты персонализации, использования и желаемые характеристики персонализированных LLM. Затем мы объединяем литературу в этих различных областях и сценариях использования, предлагая систематические таксономии для уровня детализации персонализации, техник персонализации, наборов данных, методов оценки и приложений персонализированных LLM. Наконец, мы выделяем вызовы и важные открытые проблемы, которые требуют решения. Объединяя и изучая недавние исследования с использованием предложенных таксономий, мы стремимся предоставить четкое руководство по существующей литературе и различным аспектам персонализации в LLM, давая возможность как исследователям, так и практикующим специалистам.
Процедуры прямого и обратного потока значительно продвинули быстрое поколение, постепенно выпрямляя обычные дифференциальные уравнения (ODE). Они работают с предположением, что изображения и пары шума, известные как связи, могут быть аппроксимированы прямыми траекториями с постоянной скоростью. Однако мы наблюдаем, что моделирование с постоянной скоростью и использование процедур обратного потока имеют ограничения в точном изучении прямых траекторий между парами, что приводит к субоптимальной производительности в генерации на несколько шагов. Для решения этих ограничений мы представляем Constant Acceleration Flow (CAF), новую структуру на основе простого уравнения постоянного ускорения. CAF вводит ускорение как дополнительную обучаемую переменную, позволяя более выразительную и точную оценку потока ODE. Более того, мы предлагаем две техники для дальнейшего улучшения точности оценки: начальное условие скорости для модели ускорения и процесс обратного потока для начальной скорости. Наши исчерпывающие исследования на игрушечных наборах данных, CIFAR-10 и ImageNet 64x64, показывают, что CAF превосходит современные базовые уровни для генерации на один шаг. Мы также показываем, что CAF значительно улучшает сохранение связей на несколько шагов и инверсию по сравнению с Rectified flow. Код доступен по ссылке https://github.com/mlvlab/CAF.
Существующие бенчмарки часто подчеркивают выдающуюся производительность, достигнутую передовыми Мультимодальными Основными Моделями (МОМ) в использовании временного контекста для понимания видео. Однако насколько хорошо модели действительно выполняют визуальное временное рассуждение? Наше изучение существующих бенчмарков показывает, что эта способность МОМ, вероятно, переоценена, поскольку многие вопросы можно решить, используя один, несколько или не в порядке кадры. Для систематического изучения текущих задач визуального временного рассуждения мы предлагаем три принципа с соответствующими метриками: (1) Прирост на нескольких кадрах, (2) Чувствительность к порядку кадров и (3) Диспаратность информации кадра. Следуя этим принципам, мы представляем TOMATO, Оценку Мультимодального Временного Рассуждения, новый бенчмарк, разработанный для тщательной оценки способностей МОМ в визуальном временном рассуждении при понимании видео. TOMATO включает в себя 1 484 тщательно подобранных, аннотированных человеком вопросов, охватывающих шесть задач (т.е. подсчет действий, направление, вращение, форма и тенденция, скорость и частота, и визуальные подсказки), примененных к 1 417 видео, включая 805 самостоятельно записанных и созданных видео, охватывающих сценарии, связанные с человеком, реальными мирами и симулированными ситуациями. Наше всестороннее оценивание показывает разрыв в производительности между человеком и моделью в размере 57,3% у лучшей модели. Более того, наш анализ выявляет более фундаментальные ограничения за этим разрывом в текущих МОМ. Хотя они могут точно распознавать события в изолированных кадрах, они не могут интерпретировать эти кадры как непрерывную последовательность. Мы считаем, что TOMATO станет важной площадкой для оценки МОМ следующего поколения и призывом к сообществу разработать ИИ-системы, способные понимать динамику человеческого мира через видео-модальность.
Эта статья представляет моделирование случайных авторегрессионных процессов (RAR) для визуальной генерации, которое устанавливает новый уровень производительности на задаче генерации изображений, сохраняя полную совместимость с языковыми моделями. Предложенный RAR прост: во время стандартного процесса обучения авторегрессии с целью предсказания следующего токена, входная последовательность, обычно упорядоченная в растре, случайным образом переставляется в различные порядки факторизации с вероятностью r, где r начинается с 1 и линейно уменьшается до 0 в течение обучения. Эта стратегия обучения отжига позволяет модели научиться максимизировать ожидаемую вероятность по всем порядкам факторизации и, таким образом, эффективно улучшить способность модели к моделированию двунаправленных контекстов. Важно, что RAR сохраняет целостность фреймворка авторегрессии, обеспечивая полную совместимость с языковым моделированием, при этом значительно улучшая производительность в генерации изображений. На тесте ImageNet-256, RAR достигает значения FID в 1,48, превосходя не только предыдущие авторегрессионные генераторы изображений нового уровня производительности, но и превосходя ведущие методы на основе диффузии и маскированных трансформеров. Код и модели будут доступны по адресу https://github.com/bytedance/1d-tokenizer
Мы обнаружили основную физику в предсказании следующего токена (NTP). Мы выявили закон сохранения информации в рамках NTP и предложили Первый Закон Информационной Емкости (IC-1), демонстрируя, что суть возникновения интеллекта в авторегрессионных моделях фундаментально является процессом передачи информации. Мы также внедрили Принцип Ландауэра в NTP, сформулировав Второй Закон Информационной Емкости (IC-2), который устанавливает связь между обучением авторегрессионной модели и энергопотреблением. Кроме того, мы представили несколько следствий, которые имеют практическое значение для производственных практик. Наконец, мы подтвердили совместимость и дополняемость наших результатов с существующими теориями.
Мы представляем простой способ объединения моделирования маскированных последовательностей с моделированием причинно-следственных связей. Эта гибридная цель обучения приводит к модели, которая объединяет преимущества обоих парадигм моделирования в рамках одного стека трансформера: GPT-BERT может быть использован прозрачно, как любая стандартная причинно-следственная или маскированная языковая модель. Мы тестируем процесс предварительного обучения, который обеспечивает эту гибкую функциональность, на BabyLM Challenge 2024. Результаты показывают, что гибридное предварительное обучение превосходит модели только с маскировкой или только причинно-следственные модели. Мы открыто предоставляем модели, обучающие корпуса и код.
Применения генеративного искусственного интеллекта стали чрезвычайно впечатляющими, и взаимодействие между пользователями и ИИ еще более интересно. Существующая литература по взаимодействию человека с ИИ широко рассматривает, как люди взаимодействуют с генеративным ИИ, однако в ней отсутствует конкретика относительно дизайнов пользовательского интерфейса и шаблонов, используемых для создания этих приложений. Поэтому мы представляем обзор, который исчерпывающим образом представляет таксономии того, как человек взаимодействует с ИИ, и шаблоны пользовательского взаимодействия, разработанные для удовлетворения потребностей различных соответствующих случаев использования. Мы фокусируемся в первую очередь на взаимодействиях, управляемых пользователем, проводя обзор взаимодействий, которые инициируются пользователем и не включают в себя какие-либо неявные сигналы, поступающие от пользователя. Целью этого обзора является создание сборника различных шаблонов пользовательского взаимодействия, которые могут быть использованы в качестве справочного материала как для дизайнеров, так и для разработчиков. Таким образом, мы также стремимся снизить порог входа для тех, кто пытается узнать больше о дизайне генеративных приложений ИИ.
Мы представляем Fashion-VDM, модель видеодиффузии (VDM) для создания виртуальных видеороликов примерки. Учитывая входное изображение одежды и видео человека, наш метод направлен на создание видеоролика примерки высокого качества, на котором человек носит предоставленную одежду, сохраняя при этом его личность и движение. Виртуальная примерка на основе изображений показала впечатляющие результаты; однако существующим методам видеовиртуальной примерки (VVT) все еще не хватает деталей одежды и временной последовательности. Для решения этих проблем мы предлагаем архитектуру на основе диффузии для видеовиртуальной примерки, разделенное руководство без классификатора для увеличения контроля над входными данными, и прогрессивную стратегию обучения по времени для генерации видео однопроходным способом на 64 кадра, 512 пикселей. Мы также демонстрируем эффективность совместного обучения изображений и видео для видеопримерки, особенно когда видеоданные ограничены. Наши качественные и количественные эксперименты показывают, что наш подход устанавливает новый уровень качества для видеовиртуальной примерки. Дополнительные результаты доступны на нашей странице проекта: https://johannakarras.github.io/Fashion-VDM.
Недавние исследования arXiv:2410.15027 исследовали использование диффузионных трансформеров (DiTs) для задачи-агностической генерации изображений путем простого конкатенирования внимательных токенов по всем изображениям. Однако, несмотря на значительные вычислительные ресурсы, качество сгенерированных изображений остается недостаточным. В данном исследовании мы переоцениваем и оптимизируем эту структуру, предполагая, что тексто-изображенческие DiTs по своей сути обладают возможностями генерации в контексте, требующими лишь минимальной настройки для их активации. Через разнообразные задачи экспериментов мы качественно демонстрируем, что существующие тексто-изображенческие DiTs могут эффективно выполнять генерацию в контексте без какой-либо настройки. Основываясь на этом понимании, мы предлагаем замечательно простой конвейер для использования возможностей в контексте DiTs: (1) конкатенировать изображения вместо токенов, (2) выполнять совместное описывание нескольких изображений и (3) применять настройку LoRA для задачи с использованием небольших наборов данных (например, 20-100 образцов) вместо настройки с полными параметрами на больших наборах данных. Мы называем наши модели In-Context LoRA (IC-LoRA). Данный подход не требует модификаций исходных моделей DiT, лишь изменений в обучающих данных. Замечательно, что наш конвейер генерирует наборы изображений высокого качества, лучше соответствующие запросам. Хотя наша структура остается задаче-специфичной в терминах данных настройки, она остается задаче-агностической по архитектуре и конвейеру, предлагая мощный инструмент для сообщества и предоставляя ценные идеи для дальнейших исследований в области систем генерации на уровне продукта, независимых от задачи. Мы публикуем наш код, данные и модели на https://github.com/ali-vilab/In-Context-LoRA.
Недавно трехмерное гауссово сглаживание (3DGS) революционизировало восстановление радиационного поля, обеспечивая эффективный и высококачественный синтез нового вида. Однако точное представление поверхностей, особенно в больших и сложных сценариях, остается значительным вызовом из-за неструктурированной природы 3DGS. В данной статье мы представляем CityGaussianV2, новый подход для реконструкции сцен большого масштаба, который решает критические проблемы, связанные с геометрической точностью и эффективностью. Основываясь на благоприятных возможностях обобщения двумерного гауссова сглаживания (2DGS), мы решаем проблемы сходимости и масштабируемости. Конкретно, мы реализуем технику денсификации на основе разложения градиента и регрессии глубины для устранения размытых артефактов и ускорения сходимости. Для масштабирования мы вводим фильтр удлинения, который смягчает взрыв числа гауссов, вызванный деградацией 2DGS. Более того, мы оптимизируем конвейер CityGaussian для параллельного обучения, достигая до 10-кратного сжатия, по крайней мере, 25% экономии времени обучения и уменьшения использования памяти на 50%. Мы также установили стандартные геометрические показатели на сценах большого масштаба. Экспериментальные результаты демонстрируют, что наш метод находит перспективный баланс между визуальным качеством, геометрической точностью, а также затратами на хранение и обучение. Страница проекта доступна по адресу https://dekuliutesla.github.io/CityGaussianV2/.
Пространство векторных представлений слов в нейронных моделях искажено, и исправление этого может улучшить производительность задачи. Мы отмечаем, что большинство подходов к моделированию, коррекции и измерению симметрии пространства векторных представлений предполагают, что частоты слов равномерны; в действительности частоты слов следуют высоко неравномерному распределению, известному как закон Ципфа. Удивительно, что простое выполнение PCA-белизны, взвешенной эмпирической частотой слов, следующей закону Ципфа, значительно улучшает производительность задачи, превосходя установленные базовые уровни. С теоретической точки зрения как наш подход, так и существующие методы могут быть четко классифицированы: представления слов распределены в соответствии с экспоненциальным семейством с равномерными или ципфовскими базовыми мерами. Приняв последний подход, мы естественным образом можем подчеркнуть информативные слова с низкой частотой в терминах их векторной нормы, что становится очевидным с информационно-геометрической точки зрения, а также в терминах функций потерь для несбалансированной классификации. Кроме того, наша теория подтверждает, что популярные методы обработки естественного языка, такие как отрицательная выборка skip-gram, WhiteningBERT и модели языка без головы, работают хорошо просто потому, что их векторные представления слов кодируют эмпирическую частоту слов в основную вероятностную модель.
Мы предлагаем эффективный метод вставки адаптеров в базовые модели текст-к-изображению, что позволяет выполнять сложные последующие задачи, сохраняя обобщающую способность базовой модели. Основная идея этого метода заключается в оптимизации механизма внимания, связанного с двумерными признаковыми картами, что улучшает производительность адаптера. Этот подход был проверен на задаче генерации мемовидео и показал значительные результаты. Мы надеемся, что эта работа может пролить свет на задачи послеобучения больших моделей текст-к-изображению. Кроме того, поскольку этот метод демонстрирует хорошую совместимость с производными моделями SD1.5, он имеет определенную ценность для сообщества с открытым исходным кодом. Поэтому мы опубликуем связанный код (https://songkey.github.io/hellomeme).
Существующие методы анонимизации лиц часто зависят от потери идентичности, рассчитанной моделями распознавания лиц, которые могут быть неточными и ненадежными. Кроме того, многие методы требуют дополнительных данных, таких как точки лица и маски, для направления процесса синтеза. В отличие от этого, наш подход использует модели диффузии только с потерей реконструкции, устраняя необходимость в точках лица или масках, сохраняя при этом изображения с тонкими деталями. Мы проверили наши результаты на двух общедоступных бенчмарках с помощью как количественной, так и качественной оценок. Наша модель достигает передового уровня производительности в трех ключевых областях: анонимизации идентичности, сохранении лицевых атрибутов и качестве изображения. Помимо своей основной функции анонимизации, наша модель также может выполнять задачи обмена лицами, интегрируя дополнительное лицевое изображение в качестве входных данных, демонстрируя свою универсальность и потенциал для различных приложений. Наш код и модели доступны по адресу https://github.com/hanweikung/face_anon_simple .
Большие языковые модели (LLM) превосходно справляются с многошаговым вопросно-ответным моделированием (M-QA) благодаря своим продвинутым способностям к рассуждениям. Однако влияние встроенных структур рассуждений на производительность LLM в M-QA остается неясным, в значительной степени из-за отсутствия наборов данных для вопросно-ответных задач, предоставляющих тонкие структуры рассуждений. Для решения этого пробела мы представляем набор данных для вопросно-ответных задач с графовой структурой рассуждений (GRS-QA), который включает как семантические контексты, так и структуры рассуждений для пар вопрос-ответ. В отличие от существующих наборов данных M-QA, где различные структуры рассуждений переплетены, GRS-QA явно фиксирует сложные пути рассуждений путем построения графов рассуждений, где узлы представляют текстовые контексты, а ребра обозначают логические потоки. Эти графы рассуждений различных структур позволяют тонко оценить способности LLM к рассуждениям по различным структурам рассуждений. Наше эмпирическое анализ показывает, что LLM проявляют различное поведение при обработке вопросов с различными структурами рассуждений. Это открытие способствует исследованию текстовых структур по сравнению с семантикой.
Состояние здоровья (SOH) литий-ионного аккумулятора является критическим параметром, определяющим оставшуюся емкость и оставшийся срок службы аккумулятора. В данной статье мы предлагаем SambaMixer - новую структурированную модель пространства состояний (SSM) для прогнозирования состояния здоровья литий-ионных аккумуляторов. Предложенная SSM основана на архитектуре MambaMixer, разработанной для обработки многомерных временных сигналов. Мы оцениваем нашу модель на наборе данных разряда батареи NASA и показываем, что наша модель превосходит существующие модели на этом наборе данных. Мы также представляем новый метод ресэмплинга на основе якорей, который гарантирует, что временные сигналы имеют ожидаемую длину, а также служит как метод аугментации. Наконец, мы условляем прогнозирование от времени выборки и разницы во времени цикла, используя позиционные кодирования, чтобы улучшить производительность нашей модели и изучить эффекты восстановления. Наши результаты доказывают, что наша модель способна прогнозировать SOH литий-ионных аккумуляторов с высокой точностью и надежностью.
Уровень репозитория по завершению кода привлекает большое внимание в области программной инженерии, и были представлены несколько эталонных наборов данных. Однако существующие эталонные наборы данных по завершению кода на уровне репозитория обычно сосредоточены на ограниченном количестве языков (<5), что не позволяет оценить общие способности кодового интеллекта на разных языках для существующих крупных языковых моделей (LLM). Кроме того, существующие эталонные наборы обычно представляют общие средние показатели по разным языкам, где не учитываются тонкие способности в различных сценариях завершения. Для облегчения исследований LLM кода в мультиязычных сценариях мы предлагаем массовый мультиязычный эталон по завершению кода на уровне репозитория, охватывающий 18 языков программирования (названный M2RC-EVAL), и два типа тонких аннотаций (т.е. на уровне корзины и семантического уровня) по различным сценариям завершения предоставлены, где мы получаем эти аннотации на основе разобранного абстрактного синтаксического дерева. Более того, мы также составляем массовый мультиязычный корпус инструкций M2RC-INSTRUCT для улучшения способностей завершения кода на уровне репозитория существующих LLM кодов. Обширные экспериментальные результаты демонстрируют эффективность наших M2RC-EVAL и M2RC-INSTRUCT.
В данной статье мы рассматриваем качество корпуса WikiNER, многоязычного корпуса для распознавания именованных сущностей, и предоставляем его сконсолидированную версию. Аннотация WikiNER была создана в полу-супервизионном режиме, то есть без последующей ручной верификации. Такой корпус называется серебряным стандартом. В данной статье мы предлагаем WikiNER-fr-gold, который является пересмотренной версией французской части WikiNER. Наш корпус состоит из случайно отобранных 20% от исходного французского подкорпуса (26 818 предложений с 700 тыс. токенов). Мы начинаем с обзора типов сущностей, включенных в каждую категорию, для определения руководства по аннотации, а затем приступаем к пересмотру корпуса. Наконец, мы представляем анализ ошибок и несоответствий, выявленных в корпусе WikiNER-fr, и обсуждаем потенциальные направления для будущих исследований.