Ежедневно отобранные исследовательские статьи по ИИ с переводами
Таблицы, с их обширными двумерными сетками, различными макетами и разнообразными опциями форматирования, представляют существенные вызовы для больших языковых моделей (LLM). В ответ на это мы представляем SpreadsheetLLM, первоначально разработанный эффективный метод кодирования, целью которого является раскрытие и оптимизация мощных возможностей понимания и рассуждения LLM на таблицах. Сначала мы предлагаем подход сериализации "ванильного" типа, который включает адреса ячеек, значения и форматы. Однако этот подход ограничивается ограничениями токенов LLM, что делает его непрактичным для большинства приложений. Для решения этой проблемы мы разрабатываем SheetCompressor, инновационную систему кодирования, которая эффективно сжимает таблицы для LLM. Она включает три модуля: структурно-якорное сжатие, обратный индексный перевод и агрегацию с учетом формата данных. Это значительно улучшает производительность в задаче обнаружения таблиц в таблицах, превосходя подход "ванильного" типа на 25,6% в контекстном обучении GPT4. Более того, донастроенная LLM с SheetCompressor имеет среднее соотношение сжатия в 25 раз, но достигает передового показателя F1 в 78,9%, превосходя лучшие существующие модели на 12,3%. Наконец, мы предлагаем Цепочку Таблиц для последующих задач понимания таблиц и проверяем в новой и требовательной задаче вопросов и ответов по таблицам. Мы методично используем врожденный макет и структуру таблиц, демонстрируя, что SpreadsheetLLM эффективен в различных задачах с таблицами.
Большие языковые модели (LLM) продемонстрировали выдающиеся возможности, однако все еще испытывают трудности с обработкой обширных контекстов, что ограничивает их способность поддерживать согласованность и точность на длинных последовательностях. В отличие от этого, человеческий мозг отличается в умении организовывать и извлекать эпизодические опыты на протяжении огромных временных масштабов, охватывающих всю жизнь. В данной работе мы представляем EM-LLM, новый подход, который интегрирует ключевые аспекты человеческой эпизодической памяти и когнитивных событий в LLM, позволяя им эффективно обрабатывать практически бесконечные длины контекста, сохраняя при этом вычислительную эффективность. EM-LLM организует последовательности токенов в согласованные эпизодические события с использованием комбинации байесовского удивления и уточнения границ на основе графов в режиме онлайн. При необходимости эти события извлекаются через двухэтапный процесс памяти, объединяя похожесть и временную последовательность для эффективного и похожего на человеческий доступ к актуальной информации. Эксперименты на наборе данных LongBench показывают превосходную производительность EM-LLM, превосходя модель InfLLM нового поколения с общим относительным улучшением на 4,3% по различным задачам, включая улучшение на 33% в задаче Поиска пассажа. Более того, наш анализ выявляет сильные корреляции между сегментацией событий EM-LLM и событиями, воспринимаемыми человеком, что указывает на связь между этой искусственной системой и ее биологическим аналогом. Эта работа не только продвигает возможности LLM в обработке расширенных контекстов, но также предоставляет вычислительную основу для изучения механизмов человеческой памяти, открывая новые перспективы для междисциплинарных исследований в области ИИ и когнитивной науки.
Данный технический отчет описывает Time Series Optimized Transformer for Observability (Toto) - новую передовую базовую модель для прогнозирования временных рядов, разработанную компанией Datadog. Помимо улучшения передовых технологий на обобщенных бенчмарках временных рядов в областях, таких как электроэнергетика и погода, данная модель является первой универсальной базовой моделью для прогнозирования временных рядов, специально настроенной на метрики наблюдаемости. Toto был обучен на наборе данных из одного триллиона точек временных рядов, что является самым большим среди всех в настоящее время опубликованных базовых моделей временных рядов. Помимо общедоступных наборов данных временных рядов, 75% данных, использованных для обучения Toto, составляют полностью анонимные числовые метрические данные с платформы Datadog. В наших экспериментах Toto превзошел существующие базовые модели временных рядов по данным наблюдаемости. Он достигает этого, также превосходя в общих задачах прогнозирования, демонстрируя передовую производительность на нескольких открытых бенчмарках с нулевым обучением.
Большие языковые модели (LLM) часто обновляются из-за изменений данных или архитектуры для улучшения их производительности. При обновлении моделей разработчики часто сосредотачиваются на увеличении общих метрик производительности с меньшим вниманием к совместимости с предыдущими версиями моделей. Однако пользователи часто создают модель функциональности и возможностей конкретной модели машинного обучения, с которой они взаимодействуют. Они должны адаптировать свою модель мышления с каждым обновлением -- это утомительная задача, которая может привести к недовольству пользователей. На практике адаптеры доочередных задач с тонкой настройкой полагаются на предварительно обученные базовые модели LLM. Когда эти базовые модели обновляются, эти модели доочередных задач, с которыми взаимодействуют пользователи, сталкиваются с регрессией экземпляров или отрицательными изменениями -- ранее правильно предсказанные экземпляры теперь предсказываются неверно. Это происходит даже в том случае, если процедуры обучения доочередных задач остаются идентичными. Наша работа направлена на обеспечение бесшовных обновлений моделей для пользователя двумя способами. Во-первых, мы предоставляем метрики оценки для понятия совместимости с предыдущими версиями моделей, специально для генеративных задач, но также применимых для дискриминативных задач. Мы наблюдаем регрессию и несоответствия между различными версиями моделей на разнообразном наборе задач и обновлений моделей. Во-вторых, мы предлагаем стратегию обучения для минимизации количества несоответствий при обновлении моделей, включая обучение модели совместимости, которая может улучшить языковые модели с тонкой настройкой задач. Мы уменьшаем отрицательные изменения -- случаи, когда предыдущая версия модели была правильной, а новая неверной -- на до 40% от Llama 1 к Llama 2.
Большие языковые модели (LLM) продемонстрировали большой потенциал как универсальные помощники, показывая мощные навыки понимания задач и решения проблем. Для использования LLM в качестве искусственных интеллектуальных помощников крайне важно, чтобы эти модели обладали желательными поведенческими характеристиками, такими как нетоксичность и устойчивость к попыткам взлома. Текущие методы детоксикации или предотвращения взлома обычно включают в себя Надзорное Тонкое Настройка (SFT) или Обучение с Подкреплением от Обратной Связи Человека (RLHF), что требует настройки миллиардов параметров с помощью градиентного спуска с существенными вычислительными затратами. Более того, модели, измененные через SFT и RLHF, могут отклоняться от предварительно обученных моделей, что потенциально может привести к ухудшению основных способностей LLM. В данной статье мы наблюдаем, что удивительным образом прямое редактирование небольшого подмножества параметров может эффективно модулировать определенные поведенческие характеристики LLM, такие как детоксикация и устойчивость к взлому. Конкретно, для поведения, которое мы стремимся избежать, мы используем линейный классификатор, который мы называем зондом поведения, для классификации двоичных меток поведения в скрытом пространстве состояний LLM. Используя этот зонд, мы представляем алгоритм для определения критического подмножества параметров LLM, которые значительно влияют на это целевое поведение. Затем мы прямо редактируем эти выбранные параметры, сдвигая их в сторону зонда поведения. Такой метод прямого редактирования параметров требует только вычислительных ресурсов на уровне вывода. Эксперименты показывают, что в представительной задаче детоксикации наш подход достигает снижения до 90,0\% токсичности на наборе данных RealToxicityPrompts и 49,2\% на ToxiGen, сохраняя при этом общие способности LLM в областях, таких как здравый смысл, ответы на вопросы и математика. Наш код доступен по адресу https://github.com/lucywang720/model-surgery.
Мы представляем H2O-Danube3, серию небольших языковых моделей, включающую в себя H2O-Danube3-4B, обученную на 6T токенов, и H2O-Danube3-500M, обученную на 4T токенов. Наши модели предварительно обучены на высококачественных веб-данных, в основном состоящих из английских токенов, на трех этапах с различными комбинациями данных перед окончательной настройкой под наблюдением для версии чата. Модели проявляют высокую конкурентоспособность по множеству академических, чатовых и тестовых показателей. Благодаря их компактной архитектуре, H2O-Danube3 может быть эффективно запущена на современном смартфоне, обеспечивая возможности локального вывода и быстрые возможности обработки даже на мобильных устройствах. Мы делаем все модели открыто доступными под лицензией Apache 2.0, дополнительно демократизируя LLM для более широкой аудитории экономически.
Автоматическое создание новых и интересных игр - это сложная задача. Среди вызовов стоит выделить представление правил игры в форме, пригодной для вычислений, поиск в обширном пространстве потенциальных игр в большинстве таких представлений, а также точную оценку оригинальности и качества ранее не виденных игр. Предыдущие работы по автоматизированному созданию игр в основном сосредоточены на относительно ограниченных представлениях правил и полагаются на доменно-специфические эвристики. В данной работе мы исследуем создание новых игр на сравнительно обширном языке описания игр Ludii, который кодирует правила более 1000 настольных игр различных стилей и режимов игры. Мы черпаем вдохновение из недавних достижений в области крупных языковых моделей и эволюционных вычислений, чтобы обучить модель, которая интеллектуально мутирует и рекомбинирует игры и механики, выраженные в виде кода. Мы демонстрируем как количественно, так и качественно, что наш подход способен создавать новые и интересные игры, включая области потенциального пространства правил, не охваченные существующими играми в наборе данных Ludii. Образцы созданных игр доступны для игры онлайн через портал Ludii.
Несмотря на их почти универсальное применение для крупных языковых моделей, внутренние механизмы трансформеров плохо понимаются. Мы стремимся лучше понять влияние удаления или переупорядочивания информации во всех слоях предварительно обученного трансформера. Такое понимание может как улучшить использование существующих моделей, так и привести к архитектурным улучшениям для создания новых вариантов. Мы представляем серию эмпирических исследований на замороженных моделях, которые показывают, что нижние и конечные слои предварительно обученных трансформеров отличаются от средних слоев, но что средние слои обладают удивительным уровнем однородности. Мы также показываем, что некоторые классы проблем обладают устойчивостью к пропуску слоев, запуску слоев в другом порядке, отличном от обученного, или запуску слоев параллельно. Наши наблюдения подтверждают, что даже замороженные предварительно обученные модели могут гибко обменивать точность на задержку, пропуская слои или запуская слои параллельно.
Недавние достижения в области радиационных полей открыли новые возможности для создания высококачественных 3D-объектов и сцен. Перенос стилей может улучшить эти 3D-объекты с разнообразными художественными стилями, трансформируя творческое выражение. Однако существующие техники часто медленны или не способны локализовать перенос стилей на конкретные объекты. Мы представляем StyleSplat, легкий метод стилизации 3D-объектов в сценах, представленных 3D-гауссовыми функциями от изображений стилей-образцов. Наш подход сначала изучает фотореалистичное представление сцены с использованием 3D-гауссовского сплэттинга, одновременно сегментируя отдельные 3D-объекты. Затем мы используем потерю соответствия признаков ближайшего соседа для донастройки гауссовских функций выбранных объектов, выравнивая их коэффициенты сферических гармоник с изображением стиля для обеспечения согласованности и визуального привлекательности. StyleSplat позволяет быстро и настраиваемо выполнять перенос стилей и локализованную стилизацию нескольких объектов в сцене, каждый с собственным стилем. Мы демонстрируем его эффективность на различных 3D-сценах и стилях, показывая улучшенный контроль и настраиваемость в создании 3D.
Поиск ответов на вопросы в длинных научных исследовательских статьях является важной областью изучения, которая помогает читателям быстро находить ответы на свои запросы. Однако существующие наборы данных для вопросно-ответных систем (QA) на основе научных статей ограничены по масштабу и фокусируются исключительно на текстовом контенте. Для преодоления этого ограничения мы представляем SPIQA (Scientific Paper Image Question Answering) - первый крупномасштабный набор данных QA, специально разработанный для интерпретации сложных иллюстраций и таблиц в контексте научных исследовательских статей по различным областям информатики. Используя широту экспертизы и возможности мультимодальных моделей языка большого объема (MLLMs) для понимания иллюстраций, мы применяем автоматическое и ручное курирование для создания набора данных. Мы разрабатываем задачу поиска информации, включающую несколько изображений, охватывающих широкий спектр графиков, диаграмм, таблиц, схематических диаграмм и визуализаций результатов. SPIQA включает 270 тыс. вопросов, разделенных на обучающую, валидационную и три различных набора для оценки. Проводя обширные эксперименты с 12 ведущими фундаментальными моделями, мы оцениваем способность текущих мультимодальных систем понимать тонкие аспекты научных статей. Кроме того, мы предлагаем стратегию оценки Chain-of-Thought (CoT) с пошаговым извлечением контекста, позволяющую детальную оценку и улучшение производительности модели. Мы также исследуем верхние границы улучшения производительности с дополнительной текстовой информацией, выделяя ее многообещающий потенциал для будущих исследований и влияние набора данных на революционизацию взаимодействия с научной литературой.
Большие языковые модели в прошлом обычно полагались на какую-либо форму обучения с подкреплением с обратной связью от человека (RLHF), чтобы лучше согласовывать ответы модели с предпочтениями человека. Однако из-за часто наблюдаемых нестабильностей при реализации этих конвейеров RLHF недавно были введены различные техники репараметризации, чтобы обойти необходимость отдельного обучения модели вознаграждения RL. Вместо этого прямая настройка на предпочтения человека достигается путем минимизации единственной целевой функции обучения в замкнутой форме, процесс, изначально названный прямой оптимизацией предпочтений (DPO), и последованный несколькими заметными потомками. Хотя эффективен в некоторых реальных ситуациях, мы вводим новые критерии оценки, которые выявляют нерешенные недостатки в способности существующих методов DPO интерполировать между предварительно обученной эталонной моделью и эмпирическими измерениями предпочтений человека, а также неизбежные компромиссы в том, как низкокачественные и высококачественные ответы регуляризуются и обрабатываются ограничения. Наши исследования мотивируют альтернативное потери, похожие на DPO, которые доказанно смягчают эти ограничения. Эмпирические результаты подтверждают значимые аспекты наших анализов.
Длинная инференция контекста представляет вызовы на уровне системы из-за увеличенных требований к вычислениям и памяти, а также с точки зрения точности в способности рассуждать над длинными контекстами. Недавно было предложено несколько методов сжатия подсказки для уменьшения длины контекста. Однако мало работ по сравнению различных предложенных методов на различных задачах через стандартизированный анализ. Это привело к противоречивым результатам. Для решения этой проблемы мы проводим всестороннюю характеристику и оценку различных методов сжатия подсказки. В частности, мы анализируем методы извлечения, основанные на сжатии суммаризации, и методы обрезки токенов. Удивительно, что метод извлечения часто превосходит все другие подходы и позволяет сжимать до 10 раз с минимальным снижением точности. Интересно также отметить, что несмотря на несколько недавних утверждений, методы обрезки токенов часто отстают от метода извлечения. Мы обнаружили лишь незначительные улучшения в задачах суммаризации.
Пока рано делать вывод о том, что Mamba является лучшей альтернативой трансформерам для речи, не сравнив Mamba с трансформерами по показателям как производительности, так и эффективности в нескольких задачах, связанных с речью. Для получения этого вывода мы предлагаем и оцениваем три модели для трех задач: Mamba-TasNet для разделения речи, ConMamba для распознавания речи и VALL-M для синтеза речи. Мы сравниваем их с трансформерами схожего размера по производительности, памяти и скорости. Наши модели Mamba или гибридные модели Mamba-трансформер показывают сопоставимую или более высокую производительность, чем их трансформерные аналоги: Sepformer, Conformer и VALL-E. Они более эффективны, чем трансформеры по памяти и скорости для речи длительностью более пороговой, обратно пропорциональной разрешению токена речи. Mamba для разделения является наиболее эффективным, а Mamba для распознавания - наименее. Кроме того, мы показываем, что Mamba не более эффективен, чем трансформер для речи длительностью менее пороговой и показывает худшие результаты в моделях, требующих совместного моделирования текста и речи, таких как кросс- или маскированное внимание двух входов. Поэтому мы утверждаем, что превосходство Mamba или трансформера зависит от конкретных задач и моделей. Код доступен по адресам https://github.com/xi-j/Mamba-TasNet и https://github.com/xi-j/Mamba-ASR.
Модели диффузии анимации изображений человека, управляемые позой, продемонстрировали выдающиеся возможности в синтезе реалистичных видео с участием человека. Несмотря на обнадеживающие результаты, полученные предыдущими подходами, остаются вызовы в обеспечении временной согласованности анимации и обеспечении надежности с помощью стандартных детекторов поз. В данной статье мы представляем TCAN, метод анимации изображений человека, управляемый позой, который устойчив к ошибочным позам и согласован во времени. В отличие от предыдущих методов, мы используем предварительно обученную ControlNet без донастройки для использования ее обширных знаний, полученных из множества пар поза-изображение-подпись. Чтобы сохранить ControlNet замороженным, мы адаптируем LoRA к слоям UNet, позволяя сети выравнивать латентное пространство между признаками позы и внешности. Кроме того, добавив дополнительный временной слой к ControlNet, мы улучшаем надежность против выбросов детектора поз. Через анализ карт внимания по временной оси, мы также разработали новую карту температуры, используя информацию о позе, что позволяет получить более статичный фон. Обширные эксперименты демонстрируют, что предложенный метод может достичь обнадеживающих результатов в задачах синтеза видео, охватывающих различные позы, такие как чиби. Страница проекта: https://eccv2024tcan.github.io/
Недавние достижения в моделях с извлечением информации для описания изображений подчеркивают пользу извлечения связанных описаний для создания эффективных, легких моделей с сильными возможностями переноса области. Хотя эти модели демонстрируют успех извлечения информации, модели извлечения все еще далеки от идеальных на практике: извлеченная информация иногда может ввести модель в заблуждение, что приводит к неправильной генерации и ухудшению производительности. В данной статье мы анализируем устойчивость модели описания изображений SmallCap с извлечением информации. Наш анализ показывает, что модель чувствительна к токенам, которые появляются в большинстве извлеченных описаний, и атрибуция ввода показывает, что эти токены вероятно копируются в сгенерированный вывод. Учитывая эти результаты, мы предлагаем обучать модель, выбирая извлеченные описания из более разнообразных наборов. Это снижает вероятность того, что модель научится копировать основные токены, и улучшает как производительность внутри области, так и междоменную производительность.
Данное исследование решает критическую проблему в практиках настройки безопасности Больших Языковых Моделей (БЯМ), выявляя и преодолевая предвзятость отказа в данных настройки безопасности, что подрывает способность моделей адекватно отказываться от генерации небезопасного контента. Мы представляем новый подход, Декоррелированное Обучение Отказу (DeRTa), разработанный для того, чтобы дать возможность БЯМ отказываться от выполнения вредных запросов на любой позиции ответа, значительно улучшая их безопасные возможности. DeRTa включает два новаторских компонента: (1) Оценка Максимального Правдоподобия (MLE) с Префиксом Вредного Ответа, которая обучает модели распознавать и избегать небезопасного контента, добавляя сегмент вредного ответа в начало безопасного ответа, и (2) Оптимизация Укрепленного Перехода (RTO), которая дает моделям возможность последовательно переходить от потенциального вреда к отказу от безопасности на протяжении всей последовательности вредного ответа. Наша эмпирическая оценка, проведенная с использованием семейств моделей LLaMA3 и Mistral в шести сценариях атак, демонстрирует, что наш метод не только улучшает безопасность модели без ущерба производительности, но и превосходит известные модели, такие как GPT-4, в защите от атак. Важно отметить, что наш подход успешно защищает от недавно разработанных продвинутых методов атак (например, CodeAttack), которые взломали GPT-4 и LLaMA3-70B-Instruct. Наш код и данные можно найти по ссылке https://github.com/RobustNLP/DeRTa.
Синтезирование неоднородных радиоэлектронных форм (NeRFs) при произвольном освещении стало ключевой проблемой в последние годы. Недавние усилия направлены на решение этой проблемы путем извлечения параметров, основанных на физике, которые затем могут быть отображены при произвольном освещении, однако они ограничены в диапазоне сцен, которые они могут обрабатывать, обычно неправильно обрабатывая отражающие сцены. Мы предлагаем метод RRM, способный извлекать материалы, геометрию и окружающее освещение сцены даже в присутствии сильно отражающих объектов. Наш метод состоит из представления радиоэлектронного поля, учитывающего физические особенности, которое информирует параметры, основанные на физике, и экспрессивной структуры окружающего освещения на основе лапласианской пирамиды. Мы демонстрируем, что наши результаты превосходят современные достижения в задачах извлечения параметров, что приводит к высококачественной переосвещенности и синтезу нового вида на поверхностных сценах.