Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

SpreadsheetLLM: Кодирование электронных таблиц для крупных языковых моделей
SpreadsheetLLM: Encoding Spreadsheets for Large Language Models

Jul 12

ByYuzhang Tian, Jianbo Zhao, Haoyu Dong, Junyu Xiong, Shiyu Xia, Mengyu Zhou, Yun Lin, José Cambronero, Yeye He, Shi Han, Dongmei Zhang

139

Таблицы, с их обширными двумерными сетками, различными макетами и разнообразными опциями форматирования, представляют существенные вызовы для больших языковых моделей (LLM). В ответ на это мы представляем SpreadsheetLLM, первоначально разработанный эффективный метод кодирования, целью которого является раскрытие и оптимизация мощных возможностей понимания и рассуждения LLM на таблицах. Сначала мы предлагаем подход сериализации "ванильного" типа, который включает адреса ячеек, значения и форматы. Однако этот подход ограничивается ограничениями токенов LLM, что делает его непрактичным для большинства приложений. Для решения этой проблемы мы разрабатываем SheetCompressor, инновационную систему кодирования, которая эффективно сжимает таблицы для LLM. Она включает три модуля: структурно-якорное сжатие, обратный индексный перевод и агрегацию с учетом формата данных. Это значительно улучшает производительность в задаче обнаружения таблиц в таблицах, превосходя подход "ванильного" типа на 25,6% в контекстном обучении GPT4. Более того, донастроенная LLM с SheetCompressor имеет среднее соотношение сжатия в 25 раз, но достигает передового показателя F1 в 78,9%, превосходя лучшие существующие модели на 12,3%. Наконец, мы предлагаем Цепочку Таблиц для последующих задач понимания таблиц и проверяем в новой и требовательной задаче вопросов и ответов по таблицам. Мы методично используем врожденный макет и структуру таблиц, демонстрируя, что SpreadsheetLLM эффективен в различных задачах с таблицами.

Человекоподобная эпизодическая память для бесконечных контекстов LLM.
Human-like Episodic Memory for Infinite Context LLMs

Jul 12

ByZafeirios Fountas, Martin A Benfeghoul, Adnan Oomerjee, Fenia Christopoulou, Gerasimos Lampouras, Haitham Bou-Ammar, Jun Wang

Большие языковые модели (LLM) продемонстрировали выдающиеся возможности, однако все еще испытывают трудности с обработкой обширных контекстов, что ограничивает их способность поддерживать согласованность и точность на длинных последовательностях. В отличие от этого, человеческий мозг отличается в умении организовывать и извлекать эпизодические опыты на протяжении огромных временных масштабов, охватывающих всю жизнь. В данной работе мы представляем EM-LLM, новый подход, который интегрирует ключевые аспекты человеческой эпизодической памяти и когнитивных событий в LLM, позволяя им эффективно обрабатывать практически бесконечные длины контекста, сохраняя при этом вычислительную эффективность. EM-LLM организует последовательности токенов в согласованные эпизодические события с использованием комбинации байесовского удивления и уточнения границ на основе графов в режиме онлайн. При необходимости эти события извлекаются через двухэтапный процесс памяти, объединяя похожесть и временную последовательность для эффективного и похожего на человеческий доступ к актуальной информации. Эксперименты на наборе данных LongBench показывают превосходную производительность EM-LLM, превосходя модель InfLLM нового поколения с общим относительным улучшением на 4,3% по различным задачам, включая улучшение на 33% в задаче Поиска пассажа. Более того, наш анализ выявляет сильные корреляции между сегментацией событий EM-LLM и событиями, воспринимаемыми человеком, что указывает на связь между этой искусственной системой и ее биологическим аналогом. Эта работа не только продвигает возможности LLM в обработке расширенных контекстов, но также предоставляет вычислительную основу для изучения механизмов человеческой памяти, открывая новые перспективы для междисциплинарных исследований в области ИИ и когнитивной науки.

Toto: Оптимизированный трансформер для временных рядов для обеспечения наблюдаемости
Toto: Time Series Optimized Transformer for Observability

Jul 10

ByBen Cohen, Emaad Khwaja, Kan Wang, Charles Masson, Elise Ramé, Youssef Doubli, Othmane Abou-Amal

Данный технический отчет описывает Time Series Optimized Transformer for Observability (Toto) - новую передовую базовую модель для прогнозирования временных рядов, разработанную компанией Datadog. Помимо улучшения передовых технологий на обобщенных бенчмарках временных рядов в областях, таких как электроэнергетика и погода, данная модель является первой универсальной базовой моделью для прогнозирования временных рядов, специально настроенной на метрики наблюдаемости. Toto был обучен на наборе данных из одного триллиона точек временных рядов, что является самым большим среди всех в настоящее время опубликованных базовых моделей временных рядов. Помимо общедоступных наборов данных временных рядов, 75% данных, использованных для обучения Toto, составляют полностью анонимные числовые метрические данные с платформы Datadog. В наших экспериментах Toto превзошел существующие базовые модели временных рядов по данным наблюдаемости. Он достигает этого, также превосходя в общих задачах прогнозирования, демонстрируя передовую производительность на нескольких открытых бенчмарках с нулевым обучением.

MUSCLE: Стратегия обновления модели для совместного развития LLM
MUSCLE: A Model Update Strategy for Compatible LLM Evolution

Jul 12

ByJessica Echterhoff, Fartash Faghri, Raviteja Vemulapalli, Ting-Yao Hu, Chun-Liang Li, Oncel Tuzel, Hadi Pouransari

Большие языковые модели (LLM) часто обновляются из-за изменений данных или архитектуры для улучшения их производительности. При обновлении моделей разработчики часто сосредотачиваются на увеличении общих метрик производительности с меньшим вниманием к совместимости с предыдущими версиями моделей. Однако пользователи часто создают модель функциональности и возможностей конкретной модели машинного обучения, с которой они взаимодействуют. Они должны адаптировать свою модель мышления с каждым обновлением -- это утомительная задача, которая может привести к недовольству пользователей. На практике адаптеры доочередных задач с тонкой настройкой полагаются на предварительно обученные базовые модели LLM. Когда эти базовые модели обновляются, эти модели доочередных задач, с которыми взаимодействуют пользователи, сталкиваются с регрессией экземпляров или отрицательными изменениями -- ранее правильно предсказанные экземпляры теперь предсказываются неверно. Это происходит даже в том случае, если процедуры обучения доочередных задач остаются идентичными. Наша работа направлена на обеспечение бесшовных обновлений моделей для пользователя двумя способами. Во-первых, мы предоставляем метрики оценки для понятия совместимости с предыдущими версиями моделей, специально для генеративных задач, но также применимых для дискриминативных задач. Мы наблюдаем регрессию и несоответствия между различными версиями моделей на разнообразном наборе задач и обновлений моделей. Во-вторых, мы предлагаем стратегию обучения для минимизации количества несоответствий при обновлении моделей, включая обучение модели совместимости, которая может улучшить языковые модели с тонкой настройкой задач. Мы уменьшаем отрицательные изменения -- случаи, когда предыдущая версия модели была правильной, а новая неверной -- на до 40% от Llama 1 к Llama 2.

Хирургическая модель: модуляция поведения LLM путем простого редактирования параметров
Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing

Jul 11

ByHuanqian Wang, Yang Yue, Rui Lu, Jingxin Shi, Andrew Zhao, Shenzhi Wang, Shiji Song, Gao Huang

Большие языковые модели (LLM) продемонстрировали большой потенциал как универсальные помощники, показывая мощные навыки понимания задач и решения проблем. Для использования LLM в качестве искусственных интеллектуальных помощников крайне важно, чтобы эти модели обладали желательными поведенческими характеристиками, такими как нетоксичность и устойчивость к попыткам взлома. Текущие методы детоксикации или предотвращения взлома обычно включают в себя Надзорное Тонкое Настройка (SFT) или Обучение с Подкреплением от Обратной Связи Человека (RLHF), что требует настройки миллиардов параметров с помощью градиентного спуска с существенными вычислительными затратами. Более того, модели, измененные через SFT и RLHF, могут отклоняться от предварительно обученных моделей, что потенциально может привести к ухудшению основных способностей LLM. В данной статье мы наблюдаем, что удивительным образом прямое редактирование небольшого подмножества параметров может эффективно модулировать определенные поведенческие характеристики LLM, такие как детоксикация и устойчивость к взлому. Конкретно, для поведения, которое мы стремимся избежать, мы используем линейный классификатор, который мы называем зондом поведения, для классификации двоичных меток поведения в скрытом пространстве состояний LLM. Используя этот зонд, мы представляем алгоритм для определения критического подмножества параметров LLM, которые значительно влияют на это целевое поведение. Затем мы прямо редактируем эти выбранные параметры, сдвигая их в сторону зонда поведения. Такой метод прямого редактирования параметров требует только вычислительных ресурсов на уровне вывода. Эксперименты показывают, что в представительной задаче детоксикации наш подход достигает снижения до 90,0\% токсичности на наборе данных RealToxicityPrompts и 49,2\% на ToxiGen, сохраняя при этом общие способности LLM в областях, таких как здравый смысл, ответы на вопросы и математика. Наш код доступен по адресу https://github.com/lucywang720/model-surgery.

Технический отчет H2O-Danube3
H2O-Danube3 Technical Report

Jul 12

ByPascal Pfeiffer, Philipp Singer, Yauhen Babakhin, Gabor Fodor, Nischay Dhankhar, Sri Satish Ambati

Мы представляем H2O-Danube3, серию небольших языковых моделей, включающую в себя H2O-Danube3-4B, обученную на 6T токенов, и H2O-Danube3-500M, обученную на 4T токенов. Наши модели предварительно обучены на высококачественных веб-данных, в основном состоящих из английских токенов, на трех этапах с различными комбинациями данных перед окончательной настройкой под наблюдением для версии чата. Модели проявляют высокую конкурентоспособность по множеству академических, чатовых и тестовых показателей. Благодаря их компактной архитектуре, H2O-Danube3 может быть эффективно запущена на современном смартфоне, обеспечивая возможности локального вывода и быстрые возможности обработки даже на мобильных устройствах. Мы делаем все модели открыто доступными под лицензией Apache 2.0, дополнительно демократизируя LLM для более широкой аудитории экономически.

GAVEL: Генерация игр с помощью эволюции и языковых моделей
GAVEL: Generating Games Via Evolution and Language Models

Jul 12

ByGraham Todd, Alexander Padula, Matthew Stephenson, Éric Piette, Dennis J. N. J. Soemers, Julian Togelius

Автоматическое создание новых и интересных игр - это сложная задача. Среди вызовов стоит выделить представление правил игры в форме, пригодной для вычислений, поиск в обширном пространстве потенциальных игр в большинстве таких представлений, а также точную оценку оригинальности и качества ранее не виденных игр. Предыдущие работы по автоматизированному созданию игр в основном сосредоточены на относительно ограниченных представлениях правил и полагаются на доменно-специфические эвристики. В данной работе мы исследуем создание новых игр на сравнительно обширном языке описания игр Ludii, который кодирует правила более 1000 настольных игр различных стилей и режимов игры. Мы черпаем вдохновение из недавних достижений в области крупных языковых моделей и эволюционных вычислений, чтобы обучить модель, которая интеллектуально мутирует и рекомбинирует игры и механики, выраженные в виде кода. Мы демонстрируем как количественно, так и качественно, что наш подход способен создавать новые и интересные игры, включая области потенциального пространства правил, не охваченные существующими играми в наборе данных Ludii. Образцы созданных игр доступны для игры онлайн через портал Ludii.

Слои трансформера как художники
Transformer Layers as Painters

Jul 12

ByQi Sun, Marc Pickett, Aakash Kumar Nain, Llion Jones

Несмотря на их почти универсальное применение для крупных языковых моделей, внутренние механизмы трансформеров плохо понимаются. Мы стремимся лучше понять влияние удаления или переупорядочивания информации во всех слоях предварительно обученного трансформера. Такое понимание может как улучшить использование существующих моделей, так и привести к архитектурным улучшениям для создания новых вариантов. Мы представляем серию эмпирических исследований на замороженных моделях, которые показывают, что нижние и конечные слои предварительно обученных трансформеров отличаются от средних слоев, но что средние слои обладают удивительным уровнем однородности. Мы также показываем, что некоторые классы проблем обладают устойчивостью к пропуску слоев, запуску слоев в другом порядке, отличном от обученного, или запуску слоев параллельно. Наши наблюдения подтверждают, что даже замороженные предварительно обученные модели могут гибко обменивать точность на задержку, пропуская слои или запуская слои параллельно.

StyleSplat: перенос стиля трехмерных объектов с помощью гауссовского сплетения
StyleSplat: 3D Object Style Transfer with Gaussian Splatting

Jul 12

BySahil Jain, Avik Kuthiala, Prabhdeep Singh Sethi, Prakanshul Saxena

Недавние достижения в области радиационных полей открыли новые возможности для создания высококачественных 3D-объектов и сцен. Перенос стилей может улучшить эти 3D-объекты с разнообразными художественными стилями, трансформируя творческое выражение. Однако существующие техники часто медленны или не способны локализовать перенос стилей на конкретные объекты. Мы представляем StyleSplat, легкий метод стилизации 3D-объектов в сценах, представленных 3D-гауссовыми функциями от изображений стилей-образцов. Наш подход сначала изучает фотореалистичное представление сцены с использованием 3D-гауссовского сплэттинга, одновременно сегментируя отдельные 3D-объекты. Затем мы используем потерю соответствия признаков ближайшего соседа для донастройки гауссовских функций выбранных объектов, выравнивая их коэффициенты сферических гармоник с изображением стиля для обеспечения согласованности и визуального привлекательности. StyleSplat позволяет быстро и настраиваемо выполнять перенос стилей и локализованную стилизацию нескольких объектов в сцене, каждый с собственным стилем. Мы демонстрируем его эффективность на различных 3D-сценах и стилях, показывая улучшенный контроль и настраиваемость в создании 3D.

SPIQA: Набор данных для мультимодального вопросно-ответного моделирования на научных статьях
SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers

Jul 12

ByShraman Pramanick, Rama Chellappa, Subhashini Venugopalan

Поиск ответов на вопросы в длинных научных исследовательских статьях является важной областью изучения, которая помогает читателям быстро находить ответы на свои запросы. Однако существующие наборы данных для вопросно-ответных систем (QA) на основе научных статей ограничены по масштабу и фокусируются исключительно на текстовом контенте. Для преодоления этого ограничения мы представляем SPIQA (Scientific Paper Image Question Answering) - первый крупномасштабный набор данных QA, специально разработанный для интерпретации сложных иллюстраций и таблиц в контексте научных исследовательских статей по различным областям информатики. Используя широту экспертизы и возможности мультимодальных моделей языка большого объема (MLLMs) для понимания иллюстраций, мы применяем автоматическое и ручное курирование для создания набора данных. Мы разрабатываем задачу поиска информации, включающую несколько изображений, охватывающих широкий спектр графиков, диаграмм, таблиц, схематических диаграмм и визуализаций результатов. SPIQA включает 270 тыс. вопросов, разделенных на обучающую, валидационную и три различных набора для оценки. Проводя обширные эксперименты с 12 ведущими фундаментальными моделями, мы оцениваем способность текущих мультимодальных систем понимать тонкие аспекты научных статей. Кроме того, мы предлагаем стратегию оценки Chain-of-Thought (CoT) с пошаговым извлечением контекста, позволяющую детальную оценку и улучшение производительности модели. Мы также исследуем верхние границы улучшения производительности с дополнительной текстовой информацией, выделяя ее многообещающий потенциал для будущих исследований и влияние набора данных на революционизацию взаимодействия с научной литературой.

Характеристика методов сжатия подсказок для вывода на основе длинного контекста
Characterizing Prompt Compression Methods for Long Context Inference

Jul 11

BySiddharth Jha, Lutfi Eren Erdogan, Sehoon Kim, Kurt Keutzer, Amir Gholami

Длинная инференция контекста представляет вызовы на уровне системы из-за увеличенных требований к вычислениям и памяти, а также с точки зрения точности в способности рассуждать над длинными контекстами. Недавно было предложено несколько методов сжатия подсказки для уменьшения длины контекста. Однако мало работ по сравнению различных предложенных методов на различных задачах через стандартизированный анализ. Это привело к противоречивым результатам. Для решения этой проблемы мы проводим всестороннюю характеристику и оценку различных методов сжатия подсказки. В частности, мы анализируем методы извлечения, основанные на сжатии суммаризации, и методы обрезки токенов. Удивительно, что метод извлечения часто превосходит все другие подходы и позволяет сжимать до 10 раз с минимальным снижением точности. Интересно также отметить, что несмотря на несколько недавних утверждений, методы обрезки токенов часто отстают от метода извлечения. Мы обнаружили лишь незначительные улучшения в задачах суммаризации.

Новые принципы для прямой оптимизации предпочтений
New Desiderata for Direct Preference Optimization

Jul 12

ByXiangkun Hu, Tong He, David Wipf

Большие языковые модели в прошлом обычно полагались на какую-либо форму обучения с подкреплением с обратной связью от человека (RLHF), чтобы лучше согласовывать ответы модели с предпочтениями человека. Однако из-за часто наблюдаемых нестабильностей при реализации этих конвейеров RLHF недавно были введены различные техники репараметризации, чтобы обойти необходимость отдельного обучения модели вознаграждения RL. Вместо этого прямая настройка на предпочтения человека достигается путем минимизации единственной целевой функции обучения в замкнутой форме, процесс, изначально названный прямой оптимизацией предпочтений (DPO), и последованный несколькими заметными потомками. Хотя эффективен в некоторых реальных ситуациях, мы вводим новые критерии оценки, которые выявляют нерешенные недостатки в способности существующих методов DPO интерполировать между предварительно обученной эталонной моделью и эмпирическими измерениями предпочтений человека, а также неизбежные компромиссы в том, как низкокачественные и высококачественные ответы регуляризуются и обрабатываются ограничения. Наши исследования мотивируют альтернативное потери, похожие на DPO, которые доказанно смягчают эти ограничения. Эмпирические результаты подтверждают значимые аспекты наших анализов.

Речевой Слизерин: Исследование производительности и эффективности Мамбы для разделения речи, распознавания и синтеза
Speech Slytherin: Examining the Performance and Efficiency of Mamba for Speech Separation, Recognition, and Synthesis

Jul 13

ByXilin Jiang, Yinghao Aaron Li, Adrian Nicolas Florea, Cong Han, Nima Mesgarani

Пока рано делать вывод о том, что Mamba является лучшей альтернативой трансформерам для речи, не сравнив Mamba с трансформерами по показателям как производительности, так и эффективности в нескольких задачах, связанных с речью. Для получения этого вывода мы предлагаем и оцениваем три модели для трех задач: Mamba-TasNet для разделения речи, ConMamba для распознавания речи и VALL-M для синтеза речи. Мы сравниваем их с трансформерами схожего размера по производительности, памяти и скорости. Наши модели Mamba или гибридные модели Mamba-трансформер показывают сопоставимую или более высокую производительность, чем их трансформерные аналоги: Sepformer, Conformer и VALL-E. Они более эффективны, чем трансформеры по памяти и скорости для речи длительностью более пороговой, обратно пропорциональной разрешению токена речи. Mamba для разделения является наиболее эффективным, а Mamba для распознавания - наименее. Кроме того, мы показываем, что Mamba не более эффективен, чем трансформер для речи длительностью менее пороговой и показывает худшие результаты в моделях, требующих совместного моделирования текста и речи, таких как кросс- или маскированное внимание двух входов. Поэтому мы утверждаем, что превосходство Mamba или трансформера зависит от конкретных задач и моделей. Код доступен по адресам https://github.com/xi-j/Mamba-TasNet и https://github.com/xi-j/Mamba-ASR.

TCAN: Анимация изображений людей с временно согласованным руководством позой с использованием моделей диффузии
TCAN: Animating Human Images with Temporally Consistent Pose Guidance using Diffusion Models

Jul 12

ByJeongho Kim, Min-Jung Kim, Junsoo Lee, Jaegul Choo

Модели диффузии анимации изображений человека, управляемые позой, продемонстрировали выдающиеся возможности в синтезе реалистичных видео с участием человека. Несмотря на обнадеживающие результаты, полученные предыдущими подходами, остаются вызовы в обеспечении временной согласованности анимации и обеспечении надежности с помощью стандартных детекторов поз. В данной статье мы представляем TCAN, метод анимации изображений человека, управляемый позой, который устойчив к ошибочным позам и согласован во времени. В отличие от предыдущих методов, мы используем предварительно обученную ControlNet без донастройки для использования ее обширных знаний, полученных из множества пар поза-изображение-подпись. Чтобы сохранить ControlNet замороженным, мы адаптируем LoRA к слоям UNet, позволяя сети выравнивать латентное пространство между признаками позы и внешности. Кроме того, добавив дополнительный временной слой к ControlNet, мы улучшаем надежность против выбросов детектора поз. Через анализ карт внимания по временной оси, мы также разработали новую карту температуры, используя информацию о позе, что позволяет получить более статичный фон. Обширные эксперименты демонстрируют, что предложенный метод может достичь обнадеживающих результатов в задачах синтеза видео, охватывающих различные позы, такие как чиби. Страница проекта: https://eccv2024tcan.github.io/

Понимание устойчивости поиска для поисково-дополненного описания изображений
Understanding Retrieval Robustness for Retrieval-Augmented Image Captioning

Jun 4

ByWenyan Li, Jiaang Li, Rita Ramos, Raphael Tang, Desmond Elliott

Недавние достижения в моделях с извлечением информации для описания изображений подчеркивают пользу извлечения связанных описаний для создания эффективных, легких моделей с сильными возможностями переноса области. Хотя эти модели демонстрируют успех извлечения информации, модели извлечения все еще далеки от идеальных на практике: извлеченная информация иногда может ввести модель в заблуждение, что приводит к неправильной генерации и ухудшению производительности. В данной статье мы анализируем устойчивость модели описания изображений SmallCap с извлечением информации. Наш анализ показывает, что модель чувствительна к токенам, которые появляются в большинстве извлеченных описаний, и атрибуция ввода показывает, что эти токены вероятно копируются в сгенерированный вывод. Учитывая эти результаты, мы предлагаем обучать модель, выбирая извлеченные описания из более разнообразных наборов. Это снижает вероятность того, что модель научится копировать основные токены, и улучшает как производительность внутри области, так и междоменную производительность.

Отклоняйте запросы в случае ощущения угрозы: улучшение безопасности в моделях языков с помощью обучения отказу, осуществляемого независимо.
Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training

Jul 12

ByYouliang Yuan, Wenxiang Jiao, Wenxuan Wang, Jen-tse Huang, Jiahao Xu, Tian Liang, Pinjia He, Zhaopeng Tu

Данное исследование решает критическую проблему в практиках настройки безопасности Больших Языковых Моделей (БЯМ), выявляя и преодолевая предвзятость отказа в данных настройки безопасности, что подрывает способность моделей адекватно отказываться от генерации небезопасного контента. Мы представляем новый подход, Декоррелированное Обучение Отказу (DeRTa), разработанный для того, чтобы дать возможность БЯМ отказываться от выполнения вредных запросов на любой позиции ответа, значительно улучшая их безопасные возможности. DeRTa включает два новаторских компонента: (1) Оценка Максимального Правдоподобия (MLE) с Префиксом Вредного Ответа, которая обучает модели распознавать и избегать небезопасного контента, добавляя сегмент вредного ответа в начало безопасного ответа, и (2) Оптимизация Укрепленного Перехода (RTO), которая дает моделям возможность последовательно переходить от потенциального вреда к отказу от безопасности на протяжении всей последовательности вредного ответа. Наша эмпирическая оценка, проведенная с использованием семейств моделей LLaMA3 и Mistral в шести сценариях атак, демонстрирует, что наш метод не только улучшает безопасность модели без ущерба производительности, но и превосходит известные модели, такие как GPT-4, в защите от атак. Важно отметить, что наш подход успешно защищает от недавно разработанных продвинутых методов атак (например, CodeAttack), которые взломали GPT-4 и LLaMA3-70B-Instruct. Наш код и данные можно найти по ссылке https://github.com/RobustNLP/DeRTa.

RRM: Восстанавливаемые ресурсы с использованием извлечения материала под руководством радиации
RRM: Relightable assets using Radiance guided Material extraction

Jul 8

ByDiego Gomez, Julien Philip, Adrien Kaiser, Élie Michel

Синтезирование неоднородных радиоэлектронных форм (NeRFs) при произвольном освещении стало ключевой проблемой в последние годы. Недавние усилия направлены на решение этой проблемы путем извлечения параметров, основанных на физике, которые затем могут быть отображены при произвольном освещении, однако они ограничены в диапазоне сцен, которые они могут обрабатывать, обычно неправильно обрабатывая отражающие сцены. Мы предлагаем метод RRM, способный извлекать материалы, геометрию и окружающее освещение сцены даже в присутствии сильно отражающих объектов. Наш метод состоит из представления радиоэлектронного поля, учитывающего физические особенности, которое информирует параметры, основанные на физике, и экспрессивной структуры окружающего освещения на основе лапласианской пирамиды. Мы демонстрируем, что наши результаты превосходят современные достижения в задачах извлечения параметров, что приводит к высококачественной переосвещенности и синтезу нового вида на поверхностных сценах.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

SpreadsheetLLM: Кодирование электронных таблиц для крупных языковых моделей
SpreadsheetLLM: Encoding Spreadsheets for Large Language Models

Jul 12

ByYuzhang Tian, Jianbo Zhao, Haoyu Dong, Junyu Xiong, Shiyu Xia, Mengyu Zhou, Yun Lin, José Cambronero, Yeye He, Shi Han, Dongmei Zhang

139

Человекоподобная эпизодическая память для бесконечных контекстов LLM.
Human-like Episodic Memory for Infinite Context LLMs

Jul 12

ByZafeirios Fountas, Martin A Benfeghoul, Adnan Oomerjee, Fenia Christopoulou, Gerasimos Lampouras, Haitham Bou-Ammar, Jun Wang

Toto: Оптимизированный трансформер для временных рядов для обеспечения наблюдаемости
Toto: Time Series Optimized Transformer for Observability

Jul 10

ByBen Cohen, Emaad Khwaja, Kan Wang, Charles Masson, Elise Ramé, Youssef Doubli, Othmane Abou-Amal

MUSCLE: Стратегия обновления модели для совместного развития LLM
MUSCLE: A Model Update Strategy for Compatible LLM Evolution

Jul 12

ByJessica Echterhoff, Fartash Faghri, Raviteja Vemulapalli, Ting-Yao Hu, Chun-Liang Li, Oncel Tuzel, Hadi Pouransari

Хирургическая модель: модуляция поведения LLM путем простого редактирования параметров
Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing

Jul 11

ByHuanqian Wang, Yang Yue, Rui Lu, Jingxin Shi, Andrew Zhao, Shenzhi Wang, Shiji Song, Gao Huang

StyleSplat: перенос стиля трехмерных объектов с помощью гауссовского сплетения
StyleSplat: 3D Object Style Transfer with Gaussian Splatting

Jul 12

BySahil Jain, Avik Kuthiala, Prabhdeep Singh Sethi, Prakanshul Saxena

SPIQA: Набор данных для мультимодального вопросно-ответного моделирования на научных статьях
SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers

Jul 12

ByShraman Pramanick, Rama Chellappa, Subhashini Venugopalan

Характеристика методов сжатия подсказок для вывода на основе длинного контекста
Characterizing Prompt Compression Methods for Long Context Inference

Jul 11

BySiddharth Jha, Lutfi Eren Erdogan, Sehoon Kim, Kurt Keutzer, Amir Gholami

Новые принципы для прямой оптимизации предпочтений
New Desiderata for Direct Preference Optimization

Jul 12

ByXiangkun Hu, Tong He, David Wipf

Речевой Слизерин: Исследование производительности и эффективности Мамбы для разделения речи, распознавания и синтеза
Speech Slytherin: Examining the Performance and Efficiency of Mamba for Speech Separation, Recognition, and Synthesis

Jul 13

ByXilin Jiang, Yinghao Aaron Li, Adrian Nicolas Florea, Cong Han, Nima Mesgarani

TCAN: Анимация изображений людей с временно согласованным руководством позой с использованием моделей диффузии
TCAN: Animating Human Images with Temporally Consistent Pose Guidance using Diffusion Models

Jul 12

ByJeongho Kim, Min-Jung Kim, Junsoo Lee, Jaegul Choo

Понимание устойчивости поиска для поисково-дополненного описания изображений
Understanding Retrieval Robustness for Retrieval-Augmented Image Captioning

Jun 4

ByWenyan Li, Jiaang Li, Rita Ramos, Raphael Tang, Desmond Elliott

Отклоняйте запросы в случае ощущения угрозы: улучшение безопасности в моделях языков с помощью обучения отказу, осуществляемого независимо.
Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training

Jul 12

ByYouliang Yuan, Wenxiang Jiao, Wenxuan Wang, Jen-tse Huang, Jiahao Xu, Tian Liang, Pinjia He, Zhaopeng Tu

RRM: Восстанавливаемые ресурсы с использованием извлечения материала под руководством радиации
RRM: Relightable assets using Radiance guided Material extraction

Jul 8

ByDiego Gomez, Julien Philip, Adrien Kaiser, Élie Michel