Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Отчет о подсказках: Систематический обзор техник подсказок
The Prompt Report: A Systematic Survey of Prompting Techniques

Jun 6

BySander Schulhoff, Michael Ilie, Nishant Balepur, Konstantine Kahadze, Amanda Liu, Chenglei Si, Yinheng Li, Aayush Gupta, HyoJung Han, Sevien Schulhoff, Pranav Sandeep Dulepet, Saurav Vidyadhara, Dayeon Ki, Sweta Agrawal, Chau Pham, Gerson Kroiz, Feileen Li, Hudson Tao, Ashay Srivastava, Hevander Da Costa, Saloni Gupta, Megan L. Rogers, Inna Goncearenco, Giuseppe Sarli, Igor Galynker, Denis Peskoff, Marine Carpuat, Jules White, Shyamal Anadkat, Alexander Hoyle, Philip Resnik

Системы генеративного искусственного интеллекта (GenAI) все чаще применяются в различных отраслях промышленности и исследовательских средах. Разработчики и конечные пользователи взаимодействуют с этими системами с помощью формулировки запросов или инженерии запросов. Хотя формулировка запросов является широко распространенным и хорошо изученным концептом, существует противоречивая терминология и недостаточное онтологическое понимание того, что представляет собой запрос из-за молодости этой области. В данной статье устанавливается структурированное понимание запросов путем создания таксономии техник формулировки запросов и анализа их использования. Мы представляем обширный словарь из 33 терминов, таксономию из 58 техник формулировки текстовых запросов и 40 техник для других модалей. Кроме того, мы представляем мета-анализ всей литературы по префиксной формулировке запросов на естественном языке.

Изображение стоит 32 токена для восстановления и генерации.
An Image is Worth 32 Tokens for Reconstruction and Generation

Jun 11

ByQihang Yu, Mark Weber, Xueqing Deng, Xiaohui Shen, Daniel Cremers, Liang-Chieh Chen

Недавние достижения в области генеративных моделей подчеркнули ключевую роль токенизации изображений в эффективном синтезе изображений высокого разрешения. Токенизация, которая преобразует изображения в латентные представления, снижает вычислительные затраты по сравнению с прямой обработкой пикселей и улучшает эффективность и эффективность процесса генерации. Предыдущие методы, такие как VQGAN, обычно используют 2D латентные сетки с фиксированными коэффициентами понижения дискретизации. Однако эти 2D токенизации сталкиваются с проблемами в управлении встроенными избыточностями, присутствующими в изображениях, где смежные области часто проявляют сходства. Для преодоления этой проблемы мы представляем трансформерную 1-мерную токенизатор (TiTok), инновационный подход, который токенизирует изображения в 1D латентные последовательности. TiTok обеспечивает более компактное латентное представление, обеспечивая значительно более эффективные и эффективные представления, чем традиционные техники. Например, изображение размером 256 x 256 x 3 может быть сокращено всего до 32 дискретных токенов, что значительно меньше, чем 256 или 1024 токена, полученных предыдущими методами. Несмотря на свою компактность, TiTok достигает конкурентоспособной производительности по сравнению с передовыми подходами. Конкретно, используя ту же структуру генератора, TiTok достигает 1,97 gFID, превосходя базовую модель MaskGIT значительно на 4,21 в тесте ImageNet 256 x 256. Преимущества TiTok становятся еще более значительными, когда речь идет о более высоком разрешении. В тесте ImageNet 512 x 512 TiTok не только превосходит передовую модель диффузии DiT-XL/2 (gFID 2,74 против 3,04), но также сокращает токены изображения в 64 раза, что приводит к ускорению процесса генерации в 410 раз. Наша наиболее эффективная вариация значительно превосходит DiT-XL/2 (gFID 2,13 против 3,04), сохраняя при этом возможность генерировать высококачественные образцы в 74 раза быстрее.

McEval: Массовая многоязычная оценка кода
McEval: Massively Multilingual Code Evaluation

Jun 11

ByLinzheng Chai, Shukai Liu, Jian Yang, Yuwei Yin, Ke Jin, Jiaheng Liu, Tao Sun, Ge Zhang, Changyu Ren, Hongcheng Guo, Zekun Wang, Boyang Wang, Xianjie Wu, Bing Wang, Tongliang Li, Liqun Yang, Sufeng Duan, Zhoujun Li

Большие языковые модели (LLM) для кода продемонстрировали выдающиеся успехи в задачах понимания, завершения и генерации кода. Программные бенчмарки, состоящие из набора задач по коду и соответствующих тестовых случаев, служат стандартом для оценки возможностей различных LLM в таких задачах. Однако большинство существующих бенчмарков в основном сосредоточены на Python и до сих пор ограничены небольшим количеством языков, где другие языки переводятся из образцов на Python (например, MultiPL-E), что снижает разнообразие данных. Для дальнейшего содействия исследованиям кодовых LLM мы предлагаем массово-многоязычный кодовый бенчмарк, охватывающий 40 языков программирования (McEval) с 16 тыс. тестовыми образцами, что значительно расширяет возможности кодовых LLM в многоязычных сценариях. Бенчмарк включает в себя сложные задачи о завершении, понимании и генерации кода с тщательно подобранными массово-многоязычными корпусами инструкций McEval-Instruct. Кроме того, мы представляем эффективного многоязычного кодера mCoder, обученного на McEval-Instruct, для поддержки генерации многоязычных языков программирования. Обширные экспериментальные результаты на McEval показывают, что между открытыми моделями и закрытыми LLM (например, модели серии GPT) на различных языках все еще существует сложный путь. Корпусы инструкций, оценочный бенчмарк и таблица лидеров доступны по ссылке https://mceval.github.io/.

Редактирование изображений без обучения с использованием имитации по образцу.
Zero-shot Image Editing with Reference Imitation

Jun 11

ByXi Chen, Yutong Feng, Mengting Chen, Yiyang Wang, Shilong Zhang, Yu Liu, Yujun Shen, Hengshuang Zhao

Редактирование изображений является практической, но сложной задачей, учитывая разнообразные требования пользователей, где одной из самых сложных частей является точное описание того, как должно выглядеть отредактированное изображение. В данной работе мы представляем новую форму редактирования, названную имитационным редактированием, чтобы помочь пользователям более удобно проявлять свою креативность. Конкретно, для редактирования области интереса на изображении пользователи могут свободно черпать вдохновение из некоторых случайных ссылок (например, некоторые относящиеся к теме изображения, найденные онлайн), не беспокоясь о соответствии между эталоном и исходным изображением. Такой подход требует, чтобы система автоматически определяла, что ожидать от эталона для выполнения редактирования. Для этой цели мы предлагаем генеративную обучающую структуру, названную MimicBrush, которая случайным образом выбирает два кадра из видеоклипа, маскирует некоторые области одного кадра и учится восстанавливать закрытые области, используя информацию из другого кадра. Таким образом, наша модель, разработанная на основе диффузионного априорного распределения, способна захватывать семантическую соответственность между отдельными изображениями самостоятельным образом. Мы экспериментально демонстрируем эффективность нашего метода в различных тестовых случаях, а также его превосходство над существующими альтернативами. Мы также создаем бенчмарк для упрощения дальнейших исследований.

TextGrad: Автоматическое "Дифференцирование" через текст
TextGrad: Automatic "Differentiation" via Text

Jun 11

ByMert Yuksekgonul, Federico Bianchi, Joseph Boen, Sheng Liu, Zhi Huang, Carlos Guestrin, James Zou

Искусственный интеллект переживает парадигмальный сдвиг, достигнутый благодаря системам, оркестрирующим несколько крупных языковых моделей (LLM) и другие сложные компоненты. В результате разработка принципиальных и автоматизированных методов оптимизации для сложных систем искусственного интеллекта является одним из самых важных новых вызовов. Нейронные сети столкнулись с аналогичным вызовом в свои ранние дни, пока обратное распространение и автоматическое дифференцирование не преобразили область, сделав оптимизацию простой. Вдохновленные этим, мы представляем TextGrad, мощный фреймворк, выполняющий автоматическое "дифференцирование" через текст. TextGrad обратно распространяет текстовую обратную связь, предоставленную LLM, для улучшения отдельных компонентов сложной системы искусственного интеллекта. В нашем фреймворке LLM предоставляют богатые, общие, естественноязыковые предложения для оптимизации переменных в вычислительных графах, начиная от фрагментов кода до молекулярных структур. TextGrad следует синтаксису и абстракции PyTorch, он гибок и прост в использовании. Он работает "из коробки" для различных задач, где пользователи предоставляют только целевую функцию без настройки компонентов или подсказок фреймворка. Мы демонстрируем эффективность и общность TextGrad в разнообразных приложениях, начиная от ответов на вопросы и оптимизации молекул до планирования лучевой терапии. Без модификации фреймворка TextGrad улучшает точность нулевого примера GPT-4o в ответах на вопросы Google-Proof с 51% до 55%, обеспечивает 20% относительный прирост производительности в оптимизации решений проблем кодирования LeetCode-Hard, улучшает подсказки для рассуждений, разрабатывает новые молекулы, подобные лекарствам, с желательным виртуальным связыванием, и разрабатывает планы лучевой онкологической терапии с высокой специфичностью. TextGrad заложил основу для ускорения развития следующего поколения систем искусственного интеллекта.

Доступ к решениям математических олимпиад на уровне GPT-4 через самоусовершенствование дерева методом Монте-Карло с использованием LLaMa-3 8B.
Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B

Jun 11

ByDi Zhang, Jiatong Li, Xiaoshui Huang, Dongzhan Zhou, Yuqiang Li, Wanli Ouyang

Данная статья представляет алгоритм MCT Self-Refine (MCTSr), инновационное объединение Large Language Models (LLM) с методом Monte Carlo Tree Search (MCTS), разработанное для улучшения производительности в сложных математических задачах рассуждения. Решая проблемы точности и надежности в LLM, особенно в стратегическом и математическом рассуждении, MCTSr использует систематическое исследование и механизмы эвристического самосовершенствования для улучшения фреймворков принятия решений в LLM. Алгоритм строит дерево поиска методом Монте-Карло через итеративные процессы выбора, самосовершенствования, самооценки и обратного распространения, используя улучшенную формулу Верхней Доверительной Границы (UCB) для оптимизации баланса исследования и эксплуатации. Обширные эксперименты демонстрируют эффективность MCTSr в решении математических задач уровня Олимпиады, значительно повышая успешность на различных наборах данных, включая GSM8K, GSM Hard, MATH, и бенчмарки уровня Олимпиады, такие как Math Odyssey, AIME и OlympiadBench. Исследование продвигает применение LLM в сложных задачах рассуждения и заложение основы для будущей интеграции искусственного интеллекта, улучшая точность и надежность принятия решений в приложениях, основанных на LLM.

Улучшение математического мышления в языковых моделях с помощью автоматизированного процесса наблюдения
Improve Mathematical Reasoning in Language Models by Automated Process Supervision

Jun 5

ByLiangchen Luo, Yinxiao Liu, Rosanne Liu, Samrat Phatale, Harsh Lara, Yunxuan Li, Lei Shu, Yun Zhu, Lei Meng, Jiao Sun, Abhinav Rastogi

Сложные многошаговые задачи рассуждения, такие как решение математических задач или генерация кода, остаются значительным препятствием даже для самых передовых крупных моделей языка (LLM). Проверка выводов LLM с помощью модели вознаграждения за результат (ORM) является стандартным методом на этапе вывода, направленным на улучшение производительности рассуждения LLM. Однако это все еще оказывается недостаточным для задач рассуждения с длинной или многошаговой цепочкой рассуждения, где промежуточные результаты ни должным образом не вознаграждаются, ни не наказываются. Процессный контроль решает эту проблему, назначая промежуточные вознаграждения во время процесса рассуждения. До настоящего времени методы сбора данных о процессном контроле полагались либо на человеческую аннотацию, либо на оценку методом Монте-Карло на каждом шаге, что является чрезмерно дорогостоящим для масштабирования, тем самым затрудняя широкое применение этой техники. В ответ на этот вызов мы предлагаем новый алгоритм поиска в дереве Монте-Карло (MCTS) в стиле "разделяй и властвуй", названный OmegaPRM для эффективного сбора высококачественных данных о процессном контроле. Этот алгоритм быстро определяет первую ошибку в Цепочке Мысли (CoT) с помощью двоичного поиска и балансирует положительные и отрицательные примеры, тем самым обеспечивая как эффективность, так и качество. В результате мы смогли собрать более 1,5 миллиона аннотаций процессного контроля для обучения модели вознаграждения за процесс (PRM). Используя этот полностью автоматизированный процессный контроль наряду с алгоритмом взвешенной самосогласованности, мы улучшили производительность математического рассуждения модели Gemini Pro, настроенной на инструкции, достигнув успешности на уровне 69,4\% по бенчмарку MATH, что является улучшением на 36\% по сравнению с базовой производительностью модели на уровне 51\%. Кроме того, весь процесс работает без какого-либо вмешательства человека, что делает наш метод финансово и вычислительно экономичным по сравнению с существующими методами.

Skywork-MoE: Глубокое погружение в методики обучения моделей языка на основе смеси экспертов
Skywork-MoE: A Deep Dive into Training Techniques for Mixture-of-Experts Language Models

Jun 3

ByTianwen Wei, Bo Zhu, Liang Zhao, Cheng Cheng, Biye Li, Weiwei Lü, Peng Cheng, Jianhao Zhang, Xiaoyu Zhang, Liang Zeng, Xiaokun Wang, Yutuan Ma, Rui Hu, Shuicheng Yan, Han Fang, Yahui Zhou

В данном техническом отчете мы представляем методики обучения, реализованные в разработке Skywork-MoE - высокопроизводительной модели большого языкового объема (LLM) смеси экспертов (MoE) с 146 миллиардами параметров и 16 экспертами. Она инициализируется из предварительных плотных контрольных точек нашей модели Skywork-13B. Мы исследуем сравнительную эффективность повторного использования инициализаций по сравнению с обучением с нуля. Наши результаты показывают, что выбор между этими двумя подходами должен учитывать как производительность существующих плотных контрольных точек, так и бюджет обучения MoE. Мы выделяем две инновационные техники: нормализацию логитов ворот и адаптивные коэффициенты вспомогательных потерь, позволяющие регулировать коэффициенты вспомогательных потерь для каждого слоя. Наши экспериментальные результаты подтверждают эффективность этих методов. Используя эти техники и идеи, мы обучили нашу модель Skywork-MoE на сокращенном подмножестве нашего корпуса SkyPile. Результаты оценки демонстрируют, что наша модель обладает высокой производительностью на широком спектре бенчмарков.

SEE-2-SOUND: Преобразование пространственной среды в звук без обучения.
SEE-2-SOUND: Zero-Shot Spatial Environment-to-Spatial Sound

Jun 6

ByRishit Dagli, Shivesh Prakash, Robert Wu, Houman Khosravani

Генерация комбинированных визуальных и звуковых сенсорных впечатлений критически важна для потребления иммерсивного контента. Недавние достижения в области нейронных генеративных моделей позволили создавать контент высокого разрешения в различных модальностях, таких как изображения, текст, речь и видео. Несмотря на эти успехи, остается значительный разрыв в генерации высококачественного пространственного звука, который дополняет созданный визуальный контент. Более того, текущие модели генерации звука отличаются либо в создании естественного звука, либо речи, либо музыки, но не удается интегрировать пространственные аудио-подсказки, необходимые для иммерсивного восприятия. В данной работе мы представляем SEE-2-SOUND, подход с нулевым обучением, который разбивает задачу на (1) идентификацию визуальных областей интереса; (2) определение их местоположения в трехмерном пространстве; (3) генерацию моно-звука для каждой из них; и (4) интеграцию их в пространственный звук. С использованием нашей структуры мы демонстрируем убедительные результаты в генерации пространственного звука для видео высокого качества, изображений и динамических изображений из интернета, а также медиаконтента, созданного с использованием изученных подходов.

4Real: К фотореалистичной генерации 4D сцен через диффузию видео моделей
4Real: Towards Photorealistic 4D Scene Generation via Video Diffusion Models

Jun 11

ByHeng Yu, Chaoyang Wang, Peiye Zhuang, Willi Menapace, Aliaksandr Siarohin, Junli Cao, Laszlo A Jeni, Sergey Tulyakov, Hsin-Ying Lee

Существующие методы генерации динамических сцен в основном опираются на извлечение знаний из предварительно обученных 3D генеративных моделей, которые обычно донастраиваются на синтетических наборах данных объектов. В результате сгенерированные сцены часто сосредоточены на объектах и лишены фотореализма. Для преодоления этих ограничений мы представляем новый конвейер, разработанный для фотореалистичной генерации сцен 4D из текста, отказываясь от зависимости от многозрительных генеративных моделей и вместо этого полностью используя видео генеративные модели, обученные на разнообразных реальных наборах данных. Наш метод начинается с генерации ссылочного видео с использованием модели генерации видео. Затем мы изучаем каноническое 3D представление видео с помощью замороженного во времени видео, тонко сгенерированного из ссылочного видео. Для обработки несоответствий в замороженном видео мы совместно изучаем деформацию на каждом кадре для моделирования этих несовершенств. Затем мы изучаем временную деформацию на основе канонического представления для захвата динамических взаимодействий в ссылочном видео. Конвейер облегчает генерацию динамических сцен с улучшенным фотореализмом и структурной целостностью, просматриваемых с различных перспектив, тем самым устанавливая новый стандарт в генерации сцен 4D.

AsyncDiff: Параллелизация моделей диффузии с помощью асинхронного шумоподавления
AsyncDiff: Parallelizing Diffusion Models by Asynchronous Denoising

Jun 11

ByZigeng Chen, Xinyin Ma, Gongfan Fang, Zhenxiong Tan, Xinchao Wang

Модели диффузии привлекли значительный интерес со стороны сообщества благодаря их высокой способности к генерации в различных приложениях. Однако их типичная многоэтапная последовательная денойзинговая природа приводит к высокой накопительной задержке, что исключает возможности параллельных вычислений. Для решения этой проблемы мы представляем AsyncDiff, универсальную и готовую к использованию схему ускорения, которая позволяет параллельное выполнение модели на нескольких устройствах. Наш подход разделяет громоздкую модель предсказания шума на несколько компонентов, назначая каждый из них на различное устройство. Для разрыва цепи зависимостей между этими компонентами мы преобразуем традиционную последовательную денойзинговую процедуру в асинхронный процесс, используя высокую схожесть между скрытыми состояниями на последовательных этапах диффузии. В результате каждый компонент может вычисляться параллельно на отдельных устройствах. Предложенная стратегия значительно сокращает задержку вывода, минимально влияя на качество генерации. В частности, для Stable Diffusion v2.1, AsyncDiff достигает ускорения в 2,7 раза с незначительным ухудшением и в 4,0 раза с едва заметным снижением 0,38 в CLIP Score на четырех GPU NVIDIA A5000. Наши эксперименты также показывают, что AsyncDiff может легко применяться к видео-моделям диффузии с обнадеживающими результатами. Код доступен по ссылке https://github.com/czg1225/AsyncDiff.

Простые и эффективные модели языка с маскированным диффузией
Simple and Effective Masked Diffusion Language Models

Jun 11

BySubham Sekhar Sahoo, Marianne Arriola, Yair Schiff, Aaron Gokaslan, Edgar Marroquin, Justin T Chiu, Alexander Rush, Volodymyr Kuleshov

Хотя модели диффузии отличаются в создании изображений высокого качества, предыдущие исследования сообщают о значительной разнице в производительности между моделями диффузии и авторегрессионными (AR) методами в языковом моделировании. В данной работе мы показываем, что простая маскированная дискретная диффузия более производительна, чем ранее считалось. Мы применяем эффективный рецепт обучения, который улучшает производительность моделей маскированной диффузии и выводим упрощенную, оптимизированную по Рао-Блэкуэллу цель, что приводит к дополнительным улучшениям. Наша цель имеет простую форму - это смесь классических потерь маскированного языкового моделирования - и может быть использована для обучения только кодировщиков языковых моделей, которые допускают эффективные сэмплеры, включая те, которые могут генерировать произвольные длины текста полуавторегрессивно, как традиционная языковая модель. На языковых бенчмарках ряд моделей маскированной диффузии, обученных современными инженерными практиками, достигает нового state-of-the-art среди моделей диффузии и приближается к перплексии AR. Мы выкладываем наш код по ссылке: https://github.com/kuleshov-group/mdlm

MedFuzz: Исследование устойчивости крупных языковых моделей в медицинском вопросно-ответном формате
MedFuzz: Exploring the Robustness of Large Language Models in Medical Question Answering

Jun 3

ByRobert Osazuwa Ness, Katie Matton, Hayden Helm, Sheng Zhang, Junaid Bajwa, Carey E. Priebe, Eric Horvitz

Большие языковые модели (LLM) достигли впечатляющих результатов на медицинских тестах вопросов и ответов. Однако высокая точность тестов не означает, что результаты обобщаются на реальные клинические условия. Медицинские тесты вопросов и ответов основаны на предположениях, соответствующих количественной оценке производительности LLM, но которые могут не соблюдаться в открытом мире клиники. Тем не менее LLM изучают широкие знания, которые могут помочь LLM обобщить на практические условия независимо от нереалистичных предположений в известных тестах. Мы стремимся количественно оценить, насколько хорошо производительность медицинских тестов вопросов и ответов LLM обобщается, когда предположения теста нарушаются. Конкретно, мы представляем атакующий метод, который мы называем MedFuzz (для медицинского фаззинга). MedFuzz пытается изменить вопросы теста таким образом, чтобы запутать LLM. Мы демонстрируем подход, направленный на сильные предположения о характеристиках пациентов, представленных в тесте MedQA. Успешные "атаки" изменяют элемент теста таким образом, что это маловероятно смогло бы обмануть медицинского эксперта, но тем не менее "обманывают" LLM, заставляя его изменить правильный ответ на неправильный. Кроме того, мы представляем метод перестановки, который может гарантировать, что успешная атака является статистически значимой. Мы показываем, как использовать производительность на "MedFuzzed" тесте, а также отдельные успешные атаки. Эти методы обещают дать понимание способности LLM работать надежно в более реалистичных условиях.

Разделение "Chirp" от "Chat": Самонадзорное визуальное закрепление звука и языка
Separating the "Chirp" from the "Chat": Self-supervised Visual Grounding of Sound and Language

Jun 9

ByMark Hamilton, Andrew Zisserman, John R. Hershey, William T. Freeman

Мы представляем DenseAV, новую архитектуру с двойным кодировщиком, которая изучает высокоразрешенные, семантически значимые и аудиовизуально выровненные функции исключительно путем просмотра видеороликов. Мы показываем, что DenseAV способен обнаруживать "значение" слов и "местоположение" звуков без явного обучения локализации. Более того, он автоматически обнаруживает и различает эти два типа ассоциаций без обучения. Мы показываем, что способности DenseAV к локализации возникают благодаря новому оператору агрегации функций с множеством головок, который непосредственно сравнивает плотные изображения и аудиопредставления для контрастного обучения. В отличие от многих других систем, которые изучают "глобальные" аудио- и видеопредставления, DenseAV не может локализовать слова и звуки. Наконец, мы представляем два новых набора данных для улучшения оценки AV-представлений через семантическую сегментацию, стимулируемую речью и звуком. На этих и других наборах данных мы показываем, что DenseAV значительно превосходит существующие достижения в сегментации, стимулируемой речью и звуком. DenseAV превосходит предыдущий лучший метод, ImageBind, в кросс-модальном поиске с использованием менее половины параметров. Страница проекта: https://aka.ms/denseav {https://aka.ms/denseav}

Нейронный Гаффер: Переосвещение любого объекта с помощью диффузии
Neural Gaffer: Relighting Any Object via Diffusion

Jun 11

ByHaian Jin, Yuan Li, Fujun Luan, Yuanbo Xiangli, Sai Bi, Kai Zhang, Zexiang Xu, Jin Sun, Noah Snavely

Одновременное переосвещение изображения - это сложная задача, которая включает в себя рассуждения о сложном взаимодействии между геометрией, материалами и освещением. Многие предыдущие методы либо поддерживают только определенные категории изображений, такие как портреты, либо требуют специальных условий съемки, например, использование фонарика. В качестве альтернативы некоторые методы явно декомпозируют сцену на внутренние компоненты, такие как нормали и BRDF, что может быть неточным или недостаточно выразительным. В данной работе мы предлагаем новую модель диффузии переосвещения на основе нейронной сети, названную Neural Gaffer, которая принимает одно изображение любого объекта и может синтезировать точное, качественное изображение с измененным освещением в любых новых условиях окружающего освещения, просто путем настройки генератора изображений на целевую карту окружения, без явного разложения сцены. Наш метод основан на предварительно обученной модели диффузии и доводится до совершенства на синтетическом наборе данных по переосвещению, раскрывая и используя врожденное понимание освещения, присутствующее в модели диффузии. Мы оцениваем нашу модель как на синтетических, так и на изображениях из Интернета "на лету" и демонстрируем ее преимущества в плане обобщения и точности. Более того, путем комбинирования с другими методами генерации наша модель позволяет выполнять множество последующих 2D задач, таких как переосвещение на основе текста и вставка объектов. Наша модель также может действовать как мощный предиктор переосвещения для 3D задач, таких как переосвещение поля радиации.

Слияние улучшает самокритику против атак с отключением.
Merging Improves Self-Critique Against Jailbreak Attacks

Jun 11

ByVictor Gallego

Устойчивость крупных языковых моделей (LLM) к атакам с целью нарушения безопасности, таким как атаки "выход из тюрьмы", остается значительным вызовом. В данной работе мы предлагаем подход, который улучшает способность самокритики LLM и затем доводит его до совершенства на очищенных синтетических данных. Это достигается добавлением внешней модели-критика, которую можно объединить с оригинальной, тем самым укрепляя способности самокритики и улучшая устойчивость ответа LLM на атакующие запросы. Наши результаты показывают, что комбинация объединения и самокритики может значительно снизить успешность атак со стороны злоумышленников, предлагая тем самым многообещающий механизм защиты от атак "выход из тюрьмы". Код, данные и модели доступны по ссылке https://github.com/vicgalle/merging-self-critique-jailbreaks.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Отчет о подсказках: Систематический обзор техник подсказок
The Prompt Report: A Systematic Survey of Prompting Techniques

Jun 6

Изображение стоит 32 токена для восстановления и генерации.
An Image is Worth 32 Tokens for Reconstruction and Generation

Jun 11

ByQihang Yu, Mark Weber, Xueqing Deng, Xiaohui Shen, Daniel Cremers, Liang-Chieh Chen

McEval: Массовая многоязычная оценка кода
McEval: Massively Multilingual Code Evaluation

Jun 11

Редактирование изображений без обучения с использованием имитации по образцу.
Zero-shot Image Editing with Reference Imitation

Jun 11

ByXi Chen, Yutong Feng, Mengting Chen, Yiyang Wang, Shilong Zhang, Yu Liu, Yujun Shen, Hengshuang Zhao

TextGrad: Автоматическое "Дифференцирование" через текст
TextGrad: Automatic "Differentiation" via Text

Jun 11

ByMert Yuksekgonul, Federico Bianchi, Joseph Boen, Sheng Liu, Zhi Huang, Carlos Guestrin, James Zou

Доступ к решениям математических олимпиад на уровне GPT-4 через самоусовершенствование дерева методом Монте-Карло с использованием LLaMa-3 8B.
Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B

Jun 11

ByDi Zhang, Jiatong Li, Xiaoshui Huang, Dongzhan Zhou, Yuqiang Li, Wanli Ouyang

Улучшение математического мышления в языковых моделях с помощью автоматизированного процесса наблюдения
Improve Mathematical Reasoning in Language Models by Automated Process Supervision

Jun 5

ByLiangchen Luo, Yinxiao Liu, Rosanne Liu, Samrat Phatale, Harsh Lara, Yunxuan Li, Lei Shu, Yun Zhu, Lei Meng, Jiao Sun, Abhinav Rastogi

Skywork-MoE: Глубокое погружение в методики обучения моделей языка на основе смеси экспертов
Skywork-MoE: A Deep Dive into Training Techniques for Mixture-of-Experts Language Models

Jun 3

ByTianwen Wei, Bo Zhu, Liang Zhao, Cheng Cheng, Biye Li, Weiwei Lü, Peng Cheng, Jianhao Zhang, Xiaoyu Zhang, Liang Zeng, Xiaokun Wang, Yutuan Ma, Rui Hu, Shuicheng Yan, Han Fang, Yahui Zhou

SEE-2-SOUND: Преобразование пространственной среды в звук без обучения.
SEE-2-SOUND: Zero-Shot Spatial Environment-to-Spatial Sound

Jun 6

ByRishit Dagli, Shivesh Prakash, Robert Wu, Houman Khosravani

4Real: К фотореалистичной генерации 4D сцен через диффузию видео моделей
4Real: Towards Photorealistic 4D Scene Generation via Video Diffusion Models

Jun 11

ByHeng Yu, Chaoyang Wang, Peiye Zhuang, Willi Menapace, Aliaksandr Siarohin, Junli Cao, Laszlo A Jeni, Sergey Tulyakov, Hsin-Ying Lee

AsyncDiff: Параллелизация моделей диффузии с помощью асинхронного шумоподавления
AsyncDiff: Parallelizing Diffusion Models by Asynchronous Denoising

Jun 11

ByZigeng Chen, Xinyin Ma, Gongfan Fang, Zhenxiong Tan, Xinchao Wang

Простые и эффективные модели языка с маскированным диффузией
Simple and Effective Masked Diffusion Language Models

Jun 11

BySubham Sekhar Sahoo, Marianne Arriola, Yair Schiff, Aaron Gokaslan, Edgar Marroquin, Justin T Chiu, Alexander Rush, Volodymyr Kuleshov

MedFuzz: Исследование устойчивости крупных языковых моделей в медицинском вопросно-ответном формате
MedFuzz: Exploring the Robustness of Large Language Models in Medical Question Answering

Jun 3

ByRobert Osazuwa Ness, Katie Matton, Hayden Helm, Sheng Zhang, Junaid Bajwa, Carey E. Priebe, Eric Horvitz

Разделение "Chirp" от "Chat": Самонадзорное визуальное закрепление звука и языка
Separating the "Chirp" from the "Chat": Self-supervised Visual Grounding of Sound and Language

Jun 9

ByMark Hamilton, Andrew Zisserman, John R. Hershey, William T. Freeman

Нейронный Гаффер: Переосвещение любого объекта с помощью диффузии
Neural Gaffer: Relighting Any Object via Diffusion

Jun 11

ByHaian Jin, Yuan Li, Fujun Luan, Yuanbo Xiangli, Sai Bi, Kai Zhang, Zexiang Xu, Jin Sun, Noah Snavely

Слияние улучшает самокритику против атак с отключением.
Merging Improves Self-Critique Against Jailbreak Attacks

Jun 11

ByVictor Gallego