HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

12 papers found

TrustLLM: Надежность больших языковых моделей
TrustLLM: Trustworthiness in Large Language Models

Jan 10

ByLichao Sun, Yue Huang, Haoran Wang, Siyuan Wu, Qihui Zhang, Chujie Gao, Yixin Huang, Wenhan Lyu, Yixuan Zhang, Xiner Li, Zhengliang Liu, Yixin Liu, Yijue Wang, Zhikun Zhang, Bhavya Kailkhura, Caiming Xiong, Chao Zhang, Chaowei Xiao, Chunyuan Li, Eric Xing, Furong Huang, Hao Liu, Heng Ji, Hongyi Wang, Huan Zhang, Huaxiu Yao, Manolis Kellis, Marinka Zitnik, Meng Jiang, Mohit Bansal, James Zou, Jian Pei, Jian Liu, Jianfeng Gao, Jiawei Han, Jieyu Zhao, Jiliang Tang, Jindong Wang, John Mitchell, Kai Shu, Kaidi Xu, Kai-Wei Chang, Lifang He, Lifu Huang, Michael Backes, Neil Zhenqiang Gong, Philip S. Yu, Pin-Yu Chen, Quanquan Gu, Ran Xu, Rex Ying, Shuiwang Ji, Suman Jana, Tianlong Chen, Tianming Liu, Tianyi Zhou, Willian Wang, Xiang Li, Xiangliang Zhang, Xiao Wang, Xing Xie, Xun Chen, Xuyu Wang, Yan Liu, Yanfang Ye, Yinzhi Cao, Yue Zhao

Крупные языковые модели (LLM), такие как ChatGPT, привлекли значительное внимание благодаря своим выдающимся возможностям в области обработки естественного языка. Тем не менее, эти LLM представляют множество вызовов, особенно в аспекте доверия. Таким образом, обеспечение доверия к LLM становится важной темой. В данной статье представлен TrustLLM — всестороннее исследование доверия к LLM, включая принципы для различных аспектов доверия, установленные эталоны, оценку и анализ доверия для основных LLM, а также обсуждение открытых проблем и будущих направлений. В частности, мы сначала предлагаем набор принципов для доверенных LLM, охватывающих восемь различных аспектов. На основе этих принципов мы далее устанавливаем эталон по шести аспектам, включая правдивость, безопасность, справедливость, устойчивость, конфиденциальность и машинную этику. Затем мы представляем исследование, оценивающее 16 основных LLM в рамках TrustLLM, с использованием более 30 наборов данных. Наши результаты показывают, что, во-первых, в целом доверие и полезность (т.е. функциональная эффективность) положительно связаны. Во-вторых, наши наблюдения показывают, что проприетарные LLM, как правило, превосходят большинство открытых аналогов с точки зрения доверия, что вызывает опасения по поводу потенциальных рисков широкодоступных открытых LLM. Однако некоторые открытые LLM очень близки к проприетарным. В-третьих, важно отметить, что некоторые LLM могут быть чрезмерно настроены на демонстрацию доверия, до такой степени, что они жертвуют своей полезностью, ошибочно воспринимая безобидные запросы как вредные и, следовательно, не отвечая на них. Наконец, мы подчеркиваем важность обеспечения прозрачности не только в самих моделях, но и в технологиях, лежащих в основе доверия. Знание конкретных технологий, обеспечивающих доверие, имеет решающее значение для анализа их эффективности.

PIXART-δ: Быстрая и управляемая генерация изображений с использованием моделей латентной согласованности
PIXART-δ: Fast and Controllable Image Generation with Latent Consistency Models

Jan 10

ByJunsong Chen, Yue Wu, Simian Luo, Enze Xie, Sayak Paul, Ping Luo, Hang Zhao, Zhenguo Li

В данном техническом отчете представлен PIXART-{\delta} — фреймворк для синтеза изображений на основе текста, который интегрирует модель латентной согласованности (Latent Consistency Model, LCM) и ControlNet в усовершенствованную модель PIXART-{\alpha}. PIXART-{\alpha} известна своей способностью генерировать высококачественные изображения с разрешением 1024 пикселя благодаря исключительно эффективному процессу обучения. Интеграция LCM в PIXART-{\delta} значительно ускоряет скорость вывода, позволяя создавать высококачественные изображения всего за 2-4 шага. Примечательно, что PIXART-{\delta} достигает прорывного результата в 0,5 секунды для генерации изображений размером 1024x1024 пикселей, что в 7 раз быстрее, чем у PIXART-{\alpha}. Кроме того, PIXART-{\delta} разработан для эффективного обучения на GPU V100 с 32 ГБ памяти в течение одного дня. Благодаря возможности 8-битного вывода (von Platen et al., 2023), PIXART-{\delta} может синтезировать изображения с разрешением 1024 пикселя в условиях ограниченной памяти GPU в 8 ГБ, что значительно повышает его удобство и доступность. Дополнительно, внедрение модуля, подобного ControlNet, позволяет осуществлять детализированный контроль над моделями диффузии текста в изображение. Мы представляем новую архитектуру ControlNet-Transformer, специально адаптированную для трансформеров, которая обеспечивает явную управляемость наряду с генерацией высококачественных изображений. Как современная модель генерации изображений с открытым исходным кодом, PIXART-{\delta} предлагает перспективную альтернативу семейству моделей Stable Diffusion, внося значительный вклад в область синтеза изображений на основе текста.

Трансформеры являются многосостоятельными рекуррентными нейронными сетями.
Transformers are Multi-State RNNs

Jan 11

ByMatanel Oren, Michael Hassid, Yossi Adi, Roy Schwartz

Трансформеры считаются концептуально отличными от предыдущего поколения передовых моделей обработки естественного языка (NLP) — рекуррентных нейронных сетей (RNN). В данной работе мы показываем, что декодер-трансформеры на самом деле можно концептуализировать как бесконечные многосостоятельные RNN — вариант RNN с неограниченным размером скрытого состояния. Мы также демонстрируем, что предобученные трансформеры можно преобразовать в конечные многосостоятельные RNN, фиксируя размер их скрытого состояния. Мы отмечаем, что несколько существующих методов сжатия кэша трансформеров можно рассматривать как такие стратегии преобразования, и представляем новую стратегию, TOVA, которая проще по сравнению с этими методами. Наши эксперименты с несколькими задачами на длинных последовательностях показывают, что TOVA превосходит все другие базовые стратегии, оставаясь практически на уровне полной (бесконечной) модели, и в некоторых случаях используя лишь 1/8 от исходного размера кэша. Наши результаты указывают на то, что декодер-трансформеры LLM на практике часто ведут себя как RNN. Они также открывают возможность смягчения одного из наиболее болезненных вычислительных узких мест — размера их кэш-памяти. Мы публикуем наш код по адресу https://github.com/schwartz-lab-NLP/TOVA.

Скрытые агенты: Обучение обманчивых языковых моделей, устойчивых к методам обеспечения безопасности
Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training

Jan 10

ByEvan Hubinger, Carson Denison, Jesse Mu, Mike Lambert, Meg Tong, Monte MacDiarmid, Tamera Lanham, Daniel M. Ziegler, Tim Maxwell, Newton Cheng, Adam Jermyn, Amanda Askell, Ansh Radhakrishnan, Cem Anil, David Duvenaud, Deep Ganguli, Fazl Barez, Jack Clark, Kamal Ndousse, Kshitij Sachan, Michael Sellitto, Mrinank Sharma, Nova DasSarma, Roger Grosse, Shauna Kravec, Yuntao Bai, Zachary Witten, Marina Favaro, Jan Brauner, Holden Karnofsky, Paul Christiano, Samuel R. Bowman, Logan Graham, Jared Kaplan, Sören Mindermann, Ryan Greenblatt, Buck Shlegeris, Nicholas Schiefer, Ethan Perez

Люди способны к стратегически обманчивому поведению: они ведут себя полезно в большинстве ситуаций, но затем действуют совершенно иначе, чтобы достичь альтернативных целей, когда предоставляется возможность. Если ИИ-система освоит такую обманчивую стратегию, сможем ли мы обнаружить и устранить её с помощью современных передовых методов обеспечения безопасности? Чтобы изучить этот вопрос, мы создаём примеры концептуального обманчивого поведения в больших языковых моделях (LLM). Например, мы обучаем модели, которые пишут безопасный код, если в запросе указан 2023 год, но вставляют уязвимый код, если указан 2024 год. Мы обнаруживаем, что такое "закладное" поведение может быть устойчивым, так что оно не устраняется стандартными методами обеспечения безопасности, включая тонкую настройку с учителем, обучение с подкреплением и состязательное обучение (выявление небезопасного поведения с последующим обучением для его устранения). Закладное поведение наиболее устойчиво в крупнейших моделях и в моделях, обученных генерировать цепочки рассуждений о том, как обмануть процесс обучения, причём устойчивость сохраняется даже после удаления цепочек рассуждений. Более того, вместо устранения закладок мы обнаруживаем, что состязательное обучение может научить модели лучше распознавать свои триггеры, эффективно скрывая небезопасное поведение. Наши результаты показывают, что, как только модель демонстрирует обманчивое поведение, стандартные методы могут не справиться с его устранением и создать ложное впечатление безопасности.

InseRF: Генеративное вставление объектов в нейронные 3D-сцены на основе текстового описания
InseRF: Text-Driven Generative Object Insertion in Neural 3D Scenes

Jan 10

ByMohamad Shahbazi, Liesbeth Claessens, Michael Niemeyer, Edo Collins, Alessio Tonioni, Luc Van Gool, Federico Tombari

Мы представляем InseRF — новый метод генеративного добавления объектов в реконструкции 3D-сцен на основе NeRF. Используя предоставленное пользователем текстовое описание и 2D ограничивающий прямоугольник в опорном виде, InseRF создает новые объекты в 3D-сценах. В последнее время методы редактирования 3D-сцен претерпели значительные изменения благодаря использованию сильных априорных знаний текстово-изобразительных диффузионных моделей в генеративном 3D-моделировании. Существующие методы в основном эффективны для редактирования 3D-сцен путем изменения стиля и внешнего вида или удаления существующих объектов. Однако генерация новых объектов остается сложной задачей для таких методов, которую мы решаем в данном исследовании. В частности, мы предлагаем основывать добавление 3D-объекта на добавлении 2D-объекта в опорном виде сцены. Затем 2D-изменение переносится в 3D с использованием метода реконструкции объекта по одному виду. Реконструированный объект затем вставляется в сцену, руководствуясь априорными знаниями методов оценки глубины по одному изображению. Мы оцениваем наш метод на различных 3D-сценах и проводим детальный анализ предложенных компонентов. Наши эксперименты по генеративному добавлению объектов в несколько 3D-сцен демонстрируют эффективность нашего метода по сравнению с существующими подходами. InseRF способен выполнять контролируемое и 3D-согласованное добавление объектов без необходимости явного ввода 3D-информации. Посетите нашу страницу проекта по адресу https://mohamad-shahbazi.github.io/inserf.

URHand: Универсальные переосвещаемые руки
URHand: Universal Relightable Hands

Jan 10

ByZhaoxi Chen, Gyeongsik Moon, Kaiwen Guo, Chen Cao, Stanislav Pidhorskyi, Tomas Simon, Rohan Joshi, Yuan Dong, Yichen Xu, Bernardo Pires, He Wen, Lucas Evans, Bo Peng, Julia Buffalini, Autumn Trimble, Kevyn McPhail, Melissa Schoeller, Shoou-I Yu, Javier Romero, Michael Zollhöfer, Yaser Sheikh, Ziwei Liu, Shunsuke Saito

Существующие фотореалистичные модели рук с возможностью переосвещения требуют обширных наблюдений, специфичных для конкретной личности, в различных ракурсах, позах и условиях освещения, а также сталкиваются с трудностями в обобщении на естественное освещение и новые личности. Чтобы преодолеть этот разрыв, мы представляем URHand — первую универсальную модель руки с возможностью переосвещения, которая обобщает данные по ракурсам, позам, освещению и личностям. Наша модель позволяет персонализацию с использованием небольшого количества изображений, снятых на мобильный телефон, и готова к фотореалистичному рендерингу при новом освещении. Чтобы упростить процесс персонализации, сохраняя при этом фотореализм, мы создаем мощный универсальный переосвещаемый приоритет на основе нейронного переосвещения с использованием многовидовых изображений рук, снятых в световой сцене с сотнями личностей. Основная задача заключается в масштабировании кросс-идентификационного обучения при сохранении персонализированной точности и четких деталей, не жертвуя обобщением при естественном освещении. Для этого мы предлагаем пространственно изменяемую линейную модель освещения в качестве нейронного рендерера, которая использует физически вдохновленное затенение в качестве входного признака. Удаляя нелинейные активации и смещения, наша специально разработанная модель освещения явно сохраняет линейность транспорта света. Это позволяет одноэтапное обучение на данных из световой сцены с обобщением на рендеринг в реальном времени при произвольном непрерывном освещении для различных личностей. Кроме того, мы вводим совместное обучение физически обоснованной модели и нашей нейронной модели переосвещения, что дополнительно улучшает точность и обобщение. Многочисленные эксперименты показывают, что наш подход превосходит существующие методы как по качеству, так и по способности к обобщению. Мы также демонстрируем быструю персонализацию URHand на основе короткого сканирования на телефоне для ранее невиданной личности.

Влияние длины шага рассуждений на большие языковые модели
The Impact of Reasoning Step Length on Large Language Models

Jan 10

ByMingyu Jin, Qinkai Yu, Dong shu, Haiyan Zhao, Wenyue Hua, Yanda Meng, Yongfeng Zhang, Mengnan Du

Цепочка рассуждений (Chain of Thought, CoT) играет важную роль в улучшении способности к рассуждению у крупных языковых моделей (LLM). Однако связь между эффективностью CoT и длиной шагов рассуждения в промптах остается в значительной степени неизученной. Чтобы пролить свет на этот вопрос, мы провели ряд эмпирических экспериментов для изучения этих взаимосвязей. В частности, мы разработали эксперименты, в которых расширяли и сжимали шаги логического обоснования в демонстрациях CoT, сохраняя при этом все остальные факторы неизменными. Мы получили следующие ключевые результаты. Во-первых, результаты показывают, что увеличение количества шагов рассуждения в промптах, даже без добавления новой информации, значительно улучшает способность LLM к рассуждению на множестве наборов данных. С другой стороны, сокращение шагов рассуждения, даже при сохранении ключевой информации, существенно снижает способность моделей к рассуждению. Этот вывод подчеркивает важность количества шагов в промптах CoT и предоставляет практические рекомендации для более эффективного использования потенциала LLM в сложных сценариях решения задач. Во-вторых, мы также исследовали взаимосвязь между производительностью CoT и используемыми в демонстрациях обоснованиями. Удивительно, но результаты показывают, что даже некорректные обоснования могут давать благоприятные результаты, если они сохраняют необходимую длину вывода. В-третьих, мы обнаружили, что преимущества увеличения шагов рассуждения зависят от задачи: более простые задачи требуют меньшего количества шагов, тогда как сложные задачи значительно выигрывают от более длинных последовательностей вывода.

Загрузка диалоговых агентов, ориентированных на задачи, на основе LLM через самообучение
Bootstrapping LLM-based Task-Oriented Dialogue Agents via Self-Talk

Jan 10

ByDennis Ulmer, Elman Mansimov, Kaixiang Lin, Justin Sun, Xibin Gao, Yi Zhang

Крупные языковые модели (LLM) являются мощными диалоговыми агентами, однако их специализация для выполнения конкретных задач может быть сложной. Инструктивная настройка, то есть настройка моделей на основе инструкций и примеров ответов, созданных людьми (Ouyang et al., 2022), доказала свою эффективность, но требует значительного количества данных, которые а) могут быть недоступны или б) дорогостоящи в создании. Более того, эти затраты возрастают, когда цель заключается в том, чтобы LLM следовала определенному рабочему процессу в рамках диалога, а не отдельным инструкциям. Вдохновленные техникой самоигры в обучении с подкреплением и использованием LLM для симуляции человеческих агентов, мы предлагаем более эффективный метод сбора данных, при котором LLM ведут диалог в различных ролях. Этот подход генерирует обучающие данные через "самообщение" LLM, которые могут быть уточнены и использованы для контролируемой тонкой настройки. Мы представляем автоматизированный способ измерения (частичного) успеха диалога. Этот метрический показатель используется для фильтрации сгенерированных диалоговых данных, которые затем возвращаются в LLM для обучения. На основе наших автоматизированных и человеческих оценок качества диалогов мы демонстрируем, что такие данные, полученные через самообщение, улучшают результаты. Кроме того, мы исследуем различные характеристики, которые демонстрируют качество сгенерированных диалогов и их потенциальную полезность в качестве обучающих данных.

Дистилляция моделей "визуальный язык" на миллионах видео
Distilling Vision-Language Models on Millions of Videos

Jan 11

ByYue Zhao, Long Zhao, Xingyi Zhou, Jialin Wu, Chun-Te Chu, Hui Miao, Florian Schroff, Hartwig Adam, Ting Liu, Boqing Gong, Philipp Krähenbühl, Liangzhe Yuan

Недавний прогресс в моделях, объединяющих зрение и язык, во многом обусловлен обилием данных, состоящих из изображений и текста. Мы стремимся повторить этот успех для моделей, работающих с видео и текстом, однако доступных данных, состоящих из видео и текста, созданных человеком, просто недостаточно. Поэтому мы прибегаем к тонкой настройке модели для работы с видео и текстом на основе сильной базовой модели для изображений и текста, используя синтезированные обучающие данные. Полученная модель для видео и текста затем применяется для автоматической разметки миллионов видео с целью генерации высококачественных описаний. Мы демонстрируем, что адаптированная модель для видео и текста показывает отличные результаты на широком спектре тестовых задач, связанных с видео и текстом. Например, она превосходит лучший предыдущий результат на открытом тесте NExT-QA на 2,8%. Кроме того, наша модель генерирует детальные описания для ранее не встречавшихся видео, что обеспечивает лучшее текстовое сопровождение по сравнению с существующими методами. Эксперименты показывают, что модель с двойным кодированием для видео и текста, обученная контрастным методом на этих автоматически сгенерированных описаниях, на 3,8% превосходит самый сильный базовый метод, который также использует модели, объединяющие зрение и язык. Наша лучшая модель превосходит современные методы на тесте MSR-VTT для поиска видео по тексту в условиях zero-shot на 6%.

ANIM-400K: Масштабный набор данных для автоматизированного сквозного дублирования видео
ANIM-400K: A Large-Scale Dataset for Automated End-To-End Dubbing of Video

Jan 10

ByKevin Cai, Chonghua Liu, David M. Chan

Обилие контента в Интернете, где до 60% публикаций представлено на английском языке, резко контрастирует с глобальной популяцией, где только 18,8% людей говорят на английском, и лишь 5,1% считают его своим родным языком, что приводит к неравенству в доступе к онлайн-информации. К сожалению, автоматизация процессов дубляжа видео — замены аудиодорожки видео на переведенную альтернативу — остается сложной и трудоемкой задачей из-за необходимости точной синхронизации временных рамок, движений лица и соответствия интонации. Хотя сквозной дубляж предлагает решение, нехватка данных продолжает сдерживать прогресс как сквозных, так и поэтапных методов. В данной работе мы представляем Anim-400K — обширный набор данных, содержащий более 425 тысяч синхронизированных сегментов анимационных видео на японском и английском языках, который поддерживает различные задачи, связанные с видео, включая автоматический дубляж, синхронный перевод, управляемое видеорезюмирование и классификацию по жанру, теме и стилю. Наш набор данных доступен для исследовательских целей по адресу https://github.com/davidmchan/Anim400K.

Сэмплинг с дистилляцией оценок с использованием обученного корректирующего многообразия
Score Distillation Sampling with Learned Manifold Corrective

Jan 10

ByThiemo Alldieck, Nikos Kolotouros, Cristian Sminchisescu

Score Distillation Sampling (SDS) — это недавний, но уже широко популярный метод, который использует модель диффузии изображений для управления задачами оптимизации с помощью текстовых запросов. В данной работе мы проводим детальный анализ функции потерь SDS, выявляем фундаментальную проблему в её формулировке и предлагаем удивительно простое, но эффективное решение. В частности, мы разлагаем потери на различные компоненты и выделяем часть, ответственную за шумные градиенты. В оригинальной формулировке для компенсации шума используется высокая степень текстового руководства, что приводит к нежелательным побочным эффектам. Вместо этого мы обучаем неглубокую сеть, имитирующую зависимую от временного шага недостаточность удаления шума в модели диффузии изображений, чтобы эффективно исключить её влияние. Мы демонстрируем универсальность и эффективность нашей новой формулировки потерь с помощью ряда качественных и количественных экспериментов, включая синтез изображений на основе оптимизации, редактирование, обучение сетей для перевода изображений в режиме zero-shot и синтез текста в 3D.

Эффективное решение для вывода больших языковых моделей на GPU Intel
Efficient LLM inference solution on Intel GPU

Dec 19

ByHui Wu, Yi Gan, Feng Yuan, Jing Ma, Wei Zhu, Yutao Xu, Hong Zhu, Yuhua Zhu, Xiaoli Liu, Jinghui Gu

Трансформерные модели больших языковых моделей (LLM) широко используются во многих областях, и эффективность вывода LLM становится актуальной темой в реальных приложениях. Однако LLM обычно имеют сложную архитектуру с огромным количеством операций и выполняют вывод в авторегрессивном режиме, что делает задачу проектирования высокоэффективной системы весьма сложной. В данной статье мы предлагаем эффективное решение для вывода LLM с низкой задержкой и высокой пропускной способностью. Во-первых, мы упрощаем декодерный слой LLM, объединяя перемещение данных и поэлементные операции, чтобы снизить частоту доступа к памяти и уменьшить задержку системы. Мы также предлагаем политику сегментированного кэширования ключей и значений (KV), которая разделяет ключи и значения токенов запроса и ответа в отдельные области физической памяти для эффективного управления памятью устройства, что помогает увеличить размер пакета во время выполнения и повысить пропускную способность системы. Специальное ядро Scaled-Dot-Product-Attention разработано для соответствия нашей политике объединения на основе решения с сегментированным кэшем KV. Мы реализуем наше решение для вывода LLM на GPU Intel и публикуем его в открытом доступе. По сравнению со стандартной реализацией HuggingFace, предложенное решение демонстрирует до 7-кратного снижения задержки на токен и 27-кратного увеличения пропускной способности для некоторых популярных LLM на GPU Intel.

TrustLLM: Надежность больших языковых моделей
TrustLLM: Trustworthiness in Large Language Models

Jan 10