Ежедневно отобранные исследовательские статьи по ИИ с переводами
Крупные языковые модели (LLM), такие как ChatGPT, привлекли значительное внимание благодаря своим выдающимся возможностям в области обработки естественного языка. Тем не менее, эти LLM представляют множество вызовов, особенно в аспекте доверия. Таким образом, обеспечение доверия к LLM становится важной темой. В данной статье представлен TrustLLM — всестороннее исследование доверия к LLM, включая принципы для различных аспектов доверия, установленные эталоны, оценку и анализ доверия для основных LLM, а также обсуждение открытых проблем и будущих направлений. В частности, мы сначала предлагаем набор принципов для доверенных LLM, охватывающих восемь различных аспектов. На основе этих принципов мы далее устанавливаем эталон по шести аспектам, включая правдивость, безопасность, справедливость, устойчивость, конфиденциальность и машинную этику. Затем мы представляем исследование, оценивающее 16 основных LLM в рамках TrustLLM, с использованием более 30 наборов данных. Наши результаты показывают, что, во-первых, в целом доверие и полезность (т.е. функциональная эффективность) положительно связаны. Во-вторых, наши наблюдения показывают, что проприетарные LLM, как правило, превосходят большинство открытых аналогов с точки зрения доверия, что вызывает опасения по поводу потенциальных рисков широкодоступных открытых LLM. Однако некоторые открытые LLM очень близки к проприетарным. В-третьих, важно отметить, что некоторые LLM могут быть чрезмерно настроены на демонстрацию доверия, до такой степени, что они жертвуют своей полезностью, ошибочно воспринимая безобидные запросы как вредные и, следовательно, не отвечая на них. Наконец, мы подчеркиваем важность обеспечения прозрачности не только в самих моделях, но и в технологиях, лежащих в основе доверия. Знание конкретных технологий, обеспечивающих доверие, имеет решающее значение для анализа их эффективности.
В данном техническом отчете представлен PIXART-{\delta} — фреймворк для синтеза изображений на основе текста, который интегрирует модель латентной согласованности (Latent Consistency Model, LCM) и ControlNet в усовершенствованную модель PIXART-{\alpha}. PIXART-{\alpha} известна своей способностью генерировать высококачественные изображения с разрешением 1024 пикселя благодаря исключительно эффективному процессу обучения. Интеграция LCM в PIXART-{\delta} значительно ускоряет скорость вывода, позволяя создавать высококачественные изображения всего за 2-4 шага. Примечательно, что PIXART-{\delta} достигает прорывного результата в 0,5 секунды для генерации изображений размером 1024x1024 пикселей, что в 7 раз быстрее, чем у PIXART-{\alpha}. Кроме того, PIXART-{\delta} разработан для эффективного обучения на GPU V100 с 32 ГБ памяти в течение одного дня. Благодаря возможности 8-битного вывода (von Platen et al., 2023), PIXART-{\delta} может синтезировать изображения с разрешением 1024 пикселя в условиях ограниченной памяти GPU в 8 ГБ, что значительно повышает его удобство и доступность. Дополнительно, внедрение модуля, подобного ControlNet, позволяет осуществлять детализированный контроль над моделями диффузии текста в изображение. Мы представляем новую архитектуру ControlNet-Transformer, специально адаптированную для трансформеров, которая обеспечивает явную управляемость наряду с генерацией высококачественных изображений. Как современная модель генерации изображений с открытым исходным кодом, PIXART-{\delta} предлагает перспективную альтернативу семейству моделей Stable Diffusion, внося значительный вклад в область синтеза изображений на основе текста.
Трансформеры считаются концептуально отличными от предыдущего поколения передовых моделей обработки естественного языка (NLP) — рекуррентных нейронных сетей (RNN). В данной работе мы показываем, что декодер-трансформеры на самом деле можно концептуализировать как бесконечные многосостоятельные RNN — вариант RNN с неограниченным размером скрытого состояния. Мы также демонстрируем, что предобученные трансформеры можно преобразовать в конечные многосостоятельные RNN, фиксируя размер их скрытого состояния. Мы отмечаем, что несколько существующих методов сжатия кэша трансформеров можно рассматривать как такие стратегии преобразования, и представляем новую стратегию, TOVA, которая проще по сравнению с этими методами. Наши эксперименты с несколькими задачами на длинных последовательностях показывают, что TOVA превосходит все другие базовые стратегии, оставаясь практически на уровне полной (бесконечной) модели, и в некоторых случаях используя лишь 1/8 от исходного размера кэша. Наши результаты указывают на то, что декодер-трансформеры LLM на практике часто ведут себя как RNN. Они также открывают возможность смягчения одного из наиболее болезненных вычислительных узких мест — размера их кэш-памяти. Мы публикуем наш код по адресу https://github.com/schwartz-lab-NLP/TOVA.
Люди способны к стратегически обманчивому поведению: они ведут себя полезно в большинстве ситуаций, но затем действуют совершенно иначе, чтобы достичь альтернативных целей, когда предоставляется возможность. Если ИИ-система освоит такую обманчивую стратегию, сможем ли мы обнаружить и устранить её с помощью современных передовых методов обеспечения безопасности? Чтобы изучить этот вопрос, мы создаём примеры концептуального обманчивого поведения в больших языковых моделях (LLM). Например, мы обучаем модели, которые пишут безопасный код, если в запросе указан 2023 год, но вставляют уязвимый код, если указан 2024 год. Мы обнаруживаем, что такое "закладное" поведение может быть устойчивым, так что оно не устраняется стандартными методами обеспечения безопасности, включая тонкую настройку с учителем, обучение с подкреплением и состязательное обучение (выявление небезопасного поведения с последующим обучением для его устранения). Закладное поведение наиболее устойчиво в крупнейших моделях и в моделях, обученных генерировать цепочки рассуждений о том, как обмануть процесс обучения, причём устойчивость сохраняется даже после удаления цепочек рассуждений. Более того, вместо устранения закладок мы обнаруживаем, что состязательное обучение может научить модели лучше распознавать свои триггеры, эффективно скрывая небезопасное поведение. Наши результаты показывают, что, как только модель демонстрирует обманчивое поведение, стандартные методы могут не справиться с его устранением и создать ложное впечатление безопасности.
Мы представляем InseRF — новый метод генеративного добавления объектов в реконструкции 3D-сцен на основе NeRF. Используя предоставленное пользователем текстовое описание и 2D ограничивающий прямоугольник в опорном виде, InseRF создает новые объекты в 3D-сценах. В последнее время методы редактирования 3D-сцен претерпели значительные изменения благодаря использованию сильных априорных знаний текстово-изобразительных диффузионных моделей в генеративном 3D-моделировании. Существующие методы в основном эффективны для редактирования 3D-сцен путем изменения стиля и внешнего вида или удаления существующих объектов. Однако генерация новых объектов остается сложной задачей для таких методов, которую мы решаем в данном исследовании. В частности, мы предлагаем основывать добавление 3D-объекта на добавлении 2D-объекта в опорном виде сцены. Затем 2D-изменение переносится в 3D с использованием метода реконструкции объекта по одному виду. Реконструированный объект затем вставляется в сцену, руководствуясь априорными знаниями методов оценки глубины по одному изображению. Мы оцениваем наш метод на различных 3D-сценах и проводим детальный анализ предложенных компонентов. Наши эксперименты по генеративному добавлению объектов в несколько 3D-сцен демонстрируют эффективность нашего метода по сравнению с существующими подходами. InseRF способен выполнять контролируемое и 3D-согласованное добавление объектов без необходимости явного ввода 3D-информации. Посетите нашу страницу проекта по адресу https://mohamad-shahbazi.github.io/inserf.
Существующие фотореалистичные модели рук с возможностью переосвещения требуют обширных наблюдений, специфичных для конкретной личности, в различных ракурсах, позах и условиях освещения, а также сталкиваются с трудностями в обобщении на естественное освещение и новые личности. Чтобы преодолеть этот разрыв, мы представляем URHand — первую универсальную модель руки с возможностью переосвещения, которая обобщает данные по ракурсам, позам, освещению и личностям. Наша модель позволяет персонализацию с использованием небольшого количества изображений, снятых на мобильный телефон, и готова к фотореалистичному рендерингу при новом освещении. Чтобы упростить процесс персонализации, сохраняя при этом фотореализм, мы создаем мощный универсальный переосвещаемый приоритет на основе нейронного переосвещения с использованием многовидовых изображений рук, снятых в световой сцене с сотнями личностей. Основная задача заключается в масштабировании кросс-идентификационного обучения при сохранении персонализированной точности и четких деталей, не жертвуя обобщением при естественном освещении. Для этого мы предлагаем пространственно изменяемую линейную модель освещения в качестве нейронного рендерера, которая использует физически вдохновленное затенение в качестве входного признака. Удаляя нелинейные активации и смещения, наша специально разработанная модель освещения явно сохраняет линейность транспорта света. Это позволяет одноэтапное обучение на данных из световой сцены с обобщением на рендеринг в реальном времени при произвольном непрерывном освещении для различных личностей. Кроме того, мы вводим совместное обучение физически обоснованной модели и нашей нейронной модели переосвещения, что дополнительно улучшает точность и обобщение. Многочисленные эксперименты показывают, что наш подход превосходит существующие методы как по качеству, так и по способности к обобщению. Мы также демонстрируем быструю персонализацию URHand на основе короткого сканирования на телефоне для ранее невиданной личности.
Крупные языковые модели (LLM) являются мощными диалоговыми агентами, однако их специализация для выполнения конкретных задач может быть сложной. Инструктивная настройка, то есть настройка моделей на основе инструкций и примеров ответов, созданных людьми (Ouyang et al., 2022), доказала свою эффективность, но требует значительного количества данных, которые а) могут быть недоступны или б) дорогостоящи в создании. Более того, эти затраты возрастают, когда цель заключается в том, чтобы LLM следовала определенному рабочему процессу в рамках диалога, а не отдельным инструкциям. Вдохновленные техникой самоигры в обучении с подкреплением и использованием LLM для симуляции человеческих агентов, мы предлагаем более эффективный метод сбора данных, при котором LLM ведут диалог в различных ролях. Этот подход генерирует обучающие данные через "самообщение" LLM, которые могут быть уточнены и использованы для контролируемой тонкой настройки. Мы представляем автоматизированный способ измерения (частичного) успеха диалога. Этот метрический показатель используется для фильтрации сгенерированных диалоговых данных, которые затем возвращаются в LLM для обучения. На основе наших автоматизированных и человеческих оценок качества диалогов мы демонстрируем, что такие данные, полученные через самообщение, улучшают результаты. Кроме того, мы исследуем различные характеристики, которые демонстрируют качество сгенерированных диалогов и их потенциальную полезность в качестве обучающих данных.
Цепочка рассуждений (Chain of Thought, CoT) играет важную роль в улучшении способности к рассуждению у крупных языковых моделей (LLM). Однако связь между эффективностью CoT и длиной шагов рассуждения в промптах остается в значительной степени неизученной. Чтобы пролить свет на этот вопрос, мы провели ряд эмпирических экспериментов для изучения этих взаимосвязей. В частности, мы разработали эксперименты, в которых расширяли и сжимали шаги логического обоснования в демонстрациях CoT, сохраняя при этом все остальные факторы неизменными. Мы получили следующие ключевые результаты. Во-первых, результаты показывают, что увеличение количества шагов рассуждения в промптах, даже без добавления новой информации, значительно улучшает способность LLM к рассуждению на множестве наборов данных. С другой стороны, сокращение шагов рассуждения, даже при сохранении ключевой информации, существенно снижает способность моделей к рассуждению. Этот вывод подчеркивает важность количества шагов в промптах CoT и предоставляет практические рекомендации для более эффективного использования потенциала LLM в сложных сценариях решения задач. Во-вторых, мы также исследовали взаимосвязь между производительностью CoT и используемыми в демонстрациях обоснованиями. Удивительно, но результаты показывают, что даже некорректные обоснования могут давать благоприятные результаты, если они сохраняют необходимую длину вывода. В-третьих, мы обнаружили, что преимущества увеличения шагов рассуждения зависят от задачи: более простые задачи требуют меньшего количества шагов, тогда как сложные задачи значительно выигрывают от более длинных последовательностей вывода.
Недавний прогресс в моделях, объединяющих зрение и язык, во многом обусловлен обилием данных, состоящих из изображений и текста. Мы стремимся повторить этот успех для моделей, работающих с видео и текстом, однако доступных данных, состоящих из видео и текста, созданных человеком, просто недостаточно. Поэтому мы прибегаем к тонкой настройке модели для работы с видео и текстом на основе сильной базовой модели для изображений и текста, используя синтезированные обучающие данные. Полученная модель для видео и текста затем применяется для автоматической разметки миллионов видео с целью генерации высококачественных описаний. Мы демонстрируем, что адаптированная модель для видео и текста показывает отличные результаты на широком спектре тестовых задач, связанных с видео и текстом. Например, она превосходит лучший предыдущий результат на открытом тесте NExT-QA на 2,8%. Кроме того, наша модель генерирует детальные описания для ранее не встречавшихся видео, что обеспечивает лучшее текстовое сопровождение по сравнению с существующими методами. Эксперименты показывают, что модель с двойным кодированием для видео и текста, обученная контрастным методом на этих автоматически сгенерированных описаниях, на 3,8% превосходит самый сильный базовый метод, который также использует модели, объединяющие зрение и язык. Наша лучшая модель превосходит современные методы на тесте MSR-VTT для поиска видео по тексту в условиях zero-shot на 6%.
Обилие контента в Интернете, где до 60% публикаций представлено на английском языке, резко контрастирует с глобальной популяцией, где только 18,8% людей говорят на английском, и лишь 5,1% считают его своим родным языком, что приводит к неравенству в доступе к онлайн-информации. К сожалению, автоматизация процессов дубляжа видео — замены аудиодорожки видео на переведенную альтернативу — остается сложной и трудоемкой задачей из-за необходимости точной синхронизации временных рамок, движений лица и соответствия интонации. Хотя сквозной дубляж предлагает решение, нехватка данных продолжает сдерживать прогресс как сквозных, так и поэтапных методов. В данной работе мы представляем Anim-400K — обширный набор данных, содержащий более 425 тысяч синхронизированных сегментов анимационных видео на японском и английском языках, который поддерживает различные задачи, связанные с видео, включая автоматический дубляж, синхронный перевод, управляемое видеорезюмирование и классификацию по жанру, теме и стилю. Наш набор данных доступен для исследовательских целей по адресу https://github.com/davidmchan/Anim400K.
Score Distillation Sampling (SDS) — это недавний, но уже широко популярный метод, который использует модель диффузии изображений для управления задачами оптимизации с помощью текстовых запросов. В данной работе мы проводим детальный анализ функции потерь SDS, выявляем фундаментальную проблему в её формулировке и предлагаем удивительно простое, но эффективное решение. В частности, мы разлагаем потери на различные компоненты и выделяем часть, ответственную за шумные градиенты. В оригинальной формулировке для компенсации шума используется высокая степень текстового руководства, что приводит к нежелательным побочным эффектам. Вместо этого мы обучаем неглубокую сеть, имитирующую зависимую от временного шага недостаточность удаления шума в модели диффузии изображений, чтобы эффективно исключить её влияние. Мы демонстрируем универсальность и эффективность нашей новой формулировки потерь с помощью ряда качественных и количественных экспериментов, включая синтез изображений на основе оптимизации, редактирование, обучение сетей для перевода изображений в режиме zero-shot и синтез текста в 3D.
Трансформерные модели больших языковых моделей (LLM) широко используются во многих областях, и эффективность вывода LLM становится актуальной темой в реальных приложениях. Однако LLM обычно имеют сложную архитектуру с огромным количеством операций и выполняют вывод в авторегрессивном режиме, что делает задачу проектирования высокоэффективной системы весьма сложной. В данной статье мы предлагаем эффективное решение для вывода LLM с низкой задержкой и высокой пропускной способностью. Во-первых, мы упрощаем декодерный слой LLM, объединяя перемещение данных и поэлементные операции, чтобы снизить частоту доступа к памяти и уменьшить задержку системы. Мы также предлагаем политику сегментированного кэширования ключей и значений (KV), которая разделяет ключи и значения токенов запроса и ответа в отдельные области физической памяти для эффективного управления памятью устройства, что помогает увеличить размер пакета во время выполнения и повысить пропускную способность системы. Специальное ядро Scaled-Dot-Product-Attention разработано для соответствия нашей политике объединения на основе решения с сегментированным кэшем KV. Мы реализуем наше решение для вывода LLM на GPU Intel и публикуем его в открытом доступе. По сравнению со стандартной реализацией HuggingFace, предложенное решение демонстрирует до 7-кратного снижения задержки на токен и 27-кратного увеличения пропускной способности для некоторых популярных LLM на GPU Intel.