Ежедневно отобранные исследовательские статьи по ИИ с переводами
В традиционной структуре RAG обычно используются короткие единицы поиска. Обычные поисковые модели, такие как DPR, обычно работают с параграфами из Википедии длиной в 100 слов. Такой подход заставляет поисковую модель искать информацию в большом корпусе данных, чтобы найти "иголку" - нужную единицу. В то же время читателям достаточно извлечь ответы из коротких найденных единиц. Такое дисбалансное проектирование с "тяжелой" поисковой моделью и "легким" читателем может привести к субоптимальной производительности. Для устранения этого дисбаланса мы предлагаем новую структуру LongRAG, состоящую из "длинной поисковой модели" и "длинного читателя". LongRAG обрабатывает весь контент Википедии в единицы по 4 тыс. токенов, что в 30 раз длиннее, чем ранее. Увеличив размер единицы, мы значительно сократили общее количество единиц с 22 млн до 700 тыс. Это существенно снизило нагрузку на поисковую модель и привело к выдающемуся результату в поиске: точность извлечения ответа@1=71% на NQ (прежде 52%) и точность извлечения ответа@2=72% (прежде 47%) на HotpotQA (полная Википедия). Затем мы передаем топ-k найденных единиц (примерно 30 тыс. токенов) существующей модели LLM с длинным контекстом для извлечения ответов без обучения. Без необходимости обучения LongRAG достигает точности EM 62.7% на NQ, что является лучшим известным результатом. LongRAG также достигает 64.3% на HotpotQA (полная Википедия), что соответствует модели SoTA. Наше исследование предлагает понимание будущего пути для объединения RAG с моделями LLM с длинным контекстом.
Предлагая многообещающее решение для проблем масштабируемости, связанных с оценкой человеком, парадигма LLM-в-качестве-судьи быстро набирает популярность как подход к оценке больших языковых моделей (LLM). Однако до сих пор остается много открытых вопросов о сильных и слабых сторонах этой парадигмы и о потенциальных предвзятостях, которые она может нести. В данной статье мы представляем всестороннее исследование производительности различных LLM в роли судей. Мы используем TriviaQA в качестве эталонной модели для оценки объективного рассуждения о знаниях LLM и оцениваем их наряду с человеческими аннотациями, которые, как выяснилось, имеют высокую согласованность между аннотаторами. Наше исследование включает 9 моделей-судей и 9 моделей-экзаменаторов - как базовых, так и настроенных по инструкции. Мы оцениваем соответствие моделей-судей различным размерам моделей, семействам и запросам судей. Среди прочих результатов наше исследование подтверждает важность использования коэффициента каппа Коэна в качестве метрики соответствия вместо простого процентного согласия, показывая, что судьи с высоким процентным согласием все равно могут присваивать значительно различные оценки. Мы обнаружили, что как Llama-3 70B, так и GPT-4 Turbo отлично соответствуют людям, но в отношении ранжирования моделей-экзаменаторов их результаты уступают как JudgeLM-7B, так и лексическому судье Contains, которые имеют на 34 пункта ниже согласованность с людьми. Через анализ ошибок и различные другие исследования, включая влияние длины инструкции и предвзятость к снисходительности, мы надеемся извлечь ценные уроки для использования LLM в качестве судей в будущем.
Создателям видеоконтента необходимы эффективные инструменты для повторного использования контента, задача, которая часто требует сложных ручных или автоматизированных поисков. Создание нового видео из больших видеобиблиотек остается вызовом. В данной статье мы представляем задачу Ответов на Вопросы о Видеобиблиотеке (VLQA) через совместимую архитектуру, которая применяет Расширенное Поисково-Генеративное (RAG) к видеобиблиотекам. Мы предлагаем систему, которая использует большие языковые модели (LLM) для генерации поисковых запросов, извлекая соответствующие видеомоменты, индексированные речью и визуальными метаданными. Затем модуль генерации ответов интегрирует запросы пользователей с этими метаданными для создания ответов с конкретными временными метками видео. Этот подход обещает в области поиска мультимедийного контента и создания видеоконтента с помощью искусственного интеллекта.
Несмотря на то, что Трансформеры широко используются для задач обработки естественного языка, особенно для машинного перевода, им не хватает явной памяти для хранения ключевых концепций обработанных текстов. В данной статье исследуются свойства содержания символической рабочей памяти, добавленной к декодеру модели Трансформера. Такая рабочая память улучшает качество прогнозов модели в задаче машинного перевода и действует как нейросимволическое представление информации, которое важно для модели для выполнения правильных переводов. Изучение содержания памяти показало, что ключевые слова переведенного текста хранятся в рабочей памяти, указывая на значимость содержания памяти для обработанного текста. Кроме того, разнообразие токенов и частей речи, хранящихся в памяти, коррелирует с сложностью корпусов для задачи машинного перевода.
Последние годы принесли значительные успехи в области генерации видео. Однако развитие автоматических видео-метрик значительно отстает. Ни одна из существующих метрик не способна обеспечить надежные оценки для созданных видеороликов. Основным барьером является отсутствие крупномасштабного набора данных с аннотациями от людей. В данной статье мы представляем VideoFeedback - первый крупномасштабный набор данных, содержащий многопараметровые оценки от людей для 37,6 тыс. синтезированных видеороликов от 11 существующих моделей генерации видео. Мы обучаем MantisScore (инициализированный из Mantis) на основе VideoFeedback для автоматической оценки качества видео. Эксперименты показывают, что коэффициент корреляции Спирмена между MantisScore и людьми может достигать 77,1 на тестовом наборе VideoFeedback, превосходя предыдущие лучшие метрики примерно на 50 пунктов. Дополнительные результаты на других тестовых наборах EvalCrafter, GenAI-Bench и VBench показывают, что MantisScore имеет значительно более высокую корреляцию с оценками людей, чем другие метрики. Исходя из этих результатов, мы считаем, что MantisScore может служить отличным заменителем для оценки различных видео-моделей для отслеживания прогресса и для моделирования детальной обратной связи от людей в Обучении с подкреплением с обратной связью от людей (RLHF) для улучшения текущих моделей генерации видео.
Одной из проблем при автоматической оценке систем вопросно-ответной (QA) системы с увеличением поисковых запросов (RAG) являются проблемы галлюцинаций в областях специфических знаний и отсутствие стандартных бенчмарков для внутренних задач компании. Это приводит к трудностям при оценке вариаций RAG, таких как RAG-Fusion (RAGF), в контексте задачи по продуктовой QA в Infineon Technologies. Для решения этих проблем мы предлагаем комплексную систему оценки, которая использует большие языковые модели (LLM) для создания больших наборов синтетических запросов на основе реальных запросов пользователей и документов внутри области, использует LLM в качестве судьи для оценки извлеченных документов и ответов, оценивает качество ответов и ранжирует различные варианты агентов Retrieval-Augmented Generation (RAG) с помощью автоматизированного соревнования RAGElo на основе системы Elo. Оценка LLM в качестве судьи случайной выборки синтетических запросов показывает умеренную положительную корреляцию с оценками экспертов в области в релевантности, точности, полноте и точности. В то время как RAGF превзошел RAG по баллам Elo, анализ значимости по сравнению с экспертными аннотациями также показывает, что RAGF значительно превосходит RAG в полноте, но уступает в точности. Кроме того, ассистент RAGF в Infineon продемонстрировал незначительно более высокую производительность в релевантности документов на основе показателей MRR@5. Мы обнаружили, что RAGElo положительно соответствует предпочтениям человеческих аннотаторов, однако требуется осторожность. Наконец, подход RAGF приводит к более полным ответам на основе экспертных аннотаций и лучшим ответам в целом на основе критериев оценки RAGElo.
Модели текст-в-изображение становятся все более популярными, революционизируя область создания цифрового искусства путем обеспечения высокодетализированной и креативной генерации визуального контента. Эти модели широко применяются в различных областях, особенно в генерации искусства, где они способствуют широкому спектру креативного выражения и демократизируют доступ к художественному творчеству. В данной статье мы представляем STYLEBREEDER, обширный набор данных из 6,8 млн изображений и 1,8 млн подсказок, созданных 95 тыс. пользователями на платформе Artbreeder, которая стала значительным центром для творческого исследования с более чем 13 млн пользователями. Мы представляем серию задач с использованием этого набора данных с целью выявления разнообразных художественных стилей, генерации персонализированного контента и рекомендации стилей на основе интересов пользователя. Документируя уникальные, созданные пользователями стили, выходящие за рамки традиционных категорий, таких как "киберпанк" или "Пикассо", мы исследуем потенциал уникальных, созданных сообществом стилей, которые могут предоставить глубокие понимания коллективной творческой психики пользователей по всему миру. Мы также оцениваем различные методы персонализации для улучшения художественного выражения и представляем стилевой атлас, сделав эти модели доступными в формате LoRA для общественного использования. Наши исследования демонстрируют потенциал моделей диффузии текст-в-изображение для выявления и продвижения уникальных художественных выражений, дальнейшей демократизации ИИ в искусстве и содействия более разнообразному и инклюзивному художественному сообществу. Набор данных, код и модели доступны по адресу https://stylebreeder.github.io под лицензией Общественного Домена (CC0).
Событийное зрение привлекло все больше внимания благодаря своим уникальным характеристикам, таким как высокое временное разрешение и широкий динамический диапазон. Недавно оно было использовано в задаче суперразрешения видео (VSR) для улучшения оценки потока и временного выравнивания. Вместо обучения движения, мы предлагаем в этой статье первый метод VSR, который использует сигналы событий для улучшения текстуры. Наш метод, названный EvTexture, использует высокочастотные детали событий для более эффективного восстановления текстурных областей в VSR. В нашем EvTexture представлена новая ветвь улучшения текстуры. Мы также вводим итеративный модуль улучшения текстуры для постепенного исследования информации о событиях с высоким временным разрешением для восстановления текстуры. Это позволяет постепенно улучшать текстурные области на протяжении нескольких итераций, что приводит к более точным и насыщенным деталям высокого разрешения. Экспериментальные результаты показывают, что наш EvTexture достигает лучшей производительности на четырех наборах данных. Для набора данных Vid4 с насыщенными текстурами наш метод может обеспечить прирост до 4,67 дБ по сравнению с недавними методами на основе событий. Код: https://github.com/DachunKai/EvTexture.
Широкое применение и все более увеличивающееся присутствие LLMs вызвали необходимость выравнивания ответов LLM с предпочтениями пользователей и заинтересованных сторон. Было предложено множество подходов к оптимизации предпочтений, которые настраивают параметры LLM для достижения хорошего соответствия. Однако известно, что такая настройка параметров может негативно сказываться на производительности модели во многих задачах. Более того, сложно следить за изменяющимися предпочтениями пользователей в такой ситуации. Выравнивание на этапе декодирования с управлением моделью вознаграждения решает эти проблемы за счет увеличения времени вывода. Однако большинство подобных методов не удается найти правильный баланс между исследованием и использованием вознаграждения - часто из-за смешанной формулировки этих двух аспектов - для получения хорошо выровненных ответов. Для устранения этого мы разделяем эти два аспекта и реализуем их эволюционным образом: исследование обеспечивается декодированием из мутированных инструкций, а использование представлено периодической заменой поколений с низким вознаграждением на хорошо вознагражденные. Эмпирические данные показывают, что эта стратегия превосходит многие подходы к оптимизации предпочтений и выравниванию на этапе декодирования на двух широко принятых бенчмарках выравнивания AlpacaEval 2 и MT-Bench. Наша реализация будет доступна по адресу: https://darwin-alignment.github.io.
Широкое принятие крупных языковых моделей (LLM) вызвало опасения относительно их безопасности и надежности, особенно в отношении их уязвимости к атакам злоумышленников. В данной статье мы предлагаем новую перспективу, связывающую эту уязвимость с неправильной спецификацией вознаграждения в процессе выравнивания. Мы представляем метрику ReGap для количественной оценки степени неправильной спецификации вознаграждения и демонстрируем ее эффективность и устойчивость при обнаружении вредоносных подсказок-заглушек. Основываясь на этих идеях, мы представляем ReMiss, систему для автоматизированного красного тестирования, которая генерирует вредоносные подсказки против различных целевых выровненных LLM. ReMiss достигает передовых показателей успешности атак на бенчмарке AdvBench, сохраняя читаемость для человека сгенерированных подсказок. Подробный анализ выделяет уникальные преимущества, принесенные предложенной цели неправильной спецификации вознаграждения по сравнению с предыдущими методами.
Хотя ситуация улучшилась для моделей только для текста, снова кажется, что в настоящее время мультимодальные модели (текст и изображение) развиваются быстрее, чем способы их оценки. В этой статье мы переносим недавно разработанную парадигму оценки из текстовых моделей на мультимодальные модели, а именно оценку через игру с ориентацией на цель (само)игру, дополняя оценку на основе ссылок и предпочтений. Конкретно, мы определяем игры, которые ставят под сомнение способность модели представлять ситуацию на основе визуальной информации и выстраивать такие представления через диалог. Мы обнаружили, что крупные закрытые модели довольно хорошо справляются с играми, которые мы определяем, в то время как даже лучшие модели с открытым весом испытывают затруднения. После дальнейшего анализа мы обнаружили, что исключительные возможности глубокого описания крупных моделей способствуют некоторым результатам. Для обоих типов моделей еще есть место для роста, обеспечивая дальнейшую актуальность эталона.
Языковые модели продемонстрировали впечатляющие возможности в различных задачах обработки естественного языка, однако они испытывают затруднения с планированием задач, требующих многошаговых симуляций. Вдохновленные человеческими когнитивными процессами, в данной статье исследуется оптимальная планировочная мощность языковых моделей, способных строить когнитивную карту данной среды. Наши эксперименты показывают, что когнитивная карта значительно улучшает производительность как оптимальной, так и достижимой генерации планирования в задаче планирования пути в Gridworld. Мы наблюдаем, что наш метод демонстрирует две ключевые характеристики, сходные с человеческим когнитивным процессом: обобщение своей планировочной способности на экстраполированные среды и быструю адаптацию с ограниченными данными обучения. Мы надеемся, что наши результаты в задаче Gridworld предоставят понимание моделирования человеческих когнитивных процессов в языковых моделях, что потенциально приведет к разработке более продвинутых и надежных систем, лучше соответствующих человеческому когнитивному процессу.
Развитие технологий виртуальной и дополненной реальности (VR/AR) привело к росту спроса на создание высококачественных, иммерсивных и динамичных сред. Однако существующие генеративные методы либо сосредотачиваются исключительно на динамических объектах, либо выполняют "вырисовку" из одной перспективы, что не удовлетворяет потребностям приложений VR/AR. В данной работе мы решаем сложную задачу превращения одного панорамного изображения в иммерсивный 4D опыт. Впервые мы демонстрируем возможность генерации омнидирекциональных динамичных сцен с обзором 360 градусов и разрешением 4K, обеспечивая тем самым иммерсивный пользовательский опыт. Наш метод включает в себя конвейер, который облегчает естественную анимацию сцен и оптимизирует набор 4D гауссиан с использованием эффективных техник "splatting" для исследования в реальном времени. Для преодоления отсутствия аннотированных 4D данных и моделей на уровне сцены, особенно в панорамных форматах, мы предлагаем новый Панорамный Денойзер, который приспосабливает общие 2D диффузионные априори для последовательной анимации в 360-градусных изображениях, превращая их в панорамные видео с динамичными сценами в целевых областях. Затем мы преобразуем панорамное видео в 4D иммерсивную среду, сохраняя пространственную и временную согласованность. Перенося знания из 2D моделей в перспективной области в панорамную область и осуществляя 4D преобразование с пространственной аппаратурой и геометрической регуляризацией, мы достигаем генерации высококачественных Панорам-в-4D изображений с разрешением (4096 на 2048) впервые. Посетите веб-сайт проекта по ссылке https://4k4dgen.github.io.
Непрозрачность в разработке крупных языковых моделей (LLM) вызывает растущие опасения относительно потенциального загрязнения общедоступных бенчмарков в данных предварительного обучения. Существующие методы обнаружения загрязнения обычно основаны на перекрытии текста между обучающими и оценочными данными, что может быть слишком поверхностным для отражения более глубоких форм загрязнения. В данной статье мы впервые представляем кросс-языковую форму загрязнения, увеличивающую производительность LLM, уклоняясь от текущих методов обнаружения, преднамеренно внедренную путем переобучения LLM на переведенных версиях тестовых наборов бенчмарков. Затем мы предлагаем подходы на основе обобщения для раскрытия такого глубоко скрытого загрязнения. Конкретно, мы изучаем изменение производительности LLM после модификации исходного бенчмарка путем замены неверных вариантов ответов на правильные из других вопросов. Загрязненные модели едва могут обобщиться на такие более простые ситуации, где неверные варианты могут быть даже не неправильными, так как все варианты правильны в их запоминании. Экспериментальные результаты демонстрируют, что кросс-языковое загрязнение легко обманывает существующие методы обнаружения, но не наш. Кроме того, мы обсуждаем потенциальное использование кросс-языкового загрязнения для интерпретации механизмов работы LLM и для пост-обучения LLM с целью улучшения многоязычных возможностей. Код и набор данных, которые мы использовали, можно получить на https://github.com/ShangDataLab/Deep-Contam.
С появлением моделей, специализированных для определенных областей, техника объединения моделей стала актуальной. Она представляет собой набор методов, которые объединяют возможности нескольких моделей в одну, способную выполнять несколько задач без дополнительного обучения. В данной статье мы предлагаем новую технику объединения моделей, Drop and rEscaLe via sampLing with mAgnitude (DELLA-Merging), которая использует новый метод обрезки, MAGPRUNE, демонстрирующий значительные преимущества по сравнению с DARE и TIES. MAGPRUNE сначала ранжирует параметры по величине и назначает более высокие вероятности отсева (p) параметрам с более низкими рангами, соответствующими меньшим величинам. Для приближения исходных вложений MAGPRUNE использует операцию масштабирования параметров, которые остаются после случайного отсева, на 1/(1 - p). На трех различных экспертных моделях, рассматриваемых для объединения (LM, Math, Code), и соответствующих наборах данных для тестирования (AlpacaEval, GSM8K, MBPP), DELLA показывает среднее улучшение на 2.4 пункта по сравнению с базовыми методами, использующими обрезку параметров по дельте (улучшение на 3.6 пункта по сравнению с TIES, на 1.2 пункта по сравнению с DARE), и на 11.1 пункта по сравнению с базовым методом без обрезки (TA). Мы предоставляем исходный код по ссылке: https://github.com/declare-lab/della.
Метод "Получение с усилением Генерации" (RAG) представляет собой значительный прогресс в области искусственного интеллекта, объединяющий фазу получения с фазой генерации, причем последняя обычно осуществляется с использованием больших языковых моделей (LLM). Текущие общепринятые практики в RAG включают использование "инструктированных" LLM, которые проходят дообучение с учителем для улучшения их способности следовать инструкциям и выравниваются с предпочтениями людей с использованием передовых техник. Вопреки распространенному мнению, наше исследование показывает, что базовые модели превосходят своих инструктированных аналогов в задачах RAG в среднем на 20% в рамках наших экспериментальных условий. Это открытие вызывает сомнения в доминировании инструктированных LLM в приложениях RAG. Дальнейшие исследования раскрывают более тонкую ситуацию, ставят под сомнение фундаментальные аспекты RAG и предполагают необходимость более широких обсуждений на эту тему; или, как выразился бы Фромм, "Редко бывает достаточно простого взгляда на статистику для понимания значения цифр".
Для прогнозирования эффективности и безопасности лекарств в живом организме необходима информация о биологических реакциях (например, морфологии клеток и экспрессии генов) на воздействие малых молекул. Однако текущие методы обучения представлений молекул не предоставляют всестороннего представления о состояниях клеток под такими воздействиями и испытывают затруднения с удалением шума, что затрудняет обобщение модели. Мы представляем подход информационного выравнивания (InfoAlign) для обучения представлений молекул с использованием метода информационного узкого места в клетках. Мы интегрируем молекулы и данные о клеточных реакциях как узлы в контекстный граф, соединяя их с взвешенными ребрами на основе химических, биологических и вычислительных критериев. Для каждой молекулы в обучающей выборке InfoAlign оптимизирует латентное представление кодировщика с целью минимизации избыточной структурной информации. Объектом достаточности декодируется представление для выравнивания с различными пространствами признаков из окрестности молекулы в контекстном графе. Мы демонстрируем, что предложенный объект достаточности для выравнивания более жесткий, чем существующие методы контрастного обучения на основе кодировщика. Эмпирически мы проверяем представления от InfoAlign в двух последующих задачах: прогнозирование свойств молекул по сравнению с до 19 базовыми методами на четырех наборах данных, а также сопоставление молекул-морфология без обучения на примерах.
Мы предлагаем метод Ruby Teaming, который улучшает метод Rainbow Teaming за счет включения кэш-памяти в качестве третьего измерения. Измерение памяти предоставляет подсказки мутатору для создания более качественных подсказок, как с точки зрения успешности атак (ASR), так и разнообразия качества. Архив подсказок, сгенерированный Ruby Teaming, имеет ASR 74%, что на 20% выше базового уровня. В плане разнообразия качества Ruby Teaming превосходит Rainbow Teaming на 6% и 3% по индексу равномерности Шеннона (SEI) и индексу разнообразия Симпсона (SDI) соответственно.
Оценка политик управления на основе зрительных данных представляет собой сложную задачу. С одной стороны, оценка с открытым циклом на реальных данных проста, но эти результаты не отражают производительность с закрытым циклом. С другой стороны, оценка с закрытым циклом возможна в симуляции, но ее сложно масштабировать из-за значительных вычислительных требований. Более того, существующие симуляторы сегодня имеют большой разрыв в домене по сравнению с реальными данными. Это привело к невозможности делать четкие выводы из быстро растущего объема исследований по автономному вождению end-to-end. В данной статье мы представляем NAVSIM, компромисс между этими парадигмами оценки, где мы используем большие наборы данных в сочетании с нереактивным симулятором для обеспечения масштабной оценки в реальном мире. Конкретно, мы собираем метрики на основе симуляции, такие как прогресс и время до столкновения, разворачивая абстракции обзора сверху тестовых сцен на коротком горизонте симуляции. Наша симуляция нереактивна, то есть оцениваемая политика и окружающая среда не взаимодействуют друг с другом. Как мы демонстрируем эмпирически, это разделение позволяет вычислять метрики с открытым циклом, сохраняя лучшую согласованность с оценками с закрытым циклом по сравнению с традиционными ошибками смещения. NAVSIM стал основой для нового соревнования, проведенного на CVPR 2024, где 143 команды представили 463 работы, что привело к нескольким новым идеям. На большом наборе сложных сценариев мы наблюдаем, что простые методы с умеренными вычислительными требованиями, такие как TransFuser, могут сравняться с недавними крупномасштабными архитектурами автономного вождения end-to-end, такими как UniAD. Наш модульный фреймворк потенциально может быть расширен новыми наборами данных, стратегиями курирования данных и метриками, и будет постоянно поддерживаться для проведения будущих вызовов. Наш код доступен по адресу https://github.com/autonomousvision/navsim.
Модели широкомасштабного генеративного языка и видео-языка (LLM и VLM) проявляют выдающиеся результаты в обучении с малым количеством примеров в контексте для принятия решений и следования инструкциям. Однако для них необходимы высококачественные образцы демонстраций, включенные в их контекстное окно. В данной работе мы задаем вопрос: могут ли LLM и VLM генерировать свои собственные примеры подсказок из общих, неоптимальных демонстраций? Мы предлагаем метод In-Context Abstraction Learning (ICAL), который создает память о мультимодальных опытных знаниях из неоптимальных демонстраций и обратной связи от человека. Получив шумную демонстрацию в новой области, VLM абстрагирует траекторию в общую программу, исправляя неэффективные действия и аннотируя когнитивные абстракции: отношения между задачами, изменения состояния объектов, временные подцели и концепции задач. Эти абстракции уточняются и адаптируются взаимодейственно через обратную связь от человека, пока агент пытается выполнить траекторию в похожей среде. Полученные абстракции, когда используются в качестве образцов в подсказке, значительно улучшают принятие решений у агентов LLM и VLM с увеличением поиска. Наш агент ICAL превосходит современные достижения в следовании инструкциям на основе диалога в TEACh, мультимодальных веб-агентов в VisualWebArena и предварительного прогнозирования действий в Ego4D. В TEACh мы достигаем улучшения в 12,6% в успешности выполнения целевого условия. В VisualWebArena наша успешность выполнения задачи увеличивается с 14,3% до 22,7% по сравнению с современными достижениями. В предварительном прогнозировании действий Ego4D мы улучшаем результаты по сравнению с few-shot GPT-4V и остаемся конкурентоспособными с обученными моделями. Мы показываем, что донастройка нашего агента с поиском улучшений в контексте значительно снижает зависимость от созданных экспертами примеров и последовательно превосходит обучение в контексте по планам действий, не обладающим такими знаниями.
Мы предлагаем простую, но эффективную конвейерную систему для стилизации трехмерной сцены, использующую мощь моделей диффузии изображений в двух измерениях. Учитывая модель NeRF, восстановленную из набора мульти-видовых изображений, мы осуществляем перенос стиля в трех измерениях путем улучшения исходной модели NeRF с использованием стилизованных изображений, сгенерированных моделью диффузии изображений, согласованной со стилем. Учитывая целевой стильный запрос, мы сначала генерируем перцептивно похожие мульти-видовые изображения, используя модель диффузии, зависящую от глубины, с механизмом совместного внимания. Затем, основываясь на стилизованных мульти-видовых изображениях, мы предлагаем направлять процесс переноса стиля с помощью потерь, основанных на разрезанной вассерштейновской метрике, на основе карт признаков, извлеченных из предварительно обученной модели CNN. Наша конвейерная система состоит из отдельных этапов, позволяя пользователям тестировать различные идеи запросов и предварительно просматривать стилизованный результат в трех измерениях перед переходом к этапу доводки модели NeRF. Мы демонстрируем, что наш метод способен передавать разнообразные художественные стили в трехмерные сцены реального мира с конкурентоспособным качеством.
Большие языковые модели (LLM), настроенные для поиска текста, продемонстрировали передовые результаты на нескольких бенчмарках по информационному поиску (IR). Однако надзорное обучение для улучшения этих моделей требует большого количества размеченных примеров, которые обычно недоступны или дороги в получении. В данной работе мы исследуем эффективность расширения обратно-инженерного адаптирования в контексте информационного поиска (RE-AdaptIR). Мы используем RE-AdaptIR для улучшения моделей IR на основе LLM, используя только неразмеченные данные. Мы демонстрируем улучшенную производительность как в областях обучения, так и в нулевых сценариях, где модели не видели запросов. Мы анализируем изменения производительности в различных сценариях донастройки и предлагаем результаты, которые могут быть незамедлительно использованы практикующими специалистами.
Модели мультимодальных основ (MMFMs) продемонстрировали выдающуюся производительность на различных задачах компьютерного зрения и обработки естественного языка. Однако их производительность на конкретных задачах, таких как понимание документов, все еще ограничена. Кроме того, для их настройки и развертывания требуется больше вычислительных ресурсов, времени и инженерных ресурсов по сравнению с традиционными унимодальными моделями. В данном отчете мы представляем Мультимодальную Структурированную Генерацию, общую структуру, которая ограничивает выходные логиты замороженных MMFMs, заставляя их рассуждать перед выдачей структурированных результатов, которые могут быть обработаны и использованы последующими API. Мы предоставляем подробное описание нашего подхода, включая технические детали, теоретические обсуждения и окончательные результаты оценки во 2-м челлендже по моделям мультимодальных основ, проведенном на конференции по компьютерному зрению и распознаванию образов (CVPR). Наш подход достиг второго наивысшего балла в скрытом тестовом наборе для Фазы 2 и третьего наивысшего в общем рейтинге. Это показывает способность метода обобщаться на невидимые задачи. И что простая инженерия может превзойти дорогостоящие и сложные шаги моделирования, как мы обсуждали в нашей статье "Структурированная Генерация с Использованием Поиска: Извлечение Информации из Деловых Документов как Инструмент Использования". Все наши скрипты, шаги развертывания и результаты оценки доступны по ссылке https://github.com/leloykun/MMFM-Challenge
Существующие модели обнаружения токсичности сталкиваются с значительными ограничениями, такими как недостаток прозрачности, настройки и воспроизводимости. Эти вызовы происходят из закрытого характера их обучающих данных и недостатка объяснений для механизма оценки. Для решения этих проблем мы предлагаем механизм создания набора данных, который интегрирует голосование и процессы цепочки мыслей, создавая высококачественный открытый набор данных для обнаружения токсичного контента. Наша методология обеспечивает разнообразные метрики классификации для каждого образца и включает как оценочные баллы, так и объяснительное обоснование для классификаций. Мы используем набор данных, созданный с помощью нашего предложенного механизма, для обучения нашей модели, которая затем сравнивается с существующими широко используемыми детекторами. Наш подход не только улучшает прозрачность и настраиваемость, но также облегчает лучшую настройку для конкретных случаев использования. Эта работа вносит существенный вклад в разработку моделей обнаружения токсичного контента, акцентируя открытость и адаптивность, тем самым укладывая дорогу для более эффективных и индивидуально ориентированных решений по модерации контента.
Большие языковые модели (LLM) пытаются имитировать человеческое поведение, отвечая на запросы людей таким образом, чтобы угодить им, включая соблюдение их ценностей. Однако люди представлены различными культурами с разными ценностями. Крайне важно понять, демонстрируют ли LLM различные ценности пользователю на основе стереотипных ценностей известной страны пользователя. Мы подаем различные запросы на совет различным LLM, основываясь на 5 культурных измерениях Хофстеде - количественном способе представления ценностей страны. На протяжении каждого запроса мы используем персоны, представляющие 36 различных стран и, отдельно, языки, преимущественно связанные с каждой страной, чтобы проанализировать согласованность в культурном понимании LLM. Из анализа ответов мы выяснили, что LLM могут различать одну сторону ценности от другой, а также понимать, что страны имеют различные ценности, но не всегда придерживаются этих ценностей при даче советов и не понимают необходимости отвечать по-разному в зависимости от различных культурных ценностей. Основываясь на этих выводах, мы представляем рекомендации по обучению LLM, соответствующих ценностям и культурно чувствительных. Более того, разработанная здесь методология и фреймворк могут помочь лучше понять и уменьшить проблемы согласования культуры и языка с LLM.
Мы представляем новый подход на основе алгоритма персонализированного федеративного обучения MeritFed, который может быть применен к задачам естественного языка с гетерогенными данными. Мы оцениваем его на задаче машинного перевода с низкими ресурсами, используя набор данных из задачи машинного перевода на многоязычном крупном масштабе (малый трек №2) и подмножество языков саамской группы из многоязычного бенчмарка для финно-угорских языков. Помимо его эффективности, MeritFed также обладает высокой интерпретируемостью, поскольку его можно применять для отслеживания влияния каждого языка, используемого для обучения. Наш анализ показывает, что размер целевого набора данных влияет на распределение весов по вспомогательным языкам, что несвязанные языки не мешают обучению, и параметры вспомогательного оптимизатора имеют минимальное влияние. Наш подход легко применить с помощью нескольких строк кода, и мы предоставляем скрипты для воспроизведения экспериментов по ссылке https://github.com/VityaVitalich/MeritFed