Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем методы для количественной оценки того, как крупные языковые модели (LLM) кодируют и сохраняют контекстную информацию, показывая, что токены, часто считающиеся второстепенными (например, артикли, пунктуация), несут удивительно высокий контекст. Примечательно, что удаление этих токенов — особенно стоп-слов, артиклов и запятых — последовательно ухудшает производительность на тестах MMLU и BABILong-4k, даже если удаляются только нерелевантные токены. Наш анализ также демонстрирует сильную корреляцию между контекстуализацией и линейностью, где линейность измеряет, насколько близко преобразование от эмбеддингов одного слоя к следующему может быть аппроксимировано с помощью одного линейного отображения. Эти результаты подчеркивают скрытую важность "заполняющих" токенов для поддержания контекста. Для дальнейшего исследования мы представляем LLM-Microscope — открытый инструментарий, который оценивает нелинейность на уровне токенов, анализирует контекстуальную память, визуализирует вклад промежуточных слоев (с помощью адаптированного Logit Lens) и измеряет внутреннюю размерность представлений. Этот инструментарий проливает свет на то, как кажущиеся незначительными токены могут быть критически важны для понимания на больших дистанциях.
Крупные языковые модели (LLMs) продемонстрировали исключительные способности к пониманию и обширную базу знаний, что позволяет предположить их эффективность в качестве инструментов для автоматизированной генерации опросов. Однако современные исследования в области автоматизированного создания опросов сталкиваются с рядом критических ограничений, таких как ограниченный контекстный окно, отсутствие углубленного обсуждения содержания и систематических оценочных рамок. Вдохновленные процессом написания текстов человеком, мы предлагаем SurveyX — эффективную и организованную систему для автоматизированной генерации опросов, которая разбивает процесс составления опроса на два этапа: Подготовка и Генерация. Благодаря инновационному внедрению онлайн-поиска ссылок, метода предварительной обработки под названием AttributeTree и процесса повторной полировки, SurveyX значительно повышает эффективность составления опросов. Результаты экспериментальной оценки показывают, что SurveyX превосходит существующие системы автоматизированной генерации опросов по качеству содержания (улучшение на 0,259) и качеству цитирования (улучшение на 1,76), приближаясь к уровню экспертов-людей по нескольким оценочным параметрам. Примеры опросов, созданных с помощью SurveyX, доступны на сайте www.surveyx.cn.
Понимание молекул является ключом к пониманию организмов и продвижению в области разработки лекарств, что требует междисциплинарных знаний в химии и биологии. Хотя крупные языковые модели для молекул достигли значительных успехов в интерпретации молекулярных структур, их обучающие наборы данных ограничены специфическими знаниями из целевых наборов и не охватывают полностью фундаментальные характеристики молекул, что ограничивает их возможности в качестве универсальных помощников для работы с молекулами. Чтобы решить эту проблему, мы предлагаем Mol-LLaMA — крупную языковую модель для молекул, которая осваивает общие знания, сосредоточенные на молекулах, с помощью мультимодальной настройки на инструкциях. Для этого мы разрабатываем ключевые типы данных, охватывающие фундаментальные особенности молекул, включая важные знания о молекулярных структурах. Кроме того, для улучшения понимания молекулярных характеристик мы вводим модуль, который интегрирует дополнительную информацию из различных молекулярных кодировщиков, используя уникальные преимущества разных способов представления молекул. Наши экспериментальные результаты показывают, что Mol-LLaMA способна понимать общие характеристики молекул и генерировать релевантные ответы на запросы пользователей с подробными объяснениями, что указывает на её потенциал в качестве универсального помощника для молекулярного анализа.
Мы представляем PhotoDoodle — новый фреймворк для редактирования изображений, предназначенный для облегчения процесса фото-дудлинга, позволяя художникам накладывать декоративные элементы на фотографии. Фото-дудлинг является сложной задачей, так как вставленные элементы должны выглядеть естественно интегрированными с фоном, что требует реалистичного смешивания, выравнивания перспективы и контекстуальной согласованности. Кроме того, фон должен сохраняться без искажений, а уникальный стиль художника должен эффективно захватываться из ограниченного набора обучающих данных. Эти требования не учитываются предыдущими методами, которые в основном сосредоточены на глобальном переносе стиля или региональном восстановлении изображений. Предлагаемый метод, PhotoDoodle, использует двухэтапную стратегию обучения. Сначала мы обучаем универсальную модель редактирования изображений, OmniEditor, используя большие объемы данных. Затем мы дообучаем эту модель с помощью EditLoRA, используя небольшой набор данных, курируемый художником, состоящий из пар изображений "до и после", чтобы захватить уникальные стили и техники редактирования. Для повышения согласованности генерируемых результатов мы вводим механизм повторного использования позиционного кодирования. Кроме того, мы публикуем набор данных PhotoDoodle, включающий шесть высококачественных стилей. Многочисленные эксперименты демонстрируют передовую производительность и устойчивость нашего метода в персонализированном редактировании изображений, открывая новые возможности для художественного творчества.
Модели мира, прогнозирующие изменения окружающей среды на основе действий, имеют ключевое значение для моделей автономного вождения с высокой способностью к обобщению. Преобладающие модели мира для вождения в основном строятся на основе моделей прогнозирования видео. Хотя эти модели могут создавать высококачественные видеопоследовательности с использованием современных генераторов на основе диффузии, они ограничены продолжительностью прогнозирования и общими способностями к обобщению. В данной работе мы исследуем решение этой проблемы путем объединения потерь генерации с обучением контекста на уровне признаков в стиле MAE. В частности, мы реализуем эту цель с помощью трех ключевых элементов: (1) Более масштабируемая структура Diffusion Transformer (DiT), обученная с дополнительной задачей маскирования. (2) Мы разрабатываем токены маски, связанные с диффузией, для работы с нечеткими отношениями между реконструкцией маски и процессом генеративной диффузии. (3) Мы расширяем задачу маскирования на пространственно-временную область, используя построчные маски для сдвинутого самовнимания вместо маскированного самовнимания в MAE. Затем мы применяем построчный кросс-видовой модуль для согласования с этим дизайном маски. На основе указанных улучшений мы предлагаем MaskGWM: обобщаемую модель мира для вождения, воплощенную с реконструкцией видео-маски. Наша модель включает два варианта: MaskGWM-long, ориентированный на долгосрочное прогнозирование, и MaskGWM-mview, предназначенный для генерации с нескольких видов. Комплексные эксперименты на стандартных бенчмарках подтверждают эффективность предложенного метода, включая обычную валидацию на наборе данных Nuscene, долгосрочное прогнозирование на наборе данных OpenDV-2K и валидацию с нулевым обучением на наборе данных Waymo. Количественные метрики на этих наборах данных показывают, что наш метод значительно улучшает современные модели мира для вождения.
В данной статье выявлено, что неправильная интерпретация контекста может стать серьезной проблемой в процессе рассуждения крупных языковых моделей, начиная с небольших моделей, таких как Llama3.2-3B-Instruct, и заканчивая передовыми, такими как DeepSeek-R1. Например, в фразе "10 долларов за килограмм" языковые модели могут не распознать, что "за" означает "для каждого", что приводит к ошибкам в расчетах. Мы представляем новый подход, применяемый после обучения, под названием **Stick to the Facts (SIFT)**, предназначенный для решения этой проблемы. SIFT использует увеличение вычислительных ресурсов на этапе вывода, чтобы закрепить рассуждения языковых моделей в контексте. В основе SIFT лежит *Sticker*, который генерируется самой моделью для явного выделения ключевой информации в контексте. На основе созданного Sticker, SIFT генерирует два прогноза — один из исходного запроса, а другой из запроса, дополненного Sticker. Если они различаются, Sticker последовательно уточняется с помощью *прямой* оптимизации (для лучшего согласования извлеченных фактов с запросом) и *обратной* генерации (для соответствия внутренним тенденциям модели) с целью получения более точных результатов рассуждений. Исследования на различных моделях (от 3B до 100B+) и тестовых наборах (например, GSM8K, MATH-500) демонстрируют устойчивое улучшение производительности. В частности, SIFT повышает точность pass@1 модели DeepSeek-R1 на AIME2024 с 78,33% до **85,67%**, устанавливая новый рекорд в сообществе открытого исходного кода. Код доступен по адресу https://github.com/zhijie-group/SIFT.
Визуальное связывание совпадающих признаков — это важнейший навык в повседневной жизни, например, распознавание одного и того же человека на нескольких фотографиях на основе его признаков, даже без знания его личности. Несмотря на обширные знания, которыми обладают модели, объединяющие зрение и язык (VLMs), остается малоизученным, способны ли они выполнять эту фундаментальную задачу. Чтобы решить этот вопрос, мы представляем VLM^2-Bench — эталонный тест, предназначенный для оценки способности VLMs визуально связывать совпадающие признаки, включающий 9 подзадач и более 3000 тестовых случаев. Всесторонняя оценка восьми открытых VLMs и GPT-4o, а также дополнительный анализ различных методов подсказок на стороне языка и зрения, приводит к восьми ключевым выводам. Мы выявляем серьезные проблемы в способности моделей связывать визуальные признаки, подчеркивая значительный разрыв в производительности, где даже GPT-4o отстает от человека на 34,80%. На основе этих наблюдений мы предлагаем: (i) улучшить базовые визуальные способности для повышения адаптивности и снижения зависимости от предварительных знаний, (ii) установить более четкие принципы интеграции языкового мышления в задачи, ориентированные на зрение, чтобы избежать ненужных предубеждений, и (iii) изменить парадигмы обучения на основе зрения и текста, чтобы развивать способность моделей самостоятельно структурировать и выводить отношения между визуальными признаками.
Крупные языковые модели (LLMs) демонстрируют выдающиеся результаты в сложных задачах рассуждения, однако их эффективность ограничивается значительными затратами памяти и вычислительных ресурсов, связанных с генерацией длинных токенов. В данной статье мы предлагаем LightThinker — новый метод, который позволяет LLMs динамически сжимать промежуточные мысли в процессе рассуждения. Вдохновленный когнитивными процессами человека, LightThinker сжимает многословные шаги рассуждения в компактные представления и отбрасывает исходные цепочки рассуждений, тем самым значительно сокращая количество токенов, хранящихся в контекстном окне. Это достигается за счет обучения модели на том, когда и как выполнять сжатие, путем построения данных, отображения скрытых состояний в сжатые токены-суть и создания специализированных масок внимания. Кроме того, мы вводим метрику Dependency (Dep) для количественной оценки степени сжатия, измеряя зависимость от исторических токенов в процессе генерации. Многочисленные эксперименты на четырех наборах данных и двух моделях показывают, что LightThinker снижает пиковое использование памяти и время вывода, сохраняя при этом конкурентоспособную точность. Наша работа открывает новое направление для повышения эффективности LLMs в сложных задачах рассуждения без ущерба для производительности. Код будет доступен по адресу https://github.com/zjunlp/LightThinker.
Масштабирование эффективной длины контекста является ключевым для продвижения больших языковых моделей (LLM) в направлении искусственного общего интеллекта (AGI). Однако квадратичное увеличение вычислительной сложности, присущее традиционным механизмам внимания, создает непомерные накладные расходы. Существующие подходы либо накладывают сильно предвзятые структуры, такие как sink или window attention, которые специфичны для конкретных задач, либо радикально изменяют механизм внимания на линейные аппроксимации, чья производительность в сложных задачах рассуждения остается недостаточно изученной. В данной работе мы предлагаем решение, которое следует принципу «меньше структуры», позволяя модели самостоятельно определять, куда направлять внимание, вместо введения предопределенных предубеждений. Мы представляем Mixture of Block Attention (MoBA) — инновационный подход, который применяет принципы Mixture of Experts (MoE) к механизму внимания. Эта новая архитектура демонстрирует превосходную производительность в задачах с длинным контекстом, предлагая ключевое преимущество: возможность плавного перехода между полным и разреженным вниманием, повышая эффективность без риска снижения производительности. MoBA уже используется для обработки длинных контекстов в Kimi и демонстрирует значительные достижения в эффективном вычислении внимания для LLM. Наш код доступен по адресу https://github.com/MoonshotAI/MoBA.
По мере роста использования агентов на основе больших языковых моделей (LLM), их уязвимости в плане безопасности становятся всё более очевидными. Существующие тестовые наборы оценивают различные аспекты безопасности LLM, опираясь в основном на общие стандарты, игнорируя при этом пользовательские стандарты. Однако стандарты безопасности для LLM могут варьироваться в зависимости от профилей конкретных пользователей, а не быть универсальными для всех. Это поднимает важный исследовательский вопрос: Действуют ли агенты LLM безопасно с учётом пользовательских стандартов безопасности? Несмотря на важность этого аспекта для безопасного использования LLM, в настоящее время отсутствуют тестовые наборы данных для оценки безопасности LLM с учётом пользовательских стандартов. Чтобы устранить этот пробел, мы представляем U-SAFEBENCH — первый тестовый набор, предназначенный для оценки безопасности LLM с учётом пользовательских аспектов. Наша оценка 18 широко используемых LLM показывает, что текущие модели не действуют безопасно при рассмотрении пользовательских стандартов безопасности, что является новым открытием в этой области. Для устранения этой уязвимости мы предлагаем простое решение, основанное на цепочке рассуждений (chain-of-thought), и демонстрируем его эффективность в повышении безопасности с учётом пользовательских стандартов. Наш тестовый набор и код доступны по адресу https://github.com/yeonjun-in/U-SafeBench.
Способность следовать многоходовым инструкциям представляет собой ключевую компетенцию больших языковых моделей (LLM) в реальных приложениях. Существующие оценочные тесты в основном сосредоточены на удовлетворении детализированных ограничений и оценке специализированных возможностей, однако упускают из виду важную структурную зависимость между репликами диалога, которая отличает многоходовые взаимодействия от одноходовых. Эта структурная зависимость не только отражает намерения пользователя, но и устанавливает второе измерение для оценки следования инструкциям, выходящее за рамки удовлетворения ограничений. Чтобы устранить этот пробел, мы предлагаем StructFlowBench — тест для оценки способности следовать многоходовым инструкциям с моделированием структурного потока. Этот тест инновационно определяет структурный поток, включающий шесть фундаментальных межрепликовых отношений, которые не только вводят новые структурные ограничения для оценки моделей, но и служат параметрами генерации для создания адаптированных потоков диалога, соответствующих конкретным сценариям. Используя устоявшиеся методологии автоматической оценки на основе LLM, мы проводим систематическую оценку 13 ведущих открытых и закрытых LLM. Результаты экспериментов выявляют значительные недостатки в понимании текущими моделями структур многоходовых диалогов. Код доступен по адресу https://github.com/MLGroupJLU/StructFlowBench.
Синтез материалов является ключевым для инноваций в областях хранения энергии, катализа, электроники и биомедицинских устройств. Тем не менее, этот процесс в значительной степени основан на эмпирических методах проб и ошибок, направляемых экспертной интуицией. Наша работа направлена на поддержку сообщества материаловедов путем предоставления практического, основанного на данных ресурса. Мы подготовили обширный набор данных из 17 тыс. экспертно подтвержденных рецептов синтеза из открытой научной литературы, который лежит в основе нашего нового бенчмарка, AlchemyBench. AlchemyBench предлагает комплексный фреймворк, поддерживающий исследования в области прогнозирования синтеза с использованием крупномасштабных языковых моделей. Он охватывает ключевые задачи, включая прогнозирование сырья и оборудования, генерацию процедуры синтеза и прогнозирование результатов характеризации. Мы предлагаем фреймворк LLM-как-судья, который использует крупномасштабные языковые модели для автоматизированной оценки, демонстрируя сильное статистическое согласие с экспертными оценками. В целом, наши результаты предлагают поддерживающую основу для исследования возможностей LLM в прогнозировании и руководстве синтезом материалов, в конечном итоге ускоряя процесс проектирования экспериментов и инноваций в области материаловедения.
В данной статье представлен корейский национальный образовательный тестовый бенчмарк (KoNET), новый эталонный набор данных, разработанный для оценки мультимодальных генеративных систем искусственного интеллекта с использованием корейских национальных образовательных тестов. KoNET включает четыре экзамена: общий тест начального образования (KoEGED), среднего (KoMGED), старшего (KoHGED) и вступительный экзамен в колледж (KoCSAT). Эти экзамены известны своими строгими стандартами и разнообразием вопросов, что позволяет провести всесторонний анализ производительности ИИ на различных уровнях образования. Сосредоточившись на корейском языке, KoNET предоставляет ценные данные о работе моделей на менее изученных языках. Мы оцениваем ряд моделей — с открытым исходным кодом, открытым доступом и закрытыми API — анализируя сложность, разнообразие предметов и частоту ошибок, характерных для человека. Код и инструмент для создания набора данных будут полностью открыты и доступны по адресу https://github.com/naver-ai/KoNET.
Крупные языковые модели продемонстрировали значительный прогресс в математических рассуждениях, используя цепочки мыслей и масштабирование вычислений во время тестирования. Однако остается множество открытых вопросов относительно взаимосвязи между использованием токенов для рассуждений и улучшением точности. В частности, при сравнении моделей разных поколений неясно, обусловлено ли улучшение производительности более длинными цепочками рассуждений или более эффективным процессом рассуждений. Мы систематически анализируем длину цепочки мыслей в вариантах o1-mini и o3-mini на бенчмарке Omni-MATH и обнаруживаем, что o3-mini (m) достигает более высокой точности, не требуя более длинных цепочек рассуждений, чем o1-mini. Более того, мы показываем, что точность, как правило, снижается по мере увеличения длины цепочек рассуждений во всех моделях и настройках вычислений, даже при контроле сложности вопросов. Это снижение точности значительно меньше в более продвинутых моделях, что позволяет предположить, что новые поколения моделей для рассуждений используют вычислительные ресурсы во время тестирования более эффективно. Наконец, мы отмечаем, что хотя o3-mini (h) достигает незначительного улучшения точности по сравнению с o3-mini (m), это происходит за счет выделения значительно большего количества токенов для рассуждений на всех задачах, включая те, которые o3-mini (m) уже может решить. Эти результаты дают новые представления о взаимосвязи между возможностями модели и длиной рассуждений, что имеет значение для эффективности, масштабирования и методологий оценки.
Генерация белкового остова играет ключевую роль в дизайне белков de novo и имеет большое значение для многих биологических и медицинских приложений. Хотя диффузионные и потоковые генеративные модели предлагают потенциальные решения для этой сложной задачи, они часто генерируют белки с нежелательной проектируемостью и страдают от вычислительной неэффективности. В данном исследовании мы предлагаем новый метод согласования исправленного кватернионного потока (ReQFlow) для быстрой и качественной генерации белкового остова. В частности, наш метод генерирует локальное перемещение и 3D-вращение из случайного шума для каждого остатка в белковой цепи, представляя каждое 3D-вращение в виде единичного кватерниона и строя его поток с помощью сферической линейной интерполяции (SLERP) в экспоненциальной форме. Мы обучаем модель методом согласования кватернионного потока (QFlow) с гарантированной численной устойчивостью и исправляем модель QFlow для ускорения её вывода и повышения проектируемости генерируемых белковых остовов, что приводит к предложенной модели ReQFlow. Эксперименты показывают, что ReQFlow достигает наилучших результатов в генерации белкового остова, требуя значительно меньше шагов выборки и значительно меньше времени на вывод (например, в 37 раз быстрее, чем RFDiffusion, и в 62 раза быстрее, чем Genie2 при генерации остова длиной 300), демонстрируя её эффективность и производительность. Код доступен по адресу https://github.com/AngxiaoYue/ReQFlow.
These findings highlight the need for domain-specific benchmarks and evaluation frameworks to ensure the safe deployment of LLMs in healthcare.Достижения в области больших языковых моделей (LLM) и их всё более широкое использование в медицинских вопросах и ответах требуют тщательной оценки их надежности. Основная проблема заключается в галлюцинациях, когда модели генерируют правдоподобные, но фактически неверные ответы. В медицинской сфере это представляет серьезные риски для безопасности пациентов и принятия клинических решений. Для решения этой проблемы мы представляем MedHallu — первый эталонный тест, специально разработанный для обнаружения медицинских галлюцинаций. MedHallu включает 10 000 высококачественных пар вопросов и ответов, полученных из PubMedQA, с систематически сгенерированными галлюцинированными ответами через контролируемый процесс. Наши эксперименты показывают, что современные LLM, включая GPT-4o, Llama-3.1 и медицински дообученную UltraMedical, испытывают трудности с этой задачей бинарного обнаружения галлюцинаций, причем лучшая модель достигает F1-меры всего 0,625 для обнаружения галлюцинаций категории "сложные". Используя двунаправленную кластеризацию по логическому следствию, мы показываем, что более сложные для обнаружения галлюцинации семантически ближе к истинным данным. В ходе экспериментов мы также показываем, что включение предметных знаний и введение категории "не уверен" в качестве одной из категорий ответов повышает точность и F1-меру до 38% по сравнению с базовыми показателями. Эти результаты подчеркивают необходимость предметно-ориентированных эталонных тестов и оценочных рамок для обеспечения безопасного внедрения LLM в здравоохранении.
Подходы без тонкой настройки, адаптирующие крупномасштабные предобученные модели диффузии видео для генерации видео с сохранением идентичности на основе текста (IPT2V), недавно приобрели популярность благодаря своей эффективности и масштабируемости. Однако остаются значительные проблемы в достижении удовлетворительной динамики лица при сохранении идентичности. В данной работе мы представляем новую настройку без тонкой настройки IPT2V, улучшая знания о лице в предобученной видео-модели, построенной на основе трансформеров диффузии (DiT), названной FantasyID. По сути, 3D-геометрия лица используется для обеспечения правдоподобных структур лица при синтезе видео. Чтобы предотвратить обучение модели на копировании и вставке, которые просто дублируют эталонное лицо по кадрам, разработана стратегия многовидового увеличения лица для захвата разнообразных 2D-признаков внешнего вида лица, что увеличивает динамику выражений лица и поз головы. Кроме того, после объединения 2D и 3D признаков в качестве руководства, вместо простого использования кросс-внимания для введения руководящих сигналов в слои DiT, используется обучаемый механизм адаптации на уровне слоев для выборочного введения объединенных признаков в каждый отдельный слой DiT, что способствует сбалансированному моделированию сохранения идентичности и динамики движения. Экспериментальные результаты подтверждают превосходство нашей модели над текущими методами IPT2V без тонкой настройки.
В данной работе мы решаем задачу обеспечения строгого соответствия схеме при генерации текста крупными языковыми моделями (LLM), используя их способности к рассуждению. Основываясь на фреймворке обучения с подкреплением DeepSeek R1, наш подход обучает навыки структурированного рассуждения модели с 1,5 миллиардами параметров через новый конвейер, который сочетает создание синтетического набора данных для рассуждений с пользовательскими функциями вознаграждения в рамках оптимизации групповой относительной политики (GRPO). В частности, мы сначала проводим обучение с подкреплением R1 на наборе данных из 20 тысяч примеров, преобразующих неструктурированные данные в структурированные, следуя оригинальным методам DeepSeek R1, чтобы заложить базовые способности к рассуждению. Затем мы выполняем контролируемую тонкую настройку на отдельном наборе данных из 10 тысяч примеров для рассуждений, сосредоточившись на улучшении соответствия схеме для последующих задач. Несмотря на относительно скромный объем обучения, требующий примерно 20 часов на кластере из 8 GPU H100 для GRPO и 3 часов на одном GPU A100 для SFT, наша модель демонстрирует устойчивую производительность в обеспечении согласованности схемы. Мы сравниваем наш подход ThinkJSON с оригинальной моделью DeepSeek R1 (671B), дистиллированными версиями DeepSeek R1 (Qwen-1.5B и Qwen-7B) и Gemini 2.0 Flash (70B), демонстрируя его эффективность в реальных приложениях. Наши результаты подчеркивают практическую полезность ресурсоэффективного фреймворка для генерации текста с ограничениями по схеме.
Сэмплирование из диффузионных моделей представляет собой медленный итеративный процесс, что ограничивает их практическое применение, особенно в интерактивных задачах. Для ускорения генерации современные подходы дистиллируют многошаговую диффузионную модель в одношаговый генератор-студент с помощью вариационного дистиллирования оценок, которое согласует распределение сэмплов, генерируемых студентом, с распределением учителя. Однако эти подходы используют обратную дивергенцию Кульбака-Лейблера (KL), которая известна своей склонностью к поиску мод. В данной работе мы обобщаем подход к согласованию распределений, используя новую минимизационную структуру f-дивергенции, названную f-distill, которая охватывает различные дивергенции с различными компромиссами в плане покрытия мод и дисперсии обучения. Мы выводим градиент f-дивергенции между распределениями учителя и студента и показываем, что он выражается как произведение разницы их оценок и весовой функции, определяемой отношением их плотностей. Эта весовая функция естественным образом акцентирует внимание на сэмплах с более высокой плотностью в распределении учителя при использовании менее модо-ориентированной дивергенции. Мы отмечаем, что популярный подход вариационного дистиллирования оценок с использованием обратной KL-дивергенции является частным случаем в нашей структуре. Эмпирически мы демонстрируем, что альтернативные f-дивергенции, такие как прямая KL и дивергенция Йенсена-Шеннона, превосходят современные методы вариационного дистиллирования оценок в задачах генерации изображений. В частности, при использовании дивергенции Йенсена-Шеннона f-distill достигает современных наилучших результатов в одношаговой генерации на ImageNet64 и в задаче генерации изображений по тексту на MS-COCO. Страница проекта: https://research.nvidia.com/labs/genair/f-distill.
С ростом популярности подхода Retrieval-Augmented Generation (RAG) в обработке документов надежное распознавание текста становится все более важным для извлечения знаний. В то время как OCR (оптическое распознавание символов) для английского и других языков выигрывает от больших наборов данных и устоявшихся эталонов, арабский OCR сталкивается с уникальными сложностями из-за курсивного письма, направления текста справа налево, а также сложных типографских и каллиграфических особенностей. Мы представляем KITAB-Bench — всеобъемлющий эталон для арабского OCR, который устраняет пробелы в существующих системах оценки. Наш эталон включает 8 809 образцов из 9 основных областей и 36 подкатегорий, охватывая разнообразные типы документов, включая рукописный текст, структурированные таблицы и специализированные данные по 21 типу графиков для бизнес-аналитики. Наши результаты показывают, что современные модели, объединяющие зрение и язык (такие как GPT-4, Gemini и Qwen), превосходят традиционные подходы OCR (например, EasyOCR, PaddleOCR и Surya) в среднем на 60% по показателю Character Error Rate (CER). Кроме того, мы выявляем значительные ограничения современных моделей арабского OCR, особенно в преобразовании PDF в Markdown, где лучшая модель Gemini-2.0-Flash достигает точности всего 65%. Это подчеркивает сложности в точном распознавании арабского текста, включая проблемы со сложными шрифтами, ошибками распознавания цифр, удлинением слов и обнаружением структуры таблиц. Данная работа устанавливает строгую систему оценки, которая может способствовать улучшению методов анализа арабских документов и сократить разрыв в производительности с технологиями OCR для английского языка.
Существующие тестовые наборы не проверяют крупные мультимодальные модели (LMM) на их интерактивный интеллект при взаимодействии с пользователями, что крайне важно для разработки универсальных ИИ-ассистентов. Мы разработали InterFeedback — интерактивную структуру, которая может быть применена к любой LMM и набору данных для автономной оценки этой способности. В дополнение к этому мы представляем InterFeedback-Bench, который оценивает интерактивный интеллект с использованием двух репрезентативных наборов данных, MMMU-Pro и MathVerse, для тестирования 10 различных открытых LMM. Кроме того, мы представляем InterFeedback-Human — новый набор данных из 120 случаев, собранный для ручного тестирования интерактивной производительности ведущих моделей, таких как OpenAI-o1 и Claude-3.5-Sonnet. Результаты нашей оценки показывают, что даже передовые LMM (например, OpenAI-o1) могут корректировать свои результаты на основе обратной связи от пользователя менее чем в 50% случаев. Наши выводы указывают на необходимость разработки методов, которые могут улучшить способность LMM интерпретировать и извлекать пользу из обратной связи.
С экспоненциальным ростом исследований, облегченных современными технологиями и улучшенной доступностью, научные открытия стали все более фрагментированными внутри и между областями. Это затрудняет оценку значимости, новизны, пошаговых результатов и эквивалентных идей между связанными работами, особенно теми, которые принадлежат различным научным сообществам. Большие языковые модели (LLM) недавно продемонстрировали сильные качественные и количественные способности рассуждения, а дебаты между мультиагентными LLM показали потенциал в решении сложных задач рассуждения путем исследования различных точек зрения и путей рассуждения. Вдохновленные этим, мы представляем Tree-of-Debate (ToD), фреймворк, который преобразует научные статьи в персоны LLM, спорящие о своих соответствующих новизнах. Чтобы акцентировать структурированное, критическое рассуждение, а не сосредотачиваться исключительно на результатах, ToD динамически строит дерево дебатов, обеспечивая детальный анализ независимых аргументов о новизне в научных статьях. Через эксперименты с научной литературой в различных областях, оцененными экспертами-исследователями, мы демонстрируем, что ToD генерирует информативные аргументы, эффективно контрастирует статьи и поддерживает исследователей в их обзоре литературы.
Прогнозирование момента начала речи в реальных условиях остается фундаментальной задачей для диалоговых агентов. Мы представляем EgoSpeak — новый фреймворк для прогнозирования инициации речи в режиме реального времени на основе эгоцентрического потокового видео. Моделируя разговор с точки зрения первого лица, EgoSpeak адаптирован для человекообразных взаимодействий, в которых диалоговый агент должен непрерывно наблюдать за окружающей средой и динамически решать, когда говорить. Наш подход устраняет разрыв между упрощенными экспериментальными установками и сложными естественными разговорами, интегрируя четыре ключевые возможности: (1) перспектива первого лица, (2) обработка RGB, (3) онлайн-обработка и (4) обработка необрезанного видео. Мы также представляем YT-Conversation — разнообразную коллекцию разговорных видео из YouTube, собранных в естественных условиях, как ресурс для крупномасштабного предварительного обучения. Эксперименты на наборах данных EasyCom и Ego4D показывают, что EgoSpeak превосходит базовые подходы, основанные на случайности и молчании, в режиме реального времени. Наши результаты также подчеркивают важность мультимодального ввода и длины контекста для эффективного принятия решений о начале речи.
Ведущие компании в области ИИ все больше сосредотачиваются на создании универсальных ИИ-агентов — систем, способных автономно планировать, действовать и достигать целей практически во всех задачах, которые могут выполнять люди. Несмотря на потенциальную полезность таких систем, неконтролируемая автономия ИИ представляет значительные риски для общественной безопасности и защиты, начиная от злоупотреблений со стороны злоумышленников и заканчивая потенциально необратимой потерей человеческого контроля. Мы обсуждаем, как эти риски возникают из-за современных методов обучения ИИ. Действительно, различные сценарии и эксперименты продемонстрировали возможность того, что ИИ-агенты могут прибегать к обману или преследовать цели, не заданные человеком и противоречащие человеческим интересам, такие как самосохранение. Руководствуясь принципом предосторожности, мы видим острую необходимость в более безопасных, но при этом полезных альтернативах текущему вектору развития, ориентированному на автономию. Соответственно, мы предлагаем в качестве ключевого элемента для дальнейшего прогресса разработку неагентной ИИ-системы, которая изначально является надежной и безопасной, — мы называем ее Scientist AI. Эта система предназначена для объяснения мира на основе наблюдений, а не для совершения действий в нем с целью имитации или угождения людям. Она включает в себя модель мира, которая генерирует теории для объяснения данных, и механизм вывода, отвечающий на вопросы. Оба компонента работают с явным учетом неопределенности, чтобы снизить риски излишне уверенных прогнозов. Учитывая эти соображения, Scientist AI может быть использована для помощи исследователям в ускорении научного прогресса, включая безопасность ИИ. В частности, наша система может служить защитным барьером против ИИ-агентов, которые могут быть созданы, несмотря на связанные с ними риски. В конечном итоге, сосредоточение на неагентных ИИ может позволить получить преимущества инноваций в области ИИ, избегая рисков, связанных с текущим вектором развития. Мы надеемся, что эти аргументы вдохновят исследователей, разработчиков и политиков отдать предпочтение этому более безопасному пути.
Стилевые эмбеддинги полезны для стилистического анализа и переноса стиля; однако до сих пор были доступны только стилевые эмбеддинги для английского языка. Мы представляем Multilingual StyleDistance (mStyleDistance) — модель мультиязычных стилевых эмбеддингов, обученную на синтетических данных с использованием контрастивного обучения. Мы обучаем модель на данных из девяти языков и создаем мультиязычный бенчмарк STEL-or-Content (Wegmann et al., 2022), который служит для оценки качества эмбеддингов. Мы также применяем наши эмбеддинги в задаче верификации авторства с использованием различных языков. Наши результаты показывают, что эмбеддинги mStyleDistance превосходят существующие модели на этих мультиязычных стилевых бенчмарках и хорошо обобщаются на неизвестные признаки и языки. Мы делаем нашу модель общедоступной по адресу https://huggingface.co/StyleDistance/mstyledistance.
Мы показываем, что большая языковая модель с представлениями декодера степенного закона (PLDR-LLM) является базовой моделью, чьи выводы по дедукции являются инвариантными тензорами с небольшим возмущением. PLDR-LLM изучает условие особенности для выводов по дедукции, которое позволяет энергетическо-кривизненному тензору G_{LM}, однажды выведенному, заменить глубокую нейронную сеть степенного закона графового внимания (PLGA), генерирующую выводы по дедукции при выводе. Мы демонстрируем, что кэш для G_{LM} (G-кэш) и KV-кэш могут быть реализованы прямым способом для улучшения времени вывода. Инвариантность и обобщающая способность выводов по дедукции имеют очень высокую достоверность, где выводы по дедукции имеют одинаковые значения RMSE и определителя до 15 десятичных знаков после кэширования, а показатели нулевого теста остаются неизменными. Исследования абляции показывают, что изученные выводы по дедукции имеют различные характеристики потерь и точности по сравнению с моделями, предварительно обученными с переданными, случайно инициализированными или тензорами идентичности в качестве постоянного тензорного оператора, и LLM с вниманием на масштабированное скалярное произведение (SDPA) является частным случаем PLDR-LLM, где G_{LM} предопределен как идентичность. Наблюдаемая инвариантная характеристика вводит новую асимметрию между этапами обучения и вывода с кэшированием. Мы обрисовываем наблюдаемые общие характеристики выводов по дедукции для изученного условия особенности. Мы предоставляем реализацию обучающего и выводного каркаса для PLDR-LLM с KV-кэшем и G-кэшем.
Оценка траекторий человека и камеры с точным масштабом в мировой системе координат на основе монохромного видео является крайне желательной, но сложной и некорректно поставленной задачей. В данном исследовании мы стремимся восстановить выразительные параметрические модели человека (например, SMPL-X) и соответствующие позы камеры совместно, используя синергию между тремя ключевыми элементами: миром, человеком и камерой. Наш подход основан на двух важных наблюдениях. Во-первых, методы оценки SMPL-X в системе координат камеры легко восстанавливают абсолютную глубину человека. Во-вторых, движения человека естественным образом предоставляют абсолютные пространственные подсказки. Интегрируя эти идеи, мы представляем новую структуру, названную WHAC, которая позволяет оценивать выразительные позы и форму человека (EHPS), закрепленные в мировой системе координат, а также позы камеры, не полагаясь на традиционные методы оптимизации. Кроме того, мы представляем новый синтетический набор данных, WHAC-A-Mole, который включает точные аннотации людей и камер, а также разнообразные интерактивные движения человека и реалистичные траектории камеры. Многочисленные эксперименты как на стандартных, так и на новых тестовых наборах данных демонстрируют превосходство и эффективность нашей структуры. Мы сделаем код и набор данных общедоступными.
Большие языковые модели (LLM) продемонстрировали впечатляющие возможности в диагностике заболеваний. Однако их эффективность в выявлении редких заболеваний, которые по своей природе более сложны для диагностики, остается открытым вопросом. Производительность в диагностике редких заболеваний имеет ключевое значение с увеличением использования LLM в медицинских учреждениях. Это особенно важно, если врач общей практики должен сделать диагноз редкого заболевания только по разговору с пациентом, чтобы принять соответствующий следующий шаг. В этой статье мы предлагаем RareScale для объединения знаний LLM с экспертными системами. Мы совместно используем экспертную систему и LLM для моделирования чатов по редким заболеваниям. Эти данные используются для обучения модели предсказания кандидатов на редкое заболевание. Кандидаты из этой более маленькой модели затем используются в качестве дополнительных входных данных для черного ящика LLM для составления окончательного дифференциального диагноза. Таким образом, RareScale позволяет достичь баланса между редкими и обычными диагнозами. Мы представляем результаты по более чем 575 редким заболеваниям, начиная с актиномикоза брюшной полости и заканчивая болезнью Вильсона. Наш подход значительно улучшает базовую производительность черного ящика LLM на более чем 17% по точности Top-5. Мы также обнаружили, что производительность генерации кандидатов высока (например, 88,8% в чатах, сгенерированных gpt-4o).
Мультимодальное понимание 3D-объектов привлекает значительное внимание, однако современные подходы часто предполагают полную доступность данных и жесткое согласование всех модальностей. Мы представляем CrossOver — новый фреймворк для кросс-модального понимания 3D-сцен через гибкое согласование модальностей на уровне сцены. В отличие от традиционных методов, требующих согласованных данных для каждого объекта, CrossOver обучает унифицированное, модально-независимое пространство вложений для сцен, согласовывая модальности — RGB-изображения, облака точек, CAD-модели, планы помещений и текстовые описания — с ослабленными ограничениями и без явной семантики объектов. Используя специализированные кодировщики для каждой размерности, многоэтапный процесс обучения и возникающие кросс-модальные взаимодействия, CrossOver обеспечивает надежное извлечение сцен и локализацию объектов даже при отсутствии некоторых модальностей. Оценки на наборах данных ScanNet и 3RScan демонстрируют его превосходную производительность по различным метрикам, подчеркивая адаптивность для реальных задач в области понимания 3D-сцен.
Большие языковые модели (LLM) достигли значительных успехов в обработке естественного языка, однако их потенциал для принятия политических решений высокого уровня остается в значительной степени неисследованным. В данной статье рассматривается данная проблема, фокусируясь на применении LLM к процессу принятия решений в Организации Объединенных Наций (ООН), где ставки особенно высоки, и политические решения могут иметь далеко идущие последствия. Мы представляем новый набор данных, включающий публично доступные записи Совета Безопасности ООН с 1994 по 2024 год, включая проекты резолюций, записи голосований и дипломатические выступления. Используя этот набор данных, мы предлагаем Бенчмарк Организации Объединенных Наций (UNBench), первый всесторонний бенчмарк, разработанный для оценки LLM по четырем взаимосвязанным задачам политической науки: оценка совместного решения, симуляция голосования представителей, прогнозирование принятия проекта и генерация высказываний представителей. Эти задачи охватывают три этапа процесса принятия решений в ООН - разработку, голосование и обсуждение - и направлены на оценку способности LLM понимать и симулировать политическую динамику. Наш экспериментальный анализ демонстрирует потенциал и вызовы применения LLM в этой области, предоставляя понимание их сильных и слабых сторон в политической науке. Эта работа вносит свой вклад в растущее пересечение ИИ и политической науки, открывая новые пути для исследований и практических применений в глобальном управлении. Репозиторий UNBench доступен по ссылке: https://github.com/yueqingliang1/UNBench.
Мы рассматриваем проблему прогнозирования экспрессии генов по последовательностям ДНК. Одним из ключевых вызовов этой задачи является поиск регуляторных элементов, контролирующих экспрессию генов. Здесь мы представляем Seq2Exp, сеть от последовательности к экспрессии, специально разработанную для обнаружения и извлечения регуляторных элементов, управляющих экспрессией целевого гена, что повышает точность прогнозирования экспрессии гена. Наш подход захватывает причинно-следственные связи между эпигеномными сигналами, последовательностями ДНК и связанными с ними регуляторными элементами. Конкретно, мы предлагаем декомпозировать эпигеномные сигналы и последовательность ДНК при условии причинно активных регуляторных элементов и применить информационный узкий место с бета-распределением для объединения их влияния и фильтрации не-причинных компонентов. Наши эксперименты показывают, что Seq2Exp превосходит существующие базовые уровни в задачах прогнозирования экспрессии гена и обнаруживает влиятельные области по сравнению с широко используемыми статистическими методами для обнаружения пиков, такими как MACS3. Исходный код выпущен в рамках библиотеки AIRS (https://github.com/divelab/AIRS/).
Пользовательские требования или правовые нормы часто требуют удаления информации из предварительно обученных моделей, включая крупные языковые модели (LLMs). Это предполагает удаление или "забывание" набора данных из уже обученной модели, что обычно ухудшает её производительность на других данных. Таким образом, необходимо найти баланс между удалением информации и сохранением других способностей модели, поскольку неудачный баланс может привести к неэффективному удалению или непригодности модели. Для решения этой задачи мы предлагаем UPCORE (Utility-Preserving Coreset Selection), метод-агностическую структуру выбора данных для минимизации побочного ущерба в процессе "забывания". Обнаружив, что ущерб модели коррелирует с дисперсией её представлений на наборе данных для забывания, мы выборочно удаляем выбросы из этого набора, тем самым минимизируя ухудшение модели после "забывания". Мы оцениваем UPCORE на трёх стандартных методах "забывания", последовательно достигая превосходного баланса между конкурирующими целями эффективности удаления и сохранения модели. Для более точной оценки этого компромисса мы вводим новый метрический показатель, измеряющий площадь под кривой (AUC) для стандартных метрик. Мы обнаруживаем, что UPCORE улучшает как стандартные метрики, так и AUC, извлекая выгоду из положительного переноса между корсетом и удалёнными точками, одновременно снижая отрицательный перенос с набора для забывания на точки вне его.
Глубокое обучение достигло значительных успехов в области обнаружения изменений (CD) на спутниковых снимках, однако остаются две основные проблемы: недостаток открытых наборов данных CD с разрешением менее метра, охватывающих все аспекты, и сложность достижения стабильных и удовлетворительных результатов обнаружения на изображениях с различными областями изменений. Для решения этих проблем мы представляем набор данных JL1-CD, содержащий 5000 пар изображений размером 512 x 512 пикселей с разрешением от 0,5 до 0,75 метров. Кроме того, мы предлагаем фреймворк многопреподавательского дистилляции знаний (MTKD) для CD. Экспериментальные результаты на наборах данных JL1-CD и SYSU-CD показывают, что фреймворк MTKD значительно улучшает производительность моделей CD с различными архитектурами сетей и размерами параметров, достигая новых рекордных результатов. Код доступен по адресу https://github.com/circleLZY/MTKD-CD.
Мы представляем открытый эталонный тест и оценочную платформу для анализа способности крупных языковых моделей (LLM) справляться с эмоциональными границами. Используя набор данных из 1156 запросов на шести языках, мы оценили три ведущие LLM (GPT-4o, Claude-3.5 Sonnet и Mistral-large) на их способность поддерживать соответствующие эмоциональные границы с помощью анализа шаблонов ответов. Наша платформа количественно оценивает ответы по семи ключевым шаблонам: прямой отказ, извинение, объяснение, уклонение, признание, установление границ и эмоциональная осознанность. Результаты демонстрируют значительные различия в подходах к обработке границ, при этом Claude-3.5 достигает наивысшего общего балла (8,69/10) и генерирует более длинные и детализированные ответы (в среднем 86,51 слова). Мы выявили существенный разрыв в производительности между взаимодействиями на английском (средний балл 25,62) и других языках (< 0,22), при этом ответы на английском показывают значительно более высокий уровень отказов (43,20% против < 1% для других языков). Анализ шаблонов выявил специфические для моделей стратегии, такие как предпочтение Mistral к уклонению (4,2%) и стабильно низкие показатели эмпатии у всех моделей (< 0,06). Ограничения включают возможное упрощение за счет анализа шаблонов, отсутствие контекстуального понимания при анализе ответов и бинарную классификацию сложных эмоциональных реакций. Будущие исследования должны изучить более детализированные методы оценки, расширить языковое покрытие и исследовать культурные различия в ожиданиях относительно эмоциональных границ. Наш эталонный тест и методология предоставляют основу для систематической оценки эмоционального интеллекта и способности LLM устанавливать границы.