Ежедневно отобранные исследовательские статьи по ИИ с переводами
Энд-ту-энд анимация человека, такая как генерация разговорных человеческих аудио, претерпела значительные усовершенствования за последние несколько лет. Однако существующие методы все еще испытывают трудности с масштабированием как большие общие модели генерации видео, что ограничивает их потенциал в реальных приложениях. В данной статье мы предлагаем OmniHuman, основанный на трансформере Диффузии, фреймворк, который масштабирует данные путем внедрения условий, связанных с движением, на этапе обучения. Для этого мы предлагаем два принципа обучения для этих смешанных условий, а также соответствующую архитектуру модели и стратегию вывода. Эти конструкции позволяют OmniHuman полностью использовать генерацию движения на основе данных, в конечном итоге достигая высокореалистичной генерации видео с человеком. Более того, OmniHuman поддерживает различные портретные контенты (крупный план лица, портрет, полу-тело, полное тело), поддерживает как разговор, так и пение, обрабатывает взаимодействия человека с объектами и сложные позы тела, а также учитывает различные стили изображений. По сравнению с существующими энд-ту-энд методами, основанными на аудио, OmniHuman не только создает более реалистичные видео, но также предлагает большую гибкость ввода. Он также поддерживает несколько модальностей управления (аудио, видео и комбинированные сигналы управления). Видео-примеры предоставлены на странице проекта ttfamily (https://omnihuman-lab.github.io)
Алгоритмы прямого выравнивания (Direct Alignment Algorithms, DAAs) упрощают выравнивание языковых моделей, заменяя обучение с подкреплением (Reinforcement Learning, RL) и моделирование вознаграждения (Reward Modeling, RM) в обучении с обратной связью от человека (Reinforcement Learning from Human Feedback, RLHF) на прямую оптимизацию политики. DAAs могут быть классифицированы по своим функциям потерь (попарные vs. попиковые), по вознаграждениям, использованным в этих функциях потерь (например, отношения правдоподобия политики и эталонной политики, или отношения шансов), или по необходимости фазы надзорного донастройки (двухэтапные vs. одноэтапные). Сначала мы показываем, что одноэтапные методы уступают двухэтапным методам. Для решения этой проблемы мы вводим явную фазу надзорной донастройки и представляем параметр бета, контролирующий силу оптимизации предпочтений, в одноэтапные методы ORPO и ASFT. Эти модификации улучшают их производительность в Alpaca Eval 2 на +3.46 (ORPO) и +8.27 (ASFT), сравнимо с двухэтапными методами, такими как DPO. Дальнейший анализ показывает, что ключевым фактором является то, использует ли подход попарные или попиковые цели, а не конкретная неявная награда или функция потерь. Эти результаты подчеркивают важность тщательной оценки, чтобы избежать преждевременных заявлений о повышении производительности или общем превосходстве в алгоритмах выравнивания.
Плотные процессные вознаграждения доказали свою более эффективную альтернативу разреженным вознаграждениям на уровне исходных данных при масштабировании крупных языковых моделей (ЯМ), особенно в задачах, требующих сложного многошагового рассуждения. В то время как плотные вознаграждения также предлагают привлекательный выбор для обучения с подкреплением (ОП) ЯМ, поскольку их детализированные вознаграждения имеют потенциал решить некоторые врожденные проблемы исходных вознаграждений, такие как эффективность обучения и распределение заслуг, этот потенциал остается в значительной степени неиспользованным. Это можно в первую очередь объяснить сложностями обучения моделей процессных вознаграждений (ПВ) в режиме онлайн, где сбор высококачественных меток процесса является чрезмерно дорогостоящим, что делает их особенно уязвимыми для взлома вознаграждения. Для решения этих проблем мы предлагаем PRIME (Process Reinforcement through IMplicit rEwards), который позволяет обновлять ПВ онлайн, используя только прокрутки политики и метки исходных данных через неявные процессные вознаграждения. PRIME хорошо сочетается с различными функциями преимущества и отказывается от этапа обучения специализированной модели вознаграждения, который требуют существующие подходы, что существенно снижает накладные расходы на разработку. Мы демонстрируем эффективность PRIME в математике и программировании. Начиная с Qwen2.5-Math-7B-Base, PRIME достигает среднего улучшения на 15.1% по нескольким ключевым бенчмаркам рассуждения по сравнению с моделью SFT. Заметим, что наша результирующая модель, Eurus-2-7B-PRIME, превосходит Qwen2.5-Math-7B-Instruct на семи бенчмарках рассуждения с использованием 10% его обучающих данных.
Большие языковые модели (LLM) в качестве судей и синтез данных на основе LLM стали двумя фундаментальными методами аннотации данных, основанными на LLM в разработке моделей. В то время как их комбинация значительно повышает эффективность обучения и оценки модели, мало внимания уделяется потенциальному загрязнению, вызванному этим новым парадигмой развития модели. В данной работе мы раскрываем утечку предпочтений, проблему загрязнения в LLM-в-качестве-судьи, вызванную связью между генераторами синтетических данных и оценщиками на основе LLM. Для изучения этой проблемы мы первоначально определяем три общих видов связей между генератором данных LLM и судьей LLM: быть одной и той же моделью, иметь отношение наследования и принадлежать к одной и той же семье моделей. Через обширные эксперименты мы эмпирически подтверждаем предвзятость судей к своим связанным студенческим моделям, вызванную утечкой предпочтений, на протяжении нескольких базовых и эталонных LLM. Дополнительный анализ предполагает, что утечка предпочтений является всеобщей проблемой, которую сложнее обнаружить по сравнению с ранее выявленными предвзятостями в сценариях LLM-в-качестве-судьи. Все эти результаты свидетельствуют о том, что утечка предпочтений является широко распространенной и сложной проблемой в области LLM-в-качестве-судьи. Мы публикуем все коды и данные по ссылке: https://github.com/David-Li0406/Preference-Leakage.
Выравнивание визуальных признаков с языковыми вложениями является ключевой проблемой в моделях видео-языкового взаимодействия (VLM). Производительность таких моделей зависит от наличия хорошего коннектора, который отображает визуальные признаки, сгенерированные видео-кодировщиком, в общее пространство вложений с LLM, сохраняя семантическую схожесть. Существующие коннекторы, такие как многослойные перцептроны (MLP), часто порождают входные данные вне распределения или зашумленные, что приводит к несоответствию между модальностями. В данной работе мы предлагаем новый метод выравнивания видео-текста, AlignVLM, который отображает визуальные признаки на взвешенное среднее вложений текста LLM. Наш подход использует лингвистические априорные знания, закодированные LLM, чтобы гарантировать, что визуальные признаки отображаются в области пространства, которую LLM может эффективно интерпретировать. AlignVLM особенно эффективен для задач понимания документов, где изображения отсканированных документов должны точно соотноситься с их текстовым содержанием. Наши обширные эксперименты показывают, что AlignVLM достигает передовой производительности по сравнению с предыдущими методами выравнивания. Мы предоставляем дополнительный анализ, демонстрирующий улучшенное выравнивание визуально-текстовых признаков и устойчивость к шуму.
Парадигма индексации-извлечения-генерации в модели с извлечением информации (RAG) оказалась чрезвычайно успешной в решении задач, требующих знаний, путем интеграции внешних знаний в большие языковые модели (LLM). Однако внедрение внешних и непроверенных знаний увеличивает уязвимость LLM, поскольку злоумышленники могут осуществлять атаки, манипулируя знаниями. В данной статье мы представляем бенчмарк под названием SafeRAG, разработанный для оценки безопасности RAG. Во-первых, мы классифицируем атаки на атаки серебряного шума, межконтекстные конфликты, мягкую рекламу и белый отказ в обслуживании. Затем мы создаем набор данных для оценки безопасности RAG (т.е. набор данных SafeRAG) в основном вручную для каждой задачи. Затем мы используем набор данных SafeRAG для моделирования различных сценариев атак, с которыми может столкнуться RAG. Эксперименты, проведенные на 14 представительных компонентах RAG, показывают, что RAG проявляет значительную уязвимость ко всем видам атак, и даже самая очевидная атака может легко обойти существующие извлекатели, фильтры или продвинутые LLM, что приводит к ухудшению качества обслуживания RAG. Код доступен по ссылке: https://github.com/IAAR-Shanghai/SafeRAG.
Мы представляем SliderSpace, фреймворк для автоматического декомпозиции визуальных возможностей моделей диффузии на управляемые и понятные человеку направления. В отличие от существующих методов управления, требующих от пользователя указания атрибутов для каждого направления редактирования индивидуально, SliderSpace одновременно обнаруживает несколько интерпретируемых и разнообразных направлений из одного текстового запроса. Каждое направление обучается как адаптер низкого ранга, обеспечивая композиционный контроль и обнаружение неожиданных возможностей в латентном пространстве модели. Через обширные эксперименты на современных моделях диффузии мы демонстрируем эффективность SliderSpace в трех приложениях: декомпозиция концепций, исследование художественного стиля и увеличение разнообразия. Наше количественное оценивание показывает, что направления, обнаруженные SliderSpace, эффективно декомпозируют визуальную структуру знаний модели, предлагая понимание латентных возможностей, закодированных в моделях диффузии. Пользовательские исследования дополнительно подтверждают, что наш метод производит более разнообразные и полезные вариации по сравнению с базовыми методами. Наш код, данные и обученные веса доступны по адресу https://sliderspace.baulab.info
Мы предлагаем SCONE (Масштабируемое, контекстуализированное, вынесенное, встраивание n-грамм), метод расширения слоев встраивания входных данных для улучшения производительности языковой модели при увеличении размера слоя. Чтобы избежать увеличения затрат на декодирование, SCONE сохраняет исходный словарь, в то время как вводит встраивания для набора часто встречающихся n-грамм. Эти встраивания обеспечивают контекстуализированное представление для каждого входного токена и обучаются с помощью отдельной модели во время обучения. Во время вывода они предварительно вычисляются и хранятся в памяти вне ускорителя с минимальным воздействием на скорость вывода. SCONE позволяет две новые стратегии масштабирования: увеличение количества кэшированных встраиваний n-грамм и масштабирование модели, используемой для их обучения, при этом сохраняя постоянное количество операций с плавающей запятой во время вывода. Мы показываем, что масштабирование обоих аспектов позволяет SCONE превзойти базовую модель с 1,9 миллиарда параметров на разнообразных корпусах, используя только половину операций с плавающей запятой во время вывода.
Большие языковые модели (LLM) продемонстрировали значительный потенциал в рассуждениях, однако они по-прежнему страдают от серьезных фактических галлюцинаций из-за своевременности, точности и охвата параметрических знаний. В то же время интеграция рассуждений с генерацией с увеличенным поиском (RAG) остается сложной из-за неэффективного разложения задачи и избыточного поиска, что может внести шум и ухудшить качество ответа. В данной статье мы предлагаем DeepRAG, фреймворк, который моделирует рассуждения с увеличенным поиском как процесс принятия решений Маркова (MDP), обеспечивая стратегический и адаптивный поиск. Путем итеративного разложения запросов DeepRAG динамически определяет, стоит ли извлекать внешние знания или полагаться на параметрические рассуждения на каждом шаге. Эксперименты показывают, что DeepRAG повышает эффективность поиска, улучшая точность ответов на 21,99%, демонстрируя его эффективность в оптимизации рассуждений с увеличенным поиском.
Тестирование IQ служит основным методом оценки когнитивных способностей человека, целенаправленно отделяя оценку от языкового фона, владения языком или знаний в определенной области, чтобы выделить основные компетенции в абстракции и рассуждениях. Однако исследования в области искусственного интеллекта в настоящее время лишены систематических бенчмарков для количественной оценки этих критических когнитивных измерений в мультимодальных системах. Для устранения этого критического пробела мы предлагаем MM-IQ, комплексную систему оценки, включающую 2 710 тщательно подобранных тестовых заданий, охватывающих 8 различных парадигм рассуждений. Путем систематической оценки ведущих моделей мультимодальности с открытым исходным кодом и собственных моделей наш бенчмарк показывает значительные ограничения: даже современные архитектуры достигают лишь незначительно более высокой производительности по сравнению со случайным выбором (27,49% против базовой точности 25%). Этот значительный разрыв в производительности подчеркивает недостаточность текущих мультимодальных систем в приближении к фундаментальным когнитивным способностям человека, подчеркивая необходимость перспективных достижений для преодоления этого когнитивного разрыва.
Одним из признаков человеческого интеллекта является способность создавать сложные артефакты через структурированные многоэтапные процессы. Генерация процедурных руководств с использованием искусственного интеллекта является давней, но сложной задачей, сталкивающейся с тремя основными препятствиями: (1) недостаток многофункциональных процедурных наборов данных, (2) поддержание логической последовательности и визуальной согласованности между этапами и (3) обобщение на несколько областей. Для решения этих проблем мы предлагаем многообластной набор данных, охватывающий 21 задачу с более чем 24 000 процедурными последовательностями. На основе этого фундамента мы представляем MakeAnything, фреймворк на основе диффузионного трансформера (DIT), который использует тонкую настройку для активации возможностей DIT в контексте генерации последовательностей. Мы представляем асимметричную низкоранговую адаптацию (LoRA) для генерации изображений, которая балансирует возможности обобщения и задачно-специфическую производительность путем замораживания параметров кодировщика при адаптивной настройке слоев декодера. Кроме того, наша модель ReCraft позволяет генерировать процессы изображения через ограничения пространственно-временной согласованности, позволяя декомпозировать статические изображения на правдоподобные последовательности создания. Обширные эксперименты показывают, что MakeAnything превосходит существующие методы, устанавливая новые показатели производительности для задач генерации процедур.
Мы исследуем логические способности крупных языковых моделей (LLM) и их масштабируемость в сложном немонотонном выводе. Для этой цели мы представляем ZebraLogic, комплексную систему оценки производительности рассуждений LLM на логических головоломках, происходящих из проблем удовлетворения ограничений (CSP). ZebraLogic позволяет генерировать головоломки с контролируемой и измеримой сложностью, облегчая систематическое изучение пределов масштабирования моделей, таких как Llama, o1 модели и DeepSeek-R1. Охватывая широкий диапазон сложностей пространства поиска и разнообразные логические ограничения, ZebraLogic предоставляет структурированную среду для оценки рассуждений при увеличении сложности. Наши результаты показывают значительное снижение точности с ростом сложности проблемы - явление, которое мы называем проклятием сложности. Это ограничение сохраняется даже с более крупными моделями и увеличением времени вывода, что указывает на врожденные ограничения в текущих логических способностях LLM. Кроме того, мы исследуем стратегии для улучшения логического рассуждения, включая выборку Best-of-N, механизмы возврата к предыдущему состоянию и подсказки для самопроверки. Наши результаты предлагают критические идеи о масштабируемости логического рассуждения LLM, выделяют фундаментальные ограничения и намечают потенциальные направления для улучшения.
Хотя большие языковые модели (LLM) отлично справляются с обработкой последовательностей длинного контекста, им требуются значительные кэши ключ-значение (KV) для хранения контекстуальной информации, что может серьезно обременять вычислительную эффективность и использование памяти. Предыдущие усилия по сжатию этих кэшей KV в основном сосредотачивались на снижении требований к памяти, но оказались ограничены в улучшении задержки. Для решения этой проблемы мы представляем FastKV, метод сжатия кэша KV, разработанный для улучшения задержки для последовательностей длинного контекста. Для повышения скорости обработки при сохранении точности FastKV принимает новый подход Token-Selective Propagation (TSP), который сохраняет всю контекстную информацию в начальных слоях LLM и выборочно передает только часть этой информации в более глубокие слои даже на этапе предварительного заполнения. Кроме того, FastKV включает в себя сжатие кэша KV, осведомленного о групповых запросах (GQA), для использования преимуществ GQA как в памяти, так и в вычислительной эффективности. Наши экспериментальные результаты показывают, что FastKV достигает улучшений во времени до первого токена (TTFT) и пропускной способности в 2,00 раза и 1,40 раза соответственно по сравнению с HeadKV, методом сжатия кэша KV последнего поколения. Более того, FastKV успешно сохраняет точность на длинных контекстных бенчмарках на уровне, сравнимом с базовыми показателями. Наш код доступен по адресу https://github.com/dongwonjo/FastKV.
В условиях быстрого прогресса крупных языковых моделей (LLM) и их развития в крупные мультимодальные модели (LMM) были сделаны значительные шаги в языках с высокими ресурсами, таких как английский и китайский. В то время как арабские LLM показали заметный прогресс, арабские LMM остаются в значительной степени неисследованными, часто узко фокусируясь на нескольких конкретных аспектах языка и визуального понимания. Для заполнения этого разрыва мы представляем AIN - арабскую инклюзивную мультимодальную модель, разработанную для превосходства в различных областях. AIN - это двуязычная LMM английско-арабского направления, разработанная для превосходства в английском и арабском языках, используя тщательно подготовленные 3,6 миллиона высококачественных арабско-английских мультимодальных образцов данных. AIN демонстрирует передовую арабскую производительность, обладая также сильными визуальными возможностями на английском языке. На недавнем бенчмарке CAMEL-Bench, включающем 38 поддоменов, включая понимание мультиизображений, сложное визуальное восприятие, понимание рукописных документов, видеоанализ, медицинскую диагностику, болезни растений и понимание использования земли на основе дистанционного зондирования, наша модель AIN демонстрирует высокую производительность с моделью 7B, превосходя GPT-4o на 3,4% в среднем по восьми областям и 38 поддоменам. Превосходящие возможности AIN позиционируют его как значительный шаг к предоставлению арабским пользователям передовых мультимодальных генеративных инструментов искусственного интеллекта в различных приложениях.
Релизы o1 и o3 от OpenAI отмечают значительный парадигмальный сдвиг в области Больших Языковых Моделей в сторону продвинутых способностей к рассуждениям. Особенно o3 превзошел людей в новом решении проблем и усвоении навыков на Корпусе Абстракции и Рассуждений для Искусственного Общего Интеллекта (ARC-AGI). Однако этот бенчмарк ограничен символическими образцами, в то время как люди часто воспринимают и рассуждают о мультимодальных сценариях, включающих в себя и зрительные, и языковые данные. Таким образом, существует настоятельная необходимость исследовать продвинутые способности к рассуждениям в мультимодальных задачах. Для этого мы отслеживаем эволюцию моделей серии GPT-[n] и o-[n] на сложных мультимодальных головоломках, требующих тонкого визуального восприятия с абстрактным или алгоритмическим рассуждением. Превосходная производительность o1 достигается почти в 750 раз большими вычислительными затратами по сравнению с GPT-4o, вызывая опасения относительно его эффективности. Наши результаты показывают четкую тенденцию к улучшению способностей к рассуждениям на протяжении итераций моделей, с заметными скачками производительности среди моделей серии GPT и впоследствии к o1. Тем не менее мы замечаем, что модель o1 все еще испытывает трудности с простыми мультимодальными головоломками, требующими абстрактного рассуждения. Более того, ее производительность в алгоритмических головоломках остается низкой. Мы планируем непрерывно отслеживать новые модели в серии и обновлять наши результаты в данной статье. Все ресурсы, использованные в этой оценке, доступны по ссылке https://github.com/declare-lab/LLM-PuzzleTest.
Даже высококвалифицированные большие языковые модели (LLM) могут производить предвзятые или небезопасные ответы, и техники выравнивания, такие как RLHF, направленные на смягчение этой проблемы, являются дорогостоящими и склонны к переобучению, так как переобучают LLM. В данной статье представлен новый подход к выравниванию на этапе вывода, который обеспечивает LLM генерацию безопасных ответов практически наверняка, т.е. с вероятностью, стремящейся к единице. Мы достигаем этого, формулируя безопасную генерацию ответов на этапе вывода как ограниченный процесс принятия решений Маркова в скрытом пространстве LLM. Критически важно, что мы дополняем состояние безопасности, отслеживающее эволюцию безопасных ограничений и позволяющее нам продемонстрировать формальные гарантии безопасности при решении MDP в скрытом пространстве. На основе этого фундамента мы предлагаем InferenceGuard, практическую реализацию, которая безопасно выравнивает LLM без изменения весов модели. Эмпирически мы демонстрируем, что InferenceGuard эффективно балансирует безопасность и производительность задачи, превосходя существующие методы выравнивания на этапе вывода в генерации безопасных и выровненных ответов.
Существующие бенчмарки для передовых моделей часто проверяют специализированные знания на уровне докторантуры, которые сложно понять неспециалистам. В отличие от этого, мы представляем бенчмарк, основанный на вызове головоломки NPR Sunday Puzzle Challenge, который требует только общих знаний. Наш бенчмарк вызывает сложности как для людей, так и для моделей, однако правильные решения легко проверить, а ошибки моделей легко обнаружить. Наша работа выявляет разрывы в возможностях, которые не являются очевидными в существующих бенчмарках: OpenAI o1 значительно превосходит другие модели рассуждений, которые находятся на одном уровне в бенчмарках, проверяющих специализированные знания. Более того, наш анализ выводов рассуждений выявляет новые виды неудач. Например, DeepSeek R1 часто сдается с фразой "Я сдаюсь", прежде чем дать ответ, который он знает неверным. R1 также может быть заметно "неуверенным" в своем выводе, и в редких случаях не "заканчивает размышления", что указывает на необходимость техники времени вывода для "завершения" до достижения предела окна контекста. Мы также количественно оцениваем эффективность более длительного рассуждения с R1 и Gemini Thinking для определения момента, после которого дальнейшее рассуждение маловероятно улучшит точность нашего бенчмарка.
Мы представляем подход к моделированию на основе обучения с подкреплением, который достигает нового state of the art производительности на сложном бенчмарке Craftax-classic, открытой 2D игре выживания, требующей от агентов демонстрации широкого спектра общих способностей - таких как сильная обобщающая способность, глубокое исследование и долгосрочное мышление. С помощью серии тщательно продуманных выборов дизайна, направленных на улучшение эффективности использования выборок, наш алгоритм MBRL достигает награды в 67.4% после всего лишь 1 миллиона шагов в среде, значительно превосходя DreamerV3, который достигает 53.2%, и впервые превосходит человеческую производительность в 65.0%. Наш метод начинается с построения SOTA модельного базиса, используя новую архитектуру политики, объединяющую CNN и RNN. Затем мы добавляем три улучшения к стандартной настройке MBRL: (a) "Dyna с разогревом", который обучает политику на реальных и мнимых данных, (b) "токенизатор ближайшего соседа" на изображениях, улучшающий схему создания входов трансформерной модели мира (TWM), и (c) "блочное принуждение учителя", позволяющее TWM совместно рассуждать о будущих токенах следующего временного шага.
Адаптация низкого ранга (Low-Rank Adaptation, LoRA) и его варианты продемонстрировали впечатляющие результаты в сокращении количества обучаемых параметров и требований к памяти больших трансформерных сетей, сохраняя при этом производительность донастройки. Однако низкоранговая природа обновления весов внутренне ограничивает мощность представления донастроенных моделей, что потенциально снижает производительность на сложных задачах. Это поднимает критический вопрос: когда наблюдается разрыв в производительности между LoRA и стандартной донастройкой, это связано с уменьшенным количеством обучаемых параметров или дефицитом ранга? В данной статье предлагается ответить на этот вопрос, представив метод RandLoRA, эффективный с точки зрения параметров, который выполняет обновления полного ранга с использованием выученных линейных комбинаций низкоранговых, необучаемых случайных матриц. Наш метод ограничивает количество обучаемых параметров, ограничивая оптимизацию диагональными матрицами масштабирования, применяемыми к фиксированным случайным матрицам. Это позволяет нам эффективно преодолеть ограничения низкого ранга, сохраняя параметрическую и памятью эффективность во время обучения. Через обширные эксперименты по видению, языку и видео-языковым бенчмаркам мы систематически оцениваем ограничения LoRA и существующих методов на основе случайных базисов. Наши результаты показывают, что обновления полного ранга полезны как для задач видения, так и для языка индивидуально, и еще более для задач видео-языка, где RandLoRA значительно сокращает - а иногда и устраняет - разрыв в производительности между стандартной донастройкой и LoRA, демонстрируя его эффективность.
Модели согласованности - это новое семейство генеративных моделей, способных производить высококачественные образцы либо за один шаг, либо за несколько шагов. Недавно модели согласованности продемонстрировали впечатляющую производительность, достигая результатов, сравнимых с моделями диффузии в пространстве пикселей. Однако успех масштабирования обучения согласованности на крупных наборах данных, особенно для задач генерации текста в изображения и видео, определяется производительностью в скрытом пространстве. В данной работе мы анализируем статистические различия между пиксельным и скрытым пространствами, обнаруживая, что скрытые данные часто содержат очень импульсивные выбросы, которые значительно ухудшают производительность iCT в скрытом пространстве. Для решения этой проблемы мы заменяем потери Псевдо-Хьюбера на потери Коши, что эффективно смягчает влияние выбросов. Кроме того, мы вводим потери диффузии на ранних временных шагах и используем оптимальную транспортную связь (OT) для дальнейшего улучшения производительности. Наконец, мы представляем адаптивный планировщик масштабирования-c для управления устойчивым процессом обучения и принимаем Нескалируемую слойную нормализацию в архитектуре для более точного улавливания статистики признаков и снижения влияния выбросов. Благодаря этим стратегиям мы успешно обучаем скрытые модели согласованности, способные к высококачественной генерации с одним или двумя шагами, значительно сокращая разрыв в производительности между скрытой согласованностью и моделями диффузии. Реализация доступна здесь: https://github.com/quandao10/sLCT/
Предыдущие исследования в области редактирования знаний путем изменения параметров показали, что масштабное последовательное редактирование приводит к значительному ухудшению модели. В данной статье мы изучаем причины этого явления и масштабируем последовательное редактирование знаний до 10 000 последовательных изменений, сохраняя при этом производительность исходной модели. Сначала мы показываем, что методы редактирования знаний сначала определить, затем изменить приводят к переобучению на отредактированных фактах. Мы также демонстрируем, что непрерывное редактирование знаний с использованием этих методов приводит к диспропорциональному росту нормы отредактированной матрицы. Затем мы предоставляем важное понимание внутреннего устройства методов сначала определить, затем изменить. Мы показываем, что рост нормы является скрытым трюком, используемым этими методами, который придает большее значение активациям выхода, полученным из отредактированных слоев. С помощью этого "взлома важности" отредактированные слои вносят гораздо больший вклад в выход модели. Для устранения этих проблем мы представляем ENCORE - Раннюю остановку и Устойчивое редактирование знаний с ограничением нормы. ENCORE контролирует переобучение и диспропорциональный рост нормы, позволяя долгосрочное последовательное редактирование, при котором мы можем выполнять до 10 000 последовательных изменений без потери производительности. ENCORE также на 61% быстрее, чем MEMIT и на 64% быстрее, чем AlphaEdit на Llama3-8B.
Генерация длинных форматов является ключевым аспектом для написания научных статей и создания кода на уровне репозитория. Тем не менее, текущие модели, включая GPT-4o, все еще демонстрируют недостаточную производительность. Существующие методы, использующие обучение предпочтениям с наблюдением за результатами, часто не способны предоставить детальную обратную связь для расширенных контекстов. Этот недостаток может привести к содержанию, которое не полностью удовлетворяет требования запроса, что приводит к проблемам, таким как отклонения в длине и снижение качества. В данной статье мы предлагаем улучшить генерацию длинных форматов путем внедрения процессного наблюдения. Мы используем Монте-Карло поиск по дереву для сбора пошаговых пар предпочтений, используя глобальный пул памяти для поддержания согласованности. Для решения проблемы субоптимального выбора кандидатов мы интегрируем внешние критики для улучшения качества пар предпочтений. Наконец, мы применяем пошаговое ДПО, используя собранные пошаговые пары предпочтений. Экспериментальные результаты показывают, что наш метод улучшает длину и качество на бенчмарках генерации длинных форматов, практически без потерь производительности на общих бенчмарках с различными моделями основ.
Модульные тесты (UTs) играют важную роль в оценке правильности кода, а также предоставлении обратной связи большой языковой модели (LLM) по мере итеративного устранения ошибок в коде, мотивируя автоматизированную генерацию тестов. Однако мы обнаружили компромисс между созданием входных данных модульных тестов, выявляющих ошибки при наличии неправильного кода, и правильным предсказанием вывода модульного теста без доступа к эталонному решению. Для решения этого компромисса мы предлагаем UTGen, который обучает LLM генерировать входные данные модульных тестов, выявляющие ошибки, вместе с их правильными ожидаемыми выводами на основе описаний задач и кандидатского кода. Мы интегрируем UTGen в UTDebug, надежный конвейер отладки, который использует сгенерированные тесты для помощи LLM в эффективной отладке. Поскольку модельно-сгенерированные тесты могут давать шумные сигналы (например, из-за неправильно предсказанных выводов), UTDebug (i) масштабирует UTGen через вычисления во время тестирования для улучшения предсказания вывода UT и (ii) проверяет и откатывает изменения на основе нескольких сгенерированных UT, чтобы избежать переобучения. Мы показываем, что UTGen превосходит базовые методы генерации UT на 7.59% по метрике, измеряющей наличие как входов UT, выявляющих ошибки, так и правильных выводов UT. При использовании с UTDebug мы обнаруживаем, что обратная связь от модульных тестов UTGen улучшает точность pass@1 для Qwen-2.5 7B на HumanEvalFix и нашем собственном более сложном разделении отладки MBPP+ на более чем 3% и 12.35% (соответственно) по сравнению с другими базовыми методами генерации UT на основе LLM.
Языковые модели (LM) должны предоставлять надежные оценки уверенности, чтобы помочь пользователям обнаруживать ошибки в своих выводах и обращаться к человеческим экспертам при необходимости. Просьба языковой модели оценить свою уверенность ("Оцените свою уверенность от 0 до 1.") является естественным способом оценки ее неопределенности. Однако модели испытывают трудности при предоставлении абсолютных оценок уверенности (т.е. оценка уверенности в ответе на вопрос независимо от других вопросов), и грубозернистые оценки, которые они производят, не полезны для оценки правильности их ответов. Мы предлагаем относительную оценку уверенности, где мы сопоставляем вопросы друг с другом и просим модель делать относительные суждения уверенности ("В каком вопросе вы уверены больше в правильном ответе?"). Рассматривая каждый вопрос как "игрока" в серии матчей против других вопросов и предпочтения модели как результаты матчей, мы можем использовать методы агрегации рангов, такие как рейтинг Эло и Брэдли-Терри, чтобы преобразовать предпочтения уверенности модели в оценки уверенности. Мы оцениваем относительную оценку уверенности по сравнению с абсолютной оценкой уверенности и методами уверенности самоконсистентности на пяти передовых языковых моделях - GPT-4, GPT-4o, Gemini 1.5 Pro, Claude 3.5 Sonnet и Llama 3.1 405B - на 14 сложных задачах по ответам на вопросы в области STEM, социальных наук и здравого смысла. Наши результаты показывают, что относительная оценка уверенности последовательно предоставляет более надежные оценки уверенности, чем абсолютная оценка уверенности, с средними приростами 3.5% в AUC селективной классификации по сравнению с прямыми методами абсолютной оценки уверенности и 1.7% по сравнению с подходами самоконсистентности на всех моделях и наборах данных.
Ретроперитонеальная область является местом обитания различных опухолей, включая редкие доброкачественные и злокачественные типы, которые представляют диагностические и терапевтические вызовы из-за их редкости и близости к важным структурам. Оценка объема опухоли затруднена из-за их неправильных форм, а ручная сегментация занимает много времени. Автоматическая сегментация с использованием U-Net и его вариантов, включая элементы Vision Transformer (ViT), продемонстрировала многообещающие результаты, но сталкивается с высокими вычислительными требованиями. Для решения этой проблемы архитектуры, такие как Mamba State Space Model (SSM) и Extended Long-Short Term Memory (xLSTM), предлагают эффективные решения, обрабатывая долгосрочные зависимости с более низким потреблением ресурсов. В данном исследовании оцениваются улучшения U-Net, включая CNN, ViT, Mamba и xLSTM, на новом внутреннем наборе данных CT и общедоступном наборе данных сегментации органов. Предложенная модель ViLU-Net интегрирует Vi-блоки для улучшенной сегментации. Результаты подчеркивают эффективность xLSTM в рамках U-Net. Код общедоступен на GitHub.
Модели основы патологии (FMs) обладают большим потенциалом для здравоохранения. Прежде чем их можно будет использовать в клинической практике, необходимо обеспечить их устойчивость к различиям между медицинскими центрами. Мы измеряем, насколько модели патологии сосредотачиваются на биологических особенностях, таких как ткани и тип рака, или на хорошо известных смещающих подписях медицинских центров, внесенных процедурой окрашивания и другими различиями. Мы представляем Индекс Устойчивости. Этот новый метрический показатель устойчивости отражает степень, в которой биологические особенности доминируют над смещающими особенностями. Оцениваются десять текущих публично доступных моделей основы патологии. Мы обнаруживаем, что все текущие оцененные модели основы патологии сильно представляют медицинский центр. Наблюдаются значительные различия в индексе устойчивости. Пока только у одной модели индекс устойчивости превышает единицу, что означает, что биологические особенности доминируют над смещающими особенностями, но лишь незначительно. Описывается количественный подход для измерения влияния различий медицинских центров на производительность прогнозирования на основе FM. Мы анализируем влияние неустойчивости на производительность классификации последующих моделей и обнаруживаем, что ошибки классификации типов рака не случайны, а специфически обусловлены смещающими факторами внутри одного центра: изображениями других классов из того же медицинского центра. Мы визуализируем пространства вложения FM и обнаруживаем, что они более тесно организованы по медицинским центрам, чем по биологическим факторам. В результате медицинский центр происхождения предсказывается более точно, чем источник ткани и тип рака. Индекс устойчивости, представленный здесь, предназначен для продвижения прогресса в направлении клинического принятия устойчивых и надежных моделей основы патологии.