Ежедневно отобранные исследовательские статьи по ИИ с переводами
Рассуждения, созданные LLMs, могут быть неполными, так как они имитируют логические прыжки, характерные для повседневного общения, обнаруженные в их предварительных данных обучения: основные обоснования часто остаются неявными (не высказанными). Для решения этой проблемы мы представляем RATIONALYST, модель для процесс-надзора за рассуждениями на основе предварительного обучения на огромной коллекции аннотаций обоснований, извлеченных из неразмеченных данных. Мы извлекаем 79 тыс. обоснований из веб-масштабного неразмеченного набора данных (Pile) и комбинации наборов данных для рассуждений с минимальным вмешательством человека. Это предварительное веб-масштабное обучение для рассуждений позволяет RATIONALYST последовательно обобщать различные задачи рассуждений, включая математические, здравомыслительные, научные и логические рассуждения. После настройки на LLaMa-3-8B, RATIONALYST повышает точность рассуждений в среднем на 3,9% на 7 репрезентативных бенчмарках рассуждений. Он также демонстрирует превосходную производительность по сравнению с значительно более крупными верификаторами, такими как GPT-4, и моделями схожего размера, настроенными на соответствующих наборах данных для обучения.
Различные модели визуальных основ имеют различные преимущества и недостатки, которые можно улучшить с помощью гетерогенной многопреподавательской дистилляции знаний без ярлыков, называемой "агломеративными моделями". Мы продолжаем изучение этой области, изучая влияние статистики активации преподавателей, в частности влияние функции потерь на качество полученной модели ученика. Мы исследуем стандартный набор техник статистической нормализации для лучшего выравнивания различных распределений и оцениваем их эффекты. Кроме того, мы изучаем влияние на метрики соответствия преподавателей вниз по потоку, что мотивирует использование матриц Хадамара. С помощью этих матриц мы демонстрируем полезные свойства, показывая, как их можно использовать для изотропной стандартизации, где каждое измерение многомерного распределения стандартизируется с использованием одной и той же шкалы. Мы называем эту технику "Стандартизацией PHI" (PHI-S) и эмпирически демонстрируем, что она обеспечивает лучшую модель ученика среди рассмотренных методов.
Хотя большие языковые модели сделали значительные успехи в генерации кода, процент прохождения сгенерированного кода ограничивается тонкими ошибками, часто требующими вмешательства человека для прохождения тестов, особенно для сложных задач. Существующие системы отладки на основе LLM рассматривают сгенерированные программы как монолитные единицы, не уделяя внимания ошибкам на нескольких уровнях детализации, от низкоуровневых синтаксических ошибок до высокоуровневых алгоритмических недочетов. В данной статье мы представляем Multi-Granularity Debugger (MGDebugger), иерархический отладчик кода, выделяющий, идентифицирующий и устраняющий ошибки на различных уровнях детализации. MGDebugger декомпозирует проблемный код в иерархическое дерево структуры подфункций, при этом каждый уровень представляет определенную детализацию ошибки. Во время отладки он анализирует каждую подфункцию и итеративно устраняет ошибки снизу вверх. Для эффективного тестирования каждой подфункции мы предлагаем LLM-симулированный исполнитель Python, который отслеживает выполнение кода и отслеживает важные состояния переменных для точного определения ошибок. Обширные эксперименты демонстрируют, что MGDebugger превосходит существующие системы отладки, достигая улучшения точности на 18,9% по сравнению с начальными поколениями в HumanEval и успешной скоростью восстановления на уровне 97,6% в HumanEvalFix. Более того, MGDebugger эффективно устраняет ошибки в различных категориях и уровнях сложности, демонстрируя свою надежность и эффективность.
Нейронные поля радиантности (NeRF) широко используются для синтеза нового вида и были адаптированы для обнаружения 3D-объектов (3DOD), предлагая многообещающий подход к 3DOD через представление синтеза вида. Однако NeRF сталкивается с врожденными ограничениями: (i) ограниченная репрезентативная способность для 3DOD из-за своей неявной природы и (ii) медленные скорости визуализации. Недавно 3D гауссово слоение (3DGS) появилось как явное 3D-представление, которое решает эти ограничения. Вдохновленный этими преимуществами, данный документ впервые внедряет 3DGS в 3DOD, выделяя две основные проблемы: (i) Неоднозначное пространственное распределение гауссовских капель: 3DGS в основном зависит от 2D пиксельного управления, что приводит к неясному 3D пространственному распределению гауссовских капель и плохой дифференциации между объектами и фоном, что затрудняет 3DOD; (ii) Избыточные фоновые капли: 2D изображения часто включают множество фоновых пикселей, что приводит к плотно восстановленному 3DGS с множеством шумных гауссовских капель, представляющих фон, что негативно влияет на обнаружение. Чтобы решить проблему (i), мы используем тот факт, что восстановление 3DGS происходит из 2D изображений, и предлагаем элегантное и эффективное решение, интегрируя 2D руководство границами, чтобы значительно улучшить пространственное распределение гауссовских капель, что приводит к более ясной дифференциации между объектами и их фоном. Чтобы решить проблему (ii), мы предлагаем стратегию выборки с фокусом на коробки, используя 2D коробки для генерации вероятностного распределения объектов в 3D пространствах, что позволяет эффективную вероятностную выборку в 3D для сохранения большего количества объектных капель и уменьшения шумных фоновых капель. Благодаря нашим разработкам, наш 3DGS-DET значительно превосходит метод NeRF-Det, основанный на SOTA NeRF, достигая улучшений +6,6 на mAP@0,25 и +8,1 на mAP@0,5 для набора данных ScanNet, а также впечатляющих +31,5 на mAP@0,25 для набора данных ARKITScenes.
Мы исследуем способности моделей языков с ограниченной памятью (LLM) к решению задач математики начальной школы (GSM). Для этого мы оцениваем их производительность на парах существующих математических текстовых задач таким образом, что ответ на вторую задачу зависит от правильного ответа на первую задачу. Наши результаты показывают значительный разрыв в рассуждениях у большинства LLM, то есть разницу в производительности при решении композиционных пар и при решении каждого вопроса независимо. Этот разрыв более заметен в более маленьких, экономичных и специализированных на математике моделях. Более того, рецепты настройки инструкций и генерация кода оказывают различное воздействие в зависимости от размеров LLM, в то время как донастройка на GSM может привести к переобучению на задачу. Наш анализ показывает, что большие разрывы в рассуждениях не связаны с утечкой тестового набора данных, а вызваны отвлечением дополнительным контекстом и плохими рассуждениями на втором шаге. В целом LLM проявляют систематические различия в своих способностях к рассуждению, несмотря на их производительность на стандартных бенчмарках.
Изображения с текстовым содержанием, где текст служит центральным визуальным элементом, направляющим общее понимание, широко распространены в прикладных областях, таких как слайды презентаций, отсканированные документы и снимки веб-страниц. Задачи, связанные с несколькими изображениями с текстовым содержанием, особенно сложны, поскольку требуют не только понимания содержания отдельных изображений, но и рассуждений о взаимосвязях и логических потоках между несколькими визуальными входами. Несмотря на важность таких сценариев, текущие мультимодальные модели языка большого масштаба (MLLM) испытывают трудности в решении таких задач из-за двух ключевых проблем: (1) недостаточного количества высококачественных наборов данных для настройки инструкций для сценариев с несколькими текстовыми изображениями и (2) сложности балансирования разрешения изображения с длиной последовательности визуальных признаков. Для решения этих проблем мы предлагаем \OurMethod, MLLM, специально разработанную для решения задач видео-языкового взаимодействия, включающих несколько изображений с текстовым содержанием. Во-первых, мы составили около одного миллиона высококачественных мультимодальных данных для настройки инструкций, адаптированных для сценариев с несколькими текстовыми изображениями. Во-вторых, мы разработали адаптивный модуль кодирования многократного изображения высокого разрешения для динамической оптимизации выделения длины визуальной последовательности на основе исходных соотношений сторон и разрешений входных изображений. Эксперименты на широком спектре бенчмарков демонстрируют превосходные возможности нашей модели в оценке сценариев с текстовым содержанием и несколько конкурентоспособную производительность в общих оценках домена.
Модели вознаграждения являются критически важными для выравнивания моделей с инструкциями и обычно обучаются по одной из двух популярных парадигм: стилю Брэдли-Терри или стилю Регрессии. Однако нет доказательств того, что один подход лучше другого, когда данные должны быть адекватно согласованы. Это в основном связано с тем, что эти подходы требуют данных, собранных в различных (но несовместимых) форматах, что означает, что адекватно согласованные данные недоступны в существующих общедоступных наборах данных. Для решения этой проблемы мы выпускаем аннотации предпочтений (разработанные для обучения по методу Брэдли-Терри) для дополнения существующих рейтингов (разработанных для обучения в стиле Регрессии) в наборе данных HelpSteer2. Для улучшения интерпретируемости данных, аннотации предпочтений сопровождаются обоснованиями, написанными людьми. Используя эти данные, мы проводим первое сравнение моделей Брэдли-Терри и Регрессии, когда данные адекватно согласованы. Основываясь на выводах, полученных из такого сравнения, мы предлагаем новый подход к объединению моделей вознаграждения Брэдли-Терри и Регрессии. Модель Llama-3.1-70B-Instruct, настроенная с использованием этого подхода, набирает 94.1 на платформе RewardBench, занимая первое место среди более чем 140 моделей вознаграждения на 1 октября 2024 года. Мы также демонстрируем эффективность этой модели вознаграждения в выравнивании моделей с инструкциями в RLHF. Мы открываем исходный код этого набора данных (лицензия CC-BY-4.0) по адресу https://huggingface.co/datasets/nvidia/HelpSteer2 и открыто предоставляем обученную модель вознаграждения по адресу https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Reward.
Мы исследуем LoRA в федеративном обучении через призму анализа асимметрии обученных матриц A и B. Таким образом, мы обнаруживаем, что матрицы A отвечают за изучение общих знаний, в то время как матрицы B сосредотачиваются на захвате клиентоориентированных знаний. Основываясь на этом открытии, мы представляем метод Federated Share-A Low-Rank Adaptation (FedSA-LoRA), который использует две низкоранговые обучаемые матрицы A и B для моделирования обновления весов, но только матрицы A передаются на сервер для агрегации. Более того, мы погружаемся в отношения между изученными матрицами A и B в других вариантах LoRA, таких как rsLoRA и VeRA, раскрывая последовательный шаблон. В результате мы расширяем наш метод FedSA-LoRA на эти варианты LoRA, что приводит к появлению FedSA-rsLoRA и FedSA-VeRA. Таким образом, мы устанавливаем общую парадигму для интеграции LoRA с FL, предлагая руководство для будущих работ по последующим вариантам LoRA, объединенным с FL. Обширные экспериментальные результаты на задачах понимания и генерации естественного языка демонстрируют эффективность предложенного метода.
Практическое применение генерации текста в изображение эволюционировало от простых монолитных моделей к сложным рабочим процессам, объединяющим несколько специализированных компонентов. Хотя подходы на основе рабочих процессов могут привести к улучшению качества изображения, создание эффективных рабочих процессов требует значительной экспертизы из-за большого количества доступных компонентов, их сложной взаимозависимости и зависимости от текстовой подсказки для генерации. Здесь мы представляем новую задачу генерации рабочего процесса, адаптированного к подсказке, где целью является автоматическое настройка рабочего процесса под каждую текстовую подсказку пользователя. Мы предлагаем два подхода на основе LLM для решения этой задачи: метод настройки, который учитывает данные о предпочтениях пользователя, и метод без обучения, который использует LLM для выбора существующих потоков. Оба подхода приводят к улучшению качества изображения по сравнению с монолитными моделями или общими, независимыми от подсказки рабочими процессами. Наша работа показывает, что предсказание потока, зависящее от подсказки, предлагает новый путь к улучшению качества генерации текста в изображение, дополняя существующие исследовательские направления в этой области.
Нейрометрики для оценки машинного перевода (MT) стали все более заметными из-за их превосходной корреляции с человеческими оценками по сравнению с традиционными лексическими метриками. Исследователи поэтому используют нейрометрики через стратегии декодирования, основанные на качестве, достигая лучших результатов по сравнению с методами, основанными на вероятности. С появлением больших языковых моделей (LLM) техники выравнивания на основе предпочтений привлекли внимание своим потенциалом улучшить качество перевода путем оптимизации весов модели непосредственно на предпочтениях, вызванных оценщиками качества. В данном исследовании акцент сделан на контрастной оптимизации предпочтений (CPO) и проведены обширные эксперименты для оценки влияния выравнивания на основе предпочтений на качество перевода. Наши результаты показывают, что в то время как CPO последовательно превосходит надзорное дообучение (SFT) на данных высокого качества по метрике выравнивания, это может привести к нестабильности по отношению к метрикам оценки на следующем уровне, особенно между нейронными и лексическими метриками. Кроме того, мы демонстрируем, что полагаясь исключительно на базовую модель для генерации кандидатских переводов, достигается производительность, сравнимая с использованием нескольких внешних систем, обеспечивая при этом лучшую последовательность по метрикам на следующем уровне.
Возникновение фундаментальных моделей (FMs), совместно с регулятивными усилиями, направленными на решение их рисков и воздействия, вызвало значительный интерес к моделям с открытым исходным кодом. Однако существующие речевые FM (SFMs) не соответствуют полностью принципам открытого исходного кода, даже если утверждается обратное, поскольку ни один из существующих SFM не имеет весов модели, кода и обучающих данных, доступных публично на условиях открытого исходного кода. В данной работе мы делаем первый шаг к заполнению этого пробела, сосредотачиваясь на 24 официальных языках Европейского союза (EU). Мы собираем подходящие обучающие данные, исследуя наборы данных для автоматического распознавания речи и неразмеченные речевые корпуса, имеющие лицензии, совместимые с открытым исходным кодом, на общую продолжительность 950 тыс. часов. Кроме того, мы предоставляем автоматические транскрипты для 441 тыс. часов неразмеченных данных под лицензией CC-BY, тем самым облегчая создание речевых SFM с открытым исходным кодом для языков EU.
Хотя большие языковые модели (LLM) продемонстрировали исключительные способности в понимании сложных запросов и выполнении сложных задач, их способности к обобщению часто глубоко переплетены с запоминанием, требуя более точной оценки. Для решения этой проблемы мы представляем Scylla, динамическую систему оценки, которая количественно измеряет способности обобщения LLM. Scylla разделяет обобщение от запоминания, оценивая производительность модели как на данных внутри распределения (ID), так и на данных вне распределения (OOD) через 20 задач на 5 уровнях сложности. Через обширные эксперименты мы выявляем не монотонное отношение между сложностью задачи и разрывом в производительности между данными ID и OOD, которое мы называем долиной обобщения. Конкретно, это явление раскрывает критический порог - называемый критической сложностью - где зависимость от негенерализуемого поведения достигает пика, указывая на верхнюю границу способностей обобщения LLM. По мере увеличения размера модели критическая сложность смещается к более высоким уровням сложности задач, что указывает на то, что более крупные модели могут обрабатывать более сложные задачи рассуждения, прежде чем слишком полагаться на запоминание. Используя Scylla и концепцию критической сложности, мы проводим оценку 28LLM, включая как модели с открытым исходным кодом, такие как семьи LLaMA и Qwen, так и закрытые модели, такие как Claude и GPT, обеспечивая более надежную оценку и установление более ясного понимания способностей обобщения LLM.
Моделирование человеческих предпочтений крайне важно для согласования базовых моделей с человеческими ценностями. Традиционные методы моделирования вознаграждения, такие как модель вознаграждения Брэдли-Терри (BT), оказываются недостаточно выразительными, особенно при работе с транзитивными предпочтениями. Хотя модели с учителем парных предпочтений (PairPM) могут выражать общие предпочтения, их реализация является чрезвычайно ад-хок и не гарантирует последовательной вероятности предпочтения для сравниваемых пар. Кроме того, они накладывают высокие вычислительные затраты из-за квадратичной сложности запроса при сравнении нескольких ответов. В данной статье мы представляем обучение представлению предпочтений, подход, который встраивает ответы в латентное пространство для эффективного улавливания сложных структур предпочтений, достигая линейной сложности запроса. Кроме того, мы предлагаем обобщенную оптимизацию предпочтений на основе оценки предпочтений (GPO), которая обобщает обучение с подкреплением на основе вознаграждения от человеческой обратной связи. Экспериментальные результаты показывают, что наша обобщенная модель представления предпочтений (GPM) превосходит модель вознаграждения BT на бенчмарке RewardBench с отрывом до 5.6% и эффективно моделирует циклические предпочтения, при которых любая модель вознаграждения BT ведет себя как случайное угадывание. Кроме того, оценки на задачах AlpacaEval2.0 и MT-Bench, после предварительного обучения языковой модели с использованием GPO и нашей общей модели предпочтений, показывают значительное улучшение производительности с отрывом до 9.3%. Эти результаты указывают на то, что наш метод может улучшить согласование базовых моделей с тонкими человеческими ценностями. Код доступен по ссылке https://github.com/general-preference/general-preference-model.
Большие языковые модели продемонстрировали значительный потенциал как информационные поисковые машины следующего поколения. Однако их надежность ослаблена проблемами галлюцинаций и генерации нефактического контента. Это особенно проблематично в длинных ответах, где оценка и обеспечение фактической точности является сложной задачей. В данной статье мы решаем эту проблему, предлагая FactAlign, новую систему выравнивания, разработанную для повышения фактической точности длинных ответов LLM, сохраняя их полезность. Мы представляем fKTO, тонко настроенный алгоритм выравнивания на уровне предложения, который расширяет метод выравнивания Kahneman-Tversky Optimization (KTO). Используя последние достижения в автоматической оценке фактичности, FactAlign использует тонко настроенные оценки фактичности для направления процесса выравнивания. Наши эксперименты на открытых запросах и информационных вопросах показывают, что FactAlign значительно повышает фактическую точность ответов LLM, улучшая их полезность. Дополнительные анализы показывают, что FactAlign способен обучать LLM предоставлять больше информации, не теряя фактической точности, тем самым улучшая фактический F1-скор. Наш исходный код, наборы данных и обученные модели доступны публично по адресу https://github.com/MiuLab/FactAlign
Мы представляем метод точного объемного рендеринга эллипсоидов (EVER), предназначенный для дифференцируемого объемного рендеринга с эмиссией в реальном времени. В отличие от недавнего подхода на основе растеризации с помощью трехмерного гауссовского сплетения (3DGS), наша примитивная репрезентация позволяет достичь точного объемного рендеринга, а не альфа-композитинг трехмерных гауссовских щитов. Таким образом, в отличие от 3DGS, наша формулировка не страдает от артефактов "попинга" и плотности, зависящей от вида, но все же достигает частоты кадров около 30 к/с при разрешении 720p на NVIDIA RTX4090. Поскольку наш подход основан на трассировке лучей, он позволяет реализовать эффекты, такие как размытие дефокуса и искажение камеры (например, от фишай-камер), которые сложно достичь с помощью растеризации. Мы показываем, что наш метод более точен и имеет меньше проблем с смешиванием, чем 3DGS и последующие работы по рендерингу с сохранением вида, особенно на сложных сценах большого масштаба из набора данных Zip-NeRF, где он достигает наилучших результатов среди техник реального времени.
Несмотря на недавние достижения в технологии Преобразования Текста в Речь (TTS), обеспечивающие естественную и выразительную речь, они лишены возможности для пользователей выбирать эмоции и контролировать их интенсивность. Мы предлагаем EmoKnob, фреймворк, позволяющий осуществлять тонкий контроль эмоций в синтезе речи с помощью демонстративных образцов произвольных эмоций. Наш фреймворк использует пространство выразительного представления диктора, обеспеченное недавними достижениями в моделях основных клонирования голоса. Основываясь на возможности небольшого количества образцов нашего фреймворка контроля эмоций, мы предлагаем два метода применения контроля эмоций к эмоциям, описанным в тексте без ограничений, обеспечивая интуитивный интерфейс для управления разнообразным спектром тонких эмоций. Для облегчения более систематического синтеза речи с эмоциями мы представляем набор метрик оценки, разработанных для строгой оценки достоверности и узнаваемости фреймворков контроля эмоций. Через объективные и субъективные оценки мы показываем, что наш фреймворк контроля эмоций эффективно внедряет эмоции в речь и превосходит выразительность эмоций коммерческих услуг TTS.
Недавние достижения в области моделей больших языков для видео (Video-LLMs) продемонстрировали их большой потенциал в понимании видео общего назначения. Для подтверждения значимости этих моделей было предложено несколько бенчмарков для диагностики их возможностей в различных сценариях. Однако существующие бенчмарки оценивают модели только через вопросно-ответный уровень видео, лишены тонкой оценки событий на уровне событий и разнообразия задач. Для заполнения этого пробела мы представляем E.T. Bench (Бенчмарк понимания видео на уровне событий и чувствительный к времени), крупномасштабный и высококачественный бенчмарк для понимания видео на уровне событий с открытым исходом. Классифицированный в рамках трехуровневой таксономии задач, E.T. Bench охватывает 7,3 тыс. образцов по 12 задачам с 7 тыс. видео (общая длительность 251,4 часа) в 8 доменах, обеспечивая всестороннюю оценку. Мы тщательно оценили 8 моделей Image-LLMs и 12 моделей Video-LLMs нашим бенчмарком, и результаты показывают, что передовые модели для грубого уровня понимания (на уровне видео) испытывают затруднения при решении наших тонких задач, например, привязка интересующих событий в видео, в значительной степени из-за короткой длины контекста видео, неправильного представления времени и отсутствия данных для мульти-событийного обучения. Сосредотачиваясь на этих проблемах, мы далее предлагаем сильную базовую модель, E.T. Chat, вместе с набором данных для настройки инструкций E.T. Instruct 164K, нацеленным на тонкое понимание событий на уровне событий. Наше простое, но эффективное решение демонстрирует превосходные результаты в различных сценариях.
Большие языковые модели отличаются в творческом генерировании, но продолжают испытывать трудности с проблемами галлюцинаций и предвзятости. В то время как ретриев-усиленное генерирование (RAG) предоставляет рамки для обоснования ответов LLM на точной и актуальной информации, остается вопрос предвзятости: какие источники следует выбрать для включения в контекст? И как их важность должна быть взвешена? В данной статье мы изучаем вызов кросс-языкового RAG и представляем набор данных для исследования устойчивости существующих систем при ответе на запросы о геополитических конфликтах, которые находятся на стыке языковых, культурных и политических границ. Наш набор данных берется из страниц Википедии, содержащих информацию, соответствующую данным запросам, и мы исследуем влияние включения дополнительного контекста, а также состав этого контекста с точки зрения языка и источника, на ответ LLM. Наши результаты показывают, что существующие системы RAG продолжают испытывать трудности с кросс-языковыми случаями использования и страдают от отсутствия последовательности, когда им предоставляют конкурирующую информацию на нескольких языках. Мы представляем кейс-стади для иллюстрации этих проблем и намечаем шаги для будущих исследований по решению этих вызовов. Мы делаем наш набор данных и код общедоступными по адресу https://github.com/manestay/bordIRlines.
Модели видео-языка (VLM) необходимы для контекстного понимания как визуальной, так и текстовой информации. Однако их уязвимость к злонамеренно измененным входным данным представляет значительные риски, приводя к скомпрометированным результатам и вызывая опасения относительно надежности в приложениях, интегрированных с VLM. Обнаружение этих вредоносных подсказок является критически важным для поддержания доверия к генерациям VLM. Одним из основных вызовов при разработке классификатора защитных подсказок является отсутствие большого количества размеченных доброкачественных и вредоносных данных. Для решения этой проблемы мы представляем VLMGuard, новую обучающую структуру, которая использует неразмеченные пользовательские подсказки в дикой природе для обнаружения вредоносных подсказок. Эти неразмеченные подсказки, которые естественным образом возникают при развертывании VLM в открытом мире, содержат как доброкачественную, так и вредоносную информацию. Для использования неразмеченных данных мы представляем автоматический показатель оценки вредоносности для различения между доброкачественными и вредоносными образцами в этой неразмеченной смеси, что позволяет обучать бинарный классификатор подсказок. Следует отметить, что наша структура не требует дополнительных аннотаций людей, обеспечивая высокую гибкость и практичность для прикладных задач в реальном мире. Обширный эксперимент показывает, что VLMGuard достигает превосходных результатов обнаружения, значительно превосходя современные методы. Отказ от ответственности: в данной статье могут присутствовать оскорбительные примеры; рекомендуется осторожность читателям.
Трансформеры диффузии (DiTs) стали известны своей выдающейся масштабируемостью и выдающейся производительностью в генеративных задачах. Однако их значительные затраты на вывод затрудняют практическое применение. Механизм кэширования признаков, который включает в себя сохранение и извлечение избыточных вычислений через временные шаги, обещает снизить время вывода на каждом шаге в моделях диффузии. Большинство существующих методов кэширования для DiT разрабатываются вручную. Хотя обучающийся подход пытается оптимизировать стратегии адаптивно, он сталкивается с расхождениями между обучением и выводом, что затрудняет как производительность, так и коэффициент ускорения. После детального анализа мы выявляем, что эти расхождения в основном происходят из двух аспектов: (1) Пренебрежение предыдущим временем, когда обучение игнорирует влияние использования кэша на более ранних временных шагах, и (2) Несоответствие целей, когда цель обучения (выравнивание предсказанного шума на каждом временном шаге) отклоняется от цели вывода (генерация изображения высокого качества). Для устранения этих расхождений мы предлагаем HarmoniCa, новый метод, который гармонизирует обучение и вывод с помощью новой обучающейся кэширующей структуры, построенной на обучении пошагового шумоподавления (SDT) и цели, направленной на ошибку изображения с прокси-управляемым объектом (IEPO). По сравнению с традиционной парадигмой обучения, вновь предложенный SDT поддерживает непрерывность процесса шумоподавления, позволяя модели использовать информацию с предыдущих временных шагов во время обучения, аналогично тому, как она работает во время вывода. Более того, мы разрабатываем IEPO, который интегрирует эффективный механизм прокси для приближения окончательной ошибки изображения, вызванной повторным использованием кэшированного признака. Таким образом, IEPO помогает балансировать качество окончательного изображения и использование кэша, разрешая проблему обучения, которое учитывает только влияние использования кэша на предсказанный вывод на каждом временном шаге.
Обработка длинных контекстов остается значительным вызовом для больших языковых моделей (LLM), особенно в условиях ограниченных ресурсов, таких как мобильные устройства. Наша работа направлена на решение этого ограничения путем представления InfiniPot, новой рамки управления кэшем KV, разработанной для обеспечения возможности предварительно обученным LLM эффективно управлять обширными последовательностями в пределах фиксированных ограничений памяти, без необходимости дополнительного обучения. InfiniPot использует Продолжающееся Сжатие Контекста (CCD), итеративный процесс, который сжимает и сохраняет важную информацию с помощью новых метрик важности, эффективно сохраняя критические данные даже без доступа к будущему контексту. Наши всесторонние оценки показывают, что InfiniPot значительно превосходит модели, обученные для длинных контекстов, в различных задачах обработки естественного языка, подтверждая его эффективность и универсальность. Эта работа представляет собой значительный прогресс в направлении сделать LLM применимыми к более широкому спектру реальных сценариев.
В стремлении к тому, чтобы автономные роботы принимали действия, планирование задач является основным вызовом, требующим преобразования описаний задач высокого уровня в последовательности действий на длительный горизонт. Несмотря на недавние достижения в агентах на языковых моделях, они по-прежнему подвержены ошибкам планирования и ограничены в своей способности к долгосрочному планированию. Для преодоления этих ограничений в робототехническом планировании мы выступаем за самосовершенствующую схему, которая итеративно улучшает черновой план до достижения равновесия. Замечательно, что этот процесс может быть оптимизирован end-to-end с аналитической точки зрения без необходимости курирования дополнительных проверяющих или моделей вознаграждения, что позволяет нам обучать самосовершенствующих планировщиков простым обучением с учителем. Тем временем разработана вложенная процедура моделирования последовательности равновесия для эффективного планирования в замкнутом цикле, которая включает полезную обратную связь из окружающей среды (или внутренней модели мира). Наш метод оценивается на бенчмарке VirtualHome-Env, показывая продвинутую производительность с лучшим масштабированием для вычислений вывода. Код доступен по ссылке https://github.com/Singularity0104/equilibrium-planner.
Оптимизаторы глубокого обучения часто мотивируются смесью выпуклой и приближенной теории второго порядка. Мы выбираем три таких метода - Adam, Shampoo и Prodigy - и утверждаем, что каждый из них вместо этого может быть понят как метод первого порядка без предположений о выпуклости. Фактически, отключив экспоненциальное скользящее среднее, каждый метод эквивалентен методу крутейшего спуска с определенной нормой. Обобщив это наблюдение, мы определяем новое пространство проектирования для алгоритмов обучения. Различным тензорам должны быть назначены различные операторные нормы в зависимости от роли, которую тензор играет в сети. Например, хотя линейные и встраивающие слои могут иметь одно и то же пространство весов R^{m x n}, эти слои выполняют разные функции и должны быть назначены разные нормы. Мы надеемся, что идея тщательного метризации нейронной архитектуры может привести к более стабильному, масштабируемому и, действительно, более быстрому обучению.
Систематическая оценка моделей разделения и улучшения речи в условиях движущегося источника звука обычно требует обширных данных, включающих разнообразные сценарии. Однако реальные наборы данных часто содержат недостаточное количество данных для удовлетворения требований к обучению и оценке моделей. Хотя синтетические наборы данных предлагают больший объем данных, их акустические симуляции лишены реализма. Следовательно, ни реальные, ни синтетические наборы данных неэффективно удовлетворяют практическим потребностям. Для решения этих проблем мы представляем SonicSim, синтетический инструментарий, разработанный для генерации высококастомизируемых данных для движущихся источников звука. SonicSim разработан на основе платформы симуляции воплощенного искусственного интеллекта Habitat-sim, поддерживающей многоуровневые настройки, включая уровень сцены, уровень микрофона и уровень источника, что позволяет генерировать более разнообразные синтетические данные. Используя SonicSim, мы создали набор данных-бенчмарк движущегося источника звука, SonicSet, используя Librispeech, Freesound Dataset 50k (FSD50K) и Free Music Archive (FMA), а также 90 сцен из Matterport3D для оценки моделей разделения и улучшения речи. Кроме того, чтобы подтвердить различия между синтетическими данными и реальными данными, мы случайным образом выбрали 5 часов необработанных данных без реверберации из валидационного набора SonicSet для записи набора данных реальной разделения речи, который затем был сравнен с соответствующими синтетическими наборами данных. Аналогично мы использовали набор данных реального улучшения речи RealMAN для проверки акустического разрыва между другими синтетическими наборами данных и набором данных SonicSet для улучшения речи. Результаты показывают, что синтетические данные, сгенерированные SonicSim, эффективно обобщаются на реальные сценарии. Демонстрация и код доступны по адресу https://cslikai.cn/SonicSim/.