Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы исследуем крупные языковые модели (LLM) с самовознаграждающим рассуждением, которые способны одновременно генерировать пошаговые рассуждения и оценивать корректность своих выводов во время выполнения — без внешней обратной связи. Такой интегрированный подход позволяет одной модели самостоятельно направлять процесс рассуждения, что обеспечивает вычислительные преимущества для развертывания модели. Мы уделяем особое внимание репрезентативной задаче самокоррекции, где модели автономно обнаруживают ошибки в своих ответах, исправляют выводы и решают, когда завершить итеративные циклы уточнения. Для реализации этого мы предлагаем двухэтапный алгоритмический фреймворк для создания моделей с самовознаграждающим рассуждением, используя только самостоятельно сгенерированные данные. На первом этапе мы применяем последовательный метод отклоняющего сэмплирования для синтеза длинных цепочек рассуждений, которые включают как механизмы самовознаграждения, так и самокоррекции. Тонкая настройка моделей на этих отобранных данных позволяет им изучить паттерны самовознаграждения и самокоррекции. На втором этапе мы дополнительно улучшаем способность моделей оценивать точность ответов и уточнять выводы с помощью обучения с подкреплением на основе правил. Эксперименты с моделями Llama-3 и Qwen-2.5 демонстрируют, что наш подход превосходит внутренние возможности самокоррекции и достигает производительности, сопоставимой с системами, использующими внешние модели вознаграждения.
Рассуждения представляют собой ключевой рубеж для развития анализа медицинских изображений, где прозрачность и надежность играют центральную роль как в доверии клиницистов, так и в одобрении регулирующих органов. Хотя медицинские визуальные языковые модели (VLMs) демонстрируют потенциал для радиологических задач, большинство существующих VLMs просто выдают окончательные ответы, не раскрывая лежащих в их основе рассуждений. Чтобы устранить этот пробел, мы представляем MedVLM-R1 — медицинскую VLM, которая явно генерирует естественно-языковые рассуждения для повышения прозрачности и надежности. Вместо использования контролируемой тонкой настройки (SFT), которая часто страдает от переобучения на обучающих распределениях и не способствует формированию подлинных рассуждений, MedVLM-R1 применяет фреймворк обучения с подкреплением, который стимулирует модель находить интерпретируемые человеком пути рассуждений без использования каких-либо эталонов. Несмотря на ограниченные объемы обучающих данных (600 примеров визуальных вопросов и ответов) и параметров модели (2 миллиарда), MedVLM-R1 повышает точность с 55,11% до 78,22% на тестах для МРТ, КТ и рентгеновских снимков, превосходя более крупные модели, обученные на более чем миллионе примеров. Она также демонстрирует устойчивую обобщаемость в задачах за пределами обучающего распределения. Объединяя анализ медицинских изображений с явными рассуждениями, MedVLM-R1 знаменует собой важный шаг к созданию надежного и интерпретируемого ИИ в клинической практике.
В крупных мультимодальных моделях (LMMs) восприятие немодальных данных (например, визуальных представлений) обычно не соответствует мощным возможностям рассуждения больших языковых моделей (LLMs), что снижает производительность LMMs на сложных задачах. Этот недостаток недавно был устранен путем замены визуального кодировщика на смесь экспертов (MoE), которая предоставляет богатые, многоуровневые и разнообразные представления, необходимые для различных задач. Производительность мультимодальной MoE во многом зависит от маршрутизатора, который перевзвешивает и смешивает представления различных экспертов для каждого входного образца. Однако мы обнаружили, что маршрутизатор, обученный сквозным методом, не всегда вырабатывает оптимальные веса маршрутизации для каждого тестового образца. Чтобы устранить этот разрыв, мы предлагаем новый и эффективный метод "Повторная маршрутизация во время тестирования" (R2-T2), который локально оптимизирует вектор весов маршрутизации во время тестирования, перемещая его в сторону векторов правильно предсказанных образцов в окрестности тестового образца. Мы предлагаем три стратегии R2-T2 с различными целями оптимизации и пространствами поиска соседей. R2-T2 последовательно и значительно улучшает производительность современных LMMs на сложных бенчмарках для различных задач, не обучая параметры базовой модели.
LongRoPE2 — это новый подход, который расширяет эффективное окно контекста предварительно обученных больших языковых моделей (LLM) до целевой длины, сохраняя при этом производительность на исходном более коротком окне контекста. Это достигается за счет трех ключевых вкладов: (1) гипотезы о том, что недостаточное обучение в более высоких измерениях RoPE способствует устойчивым проблемам выхода за пределы распределения (OOD), наблюдаемым в существующих методах; (2) эффективного алгоритма масштабирования RoPE, использующего эволюционный поиск, направляемый перплексией на основе "игольчатого" теста, для решения проблемы недостаточного обучения; (3) подхода к обучению со смешанным окном контекста, который тонко настраивает веса модели для адаптации масштабированного RoPE к длинным последовательностям контекста, сохраняя при этом производительность на коротком контексте с исходным RoPE. Масштабные эксперименты на моделях LLaMA3-8B и Phi3-mini-3.8B на различных бенчмарках подтверждают гипотезу и демонстрируют эффективность LongRoPE2. Примечательно, что LongRoPE2 расширяет LLaMA3-8B до эффективной длины контекста в 128K, сохраняя более 98,5% производительности на коротком контексте, используя всего 10B токенов — в 80 раз меньше, чем подход Meta, который не достигает целевой эффективной длины контекста. Код будет доступен по адресу https://github.com/microsoft/LongRoPE.
Последние инновации в архитектуре, предварительном обучении и тонкой настройке привели к впечатляющим способностям к обучению в контексте и рассуждениям крупных авторегрессивных языковых моделей, таких как LLaMA и DeepSeek. В то же время, кодировщики, такие как BERT и RoBERTa, не продемонстрировали аналогичного прогресса, несмотря на их фундаментальную роль во многих задачах NLP. Чтобы преодолеть этот разрыв, мы представляем NeoBERT — кодировщик нового поколения, который переопределяет возможности двунаправленных моделей, интегрируя передовые достижения в архитектуре, современные данные и оптимизированные методы предварительного обучения. NeoBERT разработан для легкого внедрения: он служит готовой заменой существующим базовым моделям, использует оптимальное соотношение глубины и ширины и поддерживает расширенную длину контекста в 4096 токенов. Несмотря на компактный размер в 250 миллионов параметров, он достигает наилучших результатов на масштабном бенчмарке MTEB, превосходя BERT large, RoBERTa large, NomicBERT и ModernBERT при идентичных условиях тонкой настройки. Кроме того, мы тщательно оцениваем влияние каждой модификации на GLUE и разрабатываем унифицированную структуру для тонкой настройки и оценки на MTEB. Мы публикуем весь код, данные, контрольные точки и скрипты обучения, чтобы ускорить исследования и практическое применение.
Разрыв в представлении между визуальной генерацией и пониманием создает критический барьер для интеграции этих возможностей в единую структуру. Чтобы преодолеть этот разрыв, мы представляем UniTok — дискретный визуальный токенизатор, который кодирует детализированные элементы для генерации, одновременно захватывая высокоуровневую семантику для понимания. Хотя недавние исследования показали, что эти задачи могут вызывать конфликты потерь при обучении, мы выяснили, что основное ограничение связано с недостаточной емкостью представления дискретных токенов. Мы решаем эту проблему, вводя многокодовую квантизацию, которая разделяет векторную квантизацию на несколько независимых субкодовых книг, расширяя пространство латентных признаков и избегая нестабильности обучения, вызванной чрезмерно большими кодовыми книгами. Наш метод значительно повышает верхний предел унифицированных дискретных токенизаторов, позволяя им соответствовать или даже превосходить специализированные непрерывные токенизаторы. Например, UniTok достигает впечатляющего rFID 0.38 (по сравнению с 0.87 для SD-VAE) и точности 78.6% в задаче zero-shot (по сравнению с 76.2% для CLIP) на ImageNet. Наш код доступен по адресу https://github.com/FoundationVision/UniTok.
В области передовой генерации изображений на основе текста наблюдается появление унифицированных фреймворков, которые интегрируют мощные текстовые кодировщики, такие как CLIP и T5, с архитектурами Diffusion Transformer. Хотя предпринимались попытки управлять выходными изображениями с помощью дополнительных условий, таких как карта границ (canny) и карта глубины, все еще отсутствует комплексный фреймворк для произвольного чередующегося управления текстом и изображением. Этот пробел особенно заметен при попытке объединить концепции или визуальные элементы из нескольких изображений в процессе генерации. Чтобы устранить этот пробел, мы провели предварительные эксперименты, показавшие, что крупные мультимодальные модели (LMM) предоставляют эффективное общее пространство представлений, где изображение и текст могут быть хорошо согласованы для использования в качестве условия для внешних диффузионных моделей. На основе этого открытия мы предлагаем Dream Engine — эффективный и унифицированный фреймворк, предназначенный для произвольного чередующегося управления текстом и изображением в моделях генерации изображений. Опираясь на мощные модели генерации изображений на основе текста, такие как SD3.5, мы заменяем оригинальные текстовые кодировщики, включая универсальные мультимодальные кодировщики информации, такие как QwenVL. Наш подход использует двухэтапную парадигму обучения, состоящую из совместного согласования текста и изображения и настройки мультимодальных чередующихся инструкций. Наши эксперименты демонстрируют эффективность этого метода обучения, достигая общего балла 0.69 на бенчмарке GenEval и соответствуя производительности передовых моделей генерации изображений на основе текста, таких как SD3.5 и FLUX.
Многие сложные задачи, требующие рассуждений, нуждаются не только в быстрых, интуитивных ответах, но и в более обдуманном, многошаговом подходе. Недавние достижения в области больших языковых моделей (LLM) подчеркивают важный переход от "Системы 1" — способа быстрых реакций — к "Системе 2" — стилю решения задач через размышление и исправление ошибок. Однако текущие тесты в основном сосредоточены на точности конечного ответа, оставляя без внимания промежуточные шаги рассуждений модели. Это не позволяет оценить способность модели к рефлексии и исправлению ошибок в процессе рассуждений. Чтобы устранить этот пробел, мы представляем FINEREASON — бенчмарк логических головоломок для детальной оценки способностей LLM к рассуждениям. Каждая головоломка может быть разложена на атомарные шаги, что делает её идеальной для строгой проверки промежуточной корректности. На основе этого мы вводим две задачи: проверку состояния и переход между состояниями, что позволяет комплексно оценить, как модели анализируют текущую ситуацию и планируют следующий шаг. Для поддержки более широких исследований мы также предоставляем обучающий набор головоломок, направленный на улучшение производительности в общих математических задачах. Мы показываем, что модели, обученные на наших данных для проверки состояния и переходов, демонстрируют улучшение в математических рассуждениях до 5,1% на тесте GSM8K.
Крупные языковые модели (LLMs) продемонстрировали выдающиеся результаты в области разработки программного обеспечения, однако сталкиваются с трудностями в адаптации к постоянно развивающимся знаниям о коде, особенно в отношении частых обновлений API сторонних библиотек. Это ограничение, вызванное статическими наборами данных для предварительного обучения, часто приводит к неисполняемому коду или реализациям с неоптимальной безопасностью и эффективностью. В связи с этим в данной статье представлен CODESYNC — механизм данных для выявления устаревших шаблонов кода и сбора обновлений знаний о коде в реальном времени из сторонних библиотек Python. На основе CODESYNC мы разработали CODESYNCBENCH — комплексный эталонный тест для оценки способности LLMs оставаться синхронизированными с эволюцией кода, который охватывает реальные обновления для 220 API из шести библиотек Python. Наш эталонный тест включает 3300 тестовых случаев для трех задач оценки и набор данных для настройки инструкций с учетом обновлений, состоящий из 2200 обучающих примеров. Масштабные эксперименты с 14 современными LLMs показывают, что они испытывают трудности с динамической эволюцией кода, даже при поддержке передовых методов обновления знаний (например, DPO, ORPO и SimPO). Мы считаем, что наш эталонный тест может стать прочной основой для разработки более эффективных методов обновления знаний о коде в реальном времени в будущем. Экспериментальный код и набор данных доступны публично по адресу: https://github.com/Lucky-voyage/Code-Sync.
Несмотря на выдающуюся производительность, современные Diffusion Transformers сталкиваются с существенными требованиями к ресурсам во время вывода, что обусловлено фиксированным и значительным объемом вычислений, необходимых для каждого шага удаления шума. В данной работе мы пересматриваем традиционную статическую парадигму, которая выделяет фиксированный бюджет вычислений на каждую итерацию удаления шума, и предлагаем вместо этого динамическую стратегию. Наш простой и эффективный по выборкам фреймворк позволяет преобразовать предобученные модели DiT в гибкие — названные FlexiDiT — что дает им возможность обрабатывать входные данные с различными бюджетами вычислений. Мы демонстрируем, как единая гибкая модель может генерировать изображения без потери качества, при этом сокращая необходимые FLOPs более чем на 40% по сравнению с их статическими аналогами, как для генерации изображений с условием по классам, так и с условием по тексту. Наш метод является универсальным и независимым от модальностей входных данных и условий. Мы показываем, как наш подход может быть легко расширен для генерации видео, где модели FlexiDiT генерируют образцы с уменьшением вычислений до 75% без ущерба для производительности.
Мы представляем Mobius — новый метод генерации бесшовно зацикленных видео непосредственно из текстовых описаний без каких-либо пользовательских аннотаций, что позволяет создавать новые визуальные материалы для мультимедийных презентаций. Наш метод адаптирует предобученную модель латентной диффузии видео для генерации зацикленных видео из текстовых запросов без дополнительного обучения. На этапе вывода мы сначала создаем латентный цикл, соединяя начальный и конечный шум видео. Учитывая, что временная согласованность может быть сохранена благодаря контексту модели диффузии видео, мы выполняем многофреймовое латентное шумоподавление, постепенно сдвигая латентное представление первого кадра к концу на каждом шаге. В результате контекст шумоподавления изменяется на каждом шаге, сохраняя согласованность на протяжении всего процесса вывода. Более того, латентный цикл в нашем методе может иметь любую длину. Это расширяет наш подход с латентным сдвигом для генерации бесшовно зацикленных видео за пределы контекста модели диффузии видео. В отличие от предыдущих методов создания синемаграфов, предложенный метод не требует изображения в качестве основы, что ограничивало бы движения в генерируемых результатах. Вместо этого наш метод способен создавать более динамичные движения и обеспечивать лучшее визуальное качество. Мы провели множество экспериментов и сравнений, чтобы подтвердить эффективность предложенного метода, демонстрируя его применимость в различных сценариях. Весь код будет опубликован.
Моделирование авторегрессии (AR), известное своей парадигмой предсказания следующего токена, лежит в основе передовых языковых и визуальных генеративных моделей. Традиционно "токен" рассматривается как наименьшая единица предсказания, часто дискретный символ в языке или квантованный участок визуального изображения. Однако оптимальное определение токена для 2D структур изображения остается открытым вопросом. Кроме того, модели AR страдают от смещения экспозиции, где обучение с принуждением учителя приводит к накоплению ошибок при выводе. В данной статье мы предлагаем xAR, обобщенную AR структуру, которая расширяет понятие токена до сущности X, которая может представлять собой индивидуальный участок токена, ячейку (k раз k группировку соседних участков), подвыборку (нелокальную группировку далеких участков), масштаб (грубое качество к более точному), или даже целое изображение. Кроме того, мы переформулируем классификацию дискретных токенов как непрерывную регрессию сущностей, используя методы сопоставления потоков на каждом шаге AR. Этот подход условия обучения на шумных сущностях вместо истинных токенов, что приводит к эффективному смягчению смещения экспозиции. В результате xAR предлагает два ключевых преимущества: (1) он обеспечивает гибкие единицы предсказания, которые захватывают различную контекстуальную гранулярность и пространственные структуры, и (2) он смягчает смещение экспозиции, избегая зависимости от обучения с принуждением учителя. На бенчмарке генерации ImageNet-256 наша базовая модель, xAR-B (172M), превосходит DiT-XL/SiT-XL (675M), обеспечивая при этом в 20 раз более быстрый вывод. Тем временем, xAR-H устанавливает новый передовой уровень с FID 1.24, работая в 2.2 раза быстрее, чем предыдущая лучшая модель без использования модулей визуального фундамента (например, DINOv2) или продвинутой интервальной выборки направляющих.
Создание сочленённых объектов представляет собой ключевую задачу в области компьютерного зрения. Существующие методы часто не способны эффективно интегрировать информацию между различными состояниями объекта, что ограничивает точность восстановления сетки частей и моделирования их динамики, особенно для сложных многокомпонентных сочленённых объектов. Мы представляем ArtGS — новый подход, который использует 3D-гауссовы распределения в качестве гибкого и эффективного представления для решения этих проблем. Наш метод включает канонические гауссовы распределения с инициализацией и обновлением от грубого к точному для согласования информации о сочленённых частях между различными состояниями объекта, а также применяет модуль моделирования динамики частей, вдохновлённый скинингом, для улучшения как восстановления сетки частей, так и обучения сочленению. Обширные эксперименты на синтетических и реальных данных, включая новый бенчмарк для сложных многокомпонентных объектов, демонстрируют, что ArtGS достигает наилучших результатов в совместной оценке параметров и восстановлении сетки частей. Наш подход значительно улучшает качество и эффективность восстановления, особенно для многокомпонентных сочленённых объектов. Кроме того, мы предоставляем всесторонний анализ наших проектных решений, подтверждая эффективность каждого компонента и выделяя потенциальные направления для дальнейшего улучшения.
Обучение с подкреплением на основе обратной связи от человека (RLHF), использующее метод оптимизации проксимальной политики (PPO), играет ключевую роль в согласовании крупных языковых моделей (LLM) с человеческими предпочтениями. Этот подход требует совместного обучения актора и критика с использованием предобученной фиксированной модели вознаграждения для руководства. Однако это увеличивает вычислительную сложность и нестабильность из-за взаимозависимости актора и критика. Кроме того, PPO не имеет доступа к истинным вознаграждениям среды в задачах LLM, что ограничивает его адаптивность. В таких условиях предобучение модели ценности или модели вознаграждения становится эквивалентным, поскольку обе предоставляют фиксированные сигналы для обучения без новых эталонных данных. Для решения этих проблем мы предлагаем метод Decoupled Value Policy Optimization (DVPO) — облегченный подход, который заменяет традиционное моделирование вознаграждения на предобученную глобальную модель ценности (GVM). GVM учитывает траектории политики и предсказывает оценки возврата на уровне токенов. Благодаря разделению модели ценности и обучения политики (через замороженные цели RL, управляемые GVM), DVPO устраняет взаимозависимость актора и критика, сокращая использование памяти GPU на 40% и время обучения на 35% по сравнению с традиционным RLHF. Эксперименты на различных бенчмарках показывают, что DVPO превосходит эффективные методы RLHF (например, DPO) и соответствует производительности современных методов PPO.
Автономные искусственные интеллектуальные агенты, использующие большие языковые модели, могут создавать неоспоримые ценности во всех сферах общества, но они сталкиваются с угрозами безопасности со стороны противников, что требует немедленных защитных решений из-за возникающих проблем доверия и безопасности. Рассмотрение многократного обхода защиты и обманчивой согласованности как некоторых из основных продвинутых атак, которые нельзя смягчить статическими ограждениями, используемыми во время наблюдаемого обучения, указывает на важное исследовательское приоритетное направление для обеспечения реальной устойчивости. Комбинация статических ограждений в динамической многоагентной системе не способна защитить от таких атак. Мы намерены улучшить безопасность для агентов на основе крупных языковых моделей через разработку новых критериев оценки, которые выявляют и противодействуют угрозам для безопасного оперативного внедрения. Наша работа использует три метода экспертизы для обнаружения подлоговых агентов через обратный тест Тьюринга и анализ обманчивой согласованности через многоагентные симуляции, а также разрабатывает систему против обхода защиты, тестируя ее с использованием сценариев атак средствами инструментальной агрессии на моделях GEMINI 1.5 pro и llama-3.3-70B, deepseek r1. Возможности обнаружения сильны, такие как 94\% точность для GEMINI 1.5 pro, однако система страдает от постоянных уязвимостей при длительных атаках, поскольку увеличение длины запроса увеличивает показатели успешности атак (ASR), а метрики разнообразия становятся неэффективными в прогнозировании, выявляя при этом множество сложных системных ошибок. Полученные результаты демонстрируют необходимость принятия гибких систем безопасности на основе активного мониторинга, который может быть осуществлен самими агентами вместе с адаптивными вмешательствами системного администратора, поскольку текущие модели могут создавать уязвимости, которые могут привести к ненадежной и уязвимой системе. Таким образом, в нашей работе мы пытаемся решить подобные ситуации и предлагаем комплексную структуру для противодействия проблемам безопасности.
Основные фреймворки для решения проблем преимущественно опираются на коммерческие модели, что приводит к высоким затратам и проблемам с конфиденциальностью. Существующие подходы к обучению для решения проблем страдают от слабой обобщающей способности и не в полной мере используют ресурсы открытого исходного кода. Мы предлагаем Subtask-oriented Reinforced Fine-Tuning (SoRFT) — новый подход к обучению, направленный на повышение способности крупных языковых моделей (LLM) решать проблемы. Мы разбиваем процесс решения проблем на структурированные подзадачи: локализация файла, локализация функции, локализация строки и генерация изменений кода. SoRFT состоит из двух этапов обучения: (1) контролируемое тонкое настройка с использованием отбора методом отклонения, где данные Chain of Thought (CoT) фильтруются на основе эталонных данных перед тонкой настройкой LLM, и (2) обучение с подкреплением на основе правил, которое использует алгоритм PPO с вознаграждениями, основанными на эталонных данных. Мы оцениваем модель, обученную с помощью SoRFT, на наборах данных SWE-Bench Verified и SWE-Bench Lite, достигая наилучших результатов среди моделей с открытым исходным кодом (например, решение 21,4% проблем на SWE-Bench Verified с SoRFT-Qwen-7B). Результаты экспериментов показывают, что SoRFT значительно улучшает производительность в решении проблем, повышает обобщающую способность модели и предоставляет экономически эффективную альтернативу коммерческим моделям.
Notably, R1-T1 outperforms the state-of-the-art (SOTA) by 0.8 BLEU on average across Flores-101, and achieves 1.0 BLEU improvement on the 15 unseen languages, demonstrating its effectiveness in general MT reasoning. Несмотря на недавние прорывы в области крупных языковых моделей (LLM) с улучшенными способностями к рассуждению, такими как DeepSeek-R1, внедрение рассуждений во время вывода в машинный перевод (MT), где человеческие переводчики естественным образом используют структурированные, многоуровневые цепочки рассуждений (CoT), остается недостаточно изученным. Существующие методы либо разрабатывают фиксированные CoT, адаптированные для конкретных подзадач MT (например, перевод литературы), либо полагаются на синтез CoT, не согласованных с человеческими, и контролируемую тонкую настройку (SFT), склонную к катастрофическому забыванию, что ограничивает их применимость в различных сценариях перевода. В данной статье представлен R1-Translator (R1-T1), новая структура для достижения рассуждений во время вывода для общего MT с использованием обучения с подкреплением (RL) с человеко-ориентированными CoT, включающими шесть распространенных шаблонов. Наш подход предлагает три инновации: (1) расширение перевода на основе рассуждений за пределы подзадач MT на шесть языков и разнообразные задачи (например, адаптация в юридической/медицинской областях, разрешение идиом); (2) формализация шести экспертно разработанных шаблонов CoT, которые отражают гибридные человеческие стратегии, такие как контекстно-зависимый перефраз и обратный перевод; и (3) обеспечение саморазвивающегося обнаружения CoT и адаптации, устойчивой к забыванию, с помощью RL с наградами, ограниченными KL-дивергенцией. Результаты экспериментов показывают устойчивое улучшение качества перевода на 21 языке и 80 направлениях перевода в тестовом наборе Flores-101, особенно на 15 языках, не представленных в обучении, с сохранением общих многоязычных способностей по сравнению с обычной SFT. Примечательно, что R1-T1 превосходит современные достижения (SOTA) в среднем на 0,8 BLEU по всему набору Flores-101 и достигает улучшения на 1,0 BLEU на 15 непредставленных языках, демонстрируя свою эффективность в общем MT с рассуждениями.
В больших языковых моделях (LLM) определенные нейроны могут хранить различные куски знаний, полученных во время предварительного обучения. Хотя знания обычно представляют собой комбинацию отношений и сущностей, остается неясным, сосредотачиваются ли некоторые нейроны исключительно на самом отношении, независимо от какой-либо сущности. Мы предполагаем, что такие нейроны обнаруживают отношение во входном тексте и направляют генерацию, связанную с таким отношением. Для исследования этого мы изучаем семейство Llama-2 на выбранном наборе отношений с помощью метода, основанного на статистике. Наши эксперименты демонстрируют существование нейронов, специфичных для отношения. Мы измеряем эффект избирательного деактивирования кандидатных нейронов, специфичных для отношения r, на способность LLM обрабатывать (1) факты с отношением r и (2) факты с другим отношением r' не равным r. С учетом их способности кодировать информацию об отношении, мы представляем доказательства для следующих трех свойств нейронов, специфичных для отношения. (i) Нейронная кумулятивность. Нейроны для r обладают кумулятивным эффектом, так что деактивация большей части из них приводит к деградации большего количества фактов в r. (ii) Нейронная универсальность. Нейроны могут быть общими для нескольких тесно связанных, а также менее связанных отношений. Некоторые нейроны отношений переносятся через языки. (iii) Нейронное взаимодействие. Деактивация нейронов, специфичных для одного отношения, может улучшить производительность генерации LLM для фактов других отношений. Мы сделаем наш код общедоступным по адресу https://github.com/cisnlp/relation-specific-neurons.
Недавние агентские фреймворки и алгоритмы времени вывода часто сталкиваются с сложными проблемами планирования из-за ограничений в верификации созданных планов или рассуждений и различной сложности экземпляров в рамках одной задачи. Многие существующие методы для этих задач либо выполняют верификацию на уровне задачи, не учитывая ограничения, либо применяют алгоритмы времени вывода, не адаптируясь к сложности на уровне экземпляра. Для решения этих ограничений мы предлагаем PlanGEN, фреймворк агента, не зависящий от модели и легко масштабируемый, с тремя ключевыми компонентами: агентами ограничений, верификации и выбора. Конкретно, наш подход предлагает ограниченно-управляемую итеративную верификацию для улучшения производительности алгоритмов времени вывода - Best of N, Tree-of-Thought и REBASE. В рамках фреймворка PlanGEN агент выбора оптимизирует выбор алгоритма на основе сложности экземпляра, обеспечивая лучшую адаптивность к сложным проблемам планирования. Экспериментальные результаты демонстрируют значительные улучшения по сравнению с самым сильным базовым уровнем на нескольких бенчмарках, достигая передовых результатов на NATURAL PLAN (прибл. 8%↑), OlympiadBench (прибл. 4%↑), DocFinQA (прибл. 7%↑) и GPQA (прибл. 1%↑). Нашим ключевым выводом является то, что ограниченно-управляемая итеративная верификация улучшает алгоритмы времени вывода, а адаптивный выбор дополнительно повышает производительность при решении сложных проблем планирования и рассуждений.
Обучение согласованности (CT) недавно появилось как многообещающая альтернатива моделям диффузии, достигая конкурентоспособных результатов в задачах генерации изображений. Однако не дистиллированное обучение согласованности часто страдает от высокой дисперсии и нестабильности, и анализ и улучшение его динамики обучения является активной областью исследований. В данной работе мы предлагаем новый подход к обучению CT на основе концепции согласования потоков. Нашим основным вкладом является обученная схема шумообразования, вдохновленная архитектурой вариационных автокодировщиков (VAE). Обучив модель эмиссии шума, зависящую от данных и реализованную как архитектура кодировщика, наш метод может косвенно изучать геометрию отображения шума на данные, которая вместо этого фиксируется выбором прямого процесса в классическом CT. Эмпирические результаты на различных наборах изображений показывают значительное улучшение в генерации, превосходя наши модели базового уровня и достигая уровня лучших показателей (SoTA) в не дистиллированном CT FID на CIFAR-10, а также достигая FID на уровне SoTA на ImageNet с разрешением 64 на 64 пикселя в двухэтапной генерации. Наш код доступен по ссылке https://github.com/sony/vct.
Отображение динамичных сцен из монокулярных видео является важной, но сложной задачей. Недавно было предложено деформируемое гауссово сплетение как надежное решение для представления динамичных сцен реального мира. Однако это часто приводит к избыточным гауссовым функциям, пытающимся соответствовать каждому обучающему виду на различных временных шагах, что замедляет процесс отображения. Кроме того, атрибуты гауссовых функций в статических областях неизменны со временем, что делает избыточное моделирование каждой гауссовой функции излишним и может вызвать дрожание в статических областях. На практике основным узким местом в скорости отображения динамичных сцен является количество гауссовых функций. В ответ на это мы представляем эффективное динамичное гауссово сплетение (EDGS), которое представляет динамичные сцены с помощью разреженного моделирования атрибутов, изменяющихся со временем. Наш подход формулирует динамичные сцены с использованием разреженного представления якорной сетки, при этом поток движения плотных гауссовых функций рассчитывается с использованием классического ядерного представления. Кроме того, мы предлагаем безнадзорную стратегию для эффективной фильтрации якорей, соответствующих статическим областям. Только якоря, связанные с деформируемыми объектами, подаются на вход в MLP для запроса атрибутов, изменяющихся со временем. Эксперименты на двух реальных наборах данных показывают, что наш метод EDGS значительно улучшает скорость отображения при превосходном качестве изображения по сравнению с предыдущими передовыми методами.