HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

21 papers found

Самостоятельная коррекция с вознаграждением для математического рассуждения
Self-rewarding correction for mathematical reasoning

Feb 26

ByWei Xiong, Hanning Zhang, Chenlu Ye, Lichang Chen, Nan Jiang, Tong Zhang

Мы исследуем крупные языковые модели (LLM) с самовознаграждающим рассуждением, которые способны одновременно генерировать пошаговые рассуждения и оценивать корректность своих выводов во время выполнения — без внешней обратной связи. Такой интегрированный подход позволяет одной модели самостоятельно направлять процесс рассуждения, что обеспечивает вычислительные преимущества для развертывания модели. Мы уделяем особое внимание репрезентативной задаче самокоррекции, где модели автономно обнаруживают ошибки в своих ответах, исправляют выводы и решают, когда завершить итеративные циклы уточнения. Для реализации этого мы предлагаем двухэтапный алгоритмический фреймворк для создания моделей с самовознаграждающим рассуждением, используя только самостоятельно сгенерированные данные. На первом этапе мы применяем последовательный метод отклоняющего сэмплирования для синтеза длинных цепочек рассуждений, которые включают как механизмы самовознаграждения, так и самокоррекции. Тонкая настройка моделей на этих отобранных данных позволяет им изучить паттерны самовознаграждения и самокоррекции. На втором этапе мы дополнительно улучшаем способность моделей оценивать точность ответов и уточнять выводы с помощью обучения с подкреплением на основе правил. Эксперименты с моделями Llama-3 и Qwen-2.5 демонстрируют, что наш подход превосходит внутренние возможности самокоррекции и достигает производительности, сопоставимой с системами, использующими внешние модели вознаграждения.

MedVLM-R1: Стимулирование способности к медицинскому рассуждению в моделях "визуальный язык" (VLM) с использованием обучения с подкреплением
MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning

Feb 26

ByJiazhen Pan, Che Liu, Junde Wu, Fenglin Liu, Jiayuan Zhu, Hongwei Bran Li, Chen Chen, Cheng Ouyang, Daniel Rueckert

Рассуждения представляют собой ключевой рубеж для развития анализа медицинских изображений, где прозрачность и надежность играют центральную роль как в доверии клиницистов, так и в одобрении регулирующих органов. Хотя медицинские визуальные языковые модели (VLMs) демонстрируют потенциал для радиологических задач, большинство существующих VLMs просто выдают окончательные ответы, не раскрывая лежащих в их основе рассуждений. Чтобы устранить этот пробел, мы представляем MedVLM-R1 — медицинскую VLM, которая явно генерирует естественно-языковые рассуждения для повышения прозрачности и надежности. Вместо использования контролируемой тонкой настройки (SFT), которая часто страдает от переобучения на обучающих распределениях и не способствует формированию подлинных рассуждений, MedVLM-R1 применяет фреймворк обучения с подкреплением, который стимулирует модель находить интерпретируемые человеком пути рассуждений без использования каких-либо эталонов. Несмотря на ограниченные объемы обучающих данных (600 примеров визуальных вопросов и ответов) и параметров модели (2 миллиарда), MedVLM-R1 повышает точность с 55,11% до 78,22% на тестах для МРТ, КТ и рентгеновских снимков, превосходя более крупные модели, обученные на более чем миллионе примеров. Она также демонстрирует устойчивую обобщаемость в задачах за пределами обучающего распределения. Объединяя анализ медицинских изображений с явными рассуждениями, MedVLM-R1 знаменует собой важный шаг к созданию надежного и интерпретируемого ИИ в клинической практике.

R2-T2: Перенаправление во время тестирования для мультимодальных смесей экспертов
R2-T2: Re-Routing in Test-Time for Multimodal Mixture-of-Experts

Feb 27

ByZhongyang Li, Ziyue Li, Tianyi Zhou

В крупных мультимодальных моделях (LMMs) восприятие немодальных данных (например, визуальных представлений) обычно не соответствует мощным возможностям рассуждения больших языковых моделей (LLMs), что снижает производительность LMMs на сложных задачах. Этот недостаток недавно был устранен путем замены визуального кодировщика на смесь экспертов (MoE), которая предоставляет богатые, многоуровневые и разнообразные представления, необходимые для различных задач. Производительность мультимодальной MoE во многом зависит от маршрутизатора, который перевзвешивает и смешивает представления различных экспертов для каждого входного образца. Однако мы обнаружили, что маршрутизатор, обученный сквозным методом, не всегда вырабатывает оптимальные веса маршрутизации для каждого тестового образца. Чтобы устранить этот разрыв, мы предлагаем новый и эффективный метод "Повторная маршрутизация во время тестирования" (R2-T2), который локально оптимизирует вектор весов маршрутизации во время тестирования, перемещая его в сторону векторов правильно предсказанных образцов в окрестности тестового образца. Мы предлагаем три стратегии R2-T2 с различными целями оптимизации и пространствами поиска соседей. R2-T2 последовательно и значительно улучшает производительность современных LMMs на сложных бенчмарках для различных задач, не обучая параметры базовой модели.

NeoBERT: BERT следующего поколения
NeoBERT: A Next-Generation BERT

Feb 26

ByLola Le Breton, Quentin Fournier, Mariam El Mezouar, Sarath Chandar

Последние инновации в архитектуре, предварительном обучении и тонкой настройке привели к впечатляющим способностям к обучению в контексте и рассуждениям крупных авторегрессивных языковых моделей, таких как LLaMA и DeepSeek. В то же время, кодировщики, такие как BERT и RoBERTa, не продемонстрировали аналогичного прогресса, несмотря на их фундаментальную роль во многих задачах NLP. Чтобы преодолеть этот разрыв, мы представляем NeoBERT — кодировщик нового поколения, который переопределяет возможности двунаправленных моделей, интегрируя передовые достижения в архитектуре, современные данные и оптимизированные методы предварительного обучения. NeoBERT разработан для легкого внедрения: он служит готовой заменой существующим базовым моделям, использует оптимальное соотношение глубины и ширины и поддерживает расширенную длину контекста в 4096 токенов. Несмотря на компактный размер в 250 миллионов параметров, он достигает наилучших результатов на масштабном бенчмарке MTEB, превосходя BERT large, RoBERTa large, NomicBERT и ModernBERT при идентичных условиях тонкой настройки. Кроме того, мы тщательно оцениваем влияние каждой модификации на GLUE и разрабатываем унифицированную структуру для тонкой настройки и оценки на MTEB. Мы публикуем весь код, данные, контрольные точки и скрипты обучения, чтобы ускорить исследования и практическое применение.

LongRoPE2: Практически без потерь при масштабировании контекстного окна в языковых моделях
LongRoPE2: Near-Lossless LLM Context Window Scaling

Feb 27

ByNing Shang, Li Lyna Zhang, Siyuan Wang, Gaokai Zhang, Gilsinia Lopez, Fan Yang, Weizhu Chen, Mao Yang

LongRoPE2 — это новый подход, который расширяет эффективное окно контекста предварительно обученных больших языковых моделей (LLM) до целевой длины, сохраняя при этом производительность на исходном более коротком окне контекста. Это достигается за счет трех ключевых вкладов: (1) гипотезы о том, что недостаточное обучение в более высоких измерениях RoPE способствует устойчивым проблемам выхода за пределы распределения (OOD), наблюдаемым в существующих методах; (2) эффективного алгоритма масштабирования RoPE, использующего эволюционный поиск, направляемый перплексией на основе "игольчатого" теста, для решения проблемы недостаточного обучения; (3) подхода к обучению со смешанным окном контекста, который тонко настраивает веса модели для адаптации масштабированного RoPE к длинным последовательностям контекста, сохраняя при этом производительность на коротком контексте с исходным RoPE. Масштабные эксперименты на моделях LLaMA3-8B и Phi3-mini-3.8B на различных бенчмарках подтверждают гипотезу и демонстрируют эффективность LongRoPE2. Примечательно, что LongRoPE2 расширяет LLaMA3-8B до эффективной длины контекста в 128K, сохраняя более 98,5% производительности на коротком контексте, используя всего 10B токенов — в 80 раз меньше, чем подход Meta, который не достигает целевой эффективной длины контекста. Код будет доступен по адресу https://github.com/microsoft/LongRoPE.

UniTok: Унифицированный токенизатор для визуальной генерации и понимания
UniTok: A Unified Tokenizer for Visual Generation and Understanding

Feb 27

ByChuofan Ma, Yi Jiang, Junfeng Wu, Jihan Yang, Xin Yu, Zehuan Yuan, Bingyue Peng, Xiaojuan Qi

Разрыв в представлении между визуальной генерацией и пониманием создает критический барьер для интеграции этих возможностей в единую структуру. Чтобы преодолеть этот разрыв, мы представляем UniTok — дискретный визуальный токенизатор, который кодирует детализированные элементы для генерации, одновременно захватывая высокоуровневую семантику для понимания. Хотя недавние исследования показали, что эти задачи могут вызывать конфликты потерь при обучении, мы выяснили, что основное ограничение связано с недостаточной емкостью представления дискретных токенов. Мы решаем эту проблему, вводя многокодовую квантизацию, которая разделяет векторную квантизацию на несколько независимых субкодовых книг, расширяя пространство латентных признаков и избегая нестабильности обучения, вызванной чрезмерно большими кодовыми книгами. Наш метод значительно повышает верхний предел унифицированных дискретных токенизаторов, позволяя им соответствовать или даже превосходить специализированные непрерывные токенизаторы. Например, UniTok достигает впечатляющего rFID 0.38 (по сравнению с 0.87 для SD-VAE) и точности 78.6% в задаче zero-shot (по сравнению с 76.2% для CLIP) на ImageNet. Наш код доступен по адресу https://github.com/FoundationVision/UniTok.

Мультимодальное согласование представлений для генерации изображений: Перекрестное управление текстом и изображением проще, чем кажется
Multimodal Representation Alignment for Image Generation: Text-Image Interleaved Control Is Easier Than You Think

Feb 27

ByLiang Chen, Shuai Bai, Wenhao Chai, Weichu Xie, Haozhe Zhao, Leon Vinci, Junyang Lin, Baobao Chang

В области передовой генерации изображений на основе текста наблюдается появление унифицированных фреймворков, которые интегрируют мощные текстовые кодировщики, такие как CLIP и T5, с архитектурами Diffusion Transformer. Хотя предпринимались попытки управлять выходными изображениями с помощью дополнительных условий, таких как карта границ (canny) и карта глубины, все еще отсутствует комплексный фреймворк для произвольного чередующегося управления текстом и изображением. Этот пробел особенно заметен при попытке объединить концепции или визуальные элементы из нескольких изображений в процессе генерации. Чтобы устранить этот пробел, мы провели предварительные эксперименты, показавшие, что крупные мультимодальные модели (LMM) предоставляют эффективное общее пространство представлений, где изображение и текст могут быть хорошо согласованы для использования в качестве условия для внешних диффузионных моделей. На основе этого открытия мы предлагаем Dream Engine — эффективный и унифицированный фреймворк, предназначенный для произвольного чередующегося управления текстом и изображением в моделях генерации изображений. Опираясь на мощные модели генерации изображений на основе текста, такие как SD3.5, мы заменяем оригинальные текстовые кодировщики, включая универсальные мультимодальные кодировщики информации, такие как QwenVL. Наш подход использует двухэтапную парадигму обучения, состоящую из совместного согласования текста и изображения и настройки мультимодальных чередующихся инструкций. Наши эксперименты демонстрируют эффективность этого метода обучения, достигая общего балла 0.69 на бенчмарке GenEval и соответствуя производительности передовых моделей генерации изображений на основе текста, таких как SD3.5 и FLUX.

FINEREASON: Оценка и улучшение осознанного рассуждения языковых моделей через решение рефлексивных головоломок
FINEREASON: Evaluating and Improving LLMs' Deliberate Reasoning through Reflective Puzzle Solving

Feb 27

ByGuizhen Chen, Weiwen Xu, Hao Zhang, Hou Pong Chan, Chaoqun Liu, Lidong Bing, Deli Zhao, Anh Tuan Luu, Yu Rong

Многие сложные задачи, требующие рассуждений, нуждаются не только в быстрых, интуитивных ответах, но и в более обдуманном, многошаговом подходе. Недавние достижения в области больших языковых моделей (LLM) подчеркивают важный переход от "Системы 1" — способа быстрых реакций — к "Системе 2" — стилю решения задач через размышление и исправление ошибок. Однако текущие тесты в основном сосредоточены на точности конечного ответа, оставляя без внимания промежуточные шаги рассуждений модели. Это не позволяет оценить способность модели к рефлексии и исправлению ошибок в процессе рассуждений. Чтобы устранить этот пробел, мы представляем FINEREASON — бенчмарк логических головоломок для детальной оценки способностей LLM к рассуждениям. Каждая головоломка может быть разложена на атомарные шаги, что делает её идеальной для строгой проверки промежуточной корректности. На основе этого мы вводим две задачи: проверку состояния и переход между состояниями, что позволяет комплексно оценить, как модели анализируют текущую ситуацию и планируют следующий шаг. Для поддержки более широких исследований мы также предоставляем обучающий набор головоломок, направленный на улучшение производительности в общих математических задачах. Мы показываем, что модели, обученные на наших данных для проверки состояния и переходов, демонстрируют улучшение в математических рассуждениях до 5,1% на тесте GSM8K.

CODESYNC: Синхронизация крупных языковых моделей с динамической эволюцией кода в масштабе
CODESYNC: Synchronizing Large Language Models with Dynamic Code Evolution at Scale

Feb 23

ByChenlong Wang, Zhaoyang Chu, Zhengxiang Cheng, Xuyi Yang, Kaiyue Qiu, Yao Wan, Zhou Zhao, Xuanhua Shi, Dongping Chen

Крупные языковые модели (LLMs) продемонстрировали выдающиеся результаты в области разработки программного обеспечения, однако сталкиваются с трудностями в адаптации к постоянно развивающимся знаниям о коде, особенно в отношении частых обновлений API сторонних библиотек. Это ограничение, вызванное статическими наборами данных для предварительного обучения, часто приводит к неисполняемому коду или реализациям с неоптимальной безопасностью и эффективностью. В связи с этим в данной статье представлен CODESYNC — механизм данных для выявления устаревших шаблонов кода и сбора обновлений знаний о коде в реальном времени из сторонних библиотек Python. На основе CODESYNC мы разработали CODESYNCBENCH — комплексный эталонный тест для оценки способности LLMs оставаться синхронизированными с эволюцией кода, который охватывает реальные обновления для 220 API из шести библиотек Python. Наш эталонный тест включает 3300 тестовых случаев для трех задач оценки и набор данных для настройки инструкций с учетом обновлений, состоящий из 2200 обучающих примеров. Масштабные эксперименты с 14 современными LLMs показывают, что они испытывают трудности с динамической эволюцией кода, даже при поддержке передовых методов обновления знаний (например, DPO, ORPO и SimPO). Мы считаем, что наш эталонный тест может стать прочной основой для разработки более эффективных методов обновления знаний о коде в реальном времени в будущем. Экспериментальный код и набор данных доступны публично по адресу: https://github.com/Lucky-voyage/Code-Sync.

FlexiDiT: Ваш трансформер диффузии способен легко генерировать высококачественные выборки с меньшими вычислительными затратами
FlexiDiT: Your Diffusion Transformer Can Easily Generate High-Quality Samples with Less Compute

Feb 27

BySotiris Anagnostidis, Gregor Bachmann, Yeongmin Kim, Jonas Kohler, Markos Georgopoulos, Artsiom Sanakoyeu, Yuming Du, Albert Pumarola, Ali Thabet, Edgar Schönfeld

Несмотря на выдающуюся производительность, современные Diffusion Transformers сталкиваются с существенными требованиями к ресурсам во время вывода, что обусловлено фиксированным и значительным объемом вычислений, необходимых для каждого шага удаления шума. В данной работе мы пересматриваем традиционную статическую парадигму, которая выделяет фиксированный бюджет вычислений на каждую итерацию удаления шума, и предлагаем вместо этого динамическую стратегию. Наш простой и эффективный по выборкам фреймворк позволяет преобразовать предобученные модели DiT в гибкие — названные FlexiDiT — что дает им возможность обрабатывать входные данные с различными бюджетами вычислений. Мы демонстрируем, как единая гибкая модель может генерировать изображения без потери качества, при этом сокращая необходимые FLOPs более чем на 40% по сравнению с их статическими аналогами, как для генерации изображений с условием по классам, так и с условием по тексту. Наш метод является универсальным и независимым от модальностей входных данных и условий. Мы показываем, как наш подход может быть легко расширен для генерации видео, где модели FlexiDiT генерируют образцы с уменьшением вычислений до 75% без ущерба для производительности.

Mobius: Генерация бесшовных зацикленных видео из текста посредством латентного сдвига
Mobius: Text to Seamless Looping Video Generation via Latent Shift

Feb 27

ByXiuli Bi, Jianfei Yuan, Bo Liu, Yong Zhang, Xiaodong Cun, Chi-Man Pun, Bin Xiao

Мы представляем Mobius — новый метод генерации бесшовно зацикленных видео непосредственно из текстовых описаний без каких-либо пользовательских аннотаций, что позволяет создавать новые визуальные материалы для мультимедийных презентаций. Наш метод адаптирует предобученную модель латентной диффузии видео для генерации зацикленных видео из текстовых запросов без дополнительного обучения. На этапе вывода мы сначала создаем латентный цикл, соединяя начальный и конечный шум видео. Учитывая, что временная согласованность может быть сохранена благодаря контексту модели диффузии видео, мы выполняем многофреймовое латентное шумоподавление, постепенно сдвигая латентное представление первого кадра к концу на каждом шаге. В результате контекст шумоподавления изменяется на каждом шаге, сохраняя согласованность на протяжении всего процесса вывода. Более того, латентный цикл в нашем методе может иметь любую длину. Это расширяет наш подход с латентным сдвигом для генерации бесшовно зацикленных видео за пределы контекста модели диффузии видео. В отличие от предыдущих методов создания синемаграфов, предложенный метод не требует изображения в качестве основы, что ограничивало бы движения в генерируемых результатах. Вместо этого наш метод способен создавать более динамичные движения и обеспечивать лучшее визуальное качество. Мы провели множество экспериментов и сравнений, чтобы подтвердить эффективность предложенного метода, демонстрируя его применимость в различных сценариях. Весь код будет опубликован.

За пределами следующего токена: предсказание следующего X для авторегрессивной визуальной генерации.
Beyond Next-Token: Next-X Prediction for Autoregressive Visual Generation

Feb 27

BySucheng Ren, Qihang Yu, Ju He, Xiaohui Shen, Alan Yuille, Liang-Chieh Chen

Моделирование авторегрессии (AR), известное своей парадигмой предсказания следующего токена, лежит в основе передовых языковых и визуальных генеративных моделей. Традиционно "токен" рассматривается как наименьшая единица предсказания, часто дискретный символ в языке или квантованный участок визуального изображения. Однако оптимальное определение токена для 2D структур изображения остается открытым вопросом. Кроме того, модели AR страдают от смещения экспозиции, где обучение с принуждением учителя приводит к накоплению ошибок при выводе. В данной статье мы предлагаем xAR, обобщенную AR структуру, которая расширяет понятие токена до сущности X, которая может представлять собой индивидуальный участок токена, ячейку (k раз k группировку соседних участков), подвыборку (нелокальную группировку далеких участков), масштаб (грубое качество к более точному), или даже целое изображение. Кроме того, мы переформулируем классификацию дискретных токенов как непрерывную регрессию сущностей, используя методы сопоставления потоков на каждом шаге AR. Этот подход условия обучения на шумных сущностях вместо истинных токенов, что приводит к эффективному смягчению смещения экспозиции. В результате xAR предлагает два ключевых преимущества: (1) он обеспечивает гибкие единицы предсказания, которые захватывают различную контекстуальную гранулярность и пространственные структуры, и (2) он смягчает смещение экспозиции, избегая зависимости от обучения с принуждением учителя. На бенчмарке генерации ImageNet-256 наша базовая модель, xAR-B (172M), превосходит DiT-XL/SiT-XL (675M), обеспечивая при этом в 20 раз более быстрый вывод. Тем временем, xAR-H устанавливает новый передовой уровень с FID 1.24, работая в 2.2 раза быстрее, чем предыдущая лучшая модель без использования модулей визуального фундамента (например, DINOv2) или продвинутой интервальной выборки направляющих.

Создание интерактивных реплик сложных шарнирных объектов с использованием гауссовых сплайнов
Building Interactable Replicas of Complex Articulated Objects via Gaussian Splatting

Feb 26

ByYu Liu, Baoxiong Jia, Ruijie Lu, Junfeng Ni, Song-Chun Zhu, Siyuan Huang

Создание сочленённых объектов представляет собой ключевую задачу в области компьютерного зрения. Существующие методы часто не способны эффективно интегрировать информацию между различными состояниями объекта, что ограничивает точность восстановления сетки частей и моделирования их динамики, особенно для сложных многокомпонентных сочленённых объектов. Мы представляем ArtGS — новый подход, который использует 3D-гауссовы распределения в качестве гибкого и эффективного представления для решения этих проблем. Наш метод включает канонические гауссовы распределения с инициализацией и обновлением от грубого к точному для согласования информации о сочленённых частях между различными состояниями объекта, а также применяет модуль моделирования динамики частей, вдохновлённый скинингом, для улучшения как восстановления сетки частей, так и обучения сочленению. Обширные эксперименты на синтетических и реальных данных, включая новый бенчмарк для сложных многокомпонентных объектов, демонстрируют, что ArtGS достигает наилучших результатов в совместной оценке параметров и восстановлении сетки частей. Наш подход значительно улучшает качество и эффективность восстановления, особенно для многокомпонентных сочленённых объектов. Кроме того, мы предоставляем всесторонний анализ наших проектных решений, подтверждая эффективность каждого компонента и выделяя потенциальные направления для дальнейшего улучшения.

Хранители Агентичной Системы: Предотвращение Побега из Многозадачной Системы с Агентичной Системой
Guardians of the Agentic System: Preventing Many Shots Jailbreak with Agentic System

Feb 23

BySaikat Barua, Mostafizur Rahman, Md Jafor Sadek, Rafiul Islam, Shehnaz Khaled, Ahmedul Kabir

Автономные искусственные интеллектуальные агенты, использующие большие языковые модели, могут создавать неоспоримые ценности во всех сферах общества, но они сталкиваются с угрозами безопасности со стороны противников, что требует немедленных защитных решений из-за возникающих проблем доверия и безопасности. Рассмотрение многократного обхода защиты и обманчивой согласованности как некоторых из основных продвинутых атак, которые нельзя смягчить статическими ограждениями, используемыми во время наблюдаемого обучения, указывает на важное исследовательское приоритетное направление для обеспечения реальной устойчивости. Комбинация статических ограждений в динамической многоагентной системе не способна защитить от таких атак. Мы намерены улучшить безопасность для агентов на основе крупных языковых моделей через разработку новых критериев оценки, которые выявляют и противодействуют угрозам для безопасного оперативного внедрения. Наша работа использует три метода экспертизы для обнаружения подлоговых агентов через обратный тест Тьюринга и анализ обманчивой согласованности через многоагентные симуляции, а также разрабатывает систему против обхода защиты, тестируя ее с использованием сценариев атак средствами инструментальной агрессии на моделях GEMINI 1.5 pro и llama-3.3-70B, deepseek r1. Возможности обнаружения сильны, такие как 94\% точность для GEMINI 1.5 pro, однако система страдает от постоянных уязвимостей при длительных атаках, поскольку увеличение длины запроса увеличивает показатели успешности атак (ASR), а метрики разнообразия становятся неэффективными в прогнозировании, выявляя при этом множество сложных системных ошибок. Полученные результаты демонстрируют необходимость принятия гибких систем безопасности на основе активного мониторинга, который может быть осуществлен самими агентами вместе с адаптивными вмешательствами системного администратора, поскольку текущие модели могут создавать уязвимости, которые могут привести к ненадежной и уязвимой системе. Таким образом, в нашей работе мы пытаемся решить подобные ситуации и предлагаем комплексную структуру для противодействия проблемам безопасности.

Экономный и эффективный: Оптимизация политики с разделенными значениями и глобальным управлением ценностями
Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance

Feb 24

ByChenghua Huang, Lu Wang, Fangkai Yang, Pu Zhao, Zhixu Li, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang

Обучение с подкреплением на основе обратной связи от человека (RLHF), использующее метод оптимизации проксимальной политики (PPO), играет ключевую роль в согласовании крупных языковых моделей (LLM) с человеческими предпочтениями. Этот подход требует совместного обучения актора и критика с использованием предобученной фиксированной модели вознаграждения для руководства. Однако это увеличивает вычислительную сложность и нестабильность из-за взаимозависимости актора и критика. Кроме того, PPO не имеет доступа к истинным вознаграждениям среды в задачах LLM, что ограничивает его адаптивность. В таких условиях предобучение модели ценности или модели вознаграждения становится эквивалентным, поскольку обе предоставляют фиксированные сигналы для обучения без новых эталонных данных. Для решения этих проблем мы предлагаем метод Decoupled Value Policy Optimization (DVPO) — облегченный подход, который заменяет традиционное моделирование вознаграждения на предобученную глобальную модель ценности (GVM). GVM учитывает траектории политики и предсказывает оценки возврата на уровне токенов. Благодаря разделению модели ценности и обучения политики (через замороженные цели RL, управляемые GVM), DVPO устраняет взаимозависимость актора и критика, сокращая использование памяти GPU на 40% и время обучения на 35% по сравнению с традиционным RLHF. Эксперименты на различных бенчмарках показывают, что DVPO превосходит эффективные методы RLHF (например, DPO) и соответствует производительности современных методов PPO.

Abstract. In this work, we introduce SoRFT, a novel framework for resolving complex issues by decomposing them into subtasks and applying reinforced fine-tuning. Traditional approaches often struggle with intricate problems that require multi-step reasoning and adaptation. SoRFT addresses this by breaking down the main task into manageable subtasks, each fine-tuned with reinforcement learning to optimize performance. Our experiments demonstrate that SoRFT significantly outperforms baseline methods across various benchmarks, showcasing its effectiveness in handling complex, multi-faceted challenges. The framework's modular design also allows for easy integration with existing systems, making it a versatile tool for real-world applications. Keywords: Subtask decomposition, reinforced fine-tuning, multi-step reasoning, complex issue resolution, modular frameworkSoRFT: Решение задач с использованием тонкой настройки, ориентированной на подзадачи, с подкреплением Аннотация. В данной работе мы представляем SoRFT — новый подход к решению сложных задач путем их декомпозиции на подзадачи и применения тонкой настройки с подкреплением. Традиционные методы часто сталкиваются с трудностями при решении сложных проблем, требующих многошагового рассуждения и адаптации. SoRFT решает эту проблему, разбивая основную задачу на управляемые подзадачи, каждая из которых настраивается с использованием обучения с подкреплением для оптимизации производительности. Наши эксперименты показывают, что SoRFT значительно превосходит базовые методы на различных тестовых наборах, демонстрируя свою эффективность в решении сложных, многогранных задач. Модульная структура фреймворка также позволяет легко интегрировать его в существующие системы, делая его универсальным инструментом для практического применения. Ключевые слова: декомпозиция подзадач, тонкая настройка с подкреплением, многошаговое рассуждение, решение сложных задач, модульный фреймворк
SoRFT: Issue Resolving with Subtask-oriented Reinforced Fine-Tuning

Feb 27

ByZexiong Ma, Chao Peng, Pengfei Gao, Xiangxin Meng, Yanzhen Zou, Bing Xie

Основные фреймворки для решения проблем преимущественно опираются на коммерческие модели, что приводит к высоким затратам и проблемам с конфиденциальностью. Существующие подходы к обучению для решения проблем страдают от слабой обобщающей способности и не в полной мере используют ресурсы открытого исходного кода. Мы предлагаем Subtask-oriented Reinforced Fine-Tuning (SoRFT) — новый подход к обучению, направленный на повышение способности крупных языковых моделей (LLM) решать проблемы. Мы разбиваем процесс решения проблем на структурированные подзадачи: локализация файла, локализация функции, локализация строки и генерация изменений кода. SoRFT состоит из двух этапов обучения: (1) контролируемое тонкое настройка с использованием отбора методом отклонения, где данные Chain of Thought (CoT) фильтруются на основе эталонных данных перед тонкой настройкой LLM, и (2) обучение с подкреплением на основе правил, которое использует алгоритм PPO с вознаграждениями, основанными на эталонных данных. Мы оцениваем модель, обученную с помощью SoRFT, на наборах данных SWE-Bench Verified и SWE-Bench Lite, достигая наилучших результатов среди моделей с открытым исходным кодом (например, решение 21,4% проблем на SWE-Bench Verified с SoRFT-Qwen-7B). Результаты экспериментов показывают, что SoRFT значительно улучшает производительность в решении проблем, повышает обобщающую способность модели и предоставляет экономически эффективную альтернативу коммерческим моделям.

О Реляционно-Специфичных Нейронах в Больших Языковых Моделях
On Relation-Specific Neurons in Large Language Models

Feb 24

ByYihong Liu, Runsheng Chen, Lea Hirlimann, Ahmad Dawar Hakimi, Mingyang Wang, Amir Hossein Kargaran, Sascha Rothe, François Yvon, Hinrich Schütze

В больших языковых моделях (LLM) определенные нейроны могут хранить различные куски знаний, полученных во время предварительного обучения. Хотя знания обычно представляют собой комбинацию отношений и сущностей, остается неясным, сосредотачиваются ли некоторые нейроны исключительно на самом отношении, независимо от какой-либо сущности. Мы предполагаем, что такие нейроны обнаруживают отношение во входном тексте и направляют генерацию, связанную с таким отношением. Для исследования этого мы изучаем семейство Llama-2 на выбранном наборе отношений с помощью метода, основанного на статистике. Наши эксперименты демонстрируют существование нейронов, специфичных для отношения. Мы измеряем эффект избирательного деактивирования кандидатных нейронов, специфичных для отношения r, на способность LLM обрабатывать (1) факты с отношением r и (2) факты с другим отношением r' не равным r. С учетом их способности кодировать информацию об отношении, мы представляем доказательства для следующих трех свойств нейронов, специфичных для отношения. (i) Нейронная кумулятивность. Нейроны для r обладают кумулятивным эффектом, так что деактивация большей части из них приводит к деградации большего количества фактов в r. (ii) Нейронная универсальность. Нейроны могут быть общими для нескольких тесно связанных, а также менее связанных отношений. Некоторые нейроны отношений переносятся через языки. (iii) Нейронное взаимодействие. Деактивация нейронов, специфичных для одного отношения, может улучшить производительность генерации LLM для фактов других отношений. Мы сделаем наш код общедоступным по адресу https://github.com/cisnlp/relation-specific-neurons.

PlanGEN: Мультиагентный фреймворк для генерации планирования и логических траекторий для решения сложных проблем.
PlanGEN: A Multi-Agent Framework for Generating Planning and Reasoning Trajectories for Complex Problem Solving

Feb 22

ByMihir Parmar, Xin Liu, Palash Goyal, Yanfei Chen, Long Le, Swaroop Mishra, Hossein Mobahi, Jindong Gu, Zifeng Wang, Hootan Nakhost, Chitta Baral, Chen-Yu Lee, Tomas Pfister, Hamid Palangi

Недавние агентские фреймворки и алгоритмы времени вывода часто сталкиваются с сложными проблемами планирования из-за ограничений в верификации созданных планов или рассуждений и различной сложности экземпляров в рамках одной задачи. Многие существующие методы для этих задач либо выполняют верификацию на уровне задачи, не учитывая ограничения, либо применяют алгоритмы времени вывода, не адаптируясь к сложности на уровне экземпляра. Для решения этих ограничений мы предлагаем PlanGEN, фреймворк агента, не зависящий от модели и легко масштабируемый, с тремя ключевыми компонентами: агентами ограничений, верификации и выбора. Конкретно, наш подход предлагает ограниченно-управляемую итеративную верификацию для улучшения производительности алгоритмов времени вывода - Best of N, Tree-of-Thought и REBASE. В рамках фреймворка PlanGEN агент выбора оптимизирует выбор алгоритма на основе сложности экземпляра, обеспечивая лучшую адаптивность к сложным проблемам планирования. Экспериментальные результаты демонстрируют значительные улучшения по сравнению с самым сильным базовым уровнем на нескольких бенчмарках, достигая передовых результатов на NATURAL PLAN (прибл. 8%↑), OlympiadBench (прибл. 4%↑), DocFinQA (прибл. 7%↑) и GPQA (прибл. 1%↑). Нашим ключевым выводом является то, что ограниченно-управляемая итеративная верификация улучшает алгоритмы времени вывода, а адаптивный выбор дополнительно повышает производительность при решении сложных проблем планирования и рассуждений.

R1-T1: Полное стимулирование способности к переводу в больших языковых моделях через обучение рассуждениям
R1-T1: Fully Incentivizing Translation Capability in LLMs via Reasoning Learning

Feb 27

ByMinggui He, Yilun Liu, Shimin Tao, Yuanchang Luo, Hongyong Zeng, Chang Su, Li Zhang, Hongxia Ma, Daimeng Wei, Weibin Meng, Hao Yang, Boxing Chen, Osamu Yoshie

Notably, R1-T1 outperforms the state-of-the-art (SOTA) by 0.8 BLEU on average across Flores-101, and achieves 1.0 BLEU improvement on the 15 unseen languages, demonstrating its effectiveness in general MT reasoning. Несмотря на недавние прорывы в области крупных языковых моделей (LLM) с улучшенными способностями к рассуждению, такими как DeepSeek-R1, внедрение рассуждений во время вывода в машинный перевод (MT), где человеческие переводчики естественным образом используют структурированные, многоуровневые цепочки рассуждений (CoT), остается недостаточно изученным. Существующие методы либо разрабатывают фиксированные CoT, адаптированные для конкретных подзадач MT (например, перевод литературы), либо полагаются на синтез CoT, не согласованных с человеческими, и контролируемую тонкую настройку (SFT), склонную к катастрофическому забыванию, что ограничивает их применимость в различных сценариях перевода. В данной статье представлен R1-Translator (R1-T1), новая структура для достижения рассуждений во время вывода для общего MT с использованием обучения с подкреплением (RL) с человеко-ориентированными CoT, включающими шесть распространенных шаблонов. Наш подход предлагает три инновации: (1) расширение перевода на основе рассуждений за пределы подзадач MT на шесть языков и разнообразные задачи (например, адаптация в юридической/медицинской областях, разрешение идиом); (2) формализация шести экспертно разработанных шаблонов CoT, которые отражают гибридные человеческие стратегии, такие как контекстно-зависимый перефраз и обратный перевод; и (3) обеспечение саморазвивающегося обнаружения CoT и адаптации, устойчивой к забыванию, с помощью RL с наградами, ограниченными KL-дивергенцией. Результаты экспериментов показывают устойчивое улучшение качества перевода на 21 языке и 80 направлениях перевода в тестовом наборе Flores-101, особенно на 15 языках, не представленных в обучении, с сохранением общих многоязычных способностей по сравнению с обычной SFT. Примечательно, что R1-T1 превосходит современные достижения (SOTA) в среднем на 0,8 BLEU по всему набору Flores-101 и достигает улучшения на 1,0 BLEU на 15 непредставленных языках, демонстрируя свою эффективность в общем MT с рассуждениями.

Обучение моделей согласованности с вариационным шумовым сцеплением
Training Consistency Models with Variational Noise Coupling

Feb 25

ByGianluigi Silvestri, Luca Ambrogioni, Chieh-Hsin Lai, Yuhta Takida, Yuki Mitsufuji

Обучение согласованности (CT) недавно появилось как многообещающая альтернатива моделям диффузии, достигая конкурентоспособных результатов в задачах генерации изображений. Однако не дистиллированное обучение согласованности часто страдает от высокой дисперсии и нестабильности, и анализ и улучшение его динамики обучения является активной областью исследований. В данной работе мы предлагаем новый подход к обучению CT на основе концепции согласования потоков. Нашим основным вкладом является обученная схема шумообразования, вдохновленная архитектурой вариационных автокодировщиков (VAE). Обучив модель эмиссии шума, зависящую от данных и реализованную как архитектура кодировщика, наш метод может косвенно изучать геометрию отображения шума на данные, которая вместо этого фиксируется выбором прямого процесса в классическом CT. Эмпирические результаты на различных наборах изображений показывают значительное улучшение в генерации, превосходя наши модели базового уровня и достигая уровня лучших показателей (SoTA) в не дистиллированном CT FID на CIFAR-10, а также достигая FID на уровне SoTA на ImageNet с разрешением 64 на 64 пикселя в двухэтапной генерации. Наш код доступен по ссылке https://github.com/sony/vct.

Эффективное гауссовское сглаживание для монокулярного рендеринга динамических сцен через разреженное моделирование временно-переменных атрибутов.
Efficient Gaussian Splatting for Monocular Dynamic Scene Rendering via Sparse Time-Variant Attribute Modeling

Feb 27

ByHanyang Kong, Xingyi Yang, Xinchao Wang

Отображение динамичных сцен из монокулярных видео является важной, но сложной задачей. Недавно было предложено деформируемое гауссово сплетение как надежное решение для представления динамичных сцен реального мира. Однако это часто приводит к избыточным гауссовым функциям, пытающимся соответствовать каждому обучающему виду на различных временных шагах, что замедляет процесс отображения. Кроме того, атрибуты гауссовых функций в статических областях неизменны со временем, что делает избыточное моделирование каждой гауссовой функции излишним и может вызвать дрожание в статических областях. На практике основным узким местом в скорости отображения динамичных сцен является количество гауссовых функций. В ответ на это мы представляем эффективное динамичное гауссово сплетение (EDGS), которое представляет динамичные сцены с помощью разреженного моделирования атрибутов, изменяющихся со временем. Наш подход формулирует динамичные сцены с использованием разреженного представления якорной сетки, при этом поток движения плотных гауссовых функций рассчитывается с использованием классического ядерного представления. Кроме того, мы предлагаем безнадзорную стратегию для эффективной фильтрации якорей, соответствующих статическим областям. Только якоря, связанные с деформируемыми объектами, подаются на вход в MLP для запроса атрибутов, изменяющихся со временем. Эксперименты на двух реальных наборах данных показывают, что наш метод EDGS значительно улучшает скорость отображения при превосходном качестве изображения по сравнению с предыдущими передовыми методами.