Ежедневно отобранные исследовательские статьи по ИИ с переводами
В данной статье проводится оценка геополитических предубеждений в языковых моделях (LLMs) в отношении различных стран на основе анализа их интерпретации исторических событий с противоречивыми национальными перспективами (США, Великобритания, СССР и Китай). Мы представляем новый набор данных, содержащий нейтральные описания событий и контрастирующие точки зрения разных стран. Наши результаты демонстрируют значительные геополитические предубеждения, причем модели склоняются к определённым национальным нарративам. Кроме того, простые методы устранения предубеждений оказались малоэффективными в снижении этих искажений. Эксперименты с изменёнными метками участников выявили чувствительность моделей к атрибуции, иногда усиливающую предубеждения или распознающую несоответствия, особенно при замене меток. Эта работа подчеркивает наличие национальных нарративных предубеждений в LLMs, ставит под сомнение эффективность простых методов устранения предубеждений и предлагает основу и набор данных для будущих исследований геополитических искажений.
Типичные крупные модели, работающие с визуальными и языковыми данными (LVLMs), применяют авторегрессивное обучение исключительно к текстовым последовательностям, не полностью интегрируя визуальную модальность в процесс обучения. Это приводит к трем ключевым ограничениям: (1) невозможность использования изображений без сопроводительных подписей, (2) риск того, что подписи упускают важные визуальные детали, и (3) сложность адекватного передачи через текст контента, ориентированного на визуальное восприятие. В результате современные LVLMs часто сосредотачиваются на согласовании визуальных и языковых данных, потенциально упуская детализированную визуальную информацию. Хотя некоторые предыдущие работы исследовали авторегрессивную генерацию изображений, эффективное использование авторегрессивного визуального обучения для улучшения понимания изображений остается открытой задачей. В данной статье мы представляем метод Autoregressive Semantic Visual Reconstruction (ASVR), который позволяет совместно обучать визуальные и текстовые модальности в рамках единого авторегрессивного подхода. Мы показываем, что авторегрессивное восстановление исходного визуального вида изображений не улучшает, а иногда даже ухудшает мультимодальное понимание. В то же время авторегрессивное восстановление семантического представления изображений последовательно улучшает понимание. Примечательно, что даже когда модели получают на вход непрерывные визуальные признаки, они могут эффективно восстанавливать дискретные семантические токены, что приводит к стабильным и последовательным улучшениям на широком спектре мультимодальных тестов. Наш подход демонстрирует значительный прирост производительности на различных масштабах данных (556k–2M) и типах языковых моделей (LLM). В частности, ASVR улучшает LLaVA-1.5 на 5% по средним показателям на 14 мультимодальных тестах. Код доступен по адресу https://github.com/AlenjandroWang/ASVR.
Правило-ориентированное рассуждение признано одной из фундаментальных проблем в области рассуждений, при этом отклонения в форматах, типах и сложности правил в реальных приложениях создают серьезные вызовы. Недавние исследования показали, что крупные модели рассуждений (LRMs) обладают выдающимися способностями к рассуждению, а их производительность значительно улучшается с помощью обучения с подкреплением (RL). Однако остается открытым вопрос, могут ли небольшие модели рассуждений (SRMs) эффективно обучаться правило-ориентированному рассуждению с устойчивой обобщаемостью на разнообразные задачи и домены. Для решения этой проблемы мы представляем Reinforced Rule-based Reasoning, также известный как RuleReasoner, — простой, но эффективный метод для проведения правило-ориентированного рассуждения с использованием широкого набора тщательно отобранных задач и нового доменно-ориентированного динамического подхода к выборке. В частности, RuleReasoner перевыбирает каждый обучающий пакет, обновляя веса выборки для различных доменов на основе исторических наград. Это способствует доменному расширению и гибкому онлайн-обучению для RL, устраняя необходимость в заранее разработанных человеком рецептах смешанного обучения, используемых в существующих методах. Эмпирические оценки на бенчмарках in-distribution (ID) и out-of-distribution (OOD) показывают, что RuleReasoner значительно превосходит передовые LRMs (на 4,1% в среднем на восьми ID-задачах и на 10,4% в среднем на трех OOD-задачах по сравнению с OpenAI-o1). Примечательно, что наш подход также демонстрирует более высокую вычислительную эффективность по сравнению с предыдущими методами динамической выборки для RL.
От профессионального кинопроизводства до пользовательского контента, создатели и зрители давно осознали, что сила видео зависит от гармоничного сочетания того, что мы слышим (аудиодорожка видео) с тем, что мы видим (последовательность изображений). Современные подходы к генерации видео либо игнорируют звук, сосредотачиваясь на создании универсальных, но беззвучных последовательностей изображений, либо учитывают как визуальные, так и аудиоэлементы, но ограничиваются узкими областями применения, такими как переозвучивание. Мы представляем Mirage — базовую модель для преобразования аудио в видео, которая превосходно справляется с генерацией реалистичных и выразительных изображений с нуля на основе аудиовхода. При интеграции с существующими методами синтеза речи (текст-в-речь, или TTS), Mirage создаёт убедительные мультимодальные видео. При обучении на аудио-видео материалах с людьми, говорящими в кадре (A-roll), и при условии аудио, содержащего речь, Mirage генерирует видео, где люди достоверно интерпретируют выступление, заложенное в аудиовходе. Наш ключевой технический вклад — унифицированный метод обучения моделей генерации видео на основе аудио, использующих механизмы самовнимания, как с нуля, так и с использованием предварительно обученных весов. Этот подход позволяет Mirage сохранять универсальность как метод преобразования аудио в видео, при этом создавая результаты, которые субъективно превосходят по качеству методы, включающие специализированные архитектуры для аудио или компоненты потерь, ориентированные на людей, речь или особенности захвата изображений или звука. Мы рекомендуем читателям самостоятельно оценить результаты работы Mirage (ссылки приведены в статье и комментариях).
Достижения в области диффузионных моделей значительно улучшили качество видео, привлекая внимание к детализированной управляемости. Однако многие существующие методы зависят от тонкой настройки крупномасштабных видео-моделей для конкретных задач, что становится все более непрактичным по мере увеличения размеров моделей. В данной работе мы представляем Frame Guidance — метод управления генерацией видео без необходимости обучения, основанный на сигналах уровня кадров, таких как ключевые кадры, эталонные изображения стиля, эскизы или карты глубины. Для практического применения без обучения мы предлагаем простой метод обработки латентных представлений, который значительно снижает использование памяти, и применяем новую стратегию оптимизации латентных переменных, разработанную для глобально согласованной генерации видео. Frame Guidance обеспечивает эффективное управление в различных задачах, включая управление ключевыми кадрами, стилизацию и создание цикличных видео, без необходимости обучения и совместим с любыми видео-моделями. Экспериментальные результаты показывают, что Frame Guidance способен создавать высококачественные управляемые видео для широкого спектра задач и входных сигналов.
Создание машин, способных воспринимать мир в трехмерном пространстве, является ключевым для помощи дизайнерам, которые создают и редактируют 3D-среды, а также для роботов, которые перемещаются и взаимодействуют в трехмерном пространстве. Вдохновленные достижениями в области моделирования языка и изображений, мы исследуем потенциал авторегрессивных моделей для новой модальности: структурированных 3D-сцен. С этой целью мы предлагаем унифицированную LLM-структуру, которая объединяет язык, изображения и 3D-сцены, и предоставляем подробное «руководство», описывающее ключевые проектные решения для достижения оптимального обучения и производительности, включая вопросы, связанные с представлением данных, специфическими целями для каждой модальности и другие аспекты. Мы оцениваем производительность в четырех основных 3D-задачах — рендеринг, распознавание, выполнение инструкций и ответы на вопросы — на четырех наборах данных, как синтетических, так и реальных. Мы расширяем наш подход для реконструкции сложных форм 3D-объектов, обогащая нашу 3D-модальность квантованными кодировками форм, и демонстрируем эффективность нашей модели в задачах распознавания реальных 3D-объектов. Веб-страница проекта: https://glab-caltech.github.io/kyvo/
Мы представляем Self Forcing — новую парадигму обучения для авторегрессионных моделей диффузии видео. Этот подход решает давнюю проблему смещения экспозиции, когда модели, обученные на контексте с истинными данными, должны генерировать последовательности, основываясь на своих собственных несовершенных выходах во время инференции. В отличие от предыдущих методов, которые удаляют шум из будущих кадров на основе контекстных кадров с истинными данными, Self Forcing генерирует каждый кадр, основываясь на ранее сгенерированных выходах, выполняя авторегрессионное развертывание с кэшированием ключей и значений (KV) во время обучения. Эта стратегия позволяет осуществлять контроль через целостную функцию потерь на уровне видео, которая напрямую оценивает качество всей сгенерированной последовательности, а не полагается исключительно на традиционные поточечные цели. Для обеспечения эффективности обучения мы используем модель диффузии с небольшим количеством шагов вместе со стратегией стохастического усечения градиента, что эффективно балансирует вычислительные затраты и производительность. Мы также вводим механизм скользящего KV-кэша, который позволяет эффективно выполнять авторегрессионную экстраполяцию видео. Многочисленные эксперименты демонстрируют, что наш подход обеспечивает генерацию потокового видео в реальном времени с задержкой менее секунды на одном GPU, при этом соответствуя или даже превосходя качество генерации значительно более медленных и некаузальных моделей диффузии. Сайт проекта: http://self-forcing.github.io/
Доказательство неравенств, имеющее ключевое значение в различных научных и математических областях, проверяет продвинутые навыки рассуждения, такие как нахождение точных границ и стратегическое применение теорем. Это делает его уникальной и сложной задачей для больших языковых моделей (LLM), предлагая инсайты, выходящие за рамки общего решения математических задач. Прогресс в этой области затруднен из-за существующих наборов данных, которые часто являются скудными, синтетическими или чрезмерно формализованными. Мы решаем эту проблему, предлагая неформальную, но проверяемую формулировку задачи, преобразуя доказательство неравенств в две автоматически проверяемые подзадачи: оценку границ и предсказание отношений. На основе этого мы выпускаем IneqMath, экспертно составленный набор данных олимпиадного уровня, включающий тестовый набор и обучающий корпус, обогащенный пошаговыми решениями и аннотациями теорем. Мы также разрабатываем новую систему оценки LLM-as-judge, сочетающую судью, проверяющего окончательный ответ, с четырьмя пошаговыми судьями, предназначенными для выявления типичных ошибок в рассуждениях. Систематическая оценка 29 ведущих LLM на IneqMath выявляет удивительную реальность: даже лучшие модели, такие как o1, демонстрируют менее 10% общей точности при пошаговой проверке; это снижение до 65,5% по сравнению с их точностью, учитывающей только эквивалентность окончательного ответа. Это расхождение выявляет хрупкие дедуктивные цепочки и критический разрыв для современных LLM между простым нахождением ответа и построением строгого доказательства. Увеличение размера модели и вычислительных ресурсов во время тестирования дают ограниченный прирост в общей корректности доказательств. Вместо этого наши результаты указывают на перспективные направления исследований, такие как рассуждения, основанные на теоремах, и самоусовершенствование. Код и данные доступны по адресу https://ineqmath.github.io/.
В последние годы многомодальные большие языковые модели (MLLMs) широко используются для задач многомодального рассуждения, включая автоматизацию графических пользовательских интерфейсов (GUI). В отличие от общих офлайн-задач, автоматизация GUI выполняется в интерактивных онлайн-средах, что требует пошагового принятия решений на основе текущего состояния среды. Эта задача имеет меньшую терпимость к ошибкам на каждом шаге, так как любые ошибки могут накапливаться, нарушая процесс и потенциально приводя к необратимым последствиям, таким как удаления или платежи. Для решения этих проблем мы вводим механизм предоперационной критики, который предоставляет эффективную обратную связь до фактического выполнения, анализируя потенциальные результаты и корректность действий. В частности, мы предлагаем стратегию Suggestion-aware Gradient Relative Policy Optimization (S-GRPO) для построения нашей модели предоперационной критики GUI-Critic-R1, включая новую награду за предложения для повышения надежности обратной связи модели. Кроме того, мы разрабатываем конвейер сбора данных на основе рассуждений для создания наборов GUI-Critic-Train и GUI-Critic-Test, заполняя существующие пробелы в данных для критики GUI. Статические эксперименты на GUI-Critic-Test в мобильных и веб-доменах показывают, что наш GUI-Critic-R1 обладает значительными преимуществами в точности критики по сравнению с текущими MLLMs. Динамическая оценка на бенчмарке автоматизации GUI дополнительно подчеркивает эффективность и превосходство нашей модели, что подтверждается улучшенными показателями успешности и операционной эффективности.
Мы предлагаем Squeeze3D — новый фреймворк, который использует неявные априорные знания, извлеченные из существующих предобученных 3D-генеративных моделей, для сжатия 3D-данных с чрезвычайно высокими коэффициентами сжатия. Наш подход связывает латентные пространства предобученного кодировщика и предобученной генеративной модели через обучаемые отображающие сети. Любая 3D-модель, представленная в виде сетки, облака точек или поля излучения, сначала кодируется предобученным кодировщиком, а затем преобразуется (т.е. сжимается) в компактный латентный код. Этот латентный код может эффективно использоваться как крайне сжатое представление сетки или облака точек. Отображающая сеть преобразует сжатый латентный код в латентное пространство мощной генеративной модели, которая затем воссоздает исходную 3D-модель (т.е. выполняет декомпрессию). Squeeze3D обучается исключительно на синтетических данных и не требует наличия каких-либо 3D-наборов данных. Архитектура Squeeze3D может гибко использоваться с существующими предобученными 3D-кодировщиками и генеративными моделями. Она поддерживает различные форматы, включая сетки, облака точек и поля излучения. Наши эксперименты показывают, что Squeeze3D достигает коэффициентов сжатия до 2187x для текстурных сеток, 55x для облаков точек и 619x для полей излучения, сохраняя при этом визуальное качество, сопоставимое со многими существующими методами. Squeeze3D имеет небольшую задержку при сжатии и декомпрессии, так как не требует обучения специфичных для объекта сетей для сжатия объекта.
Крупные языковые модели (LLM) демонстрируют выдающиеся результаты в задачах открытого вопросно-ответного поиска (ODQA), используя внешние документы через подход Retrieval-Augmented Generation (RAG). Для снижения накладных расходов RAG при работе с длинным контекстом необходимо сжатие контекста. Однако существующие методы сжатия не фокусируются на фильтрации недоказательной информации, что ограничивает производительность LLM в рамках RAG. Мы предлагаем фреймворк Evidentiality-guided RAG, или ECoRAG. ECoRAG повышает производительность LLM, сжимая извлеченные документы на основе доказательности, обеспечивая поддержку генерации ответов корректными доказательствами. В качестве дополнительного шага ECoRAG проверяет, предоставляет ли сжатый контент достаточные доказательства, и, если нет, извлекает дополнительные, пока они не станут достаточными. Эксперименты показывают, что ECoRAG улучшает производительность LLM в задачах ODQA, превосходя существующие методы сжатия. Более того, ECoRAG является высокоэффективным с точки зрения затрат, так как не только снижает задержку, но и минимизирует использование токенов, сохраняя только необходимую информацию для генерации правильного ответа. Код доступен по адресу https://github.com/ldilab/ECoRAG.
Генерация с использованием извлеченных данных (Retrieval Augmented Generation, RAG) — это широко применяемый подход для улучшения больших языковых моделей (LLM) за счет добавления актуальной и релевантной информации. Однако извлеченные источники часто могут содержать противоречивые данные, и остается неясным, как модели должны справляться с такими расхождениями. В данной работе мы сначала предлагаем новую таксономию типов конфликтов знаний в RAG, а также желаемое поведение модели для каждого типа. Затем мы представляем CONFLICTS — высококачественный бенчмарк с экспертными аннотациями типов конфликтов в реалистичной среде RAG. CONFLICTS — это первый бенчмарк, который позволяет отслеживать прогресс в том, как модели справляются с широким спектром конфликтов знаний. Мы проводим обширные эксперименты на этом бенчмарке, показывая, что LLM часто испытывают трудности с корректным разрешением конфликтов между источниками. Хотя явное побуждение LLM к анализу потенциальных конфликтов в извлеченных документах значительно повышает качество и уместность их ответов, остается значительный простор для улучшений в будущих исследованиях.
Быстрое развитие технологий генерации изображений усиливает спрос на интерпретируемые и надежные методы обнаружения. Хотя существующие подходы часто достигают высокой точности, они обычно работают как "черные ящики", не предоставляя понятных для человека обоснований. Мультимодальные большие языковые модели (MLLMs), изначально не предназначенные для обнаружения подделок, демонстрируют мощные аналитические и логические способности. При правильной настройке они могут эффективно идентифицировать изображения, созданные искусственным интеллектом, и предоставлять содержательные объяснения. Однако существующие MLLMs по-прежнему сталкиваются с проблемой "галлюцинаций" и часто не могут согласовать свои визуальные интерпретации с фактическим содержанием изображения и человеческой логикой. Чтобы устранить этот разрыв, мы создаем набор данных сгенерированных ИИ изображений, аннотированных ограничивающими рамками и описательными подписями, которые выделяют артефакты синтеза, закладывая основу для визуально-текстового обоснования, согласованного с человеческим восприятием. Затем мы настраиваем MLLMs с помощью многоэтапной стратегии оптимизации, которая постепенно балансирует задачи точного обнаружения, визуальной локализации и связного текстового объяснения. Полученная модель демонстрирует превосходную производительность как в обнаружении изображений, созданных ИИ, так и в локализации визуальных дефектов, значительно превосходя базовые методы.
Крупные языковые модели (LLM) используют данные для изучения мира с целью создания значимых корреляций и прогнозов. Таким образом, природа, масштаб, качество и разнообразие наборов данных, используемых для обучения этих моделей или для поддержки их работы на этапе вывода, напрямую влияют на их качество. Быстрое развитие и внедрение LLM различного качества подчеркнули дефицит общедоступных высококачественных обучающих данных и выявили острую необходимость в устойчивых практиках управления этими наборами данных с четкими цепочками происхождения. В связи с этим данный технический отчет представляет Institutional Books 1.0 — обширную коллекцию книг, находящихся в общественном достоянии, которые были оцифрованы в рамках участия Гарвардской библиотеки в проекте Google Books, начатом в 2006 году. Совместно с Гарвардской библиотекой мы извлекли, проанализировали и обработали эти тома в тщательно документированный набор данных исторических текстов. Этот анализ охватывает всю коллекцию Гарвардской библиотеки, отсканированную в рамках проекта, изначально включающую 1 075 899 томов, написанных на более чем 250 языках, что в сумме составляет примерно 250 миллиардов токенов. В рамках этого первоначального выпуска были опубликованы тексты, извлеченные с помощью OCR (оригинальные и постобработанные), а также метаданные (библиографические, исходные и сгенерированные) для 983 004 томов, или 242 миллиарда токенов, идентифицированных как находящиеся в общественном достоянии. В этом отчете описаны цели и методы проекта, а также результаты проведенных анализов, все это направлено на то, чтобы сделать эту историческую коллекцию более доступной и удобной для фильтрации, чтения и использования как людьми, так и машинами.
Современная парадигма масштабирования на этапе тестирования основывается на генерации длинных цепочек рассуждений ("больше думать") перед выдачей ответа. В задачах, требующих взаимодействия с агентом, это может быть реализовано путем генерации таких цепочек перед совершением действий в окружающей среде. Однако этот процесс не позволяет агентам получать новую информацию из среды или адаптировать свое поведение с течением времени. В данной работе мы предлагаем масштабировать взаимодействие на этапе тестирования — неисследованное направление масштабирования, которое увеличивает горизонт взаимодействия агента, позволяя реализовывать сложные поведенческие стратегии, такие как исследование, возврат к предыдущим шагам и динамическое перепланирование в рамках одного прогона. Чтобы продемонстрировать потенциал этого направления, мы исследуем область веб-агентов. Сначала мы показываем, что даже масштабирование взаимодействия на основе подсказок без какого-либо обучения может существенно улучшить успешность выполнения задач на веб-бенчмарках. На основе этого мы представляем TTI (Test-Time Interaction) — подход к обучению с подкреплением (RL) на основе учебного плана, который обучает агентов, адаптивно регулируя длину их прогонов. Используя модель Gemma 3 12B, TTI создает веб-агентов с открытым исходным кодом и открытыми данными, которые достигают наилучших результатов на бенчмарках WebVoyager и WebArena. Мы также показываем, что TTI позволяет агентам адаптивно балансировать между исследованием и эксплуатацией. Наши результаты подтверждают, что масштабирование взаимодействия является мощным и дополняющим направлением к масштабированию вычислительных ресурсов на каждый шаг, открывая новые возможности для обучения адаптивных агентов.
Эффективная адаптация параметров предобученной модели CLIP для задач поиска видео по тексту является важным направлением исследований. Хотя CLIP ориентирована на сопоставление изображений и текста на уровне отдельных изображений, поиск видео по тексту требует более глубокого понимания на уровне видео. При переходе от уровня изображений к уровню видео возникают три ключевых различия: в визуальной информации, в языке и в согласовании. Однако существующие методы в основном сосредоточены на визуальной составляющей, пренебрегая языком и согласованием. В данной статье мы предлагаем подход Discrepancy Reduction in Vision, Language, and Alignment (DiscoVLA), который одновременно устраняет все три различия. В частности, мы вводим метод Image-Video Features Fusion для интеграции признаков на уровне изображений и видео, эффективно решая проблемы как в визуальной, так и в языковой составляющих. Кроме того, мы генерируем псевдоподписи к изображениям для обучения тонкому согласованию на уровне изображений. Для устранения различий в согласовании мы предлагаем метод Image-to-Video Alignment Distillation, который использует знания о согласовании на уровне изображений для улучшения согласования на уровне видео. Многочисленные эксперименты демонстрируют превосходство нашего подхода DiscoVLA. В частности, на наборе данных MSRVTT с использованием CLIP (ViT-B/16) DiscoVLA превосходит предыдущие методы на 1,5% по метрике R@1, достигая итогового результата в 50,5% R@1. Код доступен по адресу https://github.com/LunarShen/DsicoVLA.
Последние исследования интегрируют метод Low-Rank Adaptation (LoRA) и подход Mixture-of-Experts (MoE) для дальнейшего повышения эффективности методов параметрически-эффективной тонкой настройки (PEFT) в приложениях с использованием крупных языковых моделей (LLM). Существующие методы используют однородные архитектуры MoE-LoRA, состоящие из экспертов LoRA с аналогичными или идентичными структурами и возможностями. Однако такие подходы часто сталкиваются с проблемами коллапса представлений и дисбаланса нагрузки между экспертами, что негативно сказывается на потенциале LLM. Для решения этих проблем мы предлагаем гетерогенный подход Mixture-of-Adapters (MoA). Этот метод динамически интегрирует экспертов адаптеров PEFT с разнообразными структурами, используя их дополнительные репрезентативные возможности для стимулирования специализации экспертов, тем самым улучшая эффективный перенос предварительно обученных знаний на задачи последующего применения. MoA поддерживает два варианта: (i) Soft MoA достигает детализированной интеграции путем взвешенного объединения выходов всех экспертов; (ii) Sparse MoA активирует адаптеры экспертов разреженно в зависимости от их вклада, достигая этого с минимальным снижением производительности. Экспериментальные результаты показывают, что гетерогенный MoA превосходит однородные методы MoE-LoRA как по производительности, так и по параметрической эффективности. Наш проект доступен по адресу https://github.com/DCDmllm/MoA.
Последние достижения в области больших языковых моделей демонстрируют значительный потенциал для формального рассуждения. Однако большинство теорем-пруверов на основе LLM долгое время ограничивались необходимостью использования экспертно написанных формальных утверждений в качестве входных данных, что сужало их применимость к реальным задачам, выраженным на естественном языке. Мы устраняем этот пробел с помощью Mathesis — первого сквозного конвейера доказательства теорем, обрабатывающего неформальные формулировки задач. Он включает Mathesis-Autoformalizer — первый автоформализатор, использующий обучение с подкреплением для улучшения способности формализации задач на естественном языке, поддерживаемый нашей новой структурой LeanScorer для тонкой оценки качества формализации. Также предлагается Mathesis-Prover, который генерирует формальные доказательства из формализованных утверждений. Для оценки применимости сквозного формального доказательства теорем в реальных условиях мы представляем Gaokao-Formal — эталонный набор из 488 сложных задач из национального вступительного экзамена в вузы Китая. Наш подход тщательно разработан, с детальным изучением каждого компонента. Эксперименты демонстрируют эффективность Mathesis: автоформализатор превосходит лучший базовый метод на 22% по проходному баллу на Gaokao-Formal. Полная система превосходит другие комбинации моделей, достигая 64% точности на MiniF2F с pass@32 и рекордных 18% на Gaokao-Formal.
Последние достижения в области больших языковых моделей (LLMs) открывают значительные перспективы для финансовых приложений, но при этом создают серьезные проблемы с точностью и соответствием требованиям в области цифровой регуляторной отчетности (DRR). Для решения этих проблем мы предлагаем RKEFino1 — модель финансового рассуждения, усиленную знаниями о регулировании, построенную на основе Fino1 и дообученную с использованием предметных знаний из XBRL, CDM и MOF. Мы формулируем две задачи вопросов и ответов — на основе знаний и математического рассуждения — и вводим новую задачу числового распознавания именованных сущностей (Numerical NER), охватывающую финансовые объекты как в текстах, так и в таблицах. Экспериментальные результаты демонстрируют эффективность и способность к обобщению модели RKEFino1 в задачах, критически важных для соблюдения нормативных требований. Мы опубликовали нашу модель на платформе Hugging Face.
В данной статье представлен MMRefine, многомодальный бенчмарк для оценки способности многомодальных больших языковых моделей (MLLM) к исправлению ошибок. По мере того как акцент смещается на улучшение рассуждений в процессе вывода, MMRefine предоставляет структуру для оценки способностей MLLM обнаруживать и исправлять ошибки в шести различных сценариях, выходящих за рамки простого сравнения итоговой точности до и после уточнения. Кроме того, бенчмарк анализирует производительность уточнения, классифицируя ошибки на шесть типов. Эксперименты с различными открытыми и закрытыми MLLM выявляют узкие места и факторы, препятствующие эффективному уточнению, подчеркивая области для улучшения в плане усиления рассуждений. Наш код и набор данных доступны по адресу https://github.com/naver-ai/MMRefine.
Ответы на вопросы о продуктах на основе отзывов (PQA) позволяют платформам электронной коммерции автоматически отвечать на запросы клиентов, используя информацию из пользовательских отзывов. Однако существующие системы PQA генерируют ответы, отражающие лишь одну точку зрения, не учитывая разнообразия мнений клиентов. В данной статье мы представляем новую задачу — количественное суммирование, ориентированное на запросы (QQSUM), которая направлена на обобщение различных мнений клиентов в репрезентативные ключевые моменты (KPs) и количественную оценку их распространённости для эффективного ответа на запросы пользователей. Хотя подход Retrieval-Augmented Generation (RAG) демонстрирует потенциал для PQA, генерируемые им ответы всё ещё не охватывают всего спектра мнений. Для решения этой проблемы наша модель QQSUM-RAG, расширяющая RAG, использует обучение с малым количеством примеров для совместного обучения поискового механизма, ориентированного на KPs, и генератора сводок по KPs, что позволяет создавать сводки, отражающие разнообразные и репрезентативные мнения. Результаты экспериментов показывают, что QQSUM-RAG превосходит современные базовые модели RAG как по качеству текста, так и по точности количественной оценки мнений. Наш исходный код доступен по адресу: https://github.com/antangrocket1312/QQSUMM.