Ежедневно отобранные исследовательские статьи по ИИ с переводами
Приводит ли дальнейшее масштабирование больших языковых моделей (LLM) к уменьшению отдачи? Реальная ценность часто зависит от длины задачи, которую агент может выполнить. Мы начинаем эту работу с наблюдения простого, но неочевидного факта: маргинальные улучшения в точности на одном шаге могут привести к экспоненциальному увеличению длины задачи, которую модель может успешно завершить. Затем мы утверждаем, что ошибки LLM при увеличении длины простых задач возникают из-за ошибок в исполнении, а не из-за неспособности к рассуждению. Мы предлагаем изолировать способность к исполнению, явно предоставляя знания и план, необходимые для решения задачи с длительным горизонтом. Мы обнаруживаем, что более крупные модели могут корректно выполнять значительно больше шагов, даже если маленькие модели имеют 100% точность на одном шаге. Мы наблюдаем, что точность моделей на каждом шаге снижается по мере увеличения количества шагов. Это связано не только с ограничениями длинного контекста — любопытно, что мы наблюдаем эффект самокондиционирования: модели становятся более склонны к ошибкам, когда контекст содержит их ошибки из предыдущих шагов. Самокондиционирование не уменьшается просто за счет масштабирования размера модели. В отличие от этого, современные модели мышления не подвержены самокондиционированию и могут выполнять гораздо более длинные задачи за один шаг. В заключение мы проводим бенчмаркинг передовых моделей мышления на длину задачи, которую они могут выполнить за один шаг. В целом, сосредоточившись на способности к исполнению, мы надеемся примирить дебаты о том, как LLM могут решать сложные задачи рассуждения, но терпят неудачу в простых задачах при их удлинении, и подчеркнуть огромные преимущества масштабирования размера модели и последовательных вычислений во время тестирования для задач с длительным горизонтом.
Генерация изображений произвольного разрешения обеспечивает согласованный визуальный опыт на различных устройствах, что имеет широкое применение как для производителей, так и для потребителей. Современные диффузионные модели увеличивают вычислительные затраты квадратично с ростом разрешения, что приводит к задержкам в генерации 4K-изображений свыше 100 секунд. Для решения этой проблемы мы исследуем второе поколение латентных диффузионных моделей, где фиксированный латент, сгенерированный диффузионными моделями, рассматривается как представление контента, и предлагаем декодировать изображения произвольного разрешения с использованием компактного сгенерированного латента с помощью одношагового генератора. Таким образом, мы представляем InfGen, заменяющий декодер VAE новым генератором, для создания изображений любого разрешения из латента фиксированного размера без необходимости переобучения диффузионных моделей, что упрощает процесс, снижает вычислительную сложность и может быть применено к любой модели, использующей то же латентное пространство. Эксперименты показывают, что InfGen способен улучшить многие модели, выводя их в эру произвольного высокого разрешения, сокращая время генерации 4K-изображений до менее чем 10 секунд.
Быстрое внедрение автономных ИИ-агентов порождает новый экономический слой, в котором агенты взаимодействуют и координируются на масштабах и скоростях, выходящих за пределы прямого человеческого контроля. Мы предлагаем концепцию "песочной экономики" как аналитическую основу для изучения этой возникающей системы, характеризуя её по двум ключевым измерениям: её происхождению (спонтанное vs. целенаправленное) и степени отделённости от существующей человеческой экономики (проницаемая vs. непроницаемая). Текущая траектория указывает на спонтанное возникновение обширной и высокопроницаемой экономики ИИ-агентов, открывая возможности для беспрецедентной степени координации, а также значительные вызовы, включая системные экономические риски и усугубление неравенства. Здесь мы обсуждаем ряд возможных проектных решений, которые могут способствовать созданию управляемых рынков ИИ-агентов. В частности, мы рассматриваем аукционные механизмы для справедливого распределения ресурсов и разрешения предпочтений, проектирование "миссионерских экономик" ИИ для координации в достижении коллективных целей, а также социотехническую инфраструктуру, необходимую для обеспечения доверия, безопасности и подотчётности. Таким образом, мы выступаем за активное проектирование управляемых рынков агентов, чтобы гарантировать, что предстоящий технологический сдвиг будет способствовать долгосрочному коллективному процветанию человечества.
Генерация 3D-форм на уровне частей имеет ключевое значение для последующих приложений, таких как ретопология сеток, UV-развертка и 3D-печать. Однако существующие методы генерации на основе частей часто недостаточно контролируемы и страдают от слабой семантически значимой декомпозиции. В связи с этим мы представляем X-Part — управляемую генеративную модель, предназначенную для декомпозиции целостного 3D-объекта на семантически значимые и структурно согласованные части с высокой геометрической точностью. X-Part использует ограничивающие рамки в качестве подсказок для генерации частей и внедряет точечные семантические признаки для значимой декомпозиции. Кроме того, мы разрабатываем редактируемый конвейер для интерактивной генерации частей. Обширные экспериментальные результаты показывают, что X-Part достигает наилучших показателей в генерации форм на уровне частей. Эта работа устанавливает новую парадигму для создания готовых к производству, редактируемых и структурно устойчивых 3D-активов. Код будет опубликован для общедоступных исследований.
Вовлеченность и мотивация играют ключевую роль в изучении второго языка, однако поддержание интереса учащихся в образовательных беседах остается сложной задачей. Хотя предыдущие исследования изучали, что делает образовательные тексты интересными, до сих пор мало известно о лингвистических особенностях, которые способствуют вовлеченности в разговорах. Чтобы восполнить этот пробел, мы представляем IntrEx — первый крупный набор данных, аннотированный на предмет интересности и ожидаемой интересности в диалогах между учителем и учеником. Основанный на корпусе Teacher-Student Chatroom Corpus (TSCC), IntrEx расширяет предыдущие работы, включая аннотации на уровне последовательностей, что позволяет изучать вовлеченность не только в рамках отдельных реплик, но и отслеживать, как интерес развивается в ходе продолжительных диалогов. Мы используем строгий процесс аннотирования с участием более 100 изучающих второй язык, применяя подход к оценке на основе сравнения, вдохновленный обучением с подкреплением на основе человеческой обратной связи (RLHF), чтобы повысить согласованность. Мы исследуем, могут ли крупные языковые модели (LLM) предсказывать суждения людей о интересности. Результаты показывают, что LLM с 7B/8B параметрами, дообученные на оценках интересности, превосходят более крупные проприетарные модели, такие как GPT-4o, демонстрируя потенциал специализированных наборов данных для моделирования вовлеченности в образовательных контекстах. Наконец, мы анализируем, как лингвистические и когнитивные факторы, такие как конкретность, понятность (читаемость) и усвоение, влияют на вовлеченность в образовательных диалогах.
Подход Retrieval-Augmented Generation (RAG) улучшает системы ответов на вопросы и задачи генерации диалогов за счет интеграции технологий информационного поиска (IR) с большими языковыми моделями (LLM). Эта стратегия, которая извлекает информацию из внешних баз знаний для усиления возможностей генеративных моделей, достигла определенных успехов. Однако современные методы RAG по-прежнему сталкиваются с многочисленными трудностями при обработке многошаговых запросов. Например, некоторые подходы чрезмерно полагаются на итеративный поиск, тратя слишком много шагов на сложные запросы. Кроме того, использование исходного сложного запроса для поиска может не захватить контент, релевантный конкретным подзапросам, что приводит к получению зашумленных данных. Если шум не контролируется, это может привести к проблеме накопления шума. Для решения этих проблем мы представляем HANRAG — новый эвристический фреймворк, разработанный для эффективного решения задач различной сложности. Управляемый мощным механизмом анализа, HANRAG направляет запросы, разбивает их на подзапросы и фильтрует шум из извлеченных документов. Это повышает адаптивность системы и устойчивость к шуму, делая её высокоэффективной для обработки разнообразных запросов. Мы сравниваем предложенный фреймворк с другими ведущими методами в отрасли на различных тестовых наборах. Результаты показывают, что наш фреймворк демонстрирует превосходную производительность как в одношаговых, так и в многошаговых задачах ответов на вопросы.
По мере того как модели обработки зрения и языка (Vision-Language Models, VLMs) становятся все более сложными, их способность к выполнению логических рассуждений подвергается все более пристальному вниманию. Хотя они демонстрируют высокие результаты во многих задачах, их понимание фундаментальных научных принципов, таких как физика, остается малоизученной областью. Чтобы отразить прогресс в этих возможностях, мы представляем новый и доступный фреймворк, предназначенный для строгой оценки понимания VLMs двумерной физики. Наш фреймворк включает в себя прагматичный генератор сценариев, который создает разнообразный набор из более чем 400 задач в четырех ключевых областях: движение снарядов, динамика столкновений, механика и гидродинамика. В ходе всесторонней оценки четырех современных VLMs мы демонстрируем сильную корреляцию между масштабом модели и способностью к рассуждениям, при этом наша лучшая модель, Qwen2.5-VL-7B, достигает общего балла 0,815. Мы обнаружили, что хотя модели хорошо справляются с формальными задачами, они испытывают значительные трудности в областях, требующих абстрактного пространственного мышления. Разрабатывая этот фреймворк, мы стремимся сделать изучение научных рассуждений в VLMs более доступным и способствовать более глубокому пониманию их возможностей и ограничений.
Маскированные диффузионные большие языковые модели (dLLM) становятся перспективной альтернативой авторегрессивным LLM, предлагая конкурентоспособную производительность и поддерживая уникальные возможности генерации, такие как инпейнтинг. Мы исследуем, как инпейнтинг может влиять на проектирование алгоритмов обучения с подкреплением (RL) для dLLM. Согласование LLM с обучением с подкреплением сталкивается с проблемой исследования: редкие сигналы вознаграждения и потеря образцов, когда модели не находят правильные решения. Хотя эта неэффективность затрагивает LLM в целом, dLLM предоставляют уникальную возможность — их способность к инпейнтингу может направлять исследование. Мы представляем IGPO (Inpainting Guided Policy Optimization), фреймворк RL, который стратегически вставляет частичные эталонные траектории рассуждений во время онлайн-сэмплирования. В отличие от предоставления полных решений, инпейнтинг направляет исследование в перспективные пространства траекторий, сохраняя при этом самостоятельно сгенерированные рассуждения, что связывает контролируемую тонкую настройку и обучение с подкреплением. Мы применяем IGPO к групповым методам оптимизации, таким как GRPO, где неудачи в исследовании приводят к нулевым преимуществам и градиентам. IGPO восстанавливает значимые градиенты, одновременно повышая эффективность использования образцов. Мы также предлагаем контролируемую тонкую настройку на синтетически переписанных кратких траекториях, которые лучше соответствуют паттернам генерации dLLM. С дополнительными техниками, включая фильтрацию на основе энтропии, наш подход к обучению обеспечивает значительные улучшения на трех математических бенчмарках — GSM8K, Math500 и AMC — достигая новых наилучших результатов для полновнимательных маскированных dLLM.
Протокол Model Context Protocol (MCP) стремительно становится ключевым открытым стандартом, разработанным для улучшения интеграции и взаимодействия агентов с инструментами, и позиционируется как катализатор новой эры мощных, взаимосвязанных и по-настоящему полезных агентных систем искусственного интеллекта. Однако, несмотря на растущее внедрение MCP, существующие тестовые наборы зачастую не способны адекватно оценить производительность агентов в реальных условиях в рамках этой новой парадигмы, что приводит к искажённому восприятию их истинной операционной ценности и невозможности достоверно дифференцировать их компетенции. Чтобы устранить этот критический пробел в оценке, мы представляем MCP-AgentBench — всеобъемлющий тестовый набор, специально разработанный для тщательной оценки возможностей языковых агентов в условиях взаимодействия с инструментами, опосредованного MCP. Основные вклады MCP-AgentBench включают: создание надёжной тестовой среды MCP, состоящей из 33 операционных серверов с 188 уникальными инструментами; разработку тестового набора, включающего 600 систематически спроектированных запросов, распределённых по 6 различным категориям с разной степенью сложности взаимодействия; а также введение MCP-Eval — новой методологии оценки, ориентированной на результат и приоритизирующей успешное выполнение реальных задач. Благодаря обширной эмпирической оценке ведущих языковых агентов мы предоставляем фундаментальные инсайты. MCP-AgentBench призван снабдить исследовательское сообщество стандартизированной и надёжной структурой для создания, валидации и совершенствования агентов, способных в полной мере использовать трансформационные преимущества MCP, тем самым ускоряя прогресс в направлении создания по-настоящему способных и взаимодействующих систем искусственного интеллекта.
Последние достижения в области больших языковых моделей (LLM) продемонстрировали впечатляющие способности в финансовом анализе и понимании рынка. Многоагентные LLM-фреймворки, такие как TradingAgent и FINMEM, расширяют возможности этих моделей для задач долгосрочного инвестирования, используя фундаментальные и сентимент-ориентированные данные для стратегического принятия решений. Однако такие системы плохо подходят для высокоскоростных и требующих высокой точности задач высокочастотной торговли (HFT). HFT требует быстрых, учитывающих риски решений, основанных на структурированных, краткосрочных сигналах, включая технические индикаторы, графические паттерны и трендовые характеристики, что отличается от долгосрочного семантического анализа, характерного для традиционных финансовых приложений LLM. В связи с этим мы представляем QuantAgent — первый многоагентный LLM-фреймворк, специально разработанный для высокочастотного алгоритмического трейдинга. Система разделяет торговлю на четыре специализированных агента: Индикатор, Паттерн, Тренд и Риск, каждый из которых оснащён инструментами, специфичными для своей области, и возможностями структурированного анализа для учета различных аспектов рыночной динамики в краткосрочных временных окнах. В нуль-шотовых оценках на десяти финансовых инструментах, включая биткоин и фьючерсы на Nasdaq, QuantAgent демонстрирует превосходную производительность как в точности прогнозирования, так и в совокупной доходности за 4-часовые интервалы торговли, превосходя сильные нейронные и основанные на правилах базовые модели. Наши результаты показывают, что сочетание структурированных финансовых априорных знаний с языковым анализом открывает новые возможности для создания отслеживаемых систем принятия решений в режиме реального времени на высокочастотных финансовых рынках.
Разработка эффективных политик Vision-Language-Action (VLA) имеет решающее значение для практического внедрения робототехники, однако современные подходы сталкиваются с непомерными вычислительными затратами и требованиями к ресурсам. Существующие VLA-политики на основе диффузии требуют моделей с миллиардами параметров и огромных наборов данных для достижения высокой производительности. Мы решаем эту проблему эффективности с помощью двух ключевых вкладов: промежуточного слияния модальностей, которое перераспределяет емкость на диффузионную голову, обрезая до 50% слоев LLM, и условного Global-AdaLN, специфичного для действий, которое сокращает количество параметров на 20% за счет модульной адаптации. Мы интегрируем эти достижения в новую VLA-модель с 950 миллионами параметров под названием FLOWER. Обучившись всего за 200 часов на GPU H100, FLOWER демонстрирует конкурентоспособную производительность по сравнению с более крупными VLA-моделями на 190 задачах, охватывающих десять симуляционных и реальных бенчмарков, и показывает устойчивость к различным роботизированным воплощениям. Кроме того, FLOWER устанавливает новый рекорд SoTA, равный 4.53, на бенчмарке CALVIN ABC. Демонстрации, код и предобученные веса доступны по адресу https://intuitive-robots.github.io/flower_vla/.
Обучение с длинным хвостом привлекает все больше внимания благодаря своей широкой применимости в реальных сценариях. Среди существующих подходов полуавтоматическое обучение с длинным хвостом (Long-Tailed Semi-Supervised Learning, LTSSL) стало эффективным решением, позволяющим интегрировать большое количество неразмеченных данных в несбалансированный размеченный набор. Однако большинство существующих методов LTSSL предназначены для обучения моделей с нуля, что часто приводит к таким проблемам, как излишняя уверенность и низкое качество псевдоразметки. Для решения этих задач мы расширяем LTSSL в парадигму тонкой настройки базовых моделей и предлагаем новый фреймворк: LoFT (Long-tailed semi-supervised learning via parameter-efficient Fine-Tuning). Мы показываем, что тонко настроенные базовые модели могут генерировать более надежную псевдоразметку, что способствует улучшению обучения на несбалансированных данных. Кроме того, мы исследуем более практичный сценарий, изучая полуавтоматическое обучение в условиях открытого мира, где неразмеченные данные могут содержать образцы, выходящие за пределы распределения (out-of-distribution, OOD). Для решения этой проблемы мы предлагаем LoFT-OW (LoFT under Open-World scenarios), чтобы повысить дискриминативную способность модели. Экспериментальные результаты на нескольких бенчмарках демонстрируют, что наш метод превосходит предыдущие подходы, даже при использовании всего 1% неразмеченных данных по сравнению с предыдущими работами.
Мы представляем Probabilistic Structure Integration (PSI) — систему для обучения богато управляемых и гибко управляемых через запросы моделей мира на основе данных. PSI состоит из трехшагового цикла. Первый шаг, вероятностное предсказание, включает построение вероятностной графической модели Psi данных в форме модели авторегрессивной последовательности с произвольным доступом. Psi поддерживает полный набор изученных условных распределений, описывающих зависимость любых переменных в данных от любого другого набора переменных. На втором шаге, извлечение структуры, мы показываем, как извлекать низкоразмерные свойства данных, соответствующие разнообразному набору значимых "промежуточных структур", в режиме zero-shot с помощью причинного вывода на основе Psi. Третий шаг, интеграция, завершает цикл, преобразуя эти структуры в новые типы токенов, которые затем постоянно включаются в процесс обучения в качестве сигналов условности и целей предсказания. Каждый такой цикл расширяет возможности Psi, позволяя ей лучше моделировать исходные данные и создавая новые элементы управления — подобно универсальному языку запросов, аналогичному LLM. Мы обучаем экземпляр Psi на 1,4 триллионах токенов данных интернет-видео; используем его для выполнения различных полезных задач предсказания и понимания видео; извлекаем передовые оптические потоки, самоконтролируемую глубину и сегментацию объектов; и используем эти структуры для поддержки полного цикла улучшений предсказания.
Точное соответствие цветов в генерации изображений на основе текста (Text-to-Image, T2I) имеет критическое значение для таких приложений, как мода, визуализация продуктов и дизайн интерьеров. Однако современные диффузионные модели испытывают трудности с обработкой сложных и составных цветовых терминов (например, Tiffany blue, лаймовый зеленый, ярко-розовый), часто создавая изображения, которые не соответствуют замыслу человека. Существующие подходы полагаются на манипуляции с кросс-вниманием, использование эталонных изображений или тонкую настройку, но не позволяют систематически устранять неоднозначности в описании цветов. Для точного воспроизведения цветов в условиях неоднозначности запросов мы предлагаем метод, не требующий обучения, который повышает точность цветопередачи за счет использования большой языковой модели (LLM) для устранения неоднозначностей в цветовых запросах и управления операциями смешивания цветов непосредственно в пространстве текстовых эмбеддингов. Наш метод сначала использует большую языковую модель (LLM) для уточнения неоднозначных цветовых терминов в текстовом запросе, а затем уточняет текстовые эмбеддинги на основе пространственных отношений полученных цветовых терминов в цветовом пространстве CIELAB. В отличие от предыдущих методов, наш подход повышает точность цветопередачи без необходимости дополнительного обучения или использования внешних эталонных изображений. Экспериментальные результаты показывают, что наш метод улучшает соответствие цветов без ущерба для качества изображений, сокращая разрыв между семантикой текста и визуальной генерацией.
Модели разговорного языка (Spoken Language Models, SLMs) стали унифицированной парадигмой для понимания и генерации речи, обеспечивая естественное взаимодействие человека с машиной. Однако, хотя большая часть прогресса была сосредоточена на семантической точности и выполнении инструкций, способность SLM адаптировать стиль речи на основе устных команд оставалась малоизученной. Мы представляем задачу адаптации голосового стиля (Voice Style Adaptation, VSA), которая исследует, могут ли SLM изменять такие аспекты речи, как тембр, просодия или персона, следуя устным командам на естественном языке. Для изучения этой задачи мы представляем VStyle — двуязычный (китайский и английский) бенчмарк, охватывающий четыре категории генерации речи: акустические атрибуты, инструкции на естественном языке, ролевые игры и скрытую эмпатию. Мы также вводим фреймворк Large Audio Language Model as a Judge (LALM as a Judge), который последовательно оценивает выходные данные по критериям текстовой точности, соответствия стилю и естественности, обеспечивая воспроизводимую и объективную оценку. Эксперименты с коммерческими системами и открытыми SLM демонстрируют, что текущие модели имеют явные ограничения в управляемой адаптации стиля, подчеркивая новизну и сложность этой задачи. Публикуя VStyle и набор инструментов для его оценки, мы стремимся предоставить сообществу основу для продвижения ориентированного на человека разговорного взаимодействия. Набор данных и код доступны по адресу: https://junzhan2000.github.io/VStyle.github.io/{страница проекта}.
Крупные языковые модели (LLM) достигли значительных успехов в различных областях. Однако остается фундаментальный вопрос: способны ли LLM эффективно использовать причинно-следственные знания для прогнозирования и генерации? Эмпирические исследования показывают, что LLM, обученные непосредственно на больших объемах данных, часто улавливают ложные корреляции, а не истинные причинно-следственные связи, что приводит к неоптимальной производительности, особенно в сценариях вне распределения (OOD). Для решения этой проблемы мы предлагаем метод Causal Attention Tuning (CAT) — новый подход, который внедряет детализированные причинно-следственные знания в механизм внимания. Мы разработали автоматизированный конвейер, который использует человеческие априорные знания для автоматической генерации токен-уровневых причинно-следственных сигналов, а также вводим механизм Re-Attention для управления обучением, помогая модели сосредоточиться на причинных структурах и снижая уровень шума и смещений в оценках внимания. Результаты экспериментов на предложенном нами бенчмарке Spurious Token Game (STG) и нескольких последующих задачах демонстрируют, что наш подход эффективно использует причинно-следственные знания для прогнозирования и сохраняет устойчивость в OOD-сценариях. Детали реализации доступны по адресу https://github.com/Kairong-Han/CAT.
Включение внешнего контекста может значительно повысить качество ответов крупных языковых моделей (LLM). Однако в реальных условиях контекст часто смешивает релевантную информацию с непропорционально большим количеством неуместного содержания, что создает риски для надежности. Как LLM обрабатывают и приоритизируют смешанный контекст? Для изучения этого мы представляем тестовую среду Poisoned Context, где запросы сочетаются с реальными контекстами, содержащими как релевантную, так и неуместную информацию. Вдохновленные ассоциативным обучением у животных, мы адаптировали модель Рескорлы-Вагнера (RW) из нейронаук для количественной оценки того, как конкурирующие контекстные сигналы влияют на выводы LLM. Наша адаптированная модель выявляет устойчивый поведенческий паттерн: LLM демонстрируют сильную склонность к включению информации, которая менее распространена в контексте. Эта уязвимость вредна в реальных условиях, где даже небольшое количество неуместного контента может существенно ухудшить качество ответов. Эмпирические оценки в нашей тестовой среде дополнительно подтверждают эту уязвимость. Для решения этой проблемы мы представляем RW-Steering — двухэтапный подход на основе тонкой настройки, который позволяет модели внутренне идентифицировать и игнорировать неуместные сигналы. В отличие от предыдущих методов, требующих обширного обучения на разнообразных смесях контекста, RW-Steering устойчиво обобщается при различных пропорциях неуместного содержания. Эксперименты показывают, что наша лучшая настроенная модель улучшает качество ответов на 39,8% и изменяет нежелательную поведенческую кривую, что делает RW-Steering надежным и универсальным решением для инженерии контекста, повышающим безопасность LLM в реальных условиях.
Визуальное рассуждение над структурированными данными, такими как таблицы, является важной способностью для современных моделей, работающих с визуальными и языковыми данными (VLMs). Однако существующие бенчмарки остаются ограниченными в масштабе, разнообразии или глубине рассуждений, особенно когда речь идет о визуализированных изображениях таблиц. Для устранения этого пробела мы представляем Visual-TableQA — крупномасштабный мультимодальный набор данных открытой области, специально разработанный для оценки и улучшения визуального рассуждения над сложными табличными данными. Наш процесс генерации является модульным, масштабируемым и полностью автономным, включая несколько языковых моделей (LLM), которые взаимодействуют в различных ролях: генерация, проверка и вдохновение. Visual-TableQA содержит 2,5 тыс. богато структурированных таблиц, визуализированных с помощью LaTeX, и 6 тыс. вопросно-ответных пар, требующих интенсивного рассуждения, все созданные с затратами менее 100 долларов США. Для обеспечения разнообразия и креативности наш процесс использует многомодельную совместную генерацию данных через кросс-модельное взаимодействие («вдохновение») и фильтрацию с помощью «жюри» из LLM. Более сильные модели задают макеты и темы, которые развивают более слабые модели, совместно извлекая разнообразные шаблоны рассуждений и визуальные структуры в набор данных. Эмпирические результаты показывают, что модели, дообученные на Visual-TableQA, успешно обобщают на внешние бенчмарки, превосходя несколько проприетарных моделей, несмотря на синтетическую природу набора данных. Полный процесс и ресурсы доступны публично по адресу https://github.com/AI-4-Everyone/Visual-TableQA.
В данной статье представлены подходы команды DeMeVa к третьему выпуску совместного задания Learning with Disagreements (LeWiDi 2025; Leonardelli et al., 2025). Мы исследуем два направления: обучение в контексте (in-context learning, ICL) с использованием больших языковых моделей, где сравниваем стратегии выборки примеров; и методы обучения распределения меток (label distribution learning, LDL) с использованием модели RoBERTa (Liu et al., 2019b), где оцениваем различные методы тонкой настройки. Наши вклады заключаются в следующем: (1) мы показываем, что ICL может эффективно предсказывать аннотации, специфичные для аннотаторов (перспективистские аннотации), и что агрегирование этих предсказаний в мягкие метки обеспечивает конкурентоспособные результаты; и (2) мы утверждаем, что методы LDL перспективны для предсказания мягких меток и заслуживают дальнейшего изучения сообществом перспективистов.
Крупные языковые модели (LLM) стремительно преобразуют исследования в социальных науках, позволяя автоматизировать трудоемкие задачи, такие как аннотирование данных и анализ текста. Однако результаты работы LLM значительно варьируются в зависимости от решений, принимаемых исследователями (например, выбор модели, стратегия промптинга или настройки температуры). Такие вариации могут приводить к систематическим смещениям и случайным ошибкам, которые распространяются на последующие анализы и вызывают ошибки типа I, типа II, типа S или типа M. Мы называем это "взломом LLM". Мы количественно оцениваем риск взлома LLM, воспроизводя 37 задач аннотирования данных из 21 опубликованного исследования в социальных науках с использованием 18 различных моделей. Анализируя 13 миллионов меток, сгенерированных LLM, мы проверяем 2 361 реалистичную гипотезу, чтобы измерить, как выбор исследователей влияет на статистические выводы. Мы обнаруживаем некорректные выводы на основе данных, аннотированных LLM, примерно в одной из трех гипотез для современных моделей и в половине гипотез для небольших языковых моделей. Хотя наши результаты показывают, что более высокая производительность задач и улучшенные общие возможности моделей снижают риск взлома LLM, даже высокоточные модели не устраняют его полностью. Риск взлома LLM уменьшается с увеличением размеров эффектов, что указывает на необходимость более строгой проверки результатов, близких к порогам значимости. Наш обширный анализ методов снижения риска взлома LLM подчеркивает важность человеческих аннотаций для уменьшения ложноположительных результатов и улучшения выбора моделей. Удивительно, но распространенные методы коррекции регрессионных оценок в значительной степени неэффективны в снижении риска взлома LLM, поскольку они сильно компенсируют ошибки типа I за счет ошибок типа II. Помимо случайных ошибок, мы обнаруживаем, что намеренный взлом LLM неприемлемо прост. С использованием нескольких LLM и всего нескольких перефразированных промптов можно представить что угодно как статистически значимое.
Языки меньшинств в Китае, такие как тибетский, уйгурский и традиционный монгольский, сталкиваются с серьёзными трудностями из-за их уникальных систем письма, которые отличаются от международных стандартов. Это несоответствие привело к острой нехватке соответствующих корпусов, особенно для задач с учителем, таких как генерация заголовков. Чтобы восполнить этот пробел, мы представляем новый набор данных, Chinese Minority Headline Generation (CMHG), который включает 100 000 записей для тибетского языка и по 50 000 записей для уйгурского и монгольского языков, специально подготовленных для задач генерации заголовков. Кроме того, мы предлагаем высококачественный тестовый набор, аннотированный носителями языков, который призван стать эталоном для будущих исследований в этой области. Мы надеемся, что этот набор данных станет ценным ресурсом для продвижения генерации заголовков на языках меньшинств Китая и внесёт вклад в развитие связанных эталонов.