번역이 포함된 일일 선별된 AI 연구 논문
이미지 사고 연쇄(Image-CoT)는 추론 시간을 연장하여 이미지 생성을 개선하는 테스트 타임 스케일링 패러다임입니다. 대부분의 Image-CoT 방법은 텍스트-이미지(T2I) 생성에 중점을 둡니다. T2I 생성과 달리 이미지 편집은 목표 지향적입니다. 즉, 솔루션 공간이 소스 이미지와 지시어에 의해 제약을 받습니다. 이러한 불일치는 Image-CoT를 편집에 적용할 때 세 가지 과제를 야기합니다: 고정된 샘플링 예산으로 인한 비효율적인 자원 할당, 일반 MLLM 점수를 사용한 초기 단계 검증의 신뢰성 부족, 그리고 대규모 샘플링으로 인한 중복된 편집 결과입니다. 이를 해결하기 위해 우리는 편집 효율성과 성능을 향상시키는 주문형 테스트 타임 스케일링 프레임워크인 ADaptive Edit-CoT(ADE-CoT)를 제안합니다. 이는 세 가지 핵심 전략을 포함합니다: (1) 예상 편집 난이도를 기반으로 동적 예산을 할당하는 난이도 인식 자원 할당; (2) 지역 위치 지정과 캡션 일관성을 사용하여 유망한 후보를 선택하는 조기 가지치기 단계의 편집 특화 검증; (3) 인스턴스 특화 검증기의 지도 하에 의도와 부합하는 결과가 발견되면 종료하는 깊이 우선 기회적 중단. 3개의 벤치마크에서 3개의 SOTA 편집 모델(Step1X-Edit, BAGEL, FLUX.1 Kontext)을 대상으로 한 광범위한 실험을 통해 ADE-CoT가 우수한 성능-효율성 트레이드오프를 달성함을 보여줍니다. 유사한 샘플링 예산 대비 ADE-CoT는 Best-of-N 대비 2배 이상의 속도 향상과 함께 더 나은 성능을 얻습니다.
OmniLottie는 다중 모드(multi-modal) 지시어로부터 고품질 벡터 애니메이션을 생성하는 다목적 프레임워크입니다. 유연한 모션 및 시각적 콘텐츠 제어를 위해 우리는 도형과 애니메이션 동작 표현 모두를 위한 경량 JSON 형식인 Lottie에 주목합니다. 그러나 원시 Lottie JSON 파일에는 방대한 불변 구조 메타데이터와 형식화 토큰이 포함되어 있어 벡터 애니메이션 생성 학습에 상당한 어려움을 줍니다. 따라서 우리는 JSON 파일을 도형, 애니메이션 함수, 제어 매개변수를 나타내는 구조화된 명령어와 매개변수의 시퀀스로 변환하는 잘 설계된 Lottie 토크나이저(tokenizer)를 소개합니다. 이러한 토크나이저는 사전 학습된 비전-언어 모델 기반으로 OmniLottie를 구축하여 다중 모드 교차 지시어를 따르고 고품질 벡터 애니메이션을 생성할 수 있게 합니다. 벡터 애니메이션 생성 연구를 더욱 발전시키기 위해, 우리는 전문적으로 디자인된 벡터 애니메이션과 텍스트 및 시각적 주석이 짝을 이루는 대규모 데이터셋인 MMLottie-2M을 구축했습니다. 광범위한 실험을 통해 OmniLottie가 다중 모드 인간 지시어에 밀접하게 부합하며 생생하고 의미적으로 정렬된 벡터 애니메이션을 생성할 수 있음을 입증합니다.
소프트웨어 엔지니어링 에이전트(SWE)는 강화 학습(RL)에 주로 힘입어 빠르게 발전하고 있습니다. 그러나 RL 훈련은 재현 가능한 실행 환경과 신뢰할 수 있는 테스트 슈트를 갖춘 대규모 작업 컬렉션의 부족으로 제약을 받고 있습니다. 점점 더 많은 벤치마크가 등장하고 있지만, 훈련에 적합한 데이터셋은 규모와 다양성 측면에서 여전히 제한적이거나 종종 제한된 고자원 언어 생태계만을 대상으로 하는 경우가 많습니다. 우리는 실행 가능한 실제 SWE 작업을 대규모로 수집하고 RL 훈련 환경을 구축하기 위한 언어 중립적 자동화 파이프라인인 SWE-rebench V2를 소개합니다. 이 파이프라인은 대화형 설정 에이전트를 통해 저장소별 설치 및 테스트 절차를 종합하고, 인간 검증 SWE-bench 주석을 기준으로 검증된 LLM 판단자 앙상블을 사용하여 불완전한 인스턴스를 걸러냅니다. 이 파이프라인을 사용하여 20개 언어와 3,600개 이상의 저장소에 걸친 32,000개 이상의 작업으로 구성된 데이터셋을 구축하며, 재현 가능한 실행을 위한 사전 구축된 이미지를 제공합니다. 훈련 데이터를 더욱 확장하기 위해, 문제 설명이 원본 풀 리퀘스트 설명을 기반으로 생성된 설치 지침, 실패-통과 테스트 및 풍부한 메타데이터가 포함된 120,000개 이상의 작업을 추가로 공개합니다. 우리는 5개 프로그래밍 언어의 작업 하위 집합을 7개의 인기 모델에서 진단 연구를 통해 수집된 인스턴스를 검증하고, 지나치게 제한적인 테스트 및 불충분한 설명과 같은 일반적인 혼란 요인을 표시하는 인스턴스 수준 메타데이터를 제공합니다. 다양한 언어와 저장소에 걸쳐 SWE 에이전트의 대규모 훈련을 가능하게 하기 위해 데이터셋, 수집 및 실행 코드, 관련 아티팩트를 공개합니다.
대규모 언어 모델(LLM)의 정렬이 단순한 문장 완성에서 복잡하고 고도로 정교한 생성으로 진화함에 따라, 보상 모델은 표면적 편향을 완화하기 위해 루브릭 기반 평가로 점차 전환되고 있습니다. 그러나 기존 벤치마크는 엄격한 분석에 필요한 판별적 복잡성과 실제 루브릭 주석 모두를 갖추지 못해, 커뮤니티는 이러한 평가 패러다임을 측정할 통합 벤치마크를 확보하지 못하고 있습니다. 이러한 격차를 해소하기 위해 우리는 루브릭 기반 평가의 신뢰성을 측정하도록 특별히 설계된 1,147개의 pairwise 비교로 구성된 정제된 벤치마크인 RubricBench을 소개합니다. 우리의 구축 방법은 미묘한 입력 복잡성과 오해의 소지가 있는 표면적 편향을 특징으로 하는 어려운 샘플을 대상으로 다차원 필터링 파이프라인을 활용하며, 각 샘플에는 지시사항에서 엄격히 도출된 전문가 주석의 원자적 루브릭을 부가합니다. 포괄적인 실험을 통해 인간 주석 루브릭과 모델 생성 루브릭 사이에 상당한 능력 격차가 있음이 드러났으며, 이는 최첨단 모델조차 유효한 평가 기준을 자율적으로 명시하는 데 어려움을 겪어 인간 주도 성능에 비해 현저히 뒤처짐을 시사합니다.
OpenAutoNLU는 텍스트 분류 및 개체명 인식(NER)을 포함한 자연어 이해(NLU) 작업을 위한 오픈소스 자동화 머신러닝 라이브러리입니다. 기존 솔루션과 달리, 사용자의 수동 설정 없이도 데이터 인식 훈련 체계 선택을 도입했습니다. 또한 통합 데이터 품질 진단, 구성 가능한 분포 외(OOD) 감지, 대규모 언어 모델(LLM) 기능을 최소한의 로우코드 API로 제공합니다. 데모 앱은 https://openautonlu.dev에서 이용할 수 있습니다.
멀티모달 대규모 언어 모델(MLLM)의 추론 능력에 대한 최근 발전은 과학적 분석 및 수학적 추론과 같은 더 복잡한 작업을 해결할 수 있는 가능성을 열었습니다. 이러한 잠재력에도 불구하고, 실제 생활의 다양한 시나리오에서 MLLM의 추론 능력은 대부분 탐구되지 않았으며 표준화된 평가 벤치마크가 부족한 실정입니다. 이러한 격차를 해결하기 위해 본 연구에서는 실제 생활 시나리오에서 MLLM의 다양한 멀티모달 다중 이미지 추론 능력을 평가하기 위해 설계된 포괄적인 벤치마크인 MMR-Life를 소개합니다. MMR-Life는 주로 실제 상황에서 수집된 19,108개의 이미지를 기반으로 한 2,646개의 객관식 문제로 구성되며, 귀납적, 유추적, 인과적, 연역적, 귀납적, 공간적, 시간적 추론 등 일곱 가지 추론 유형을 포괄적으로 다룹니다. 기존 추론 벤치마크와 달리, MMR-Life는 특정 도메인 전문 지식에 의존하지 않으며 대신 모델이 여러 이미지에 걸쳐 정보를 통합하고 다양한 추론 능력을 적용할 것을 요구합니다. 37개의 최첨단 모델에 대한 평가 결과는 MMR-Life가 제기하는 상당한 과제를 부각시킵니다. GPT-5와 같은 최상위 모델조차 58%의 정확도만 달성하며 추론 유형 간 성능 편차가 큰 것으로 나타났습니다. 또한, 기존 MLLM의 추론 패러다임을 분석하여 사고 길이, 추론 방법, 추론 유형과 같은 요소가 성능에 어떤 영향을 미치는지 탐구합니다. 요약하면, MMR-Life는 차세대 멀티모달 추론 시스템의 평가, 분석 및 개선을 위한 포괄적인 기반을 마련합니다.
대규모 언어 모델(LLM)은 최근 고품질 추론 데이터에 대한 지도 미세 조정(SFT) 및 강화 학습(RL) 기반 사후 훈련을 통해 뛰어난 추론 능력을 보여주고 있습니다. 그러나 이러한 능력을 개방적이고 확장 가능한 환경에서 재현하고 확장하는 것은 세 가지 근본적인 데이터 중심 과제에 의해 방해받고 있습니다: (1) 추론 정책을 초기화하는 데 필요한 상세하고 긴 사고 연쇄(CoT) 궤적을 가진 시드 데이터셋의 부족에서 비롯되는 콜드 스타트 문제, (2) 대부분의 기존 오픈소스 추론 데이터셋이 수학 분야에 집중되어 더 넓은 과학 분야를 포괄하는 범위가 제한되는 문제, (3) 첨단 수준 추론 과제의 난이도로 인해 신뢰할 수 있는 인간 주석 작업이 극도로 비싸거나 불가능해지는 주석 병목 현상입니다. 이러한 과제를 해결하기 위해 우리는 일반화 가능한 교차 도메인 추론을 위한 9K 샘플로 구성된 컴팩트한 합성 추론 데이터셋인 CHIMERA를 소개합니다. CHIMERA는 세 가지 핵심 속성으로 구성됩니다: (1) 최첨단 추론 모델들이 합성한 풍부하고 긴 CoT 추론 궤적을 제공하며, (2) 모델 생성 계층 분류 체계를 통해 조직화된 1,000개 이상의 세분화된 주제와 8개의 주요 과학 분야를 아우르는 광범위하고 구조화된 coverage를 가지며, (3) 강력한 추론 모델을 사용하여 문제 타당성과 답변 정확성을 교차 검증하는 완전 자동화된 확장 가능한 평가 파이프라인을 채택합니다. 우리는 CHIMERA를 사용하여 4B Qwen3 모델을 사후 훈련합니다. 데이터셋의 규모가 작음에도 불구하고, 결과 모델은 GPQA-Diamond, AIME 24/25/26, HMMT 25, Humanity's Last Exam을 포함한 일련의 도전적인 추론 벤치마크에서 강력한 성능을 달성하며, DeepSeek-R1 및 Qwen3-235B와 같은 상당히 큰 모델들의 추론 성능에 근접하거나 이를 따라잡습니다.
현재의 다중 뷰 실내 3D 객체 감지기는 다중 뷰 정보를 글로벌 장면 표현으로 융합하기 위해 획득 비용이 높은(즉, 정밀하게 보정된 다중 뷰 카메라 포즈) 센서 기하학에 의존하여 실제 장면에서의 적용이 제한됩니다. 본 연구는 더 실용적인 설정인 센서 기하학 무료(SG-Free) 다중 뷰 실내 3D 객체 감지를 목표로 합니다. 이 설정에서는 센서가 제공하는 기하학적 입력(다중 뷰 포즈 또는 깊이 정보)이 존재하지 않습니다. 최근 Visual Geometry Grounded Transformer(VGGT)는 강력한 3D 단서가 이미지로부터 직접 추론될 수 있음을 보여주었습니다. 이러한 통찰을 바탕으로, 우리는 SG-Free 다중 뷰 실내 3D 객체 감지를 위해 특화된 최초의 프레임워크인 VGGT-Det를 제안합니다. 단순히 VGGT 예측 결과를 사용하는 대신, 우리의 방법은 VGGT 인코더를 트랜스포머 기반 파이프라인에 통합합니다. VGGT 내부의 의미론적 및 기하학적 사전 정보를 효과적으로 활용하기 위해 두 가지 새로운 핵심 구성 요소를 도입했습니다: (i) 주의 안내 쿼리 생성(AG): 객체 영역에 집중하면서도 글로벌 공간 구조를 보존함으로써 위치 지정 정확도를 향상시키기 위해 의미론적 사전 정보로서 VGGT 주의 맵을 활용하여 객체 쿼리를 초기화합니다. (ii) 쿼리 주도 특징 집계(QD): 학습 가능한 See-Query가 객체 쿼리와 상호 작용하여 그들이 필요로 하는 것을 '인지'한 다음, 2D 특징을 점진적으로 3D로 승격시키는 VGGT 계층 간의 다중 수준 기하학적 특징을 동적으로 집계합니다. 실험 결과, VGGT-Det는 SG-Free 설정에서 ScanNet과 ARKitScenes 데이터셋에서 각각 4.4 mAP@0.25 및 8.6 mAP@0.25 만큼 최고 성능의 기존 방법을 크게 능가하는 것으로 나타났습니다. ablation 연구를 통해 VGGT가 내부적으로 학습한 의미론적 및 기하학적 사전 정보가 우리의 AG와 QD에 의해 효과적으로 활용될 수 있음이 입증되었습니다.
다중 턴 상호작용 도구 사용 에이전트를 개발하는 것은 현실 세계의 사용자 요구가 종종 복잡하고 모호함에도 불구하고, 에이전트가 이를 충족시키기 위해 결정론적 행동을 실행해야 하기 때문에 어려운 과제입니다. 이러한 간극을 해결하기 위해 우리는 데이터의 복잡성과 정확성을 모두 보장하면서 상호작용 도구 사용 에이전트를 훈련시키기 위한 사후 훈련 데이터 합성 프레임워크인 CoVe(Constraint-Verification)를 소개합니다. CoVe는 명시적 작업 제약 조건을 정의하는 것으로 시작하며, 이 제약 조건은 복잡한 궤적 생성의 지침 역할과 궤적 품질 평가를 위한 결정론적 검증자 역할이라는 이중 기능을 수행합니다. 이를 통해 지도 미세 조정(SFT)을 위한 고품질 훈련 궤적을 생성하고 강화 학습(RL)을 위한 정확한 보상 신호를 도출할 수 있습니다. 까다로운 τ^2-bench 벤치마크에 대한 평가를 통해 본 프레임워크의 효과성을 입증했습니다. 특히 소규모 CoVe-4B 모델은 항공 및 리테일 도메인에서 각각 43.0%, 59.4%의 성공률을 기록했으며, 전체 성능은 유사 규모의 강력한 베이스라인을 크게 앞섰고 크기가 17배에 달하는 모델들과도 경쟁력을 보였습니다. 이러한 결과는 CoVe가 최첨단 상호작용 도구 사용 에이전트를 위한 훈련 데이터를 효과적이고 효율적으로 합성하는 경로를 제공함을 시사합니다. 향후 연구를 지원하기 위해 우리는 코드, 훈련된 모델, 그리고 훈련에 사용된 12,000개의 고품질 궤적 전체 세트를 오픈소스로 공개합니다.
개인 사진 앨범은 단순히 정적인 이미지의 모음이 아니라 시간적 연속성, 사회적 연결성, 풍부한 메타데이터로 정의되는 살아있는 생태학적 기록으로, 이로 인해 개인화된 사진 검색은 사소한 작업이 아닙니다. 그러나 기존 검색 벤치마크는 맥락이 고립된 웹 스냅샷에 크게 의존하여, 진정한 사용자 의도 기반 질의를 해결하는 데 필요한 다중 소스 추론을 포착하지 못하고 있습니다. 이러한 격차를 해소하기 위해 우리는 진정한 개인 앨범으로부터 구축된 최초의 벤치마크인 PhotoBench를 소개합니다. 이는 시각적 매칭에서 개인화된 다중 소스 의도 기반 추론으로의 패러다임 전환을 목적으로 설계되었습니다. 각 이미지에 대한 시각적 의미, 시공간 메타데이터, 사회적 정체성, 시간적 사건을 통합하는 엄격한 다중 소스 프로파일링 프레임워크를 기반으로, 사용자의 삶의 궤적에 뿌리둔 복잡한 의도 기반 질의를 합성합니다. PhotoBench에 대한 광범위한 평가는 두 가지 중요한 한계를 드러냈습니다: 통합 임베딩 모델이 비시각적 제약 조건에서 실패하는 양식 간 격차(Modality Gap), 그리고 에이전트 시스템이 도구 조율을 제대로 수행하지 못하는 소스 융합 역설(Source Fusion Paradox)입니다. 이러한 발견은 개인 멀티모달 검색의 다음 전선이 통합 임베딩을 넘어, 정확한 제약 조건 충족과 다중 소스 융합이 가능한 강력한 에이전트 추론 시스템의 필요성을 시사합니다. 우리의 PhotoBench는 공개되어 있습니다.
LLaDA-o를 소개합니다. 이는 다중모드 이해 및 생성을 위한 효과적이고 길이 적응형의 범용 확산 모델입니다. LLaDA-o는 Mixture of Diffusion(MoD) 프레임워크를 기반으로 구축되었으며, 이 프레임워크는 텍스트 이해를 위한 이산 마스크 확산과 시각적 생성을 위한 연속 확산을 분리하는 동시에, 고정된 조건에 대한 중복 계산을 줄여주는 공유되고 단순하며 효율적인 어텐션 백본을 통해 이들을 결합합니다. MoD를 기반으로, 아키텍처 변경 없이 다중모드 설정에서 유연한 길이 디코딩을 가능하게 하는 데이터 중심의 길이 적응 전략을 추가로 도입합니다. 다양한 실험 결과, LLaDA-o는 다중모드 이해 및 생성 벤치마크에서 범용 확산 모델 중 최고 수준의 성능을 달성했으며, 텍스트-이미지 생성에서 DPG-Bench 기준 87.04점에 도달하여 통합 범용 확산 모델링의 효과성을 입증했습니다. 코드는 https://github.com/ML-GSAI/LLaDA-o에서 확인할 수 있습니다.
생성 기반 파운데이션 모델은 너비와 깊이 측면에서 점점 더 확장되면서 안정적인 특징 학습과 다양한 모델 크기 간의 신뢰할 수 있는 하이퍼파라미터 전이에 상당한 과제를 제기하고 있습니다. 최대 업데이트 파라미터화(μP)가 너비 스케일링에 대한 두 문제에 대한 원리 기반 해법을 제공한 반면, 너비-깊이 통합 스케일링 영역으로의 기존 확장은 여전히 파편화되어 있으며 특정 아키텍처와 옵티마이저에 의존적이고, 종종 기술적으로 복잡한 이론에 기반합니다. 본 연구에서는 너비-깊이 통합 스케일링 하에서 μP를 위한 간단하고 통합된 스펙트럼 프레임워크를 개발합니다. 다양한 블록 깊이를 가진 잔차 네트워크를 고려하여, 우리는 먼저 가중치의 노름과 단계별 업데이트가 너비와 깊이에 따라 어떻게 스케일링되어야 하는지를 정확히 규정하는 스펙트럼 μP 조건을 소개하며, 기존의 분리된 μP 공식들을 특수 사례로 통합합니다. 이 조건을 바탕으로, 우리는 스펙트럼 제약을 구체적인 HP 파라미터화로 매핑함으로써 광범위한 옵티마이저 클래스에 걸쳐 μP를 구현하기 위한 일반적인 방법론을 유도합니다. 이 접근법은 기존 μP 공식(예: SGD 및 AdamW용)을 복원할 뿐만 아니라 더 넓은 범위의 옵티마이저로 자연스럽게 확장됩니다. 마지막으로, GPT-2 스타일 언어 모델에 대한 실험을 통해 제안된 스펙트럼 μP 조건이 안정적인 특징 학습을 유지하고 너비-깊이 스케일링 하에서 강력한 HP 전이를 가능하게 함을 입증합니다.
기반 비디오 확산 모델(VDM)의 최근 발전으로 상당한 진전이 이루어졌습니다. 그러나 생성된 비디오의 뛰어난 시각적 품질에도 불구하고, 제한된 카메라 제어성과 서로 다른 카메라 궤적에서 볼 때 일관성 없는 생성 콘텐츠로 인해 이러한 출력물에서 일관된 3D 장면을 재구성하는 것은 여전히 어려운 과제입니다. 본 논문에서는 두 가지 전용 기하학적 메모리 모듈을 통해 카메라 기반 비디오 생성과 3D 재구성을 연결하는 새로운 프레임워크인 WorldStereo를 제안합니다. 공식적으로, 전역 기하학적 메모리는 점진적으로 업데이트되는 포인트 클라우드를 통해 거시적인 구조적 사전 정보를 주입하면서 정밀한 카메라 제어를 가능하게 합니다. 더 나아가, 공간-스테레오 메모리는 3D 대응 관계를 통해 모델의 어텐션 수용 영역을 제한하여 메모리 뱅크의 세밀한 디테일에 집중하도록 합니다. 이러한 구성 요소는 WorldStereo가 정밀한 카메라 제어 하에서 다중 시점 일관성 비디오를 생성하여 고품질 3D 재구성을 용이하게 합니다. 또한, 유연한 제어 분기 기반의 WorldStereo는 공동 학습 없이 분포 매칭으로 증류된 VDM 백본으로부터 이점을 얻어 인상적인 효율성을 보여줍니다. 카메라 기반 비디오 생성 및 3D 재구성 벤치마크를 아우르는 폭넓은 실험을 통해 우리 접근법의 효과성을 입증합니다. 특히 WorldStereo가 강력한 월드 모델로 작동하여 원근 또는 파노라마 이미지로 시작하든 다양한 장면 생성 작업을 고화질 3D 결과물로 해결할 수 있음을 보여줍니다. 모델은 공개될 예정입니다.
강화 학습(RL)은 대규모 언어 모델의 추론 능력 및 정렬(alignment) 향상에 핵심적인 역할을 하지만, 그 효율성은 학습 데이터 선택 방식에 크게 좌우됩니다. 기존의 온라인 선택 전략은 주로 난이도 기반 휴리스틱에 의존하여 중간 정도의 성공률을 보이는 데이터 포인트를 선호하는데, 이는 난이도를 정보성(informativeness)과 암묵적으로 동일시하고 제한된 증거에서 비롯되는 인식적 불확실성(epistemic uncertainty)을 간과합니다. 본 연구에서는 가중 상호 정보량 목적 함수에 기반한 RL 훈련용 정보 기반 데이터 샘플링 방법인 InSight를 소개합니다. 베이지안 잠재 성공률을 통해 데이터 결과를 모델링함으로써, 기대 불확실성 감소가 상호 보완적인 난이도 및 증거 의존 구성 요소로 분해됨을 보여주어 난이도만을 고려한 선택의 근본적 한계를 밝힙니다. 이러한 관찰을 활용하여 InSight는 노이즈가 포함된 표본 결과 대신 데이터 포인트의 성공에 대한 평균 신념(belief)을 기반으로 안정적인 획득 점수를 구성하며, 검증 가능한 보상을 활용한 강화 학습(RLVR)에서 흔한 다중 롤아웃(multi-rollout) 설정으로 자연스럽게 확장됩니다. 대규모 실험을 통해 InSight가 최첨단 성능을 꾸준히 달성하고 훈련 효율을 향상시키며, Planning & Mathematics 벤치마크에서 평균 +1.41점, 일반 추론에서 +1.01점 향상, 최대 약 2.2배의 가속화 효과를 거의 무시할 수 있는 추가 계산 오버헤드로 달성함을 입증합니다.
수학적 추론을 위한 강화 학습(RL)은 보상 희소성 문제에 직면할 수 있습니다. 어려운 문제의 경우 LLM이 올바른 궤적을 전혀 샘플링하지 못하여 RL이 의미 있는 긍정적 피드백을 받지 못하게 됩니다. 동시에 문제와 함께 인간이 작성한 참조 해결책(예: AoPS 문제)이 존재하는 경우가 많지만, 모델이 자체 추론 분포를 벗어나는 인간의 증명을 모방하지 못하기 때문에 이러한 해결책을 직접 미세 조정해도 이점이 없습니다. 우리는 인간이 작성한 참조 해결책을 활용하여 어려운 문제에 대한 긍정적 궤적을 합성하고 RL 전에 이를 학습하는 간단하면서 효과적인 방법인 참조 가이드 미세 조정(ReGFT)을 소개합니다. 각 문제에 대해 모델에 부분적인 참조 해결책을 제공하고 자체 추론 흔적을 생성하도록 하여, 결과 궤적이 모델의 추론 공간에 남아 있으면서 참조 가이드의 이점을 얻을 수 있도록 합니다. 이러한 참조 가이드 궤적에 대한 미세 조정은 해결 가능한 문제의 수를 증가시키고 RL 동안 더 많은 긍정적 보상을 받는 체크포인트를 생성합니다. 세 가지 벤치마크(AIME24, AIME25, BeyondAIME)에서 ReGFT는 지도 학습 정확도를 지속적으로 향상시키고 DAPO 훈련 속도를 가속화하며 RL의 최종 성능 한계를 높였습니다. 우리의 결과는 ReGFT가 보상 희소성을 효과적으로 극복하고 더 강력한 RL 기반 수학적 추론을 가능하게 함을 보여줍니다.
대규모 언어 모델(LLM)은 복잡한 작업을 해결하기 위해 도구를 활용할 수 있는 자율 에이전트의 기반으로 자리 잡아가고 있습니다. 강화 학습(RL)은 이러한 에이전트 능력을 주입하는 일반적인 접근법으로 부상했지만, 일반적으로 엄격하게 통제된 학습 설정 하에서 이루어집니다. 이는 주로 신중하게 구성된 과제-해결책 쌍과 상당한 인간의 감독에 의존하는데, 이는 초지능 시스템을 향한 개방형 자기 진화에 근본적인 장벽이 됩니다. 본 논문에서는 제로-데이터(Zero-Data) 가정 하에 셀프 플레이(자기 대결) 강화 학습을 통해 처음부터 범용 도구 호출 에이전트를 학습시키는 Tool-R0 프레임워크를 제안합니다. 동일한 기본 LLM으로 초기화된 Tool-R0는 상호 보완적인 보상을 통해 생성기(Generator)와 해결기(Solver)를 공동 진화시킵니다. 하나는 상대방의 능력 한계에 도전하는 표적 과제를 제안하고, 다른 하나는 실제 세계의 도구 호출을 통해 이를 해결하는 방법을 학습합니다. 이는 기존의 과제나 데이터셋이 필요 없는 자기 진화 순환을 생성합니다. 다양한 도구 사용 벤치마크에서의 평가 결과, Tool-R0는 기본 모델 대비 92.5%의 상대적 성능 향상을 보였으며, 동일한 설정 하에서 완전 지도 학습 기반 도구 호출 비교 모델들을 능가했습니다. 우리의 연구는 공동 진화, 커리큘럼 역학, 그리고 확장 행동을 분석함으로써 셀프 플레이 LLM 에이전트에 대한 실증적 통찰을 추가로 제공합니다.
강화학습(RL)은 의료 비전-언어 모델(VLM)의 사후 학습에 점점 더 많이 활용되고 있지만, RL이 의료 시각 추론을 실제로 개선하는지, 아니면 지도 미세 조정(SFT)으로 이미 형성된 행동을 주로 세부 조정하는지 여부는 여전히 명확하지 않습니다. 본 연구는 이러한 효과를 시각, SFT, RL이라는 세 가지 축을 따라 분리하여 통제된 연구를 제시합니다. MedMNIST를 다중 모달리티 테스트베드로 활용하여 VLM 비전 타워를 시각 전용 베이스라인과 비교 평가함으로써 시각 인식을 탐구하고, Accuracy@1 대 Pass@K를 통해 추론 지원 범위와 샘플링 효율을 정량화하며, RL이 언제 지원 격차를 해소하는지와 이득이 모드 간에 어떻게 전이되는지 평가합니다. 우리는 RL이 모델이 이미 상당한 지원 범위(높은 Pass@K)를 보유하고 있을 때 가장 효과적임을 발견했습니다. RL은 주로 출력 분포를 세부 조정하여 Acc@1과 샘플링 효율을 향상시키는 반면, SFT는 지원 범위를 확장하고 RL의 효과를 가능하게 합니다. 이러한 발견을 바탕으로 우리는 경계 인식(boundary-aware) 방법론을 제안하며, 이를 OctoMed으로 초기화된 모델을 소규모 균형 잡힌 PMC 객관식 VQA 하위 집합에 대해 RL 사후 학습함으로써 구체화하고, 6개의 의료 VQA 벤치마크 전반에 걸쳐 강력한 평균 성능을 달성합니다.
본 논문에서는 텍스트 전용 임베딩 공간인 SONAR(Omnilingual Embeddings Team et al., 2026)를 확장하여 1500개의 텍스트 언어와 177개의 음성 언어를 지원하는 비전-언어 임베딩 공간인 V-SONAR을 소개합니다. V-SONAR 구축을 위해, 기존 비전 인코더의 표현을 SONAR 공간으로 매핑하는 사후 정렬 파이프라인을 제안합니다. V-SONAR을 철저히 평가한 결과, 해당 임베딩이 텍스트-비디오 검색 작업에서 경쟁력 있는 성능을 달성함을 확인했습니다. OMNISONAR 텍스트 디코더를 장착한 V-SONAR은 비디오 캡션 생성 작업(DREAM-1K: BLEU 23.9 대 19.6, PE-VIDEO: BLEU 39.0 대 30.0)에서 최첨단 비전-언어 모델을 추가로 능가합니다. V-SONAR을 활용하여, SONAR 공간에서 운영되며 영어 텍스트만으로 학습된 대규모 개념 모델(LCM; LCM team et al. 2024)이 제로샷 방식으로 단일 및 다중 시각 개념 이해를 수행할 수 있음을 최초로 입증합니다. 마지막으로, 비전-언어 지시 튜닝을 통해 LCM을 확장한 V-LCM을 소개합니다. V-LCM은 V-SONAR과 SONAR을 통해 비전 및 언어 입력을 통합된 잠재 임베딩 시퀀스로 인코딩하며, LCM의 텍스트 전용 사전 학습과 동일한 잠재 확산 목표(다음 임베딩 예측)로 학습됩니다. 대규모 다언어 및 다중 모달 지시 튜닝 데이터 혼합물에 대한 실험은 V-LCM의 잠재력을 부각합니다: V-LCM은 이미지/비디오 캡션 생성 및 질의응답을 아우르는 작업에서 최첨단 비전-언어 모델과 성능을 맞섰으며, 테스트된 62개 언어 전체에서 61개의 풍부-에서 저-자원 언어에 걸쳐 그들을 크게 앞섰습니다.
텍스트 설명에 잘못된 추가 세부 정보가 덧붙여질 경우 이미지-텍스트 유사도는 하락해야 한다. 본 연구에서는 CLIP 방식의 듀얼 인코더가 이러한 직관을 자주 위반함을 보인다: 정확한 설명에 그럴듯하지만 잘못된 객체나 관계를 추가하면 유사도 점수가 오히려 증가할 수 있다. 우리는 이러한 사례를 '하프 트루스(half-truths)'라고 명명한다. COCO 데이터셋에서 CLIP은 더 짧은 정확한 설명을 선호하는 비율이 40.6%에 불과하며, 추가된 세부 정보가 관계를 나타낼 경우 이 성능은 32.9%로 하락한다. 우리는 이러한 취약점의 원인이 캡션 부분에 대한 약한 감독에서 비롯됨을 규명한다: 대조 학습은 전체 문장을 정렬하지만 개별 개체와 관계가 제대로 기반하게 할 것을 명시적으로 강제하지는 않는다. 우리는 CS-CLIP(Component-Supervised CLIP)을 제안한다. 이 방법은 캡션을 개체 및 관계 단위로 분해하고, 각 단위에 대해 최소한으로 편집된 오류 단위(foil)를 구성하며, 표준 듀얼 인코더 추론을 보존하면서 정확한 단위가 해당 오류 단위보다 높은 점수를 받도록 모델을 미세 조정한다. CS-CLIP은 하프 트루스 정확도를 69.3%로 높이며, 기존 구성적 이해 벤치마크에서 평균 성능을 5.7점 향상시켜 하프 트루스 오류 감소가 구성적 이해의 광범위한 향상과 부합함을 시사한다. 코드는 다음에서 공개된다: https://github.com/kargibora/CS-CLIP
LLM 에이전트가 코드를 실행하지 않고도 코드베이스를 탐색하고 코드 의미를 추론할 수 있을까? 우리는 이러한 능력을 '에이전트 코드 추론(agentic code reasoning)'이라고 명명하고 이를 연구하며, 반형식적 추론(semi-formal reasoning) 방법론을 소개한다. 이는 구조화된 프롬프팅 방법론으로, 에이전트가 명시적인 전제를 구성하고 실행 경로를 추적하며 형식적인 결론을 도출하도록 요구한다. 비구조화된 사고의 연쇄(chain-of-thought)와 달리, 반형식적 추론은 일종의 증명서 역할을 하여 에이전트가 경우의 수를 생략하거나 근거 없는 주장을 할 수 없게 한다. 세 가지 과제(패치 등가성 검증, 결함 위치 추적, 코드 질의 응답)에 걸쳐 평가한 결과, 반형식적 추론이 모든 과제에서 일관되게 정확도를 향상시키는 것으로 나타났다. 패치 등가성의 경우, 선별된 예시에서 정확도가 78%에서 88%로 향상되었으며, 실제 에이전트 생성 패치에서는 93%에 달해 실행 없이 RL 보상 신호를 생성하는 데 필요한 신뢰도에 근접했다. RubberDuckBench(Mohammad et al., 2026)의 코드 질의 응답 과제에서는 반형식적 추론이 87%의 정확도를 달성했다. Defects4J(Just et al., 2014)의 결함 위치 추적 과제에서는 표준 추론 대비 상위 5개 정확도(Top-5 accuracy)가 5%p 향상되었다. 이러한 결과는 구조화된 에이전트 추론이 실행 없이도 의미 있는 코드 의미론 분석을 가능하게 하며, 이는 RL 훈련 파이프라인, 코드 리뷰, 정적 프로그램 분석 등에 실용적으로 적용될 수 있음을 보여준다.
DeepSeek-R1과 같은 Think-Answer 추론 모델은 해석 가능한 내부 추론을 활용하여 주목할 만한 진전을 이루었습니다. 그러나 "Oops!"와 같은 자기 반성적 신호가 빈번하게 나타남에도 불구하고, 단일 패스 추론 과정에서 출력 오류에 취약한 한계가 여전히 존재합니다. 이러한 한계를 해결하기 위해 우리는 기존의 단일 패스 방식을 넘어 반복적인 추론 사이클을 통해 더 정확한 답변을 생성할 수 있는 효율적인 Recursive Think-Answer Process(R-TAP)를 제안합니다. 이 접근법의 핵심은 모델 응답의 확실성을 평가하고 후속 개선을 안내하는 신뢰도 생성기입니다. 두 가지 상호 보완적인 보상—재귀적 신뢰도 증가 보상과 최종 답변 신뢰도 보상—을 도입함으로써 R-TAP이 적용된 모델이 대규모 언어 모델(LLM)과 시각-언어 모델(VLM) 모두에서 기존 단일 패스 방법을 지속적으로 능가함을 보여줍니다. 더 나아가 모델 응답에서 "Oops" 유사 표현의 빈도를 분석한 결과, R-TAP이 적용된 모델은 자기 반성적 패턴이 현저히 줄어들어 더 안정적이고 빠른 추론 시간을 보여주었습니다. 우리는 R-TAP이 미래 AI의 추론 과정을 정제하는 효율적이고 정교한 방법으로 진화하는 길을 열어가기를 기대합니다.
주의력 조향(attention steering)은 모델의 집중력을 제어하는 중요한 기술로, 프롬프트 하이라이트와 같은 기능을 가능하게 하여 모델이 사용자가 지정한 텍스트를 우선적으로 처리하도록 합니다. 그러나 기존의 주의력 조향 방법들은 전체 주의력 행렬을 명시적으로 저장해야 하므로 FlashAttention과 같은 메모리 효율적인 구현 방식과 호환되지 않습니다. 본 연구에서는 주의력 계산 전에 키 임베딩을 직접 편집하여 이 문제를 해결하는 학습이 필요 없는 조향 방법인 Spectral Editing Key Amplification(SEKA)을 소개합니다. SEKA는 스펙트럼 분해를 사용하여 키 임베딩을 특정 토큰에 대한 주의력 점수를 증폭시키는 잠재 방향으로 조정합니다. 이를 프롬프트의 의미적 의도에 기반하여 다수의 전문가 부분공간을 동적으로 결합하는 학습이 필요 없는 라우팅 메커니즘을 사용하는 쿼리 적응형 변형인 Adaptive SEKA(AdaSEKA)로 확장합니다. 실험 결과, 두 방법 모두 최적화된 주의력 기법과 호환되며 훨씬 낮은 지연 시간과 메모리 오버헤드를 추가하면서도 표준 조향 벤치마크에서 강력한 기준선들을 크게 능가하는 것으로 나타났습니다.
본 논문에서는 법률 RAG 시스템의 종단간 성능을 평가하기 위한 벤치마크 및 평가 방법론인 Legal RAG Bench를 소개한다. 벤치마크로서 Legal RAG Bench는 빅토리아 형사 기소 핸드북에서 추출한 4,876개의 패시지와 형사법 및 절차에 대한 전문 지식을 요구하는 100개의 복잡한 수작업 질문으로 구성된다. 장문 형식의 답변과 지원 패시지가 모두 제공된다. 평가 방법론으로서 Legal RAG Bench는 완전 요인 설계와 새로운 계층적 오류 분해 프레임워크를 활용하여 RAG 내 검색 및 추론 모델의 기여도를 공정하게 비교할 수 있도록 한다. 우리는 3개의 최첨단 임베딩 모델(Isaacus의 Kanon 2 Embedder, Google의 Gemini Embedding 001, OpenAI의 Text Embedding 3 Large)과 2개의 최신 LLM(Gemini 3.1 Pro 및 GPT-5.2)을 평가한 결과, 정보 검색이 법률 RAG 성능의 주요 동인이며 LLM은 정확성과 근거성에 상대적으로 적은 영향을 미치는 것으로 나타났다. 특히 Kanon 2 Embedder는 성능에 가장 큰 긍정적 영향을 미쳐 평균 정확도를 17.5점, 근거성을 4.5점, 검색 정확도를 34점 향상시켰다. 법률 RAG 시스템에서 환영으로 귀결되는 많은 오류가 사실은 검색 실패에 의해 유발된다는 점을 확인함으로써, 검색이 많은 현대 법률 RAG 시스템의 성능 상한선을 결정한다는 결론을 내린다. 우리는 평가 결과와 함께 Legal RAG Bench를 구축한 이유와 방법을 상세히 기록한다. 또한 연구 결과의 재현성을 지원하기 위해 코드와 데이터를 공개한다.
게임, 로봇공학, 시뮬레이션을 위한 인터랙티브 디지털 환경 구축은 부품 형상과 운동학적 구조에서 기능이 발현되는 관절형 3D 객체에 의존합니다. 그러나 기존 접근법은 근본적인 한계를 지닙니다: 최적화 기반 재구성 방법은 느린 객체별 조인트 피팅이 필요하며 일반적으로 단순한 단일 조인트 객체만 처리하는 반면, 검색 기반 방법은 고정된 라이브러리에서 부품을 조립하여 반복적인 형상과 낮은 일반화 성능을 초래합니다. 이러한 문제를 해결하기 위해 완전한 3D 메시에서 직접 고품질 관절형 애셋을 생성하는 새로운 프레임워크인 ArtLLM을 소개합니다. 그 핵심에는 기존 관절 데이터셋과 절차적으로 생성된 객체로부터 정제된 대규모 관절 데이터셋으로 훈련된 3D 멀티모달 대규모 언어 모델이 있습니다. 기존 연구와 달리 ArtLLM은 가변적인 수의 부품과 조인트를 자동회귀적으로 예측하며 객체의 포인트 클라우드에서 운동학적 구조를 통합적으로 추론합니다. 이 관절 인지 레이아웃은 이후 3D 생성 모델의 조건으로 작용하여 높은 정확도의 부품 형상을 합성합니다. PartNet-Mobility 데이터셋에 대한 실험 결과, ArtLLM은 부품 레이아웃 정확도와 조인트 예측 모두에서 최첨단 방법을 크게 능가하며 실제 객체에 대해 강건하게 일반화함을 보여줍니다. 마지막으로 디지털 트윈 구축에서의 유용성을 입증하여 확장 가능한 로봇 학습에 대한 잠재력을 강조합니다.
LLM은 밀집 검색을 근본적으로 변화시켜 백본을 판별적 인코더에서 생성형 아키텍처로 업그레이드했습니다. 그러나 중요한 단절이 남아있습니다: LLM은 강력한 추론 능력을 보유함에도 불구하고, 현재 검색 모델은 주로 이를 정적 인코더로 활용하여 복잡한 추론에 대한 잠재력을 탐구하지 못하고 있습니다. 이를 해결하기 위해 기존 접근법은 일반적으로 검색 전 명시적 CoT 추론 과정을 생성하는 rewrite-then-retrieve 파이프라인을 채택합니다. 하지만 이는 과도한 지연 시간을 초래합니다. 본 논문에서는 명시적 추론을 밀집 검색기의 잠재 공간에 내재화하는 새로운 자기 지식 증류 프레임워크인 LaSER를 제안합니다. 공통의 LLM 백본에서 운영되는 LaSER는 이중 관점 학습 메커니즘을 도입합니다: 실제 추론 경로를 명시적으로 인코딩하는 Explicit 관점과 암묵적인 잠재 사고를 수행하는 Latent 관점입니다. 이러한 관점 간 차이를 해소하기 위해 우리는 다중 수준 정렬 전략을 설계했습니다. 표준 출력 정렬을 넘어서, 우리는 중간 잠재 상태를 명시적 추론 세그먼트의 의미적 진행과 동기화하는 궤적 정렬 메커니즘을 도입합니다. 이를 통해 검색기는 자동 회귀 텍스트 생성 없이도 침묵하면서 효과적으로 사고할 수 있습니다. 도메인 내 및 도메인 외 추론 집약 벤치마크에서의 광범위한 실험을 통해 LaSER가 최첨단 기준선을 크게 능가함을 입증했습니다. 더 나아가 다양한 백본과 모델 규모에 걸친 분석을 통해 우리 접근법의 강건성이 검증되었으며, 통합 학습 프레임워크가 효과적인 잠재 사고를 이끌어내는 데 필수적임을 확인했습니다. 우리의 방법은 명시적 CoT 파이프라인의 추론 깊이와 표준 밀집 검색기의 추론 효율성을 성공적으로 결합합니다.
시험 시간 강화 학습(TTRL)은 다수결 투표를 통한 자체 유도 보상을 통해 레이블이 없는 시험 입력에서 온라인 적응을 가능하게 함으로써 자기 진화형 대규모 추론 모델(LRM)을 위한 유망한 패러다임으로 부상했습니다. 그러나 허위이면서도 빈도가 높은 검증되지 않은 합의는 편향되고 강화된 보상 신호가 되어 잘못된 모드 붕괴를 초래할 수 있습니다. 우리는 이러한 실패 모드를 T^3RL(시험 시간 도구 검증 강화 학습)로 해결하며, 보상 추정에 시험 시간 도구 검증을 도입합니다. 구체적으로, 검증자는 외부 도구를 증거(예: 코드 실행 결과)로 활용하여 검증 인식 투표에서 검증된 롤아웃의 가중치를 높여, 학습을 위한 더 신뢰할 수 있는 의사 레이블을 생성합니다. 다양한 수학 문제 난이도(MATH-500, AMC, AIME 2024)와 다양한 백본 유형에서 T^3RL은 TTRL을 크게 개선했으며, 더 어려운 문제에서 더 큰 성능 향상을 보였습니다. 더 넓게 보면, T^3RL은 검증된 온라인 데이터 합성으로 볼 수 있으며, 시험 시간 도구 검증이 자기 진화를 안정화하는 핵심 메커니즘임을 강조합니다.
검증 가능한 기호 데이터에 대한 훈련은 표준 사전 훈련 코퍼스가 제공하는 범위를 넘어 언어 모델의 추론 한계를 확장하는 유망한 방법입니다. 그러나 기존의 절차적 생성기들은 고정된 퍼즐이나 템플릿에 의존하는 경우가 많아 규모에 필요한 분포적 폭을 제공하지 못합니다. 우리는 핵심 형식 영역 전반에 걸쳐 검증 가능한 기호 추론 데이터를 절차적으로 생성하는 확장 가능한 도구 모음인 Reasoning Core를 소개합니다: 무작위화된 영역에 대한 PDDL 계획 수립, 등식을 포함한 1차 논리, 문맥 자유 문법 구문 분석 및 생성, 무작위 베이지안 네트워크에 대한 인과 추론, 그리고 방정식 시스템. 각 작업은 엄격한 검증을 위한 외부 솔버와 쌍을 이루며, 교육 과정 설계를 위한 지속적인 난이도 조절이 가능합니다. 예제는 선택적으로 솔버에서 도출된 추론 흔적을 포함할 수 있어, 최초 사전 훈련 단계부터 지도 학습이 가능하며, 동일한 인터페이스는 강화 학습을 위한 검증 가능한 보상 함수를 제공합니다. 우리의 실험은 Reasoning Core 데이터를 사전 훈련에 혼합하면 언어 모델링 품질을 유지하거나 약간 향상시키면서도 하류 추론 과제 성능을 개선함을 보여줍니다. 제로샷 평가는 이러한 작업들이 GPT-5와 같은 최첨단 모델에게도 도전적임을 확인합니다. 코드와 데이터는 MIT 라이선스 하에 공개되어 있습니다.
본 보고서는 Instagram, WhatsApp, Messenger 등 실제 운영 중인 소셜 채팅 애플리케이션에서 대규모 언어 모델(LLM)을 개선하기 위한 반복적 플라이휠 프로세스인 CharacterFlywheel을 소개한다. LLaMA 3.1을 시작으로 내부 및 외부 실제 사용자 트래픽 데이터를 활용하여 15개 세대에 걸쳐 모델을 정제했다. 2024년 7월부터 2025년 4월까지 지속적인 배포를 통해 진행된 7일 간의 통제된 A/B 테스트 결과, 꾸준한 참여도 개선이 확인되었다: 새로 배포된 8개 모델 중 7개가 기준 모델 대비 긍정적인 향상을 보였으며, 가장 성능이 우수한 모델은 참여 폭(engagement breadth) 최대 8.8%, 참여 깊이(engagement depth) 19.4%의 개선을 달성했다. 또한 조종 가능성(steerability)에서도 상당한 향상을 관찰했는데, 지시 따르기(instruction following)는 59.2%에서 84.8%로 증가했고 지시 위반(instruction violations)은 26.6%에서 5.8%로 감소했다. 본고에서는 데이터 큐레이션, 참여도 지표의 지형을 추정 및 보간하는 보상 모델링, 지도 미세 조정(SFT), 강화 학습(RL), 그리고 각 최적화 단계에서 신뢰할 수 있는 진전을 보장하기 위한 오프라인 및 온라인 평가를 통합하는 CharacterFlywheel 프로세스를 상세히 설명한다. 또한 대규모 프로덕션 환경의 동역학을 탐색하고 과적합을 방지하기 위한 방법론에 대해서도 논의한다. 이러한 기여는 수백만 사용자를 대상으로 하는 소셜 애플리케이션에서 LLM을 과학적으로 엄밀하게 이해하고 발전시키는 데 기여한다.
우리는 20개 이상의 STEM 분야에 걸쳐 대규모 언어 모델의 추론 능력을 평가하기 위한 다중 모드 벤치마크인 (Classroom Final Exam)을 소개합니다. 는 대학에서 반복적으로 사용된 실제 숙제 및 시험 문제와 강의 담당 교수가 제공한 참고 해답으로 구성되어 있습니다. 는 최첨단 모델에게도 상당한 도전 과제로, 최근 공개된 Gemini-3.1-pro-preview의 전체 정확도는 59.69%에 그치는 반면 두 번째로 성능이 좋은 모델인 Gemini-3-flash-preview는 55.46%를 달성하여 개선 여지가 크게 남아 있습니다. 리더보드 결과를 넘어서, 우리는 참고 해답을 추론 흐름으로 분해하여 진단 분석을 수행합니다. 분석 결과, 최첨단 모델이 중간 하위 질문에 대한 정답을 종종 맞힐 수는 있지만, 다단계 해결 과정 전반에 걸쳐 정확한 중간 상태를 안정적으로 도출하고 유지하는 데 어려움을 겪는 것으로 나타났습니다. 또한 모델이 생성한 해답은 일반적으로 교수자가 제공한 해답보다 추론 단계가 더 많아, 단계 효율성이 낮고 오류 누적 위험이 더 높음을 관찰했습니다. 데이터와 코드는 https://github.com/Analogy-AI/CFE_Bench에서 확인할 수 있습니다.
최근 텍스트-이미지(T2I) 확산 모델은 놀라운 사실감을 달성했지만, 특히 여러 객체, 관계 및 세밀한 속성을 포함하는 복잡한 프롬프트에 대해 프롬프트-이미지 정합성을 충실히 유지하는 것은 여전히 어려운 과제입니다. 기존의 훈련이 필요 없는 추론 시 스케일링 방법은 프롬프트 난이도에 적응할 수 없는 고정된 반복 예산에 의존하는 반면, 리플렉션 튜닝 모델은 신중하게 구축된 리플렉션 데이터셋과 확산 모델 및 시각-언어 모델의 광범위한 공동 미세 조정이 필요하며, 종종 리플렉션 경로 데이터에 과적합되고 모델 간 전이성이 부족합니다. 본 논문에서는 적응형 T2I 생성을 위한 훈련이 필요 없고 요구 사항 주도적인 진화 프레임워크인 RAISE(Requirement-Adaptive Self-Improving Evolution)를 소개합니다. RAISE는 이미지 생성을 요구 사항 주도적 적응형 스케일링 과정으로 공식화하며, 프롬프트 재작성, 노이즈 재샘플링, 지시 기반 편집 등 다양한 세련화 작업을 통해 추론 시점에 후보 이미지 집단을 진화시킵니다. 각 세대는 구조화된 요구 사항 체크리스트에 대해 검증되어, 시스템이 충족되지 않은 항목을 동적으로 식별하고 필요한 부분에만 추가 계산을 할당할 수 있게 합니다. 이를 통해 의미적 쿼리 복잡도에 계산 자원을 맞추는 적응형 테스트 타임 스케일링을 달성합니다. GenEval 및 DrawBench에서 RAISE는 기존 스케일링 및 리플렉션 튜닝 기준선 대비 생성 샘플 수(30-40% 감소)와 VLM 호출 횟수(80% 감소)를 줄이면서도 최첨단 정합성(GenEval 전체 0.94)을 달성하여 효율적이고 일반화 가능하며 모델에 구애받지 않는 다중 라운드 자기 개선을 입증했습니다. 코드는 https://github.com/LiyaoJiang1998/RAISE 에서 확인할 수 있습니다.
우리는 대규모 팬옵틱 비디오 장면 그래프 데이터셋인 Synthetic Visual Genome 2(SVG2)를 소개한다. SVG2는 63만 6천 개 이상의 비디오와 660만 개의 객체, 5,200만 개의 속성, 670만 개의 관계를 포함하며, 기존 시공간 장면 그래프 데이터셋 대비 규모와 다양성에서 한 차원 높은 수준을 제공한다. SVG2를 구축하기 위해 우리는 다중 스케일 팬옵틱 분할, 자동 신규 객체 발견 기능을 갖춘 온라인-오프라인 궤적 추적, 궤적별 의미론적 파싱, GPT-5 기반 시공간 관계 추론을 결합한 완전 자동화 파이프라인을 설계했다. 이 자원을 바탕으로 비디오 장면 그래프 생성 모델인 TRaSER를 학습시켰다. TRaSER는 VLM에 궤적 정렬 토큰 배열 메커니즘과 객체-궤적 리샘플러, 시간-윈도우 리샘플러라는 새로운 모듈을 추가하여 원본 비디오와 팬옵틱 궤적을 단일 순전파로 간결한 시공간 장면 그래프로 변환한다. 시간-윈도우 리샘플러는 짧은 궤적 세그먼트에 시각 토큰을 결합하여 지역적 운동 및 시간적 의미를 보존하는 반면, 객체-궤적 리샘플러는 전체 궤적을 집약하여 객체의 전역적 문맥을 유지한다. PVSG, VIPSeg, VidOR 및 SVG2 테스트 데이터셋에서 TRaSER는 관계 검출 성능을 최강 오픈소스 기준 대비 +15~20%, 객체 예측 성능을 +30~40%(GPT-5 대비 +13%), 속성 예측 성능을 +15% 향상시켰다. TRaSER가 생성한 장면 그래프를 VLM에 전달하여 비디오 질의응답을 수행할 때, 비디오만 사용하거나 Qwen2.5-VL 생성 장면 그래프를 보강한 경우보다 절대 정확도가 +1.5~4.6% 향상되어 명시적 시공간 장면 그래프의 중간 표현으로서 유용성을 입증했다.
지식 기반 시각 질의응답(KB-VQA)은 지식 집약적 작업 처리에 상당한 잠재력을 보여준다. 그러나 시각 언어 모델(VLM)의 정적 파라미터 지식과 사전 학습된 정적 모델 지식으로 인해 동적으로 검색된 정보 간에 충돌이 발생한다. 모델 출력은 검색된 맥락을 무시하거나 파라미터 지식과 불일치된 통합을 보여 KB-VQA에 상당한 과제를 제기한다. 현재 지식 충돌 완화 방법은 주로 언어 기반 접근법에서 도입되어, 엔지니어링된 프롬프트 전략이나 맥락 인식 디코딩 메커니즘을 통해 맥락 수준 충돌에 집중한다. 그러나 이러한 방법들은 충돌에서 시각 정보의 중요한 역할을 간과하며, 정확한 충돌 식별과 효과적 완화를 저해하는 과도한 검색 맥락 문제를 안고 있다. 이러한 한계를 해결하기 위해 우리는 KB-VQA를 위한 새로운 학습 없는(train-free) 충돌 및 상관관계 인식 방법인 CC-VQA를 제안한다. 우리 방법은 두 가지 핵심 구성 요소로 이루어진다: (1) 내부 및 외부 지식 맥락 간 시각-의미 충돌 분석을 수행하는 시각 중심 맥락 충돌 추론, (2) 낮은 상관관계 문장에 대한 위치 인코딩 압축과 상관관계 가중 충돌 점수를 활용한 적응형 디코딩을 특징으로 하는 상관관계 기반 인코딩 및 디코딩. E-VQA, InfoSeek, OK-VQA 벤치마크에서의 광범위한 평가 결과, CC-VQA가 기존 방법 대비 3.3%~6.4%의 절대 정확도 향상을 달성하며 최첨단 성능을 보여줌을 확인했다. 코드는 https://github.com/cqu-student/CC-VQA에서 확인할 수 있다.
우리는 3D 레이아웃 조건 기반 생성에서 폐색 추론이 근본적이면서도 간과된 측면이라고 판단합니다. 이는 부분적으로 가려진 객체를 깊이에 일관된 기하학적 구조와 규모로 합성하는 데 필수적입니다. 기존 방법들은 입력 레이아웃을 따르는 현실적인 장면을 생성할 수 있지만, 정확한 객체 간 폐색을 모델링하는 데는 종종 실패합니다. 우리는 폐색을 명시적으로 모델링하는 3D 레이아웃 조건 기반 생성 모델인 SeeThrough3D를 제안합니다. 우리는 폐색 인식 3D 장면 표현(OSCR)을 도입했는데, 여기서 객체는 가상 환경 내에 배치된 반투명 3D 박스로 묘사되고 원하는 카메라 시점에서 렌더링됩니다. 투명도는 가려진 객체 영역을 인코딩하여 모델이 폐색을 추론할 수 있게 하며, 렌더링된 시점은 생성 과정에서 명시적인 카메라 제어를 제공합니다. 우리는 사전 학습된 흐름 기반 텍스트-이미지 생성 모델에 렌더링된 3D 표현에서 파생된 일련의 시각적 토큰을 도입하여 조건을 부여합니다. 더 나아가 마스크된 자기 주의를 적용하여 각 객체 경계 상자를 해당 텍스트 설명에 정확하게 연결함으로써 객체 속성 혼합 없이 여러 객체를 정확하게 생성할 수 있게 합니다. 모델 학습을 위해 객체 간 강한 폐색이 있는 다양한 다중 객체 장면으로 구성된 합성 데이터셋을 구축했습니다. SeeThrough3D는 보이지 않는 객체 범주에 효과적으로 일반화되며, 현실적인 폐색과 일관된 카메라 제어를 통한 정밀한 3D 레이아웃 제어를 가능하게 합니다.
연합 명령어 튜닝(FIT)은 개인 지시어 공유 없이 크로스 실로(cross-silo) 환경에서 여러 기관(클라이언트)이 대규모 언어 모델의 협력적 명령어 튜닝을 가능하게 합니다. 자연적 백도어에 대한 최근 연구 결과와 기존 훈련 데이터 수집 방법은 악성 샘플이 실제 데이터셋에 광범위하게 그리고 의도치 않게 내재되어 있으며, 클라이언트가 악의적이지 않더라도 모든 클라이언트에 분산되어 있을 수 있음을 시사합니다. 본 연구는 FIT에서 이러한 위협을 체계적으로 분석하며, 악성 데이터가 모든 클라이언트에 흩어져 있을 때 기존 방어 기법이 효과적이지 않음을 입증합니다. 이 문제를 해결하기 위해서는 각 클라이언트에서 악성 샘플의 독특한 특성을 식별하는 것과, 일부 클라이언트가 악성 샘플에 크게 지배될 경우 협력적 방어를 가능하게 하는 것, 이 두 가지 주요 어려움을 해결해야 합니다. 이러한 어려움을 해결하기 위해 우리는 악성 데이터를 구분하는 강력한 신호로 주파수 영역에서의 기울기(gradient)를 식별합니다. 또한 클라이언트 간 악성 샘플의 협력적 식별을 용이하게 하는 전역 이차 클러스터링 메커니즘을 제안합니다. 요약하자면, 본 논문은 훈련 과정 중 클라이언트 전반에 흩어진 악성 데이터를 정확하게 탐지, 제거 및 심지어 정화하는 최초의 백도어 방지 FIT 프레임워크인 ProtegoFed를 소개합니다. 4개의 FL 데이터셋에 대한 실험 결과는 ProtegoFed가 악성 샘플의 92.00% ~ 100.00%를 식별하고, 공격 성공률을 거의 0%로 감소시키며, 주 작업에 대한 유용성을 유지함을 보여줍니다. 코드는 https://github.com/dongdongzhaoUP/ProtegoFed에서 확인할 수 있습니다.
최근 비디오 생성 기술의 발전으로 복잡한 동적 시스템의 거시적 시뮬레이션에 새로운 가능성이 열렸지만, 미시적 현상에 대한 적용은 여전히 크게 탐구되지 않고 있습니다. 미시 규모 시뮬레이션은 약물 발견, 오가노나칩 시스템, 질병 메커니즘 연구와 같은 생의학적 응용분야에서 큰 잠재력을 보여주며, 교육 및 대화형 시각화 분야에서도 가능성을 보입니다. 본 연구에서는 미시 규모 시뮬레이션 과제를 위한 다단계 루브릭 기반 벤치마크인 MicroWorldBench를 소개합니다. MicroWorldBench는 여러 미시 규모 시뮬레이션 과제(예: 장기 수준 과정, 세포 역학, 세포 내 분자 상호작용)와 평가 차원(예: 과학적 정확도, 시각적 품질, 지시사항 준수)에 걸친 459개의 전문가 주석 기준을 통해 체계적인 루브릭 기반 평가를 가능하게 합니다. MicroWorldBench를 통해 현재 최첨단(SOTA) 비디오 생성 모델들이 미시 규모 시뮬레이션에서 물리 법칙 위반, 시간적 불일치, 전문가 기준과의 부적합 등으로 실패한다는 점이 밝혀졌습니다. 이러한 한계를 해결하기 위해 저희는 고품질의 전문가 검증 시뮬레이션 데이터셋인 MicroSim-10K를 구축했습니다. 이 데이터셋을 활용하여 미시 규모 시뮬레이션에 특화된 비디오 생성 모델인 MicroVerse를 학습시켰습니다. MicroVerse는 복잡한 미시 규모 메커니즘을 정확하게 재현할 수 있습니다. 본 연구는 '마이크로 월드 시뮬레이션' 개념을 최초로 도입하고 개념 증명을 제시하며, 생물학, 교육, 과학 시각화 분야의 응용을 위한 길을 열었습니다. 본 연구는 생물학적 메커니즘에 대한 교육용 미시 규모 시뮬레이션의 잠재력을 입증합니다. 저희 데이터와 코드는 https://github.com/FreedomIntelligence/MicroVerse 에서 공개되어 있습니다.
저자원 언어에 대한 자동 음성 인식(ASR) 시스템 개발은 전사 말뭉치의 부족으로 어려움을 겪고 있다. 본 개념 증명 연구는 카자흐어 ASR을 위한 비전통적이면서도 유망한 데이터 원천으로 노래의 활용 가능성을 탐구한다. 연구진은 36명의 아티스트가 부른 195곡에서 가사 행 단위로 분할된 3,013개의 오디오-텍스트 쌍(약 4.5시간 분량) 데이터세트를 구축했다. Whisper를 기본 인식기로 사용하여 노래(Songs), Common Voice Corpus(CVC), FLEURS를 포함한 7가지 훈련 시나리오 하에서 모델을 미세 조정하고, CVC, FLEURS, Kazakh Speech Corpus 2(KSC2) 등 3가지 벤치마크에서 성능을 평가했다. 결과에 따르면 노래 기반 미세 조정이 제로샷 기준선 대비 성능을 향상시킨다. 예를 들어, 노래, CVC, FLEURS 혼합 데이터로 훈련된 Whisper Large-V3 Turbo는 CVC에서 27.6%의 정규화 WER, FLEURS에서 11.8%의 WER을 달성했으며, KSC2에서는 제로샷 모델 대비 오류율을 절반으로 줄였다(39.3% vs. 81.2%). 이러한 성능 향상이 1,100시간 규모의 KSC2 말뭉치로 훈련된 모델의 성능에는 미치지 못하지만, 소규모의 노래-음성 혼합 데이터라도 저자원 ASR에서 의미 있는 적응 개선을 이끌어낼 수 있음을 보여준다. 해당 데이터세트는 허깅 페이스에 게이트 방식의 비상용 라이선스 하에 연구 목적으로 공개되었다.
관찰 학습은 에이전트가 수행된 과업의 관찰만을 참조하여 과업 수행 방법을 학습하는 것을 요구합니다. 본 연구는 손설계된 보상과 데모스트레이터의 행동에 대한 접근이 보장되지 않는 현실 세계 로봇 학습에서의 동등한 설정을 탐구합니다. 이러한 데이터 제약 환경을 해결하기 위해, 본 연구는 관찰과 상호작용만으로 세계 모델링을 위한 계획 기반 역강화학습(IRL) 알고리즘을 제시합니다. 실제 세계에서 전적으로 수행된 실험 결과, 이 패러다임이 사전 지식, 사전 훈련, 또는 과업 관찰 이상의 어떠한 데이터도 가정하지 않은 상태에서 1시간 이내에 이미지 기반 조작 과업을 처음부터 학습하는 데 효과적임을 입증합니다. 더 나아가, 본 연구는 학습된 세계 모델 표현이 실제 세계에서 처음부터 온라인 전이 학습이 가능함을 보여줍니다. 보다 제한적인 가정을 갖는 IRL, RL, 행동 복제(BC)를 포함한 기존 접근법과 비교하여, 제안된 접근법은 현저히 높은 샘플 효율성과 성공률을 입증함으로써 관찰과 상호작임을 통한 온라인 세계 모델링 및 계획의 실용적인 발전 경로를 제시합니다. 동영상 및 추가 정보: https://uwrobotlearning.github.io/mpail2/.
본 논문에서는 범용 대규모 시각-언어 모델(VLM)을 고성능 OCR 모델로 특화시키기 위한 체계적인 프레임워크인 FireRed-OCR을 제안한다. 대규모 VLM은 인상적인 일반적인 능력을 보여주었지만, 복잡한 문서를 처리할 때 "구조적 환각" 문제가 빈번하게 발생하여 산업용 OCR 애플리케이션에서의 유용성이 제한된다. 본 논문에서는 범용 VLM(Qwen3-VL 기반)을 픽셀 단위 정밀도의 구조적 문서 파싱 전문가로 변환하도록 설계된 새로운 프레임워크인 FireRed-OCR을 소개한다. 고품질 구조화 데이터의 부족 문제를 해결하기 위해 "기하학 + 의미론" 데이터 팩토리를 구축했다. 기존의 무작위 샘플링과 달리, 우리의 파이프라인은 기하학적 특징 클러스터링과 다차원 태깅을 활용하여 균형 잡힌 데이터셋을 합성 및 선별하며, 롱테일 레이아웃과 희귀 문서 유형을 효과적으로 처리한다. 더 나아가, 모델을 픽셀 수준 인식에서 논리적 구조 생성으로 이끄는 3단계 점진적 학습 전략을 제안한다. 이 커리큘럼은 다음과 같다: (1) 문서 구조에 대한 모델의 이해를 확립하는 다중 작업 사전 정렬; (2) 전체 이미지 Markdown 출력 표준화를 위한 특화 SFT; (3) 강화 학습을 활용하여 엄격한 구문 유효성과 구조적 무결성(예: 테이블 닫힘, 수식 구문)을 강제하는 형식 제약 그룹 상대 정책 최적화(GRPO). OmniDocBench v1.5에 대한 광범위한 평가 결과, FireRed-OCR은 전체 점수 92.94%로 최첨단 성능을 달성하여 텍스트, 수식, 테이블, 읽기 순서 지표 전반에서 DeepSeek-OCR 2 및 OCRVerse와 같은 강력한 베이스라인을 크게 능가함을 보여준다. "범용 VLM에서 특화 구조 전문가로"의 패러다임을 촉진하기 위해 코드와 모델 가중치를 오픈소스로 공개한다.
지오파운데이션 모델(GFM)은 다양한 도메인을 포함한 여러 지구 관측 작업에서 평가되었으며, 희소한 레이블로도 신뢰할 수 있는 지도를 생성할 수 있는 강력한 잠재력을 입증했습니다. 그러나 빙권 응용 분야에 대한 GFM의 벤치마킹은 적절한 평가 데이터셋의 부족으로 인해 여전히 제한적입니다. 이러한 격차를 해소하기 위해 본 연구에서는 주요 빙권 구성 요소 전반에 걸친 GFM 성능을 평가하기 위해 컴파일된 벤치마크인 Cryo-Bench를 소개합니다. Cryo-Bench는 쇄설물 피복 빙하, 빙하호, 해빙, 그리고 빙하 분리면을 포함하며, 다중 센서와 광범위한 지리적 지역에 걸쳐 있습니다. 저희는 14개의 GFM과 UNet 및 ViT 기준 모델을 함께 평가하여 각각의 장점, 한계 및 최적 사용 전략을 평가했습니다. 고정 인코더를 사용할 때, UNet은 Cryo-Bench에 포함된 5개 평가 데이터셋에서 평균 mIoU 66.38로 가장 높은 성능을 보였으며, TerraMind가 64.02로 그 뒤를 이었습니다. 퓨샷 설정(10% 입력 데이터)에서는 DOFA 및 TerraMind와 같은 GFM이 UNet을 능가하며, 각각 mIoU 59.53, 56.62, 56.60을 기록했고, 이는 U-Net의 56.60과 비교됩니다. GFM을 완전히 파인튜닝할 때는 데이터셋과 모델 간에 일관되지 않은 성능을 관찰했습니다. 그러나 파인튜닝과 함께 학습률을 조정하면 GFM 성능이 크게 향상됩니다. 예를 들어, 두 가지 대표적인 데이터셋(GLID 및 CaFFe)에 대한 평가에서 평균 12.77%의 상대적 개선을 보여주었습니다. 사전 학습 데이터에 빙권 관련 표현이 최소한으로 포함되었음에도 불구하고, GFM은 주목할 만한 도메인 적응 능력을 보여주며 다양한 작업에서 의미 있는 결과를 생성합니다. 저희 연구 결과를 바탕으로, 가능한 최고의 성능을 달성하기 위해서는 하이퍼파라미터 최적화와 함께 인코더 파인튜닝을 권장하며, 사용자가 광범위한 실험 없이 빠른 결과가 필요할 때는 고정 인코더를 사용할 것을 제안합니다.
높은 젖 생산성으로 유명한 자넨 젖소 염소의 젖 분비 성능은 체형과 밀접한 연관이 있어, 젖 생산 잠재력을 평가하기 위해서는 정확한 3차원 체형 측정이 필수적입니다. 그러나 기존 재구성 방법은 염소 특화의 정확한 3차원 데이터가 부족한 실정입니다. 이러한 한계를 해결하기 위해 본 연구에서는 55마리의 암컷 자넨 염소(6-18개월령)의 동기화된 8개 뷰의 RGBD 영상을 포함하는 FemaleSaanenGoat 데이터셋을 구축했습니다. 다중 뷰 DynamicFusion을 이용해 잡음이 많고 비강체적인 포인트 클라우드 시퀀스를 고품질 3D 스캔으로 융합하여 불규칙한 표면과 빠른 움직임으로 인한 어려움을 극복했습니다. 이러한 스캔 데이터를 바탕으로 암컷 자넨 염소에 특화된 파라메트릭 3D 형상 모델인 SaanenGoat를 개발했습니다. 이 모델은 41개의 골격 관절과 향상된 유방 표현을 갖춘 정제된 템플릿을 특징으로 하며, 스캔 데이터와 정합되었습니다. 48마리 염소로 구성된 포괄적인 형상 공간을 통해 다양한 개체 변이를 정밀하게 표현할 수 있습니다. SaanenGoat 모델을 활용하여 단일 뷰 RGBD 입력으로부터 고정밀 3D 재구성을 수행하고, 체장, 체고, 흉폭, 흉위, 요폭, 교고 등 6가지 주요 체형 치수의 자동 측정을 달성했습니다. 실험 결과, 우리 방법이 3D 재구성과 체형 측정 모두에서 우수한 정확도를 보여, 정밀 축산 분야의 대규모 3D 비전 응용에 새로운 패러다임을 제시합니다.