번역이 포함된 일일 선별된 AI 연구 논문
우리는 대규모 언어 모델(LLM)을 위한 양자화 강화 강화 학습(QeRL) 프레임워크를 제안한다. 강화 학습(RL)은 LLM의 추론 능력에 필수적이지만, 상당한 GPU 메모리와 긴 롤아웃 시간을 요구하는 자원 집약적인 과정이다. QeRL은 NVFP4 양자화와 Low-Rank Adaptation(LoRA)을 결합하여 RL의 롤아웃 단계를 가속화하고 메모리 오버헤드를 줄이는 방식으로 이러한 문제를 해결한다. 효율성 외에도, 우리의 연구 결과는 양자화 노이즈가 정책 엔트로피를 증가시켜 탐색을 강화하고 RL 과정에서 더 나은 전략을 발견할 수 있게 한다는 것을 보여준다. 탐색을 더욱 최적화하기 위해 QeRL은 훈련 중에 노이즈를 동적으로 조절하는 적응형 양자화 노이즈(AQN) 메커니즘을 도입한다. 실험 결과, QeRL은 롤아웃 단계에서 1.5배 이상의 속도 향상을 달성한다. 또한, 이는 단일 H100 80GB GPU에서 32B LLM의 RL 훈련을 가능하게 한 최초의 프레임워크이며, RL 훈련 전반에 걸쳐 속도 향상을 제공한다. 또한, 16비트 LoRA 및 QLoRA보다 더 빠른 보상 증가와 더 높은 최종 정확도를 달성하면서, 7B 모델에서 GSM8K(90.8%) 및 MATH 500(77.4%)과 같은 수학 벤치마크에서 전체 파라미터 미세 조정의 성능을 유지한다. 이러한 결과는 QeRL이 LLM의 RL 훈련을 위한 효율적이고 효과적인 프레임워크임을 입증한다.
잠재 생성 모델링, 즉 사전 학습된 오토인코더가 픽셀을 확산 과정을 위한 잠재 공간으로 매핑하는 방식은 Diffusion Transformers(DiT)의 표준 전략으로 자리 잡았으나, 오토인코더 구성 요소는 거의 진화하지 못했다. 대부분의 DiT는 여전히 원래의 VAE 인코더에 의존하고 있으며, 이는 몇 가지 한계를 초래한다: 아키텍처 단순성을 저해하는 구식 백본, 정보 용량을 제한하는 저차원 잠재 공간, 순수 재구축 기반 학습으로 인한 약한 표현력, 그리고 궁극적으로 생성 품질을 제한하는 문제 등이 있다. 본 연구에서는 VAE를 사전 학습된 표현 인코더(예: DINO, SigLIP, MAE)와 학습된 디코더를 결합한 Representation Autoencoders(RAEs)로 대체하는 방안을 탐구한다. 이러한 모델은 고품질 재구축과 의미론적으로 풍부한 잠재 공간을 제공하며, 확장 가능한 트랜스포머 기반 아키텍처를 가능하게 한다. 이러한 잠재 공간이 일반적으로 고차원이기 때문에, 확산 트랜스포머가 이를 효과적으로 운영할 수 있도록 하는 것이 주요 과제이다. 우리는 이러한 어려움의 원인을 분석하고, 이론적으로 타당한 해결책을 제안하며, 이를 실증적으로 검증한다. 우리의 접근 방식은 보조 표현 정렬 손실 없이도 더 빠른 수렴을 달성한다. 경량화된 넓은 DDT 헤드를 장착한 DiT 변형을 사용하여, 우리는 ImageNet에서 강력한 이미지 생성 결과를 얻었다: 256x256에서 1.51 FID(지도 없음) 및 256x256과 512x512에서 1.13(지도 있음). RAE는 명확한 이점을 제공하며, 확산 트랜스포머 학습의 새로운 기본으로 자리 잡아야 한다.
자기회귀(AR) 모델은 자연어 생성의 표준으로 남아 있지만, 엄격하게 순차적인 디코딩으로 인해 높은 지연 시간 문제를 여전히 겪고 있습니다. 최근 LlaDA와 Dream과 같은 확산 기반 접근법은 병렬 생성을 통해 이를 완화하지만, 두 가지 핵심 한계가 있습니다: 정보 손실(각 단계에서 확정되지 않은 토큰의 예측 분포가 폐기됨)과 조기 결정(충분한 전역 조정 없이 지역적 결정이 이루어짐)입니다. 우리는 잠재 정제 디코딩(LRD)을 소개합니다. 이는 잠재 정제(Latent Refinement)와 예측 피드백 루프(Predictive Feedback Loop)로 구성된 두 단계 프레임워크입니다. 첫 번째 단계에서는 마스크된 위치를 예측된 토큰과 마스크 임베딩의 분포적 혼합으로 유지함으로써 모델이 더 전역적으로 일관된 믿음을 형성할 수 있게 합니다. 두 번째 단계에서는 확신이 있는 토큰을 점진적으로 확정하면서 불확실한 토큰은 반복적 피드백을 위해 유지합니다. KL-발산(KL-divergence) 역학은 수렴과 조기 중단을 위한 원칙적이고 신뢰할 수 있는 기준을 제공합니다. 코딩(HumanEval +6.3, MBPP +2.6)과 추론(GSM8K +2.9, MATH500 +3.8) 분야의 실험 결과, LRD는 정확도를 향상시키면서 최대 10.6배의 속도 향상을 달성하여 병렬 시퀀스 생성을 위한 강력하고 다재다능한 대안임을 보여줍니다.
최근 멀티모달 대형 언어 모델(MLLMs)의 발전은 비디오 이해 분야에서 상당한 잠재력을 보여주고 있다. 그러나 기존 벤치마크는 오디오와 시각적 모달리티 간의 시너지적 추론 능력을 포괄적으로 평가하지 못하며, 종종 한쪽 모달리티를 소홀히 하거나 논리적으로 일관되지 않은 방식으로 통합하는 경우가 많다. 이러한 격차를 해소하기 위해, 우리는 모달리티 상호 보완성과 논리적 일관성을 강조한 시너지적 오디오-비디오 이해 평가를 위한 대규모 및 엄격하게 설계된 벤치마크인 OmniVideoBench를 소개한다. 구체적으로, OmniVideoBench는 628개의 다양한 비디오(몇 초에서 30분까지)에서 도출된 1000개의 고품질 질문-답변(QA) 쌍으로 구성되며, 각각 단계별 추론 흔적이 주석 처리되어 완전한 정확성과 독창성을 보장하기 위해 수동으로 검증되었다. 또한, OmniVideoBench는 시간적 추론, 공간적 위치 파악, 계수, 인과적 추론, 요약 등을 포함한 13가지 신중하게 설계된 질문 유형을 포괄하여 비디오 이해의 핵심적인 도전 과제를 포착한다. OmniVideoBench에서 여러 MLLMs을 평가한 결과, 모델 성능과 인간의 추론 사이에 현저한 격차가 나타났으며, 오픈소스 모델이 클로즈드소스 모델에 비해 크게 뒤처지는 것으로 나타나 진정한 오디오-비디오 추론의 본질적인 어려움을 강조한다. 우리는 더 강력하고 일반화 가능한 추론 능력을 가진 MLLMs의 개발을 촉진하기 위해 OmniVideoBench를 공개할 예정이다.
검증 가능한 보상을 활용한 강화 학습(Reinforcement Learning with Verifiable Rewards, RLVR)은 최근 대규모 언어 모델(Large Language Models, LLMs)의 추론 능력을 향상시키기 위한 유망한 프레임워크로 부상했습니다. 그러나 이진 검증에 최적화된 정책은 추론 경로에서 잠재적으로 가치 있는 탐색을 간과하기 쉽습니다. 정교한 과정 보상 모델(Process Reward Models, PRMs)의 높은 주석 비용을 고려하여, 최근 연구들은 엔트로피와 로짓 공간에서 수집된 가능도와 같은 보조 신호를 활용하여 과정 토큰의 보상 형성에 접근하고 있습니다. 본 연구에서는 잠재 공간에서 유도된 흐름 보상을 통해 RLVR을 형성하는 새로운 관점을 제시하고, RLFR(Reinforcement Learning with Flow Rewards)을 제안합니다. 여기서는 오프-정책 고품질 데이터와 온-정책 거부 샘플링 데이터로부터 모델 잠재의 흐름 필드를 구성하고, 그 안에서 정책 잠재의 속도 편차를 정량화하여 보상 신호로 활용합니다. RLFR은 먼저 잘 구축된 흐름 필드가 보상 신호 수집을 위한 적절한 환경이 될 수 있음을 입증하며, 표현력이 풍부한 잠재 공간이 아직 충분히 탐구되지 않았음을 강조합니다. 더욱이, RLFR은 오프-정책 전문가 데이터를 보상 신호 구성의 참조로 압축할 수 있으며, 우리는 숨겨진 상태 내에 압축된 효율적인 문맥 의존성이 개별 토큰 수준의 표시보다 문맥 이해에 활용됨을 보여줍니다. 언어 및 다중 모달 추론 벤치마크에서의 실험은 흐름 보상의 신뢰성을 입증하며, 보조 신호를 활용한 보상 형성의 유망한 패러다임을 제시합니다.
검증 가능한 보상을 활용한 강화 학습(RLVR)이 대규모 시각-언어 모델(LVLMs)의 추론 능력을 발전시켰음에도 불구하고, 다중모달 추론 분야의 대부분의 기존 방법들은 RLVR 최적화 과정에서 시각적 인식의 중요한 역할을 간과해 왔습니다. 본 논문에서는 생성된 각 토큰의 시각적 의존성을 측정하는 토큰 인식이라는 새로운 관점을 통해 다중모달 RLVR을 선구적으로 탐구합니다. 사고의 연쇄(CoT) 과정을 세밀하게 분석함으로써 두 가지 핵심 통찰을 도출했습니다: 첫째, 롤아웃 궤적에서의 토큰 인식은 희소하게 분포되어 있으며, 시각적으로 근거 있는 추론을 위해 높은 시각적 의존성을 가지는 토큰은 극히 일부에 불과합니다; 둘째, 서로 다른 궤적들은 전체적인 시각적 의존성에서 상당한 차이를 보입니다. 이러한 관찰을 바탕으로, 우리는 토큰 인식을 명시적으로 활용하여 학습 신호를 개선하는 새로운 정책 경사 알고리즘인 시각적 인식 정책 최적화(VPPO)를 제안합니다. 구체적으로, VPPO는 이중 메커니즘을 통해 이를 달성합니다: 궤적의 이점을 전체 시각적 의존성에 따라 재조정하고, 정책 업데이트를 인식적으로 중요한 토큰에만 집중합니다. 8개의 인식 및 추론 벤치마크에 대한 포괄적인 실험에서, VPPO는 주요 오픈소스 RL 튜닝 모델들을 상당히 능가하는 성능을 보였으며, 7B와 32B 모델 규모에서도 그 효과가 일관되게 검증되었습니다. 우리의 연구 결과는 다중모달 RLVR을 분석하기 위한 새로운 토큰 수준의 인식적 관점을 확립할 뿐만 아니라, LVLMs의 다중모달 추론 능력을 크게 향상시키는 새로운 최적화 전략을 제시합니다.
일반적인 SVG 모델링은 데이터셋의 파편화, 작업 간 방법론의 제한된 전이성, 그리고 구조적 복잡성 처리의 어려움으로 인해 여전히 도전적인 과제로 남아 있습니다. 이에 대응하여, 우리는 다중모드 대형 언어 모델(MLLMs)의 강력한 전이 및 일반화 능력을 활용하여 SVG 이해, 편집, 생성에 대한 통합 모델링을 달성합니다. 우리는 통합 데이터-벤치마크-모델 제품군인 InternSVG 패밀리를 소개합니다. 그 핵심은 SVG 작업을 위한 가장 크고 포괄적인 다중모드 데이터셋인 SAgoge로, 정적 그래픽과 동적 애니메이션을 모두 포함합니다. 이 데이터셋은 아이콘, 장시퀀스 일러스트레이션, 과학적 다이어그램, 동적 애니메이션을 아우르며, 다양한 난이도의 작업을 지원하고 이전 데이터셋에 비해 더 깊은 계층 구조와 더 풍부한 속성을 제공합니다. 이 리소스를 기반으로, 우리는 SAgoge가 다루는 도메인과 난이도 스펙트럼에 맞춘 포괄적인 작업 정의와 표준화된 평가를 제공하는 동반 벤치마크인 SArena를 소개합니다. 이러한 기반 위에, 우리는 SVG 이해, 편집, 생성을 위한 통합 MLLM인 InternSVG를 제안합니다. 이 모델은 SVG 특화 특수 토큰, 서브워드 기반 임베딩 초기화, 그리고 짧은 정적 SVG에서 장시퀀스 일러스트레이션과 복잡한 애니메이션으로 진행되는 두 단계 훈련 전략을 특징으로 합니다. 이 통합된 접근법은 긍정적인 전이를 유도하고 전반적인 성능을 향상시킵니다. SArena와 기존 벤치마크에 대한 실험 결과, InternSVG는 상당한 성능 향상을 달성하며 주요 오픈 및 독점 대안들을 일관되게 능가함을 확인했습니다.
최근 에이전트 강화학습(agentic RL)의 등장은 강화학습이 대형 언어 모델(LLM)의 에이전트 추론 능력을 효과적으로 향상시킬 수 있음을 보여주었으나, 핵심 설계 원칙과 최적의 실천 방법은 여전히 명확하지 않습니다. 본 연구에서는 데이터, 알고리즘, 추론 방식이라는 세 가지 핵심 관점에서 에이전트 추론에서의 강화학습을 체계적으로 탐구하여 그 신비를 풀어보고자 합니다. 우리의 주요 통찰은 다음과 같습니다: (i) 합성된 꿰매어진 궤적을 실제 종단 간 도구 사용 궤적으로 대체하면 훨씬 강력한 지도학습(SFT) 초기화를 얻을 수 있으며, 높은 다양성과 모델 인식 데이터셋은 탐색을 유지하고 강화학습 성능을 크게 향상시킵니다. (ii) 탐색 친화적인 기법은 에이전트 강화학습에 중요하며, 클립 상한 조정, 과도한 보상 형성, 적절한 정책 엔트로피 유지 등이 훈련 효율성을 개선할 수 있습니다. (iii) 도구 호출 횟수가 적은 숙고 전략은 빈번한 도구 호출이나 장황한 자기 추론보다 우수하며, 도구 효율성과 최종 정확도를 향상시킵니다. 이러한 간단한 실천 방법들은 에이전트 추론과 훈련 효율성을 일관되게 향상시키며, 더 작은 모델로도 어려운 벤치마크에서 강력한 결과를 달성하고, 향후 에이전트 강화학습 연구를 위한 실용적인 기준을 마련합니다. 이러한 경험적 통찰을 넘어, 우리는 고품질의 실제 종단 간 에이전트 SFT 데이터셋과 고품질 강화학습 데이터셋을 제공하고, AIME2024/AIME2025, GPQA-Diamond, LiveCodeBench-v6 등 네 가지 도전적인 벤치마크에서 LLM의 에이전트 추론 능력을 향상시키는 데 있어 우리의 통찰이 효과적임을 입증합니다. 우리의 방법론을 통해 4B 크기의 모델도 32B 크기의 모델에 비해 우수한 에이전트 추론 성능을 달성할 수 있습니다. 코드와 모델: https://github.com/Gen-Verse/Open-AgentRL
본 연구에서는 파노라믹 이미지 생성을 위해 원근 및 파노라믹 데이터에 대한 하이브리드 학습을 수행하는 DiT 기반 프레임워크인 DiT360을 제안합니다. 생성 품질에서 기하학적 충실도와 사진 같은 현실감을 유지하는 문제에 대해, 우리는 대규모 고품질 실제 파노라믹 데이터의 부재를 주요 원인으로 보고 있으며, 이러한 데이터 중심적 관점은 모델 설계에 초점을 맞춘 기존 방법과 차별화됩니다. 기본적으로 DiT360은 도메인 간 변환과 도메인 내 증강을 위한 여러 핵심 모듈을 포함하며, 이는 VAE 전 이미지 수준과 VAE 후 토큰 수준 모두에 적용됩니다. 이미지 수준에서는 원근 이미지 가이던스와 파노라믹 정제를 통해 교차 도메인 지식을 통합하여 지각적 품질을 향상시키면서 다양성과 사진 같은 현실감을 규제합니다. 토큰 수준에서는 경계 연속성을 위한 원형 패딩, 회전 강건성을 위한 요우 손실, 왜곡 인식을 위한 큐브 손실을 포함한 여러 모듈에 걸쳐 하이브리드 감독이 적용됩니다. 텍스트-투-파노라마, 인페인팅, 아웃페인팅 작업에 대한 광범위한 실험을 통해 우리의 방법이 11개의 정량적 지표에서 더 나은 경계 일관성과 이미지 충실도를 달성함을 입증했습니다. 우리의 코드는 https://github.com/Insta360-Research-Team/DiT360에서 확인할 수 있습니다.
오디오비주얼 비디오 캡셔닝은 시각적 및 청각적 이벤트 간의 시간적 정렬을 통해 의미론적으로 풍부한 설명을 생성하는 것을 목표로 하며, 이를 통해 비디오 이해와 생성 모두에 이점을 제공합니다. 본 논문에서는 오디오와 시각적 모달리티 간의 시간적 조율에 의해 구동되는 강력한 오디오비주얼 비디오 캡셔너인 AVoCaDO를 소개합니다. 우리는 두 단계의 사후 학습 파이프라인을 제안합니다: (1) 107K개의 고품질, 시간적으로 정렬된 오디오비주얼 캡션으로 구성된 새롭게 구축된 데이터셋에서 모델을 미세 조정하는 AVoCaDO SFT; 그리고 (2) 캡션 길이를 정규화하고 붕괴를 줄이면서 시간적 일관성과 대화 정확도를 더욱 향상시키기 위해 맞춤형 보상 함수를 활용하는 AVoCaDO GRPO. 실험 결과는 AVoCaDO가 네 개의 오디오비주얼 비디오 캡셔닝 벤치마크에서 기존의 오픈소스 모델을 크게 능가하며, 시각적 전용 설정에서도 VDC 및 DREAM-1K 벤치마크에서 경쟁력 있는 성능을 달성함을 보여줍니다.
실제 문제를 효율적으로 해결하기 위해 LLM(Large Language Model)의 역량은 점점 더 동적 웹 환경과 상호작용하고 외부 정보를 자율적으로 획득하는 능력에 달려 있습니다. Search-R1과 WebDancer와 같은 최근 연구는 웹 작업 해결에서 강력한 성능을 보여주지만, 이들은 상호작용 가능한 웹 환경을 정적 텍스트 콘텐츠로 변환하기 위해 추가 도구에 크게 의존합니다. 이는 스크롤링, 클릭, 타이핑 등 브라우저와의 다양한 상호작용을 포함하는 인간의 브라우징 행동과는 대조적입니다. 본 논문에서는 인간의 브라우징 행동을 모방하여 복잡한 작업을 해결하는 더 상호작용적인 에이전트인 BrowserAgent를 제안합니다. BrowserAgent는 Playwright를 통해 원시 웹 페이지에서 직접 작동하며, 사전 정의된 브라우저 동작 세트를 사용합니다. 우리는 모델의 일반화 능력을 향상시키기 위해 두 단계의 학습(지도 미세 조정(SFT)과 거부 미세 조정(RFT))을 채택했습니다. Search-R1보다 훨씬 적은 학습 데이터를 사용했음에도 불구하고, BrowserAgent는 다양한 Open-QA 작업에서 더 경쟁력 있는 결과를 달성했습니다. 또한, 단계 간 주요 결론을 저장하기 위한 명시적 메모리 메커니즘을 도입하여 장기적 작업에 대한 모델의 추론 능력을 더욱 강화했습니다. 특히, BrowserAgent-7B는 HotpotQA, 2Wiki, Bamboogle과 같은 다중 홉 QA 작업에서 Search-R1 대비 약 20%의 성능 향상을 달성했습니다. 이러한 결과는 BrowserAgent가 더 상호작용적이고 확장 가능한 웹 에이전트를 위한 더 발전된 프레임워크로 활용될 수 있음을 시사합니다.
대형 언어 모델(LLM) 에이전트는 복잡하고 다중 턴의 도구 사용 작업에서 큰 잠재력을 보이지만, 고품질 학습 데이터의 극심한 부족으로 인해 개발이 어려운 경우가 많습니다. 합성 데이터에 대한 지도 미세 조정(SFT)은 과적합을 초래하는 반면, 표준 강화 학습(RL)은 중요한 콜드 스타트 문제와 학습 불안정성으로 어려움을 겪습니다. 이러한 문제를 해결하기 위해, 우리는 환경 튜닝(Environment Tuning)이라는 새로운 학습 패러다임을 소개합니다. 이 방법은 에이전트가 사전 수집된 전문가 궤적에 의존하지 않고 문제 인스턴스로부터 직접 복잡한 행동을 학습할 수 있도록 합니다. 환경 튜닝은 구조화된 커리큘럼, 수정 피드백을 제공하는 실행 가능한 환경 증강, 그리고 안정적이고 효율적인 탐색을 보장하기 위한 세밀한 진행 보상을 통해 이 학습 과정을 조율합니다. Berkeley Function-Calling Leaderboard(BFCL) 벤치마크의 단 400개 문제 인스턴스만을 사용하여, 우리의 방법은 강력한 베이스라인 대비 경쟁력 있는 분포 내 성능을 달성할 뿐만 아니라, SFT 기반 접근법에서 흔히 발생하는 성능 저하를 극복하고 우수한 분포 외 일반화 능력을 보여줍니다. 우리의 연구는 정적 궤적에 대한 지도 미세 조정에서 동적 환경 기반 탐색으로의 패러다임 전환을 제시하며, 더 강력하고 데이터 효율적인 에이전트를 훈련하는 길을 열어줍니다.
최근 에이전트 기반 워크플로우의 발전으로 전문 문서 생성과 같은 작업의 자동화가 가능해졌습니다. 그러나 이러한 접근 방식은 주로 텍스트 품질에 초점을 맞추고 있어, 가독성과 참여도를 결정짓는 시각적 구조와 스타일을 간과하고 있습니다. 이러한 격차는 주로 강력한 구조적 및 스타일적 품질을 가진 문서를 생성하도록 에이전트 워크플로우를 안내할 적절한 보상 모델의 부재에서 비롯됩니다. 이를 해결하기 위해, 우리는 문서의 구조와 스타일을 기반으로 문서를 평가하는 문서 보상 모델인 DocReward를 제안합니다. 우리는 32개 도메인과 267개 문서 유형을 포괄하는 117K개의 짝지어진 문서로 구성된 다중 도메인 데이터셋 DocPair를 구축했습니다. 각 문서 쌍은 동일한 내용을 담고 있지만 구조와 스타일이 다른 고품질 및 저품질 문서로 구성되어 있어, 텍스트 품질과 무관하게 전문성을 포괄적으로 평가할 수 있습니다. DocReward는 Bradley-Terry 손실 함수를 사용하여 문서를 점수화하고, 주석된 순위와 모순되는 예측에 대해 패널티를 부여하도록 학습됩니다. 보상 모델의 성능을 평가하기 위해, 우리는 고학력 인간 평가자에 의해 순위가 매겨진 문서 묶음으로 구성된 테스트 데이터셋을 생성했습니다. 특히, DocReward는 GPT-4o 및 GPT-5 대비 각각 30.6% 및 19.4% 포인트 더 높은 정확도를 보여주며, 기준 모델들을 능가하는 우수성을 입증했습니다. 문서 생성의 외부 평가에서 DocReward는 GPT-5의 37.7% 승률에 비해 60.8%의 상당히 높은 승률을 달성하며, 인간이 선호하는 문서를 생성하도록 생성 에이전트를 안내하는 데 있어 유용성을 입증했습니다.
LLM 에이전트가 다단계 작업을 계획할 수 있지만, 실행 전 계획 단계에서 개입하는 것이 해를 방지하는 가장 안전한 방법인 경우가 많습니다. 특정 위험은 일단 실행되면 심각한 결과를 초래할 수 있기 때문입니다. 그러나 기존의 안전장치는 대부분 실행 후에 작동하므로 확장이 어렵고 계획 수준에서 통제 가능한 감독을 위한 여지가 거의 없습니다. 이러한 문제를 해결하기 위해, 우리는 현재 연구에서 세 가지 중요한 격차를 강조합니다: 데이터 격차, 모델 격차, 그리고 평가 격차입니다. 데이터 격차를 해소하기 위해, 우리는 AuraGen을 소개합니다. 이는 (i) 안전한 궤적을 합성하고, (ii) 난이도가 조정된 범주별 위험을 주입하며, (iii) 자동화된 보상 모델을 통해 출력을 필터링하여 실행 전 안전을 위한 크고 신뢰할 수 있는 코퍼스를 생성합니다. 가디언 모델 격차를 해소하기 위해, 우리는 크로스 플래너 어댑터와 컴팩트 가디언 모델을 결합한 기초 가드레일 Safiron을 제안합니다. 어댑터는 다양한 입력 형식을 통일하고, Safiron은 위험한 사례를 플래그 지정하고, 위험 유형을 할당하며, 근거를 생성합니다. 광범위하게 탐구된 데이터 레시피로 두 단계에 걸쳐 훈련된 Safiron은 다양한 설정에서 강력한 전이를 달성합니다. 평가 격차를 해소하기 위해, 우리는 Pre-Exec Bench를 공개합니다. 이는 다양한 도구와 분기 궤적을 다루는 현실적인 벤치마크로, 인간이 검증한 시나리오에서 탐지, 세분화된 분류, 설명, 그리고 크로스 플래너 일반화를 측정합니다. 광범위한 실험은 Pre-Exec Bench에서 제안된 가드레일이 강력한 베이스라인에 비해 일관된 성능 향상을 보여주며, 추가 분석은 실행 가능한 실천 방안을 정제하여 더 안전한 에이전트 시스템을 위한 실용적인 템플릿을 제공합니다.
최근 몇 년 동안, 대규모 언어 모델(LLM)과 에이전트에 대한 연구 초점은 새로운 능력을 입증하는 것에서 복잡한 추론과 도전적인 과제 해결로 점차 이동해 왔습니다. 그러나 기존 평가는 주로 수학/코딩 대회나 일반적인 과제에 초점을 맞추고 있으며, 기존의 다중 도면 학술 벤치마크는 충분한 추론 깊이를 제공하지 못해 고수준 추론을 위한 엄격한 벤치마크가 부족한 상황입니다. 이러한 공백을 메우기 위해, 우리는 학술 지식을 습득하고 이를 기반으로 추론하는 LLM과 에이전트의 능력을 평가하기 위해 Acadreason 벤치마크를 소개합니다. 이 벤치마크는 컴퓨터 과학, 경제학, 법학, 수학, 철학 등 5개의 고수준 추론 도면에서 전문가가 주석을 단 50개의 학술 문제로 구성되어 있습니다. 모든 문제는 최근 몇 년간의 최상위 출판물에서 발췌되었으며, 도전적이면서도 답변이 가능하도록 엄격한 주석 및 품질 관리를 거쳤습니다. 우리는 10개 이상의 주류 LLM과 에이전트에 대한 체계적인 평가를 수행했습니다. 그 결과, 대부분의 LLM은 20점 미만의 점수를 기록했으며, 최첨단 GPT-5조차도 16점에 그쳤습니다. 에이전트는 더 높은 점수를 기록했지만, 40점을 넘는 경우는 없었습니다. 이는 초지능 학술 연구 과제에서 LLM과 에이전트 간의 현재 역량 격차를 보여주며, Acadreason의 도전 과제를 강조합니다.
Lean과 같은 검증 가능한 언어를 통해 수학 문제를 해결하는 것은 수학 및 컴퓨터 과학 커뮤니티에 상당한 영향을 미쳤습니다. 현재 최첨단 모델들은 종종 비용이 많이 드는 온라인 강화 학습(Reinforcement Learning, RL)이나 전문가 반복 학습을 통해 훈련됩니다. 그러나 이러한 접근 방식은 고정된 문제 세트에 의존하기 때문에 훈련 효율성이 떨어지고 모델이 복잡한 문제를 해결하는 데 한계가 있습니다. 이러한 한계를 극복하기 위해 우리는 GAR(Generative Adversarial Reinforcement learning)을 제안합니다. GAR은 문제 구성자와 해결자를 적대적 루프에서 공동으로 훈련하는 포괄적인 RL 훈련 프레임워크입니다. GAR은 암묵적 커리큘럼 학습 메커니즘을 도입하여 작업 난이도를 증명자의 진화하는 능력과 맞춥니다. 이를 통해 훈련 효율성을 향상시키고 고급 정리를 증명하는 데 더 강력한 성능을 발휘할 수 있게 합니다. 실험 결과, GAR 훈련을 통해 Goedel-Prover-V2-8B와 DeepSeek-Prover-V2-7B는 MiniF2F-Test 벤치마크에서 pass@32 기준 평균 4.20%의 상대적 개선을 달성했으며, DeepSeek-Prover-V2의 ProofNet-Test에서의 pass@32는 22.58%에서 25.81%로 증가했습니다. GAR은 형식적 증명을 넘어 검증 가능한 환경에서 문제 생성과 해결의 공동 진화를 위한 일반적인 RL 패러다임을 확립합니다.
수학적 추론은 대규모 언어 모델(LLM)의 지능을 평가하는 주요 지표입니다. 그러나 기존 LLM은 견고성과 일반화 능력에서 한계를 보입니다. 본 논문은 이러한 결함을 표면적 특징에 의존해 답을 도출하는 허위 추론(spurious reasoning)으로 설명합니다. 이 문제를 해결하기 위해, 우리는 문제 해결 논리에 기반해 답을 도출하는 적응형 추론(adaptive reasoning)을 가능하게 하는 AdaR 프레임워크를 제안합니다. AdaR은 변수 값을 변경하여 논리적으로 동등한 질의를 합성하고, 이러한 데이터에 RLVR(Reinforcement Learning with Variational Reasoning)을 적용해 허위 논리를 억제하면서 적응형 논리를 장려합니다. 데이터 품질을 개선하기 위해, 원본 질의에서 문제 해결 논리를 추출하고 코드 실행을 통해 해당 답을 생성한 후, 타당성 검사를 적용합니다. 실험 결과는 AdaR이 견고성과 일반화 능력을 향상시키며, 높은 데이터 효율성을 유지하면서 수학적 추론에서 상당한 개선을 달성함을 보여줍니다. 분석 결과에 따르면, 데이터 합성과 RLVR은 협력적으로 작동하여 LLM의 적응형 추론을 가능하게 합니다. 후속 분석을 통해 주요 설계 요소의 영향과 LLM 지시에 대한 적용 가능성에 대한 핵심 통찰을 도출했습니다. 본 프로젝트는 https://github.com/LaiZhejian/AdaR에서 확인할 수 있습니다.
일반적으로 인정된 회계 원칙(GAAP)의 복잡성과 확장 가능한 비즈니스 보고 언어(XBRL) 제출의 계층적 구조는 재무 감사를 자동화하고 검증하는 것을 점점 더 어렵게 만듭니다. 대규모 언어 모델(LLM)은 비정형 텍스트 이해에서 강력한 능력을 보여주었지만, 구조화되고 상호 의존적이며 분류 체계 기반의 재무 문서에 대해 추론하는 능력은 여전히 크게 탐구되지 않았습니다. 이러한 격차를 메우기 위해, 우리는 재무 감사 작업에서 LLM을 평가하기 위한 첫 번째 분류 체계 정렬, 구조 인식, 다중 문서 벤치마크인 FinAuditing을 소개합니다. 실제 US-GAAP 준수 XBRL 제출 자료를 기반으로 구축된 FinAuditing은 구조화된 감사 추론의 각기 다른 측면을 대상으로 하는 세 가지 상호 보완적인 하위 작업을 정의합니다: 의미적 일관성을 위한 FinSM, 관계적 일관성을 위한 FinRE, 그리고 수치적 일관성을 위한 FinMR입니다. 우리는 더 나아가 이러한 하위 작업에 걸쳐 검색, 분류, 추론 메트릭을 통합한 통합 평가 프레임워크를 제안합니다. 13개의 최첨단 LLM에 대한 광범위한 제로샷 실험은 현재 모델들이 의미적, 관계적, 수학적 차원에서 일관되지 않은 성능을 보이며, 계층적 다중 문서 구조에 대해 추론할 때 정확도가 최대 60-90%까지 하락하는 것을 보여줍니다. 우리의 연구 결과는 현대 LLM의 분류 체계 기반 재무 추론에서의 체계적 한계를 드러내며, 신뢰할 수 있고 구조 인식적이며 규제에 부합하는 재무 지능 시스템 개발을 위한 기초로서 FinAuditing을 확립합니다. 벤치마크 데이터셋은 Hugging Face에서 이용 가능합니다.
시각-언어 모델(VLMs)을 활용한 구체화된 추론 능력 개발이나, 최첨단 VLMs를 종단 간 로봇 제어를 위한 시각-언어-행동(VLA) 모델에 통합하는 데 초점을 맞춘 상당한 연구가 진행되었음에도 불구하고, 상류 VLM 기반 추론과 하류 VLA 정책 학습 간의 중요한 격차를 직접적으로 다룬 연구는 거의 없다. 본 연구에서는 Vlaser라는 시각-언어-행동 모델을 도입하여 구체화된 추론 능력을 융합함으로써, 구체화된 추론과 VLA 정책 학습 간의 간극을 메우는 첫걸음을 내딛는다. Vlaser는 고수준 추론과 저수준 제어를 통합하도록 설계된 기초 시각-언어 모델로, 고품질 Vlaser-6M 데이터셋을 기반으로 구축되었다. Vlaser는 공간 추론, 구체화된 기반, 구체화된 질의응답, 작업 계획 등 다양한 구체화된 추론 벤치마크에서 최첨단 성능을 달성한다. 또한, 우리는 다양한 VLM 초기화가 지도 학습 기반 VLA 미세 조정에 미치는 영향을 체계적으로 검토함으로써, 인터넷 규모의 사전 학습 데이터와 구체화된 정책 학습 데이터 간의 도메인 변화를 완화하는 데 대한 새로운 통찰을 제공한다. 이러한 통찰을 바탕으로, 우리의 접근 방식은 WidowX 벤치마크에서 최첨단 결과를 달성하고 Google Robot 벤치마크에서도 경쟁력 있는 성능을 보인다.
통합 멀티모달 모델은 대규모 언어 모델의 추론 능력을 이미지 이해 및 생성과 결합하여 고급 멀티모달 인텔리전스에 대한 큰 가능성을 보여줍니다. 그러나 현재 커뮤니티에서는 이해와 생성 간의 일관성과 복잡한 시각적 작업에서의 일반화 잠재력을 체계적으로 평가할 수 있는 엄격한 추론 중심 벤치마크가 부족합니다. 이를 위해 우리는 GIR-Bench를 소개합니다. 이는 통합 모델을 세 가지 상호 보완적인 관점에서 평가하는 포괄적인 벤치마크입니다. 첫째, 모델이 이해와 생성 작업에서 동일한 지식을 일관되게 활용할 수 있는지 조사합니다(GIR-Bench-UGC). 둘째, 모델이 논리적 제약과 암묵적 지식을 적용하여 충실한 시각적 콘텐츠를 생성할 수 있는 추론 중심의 텍스트-이미지 생성 능력을 평가합니다(GIR-Bench-T2I). 셋째, 모델이 편집 작업에서 다단계 추론을 처리할 수 있는지 평가합니다(GIR-Bench-Edit). 각 하위 집단에 대해, 우리는 각 작업에 맞게 세심하게 설계된 작업별 평가 파이프라인을 구축했습니다. 이를 통해 세분화되고 해석 가능한 평가를 가능하게 하면서도 널리 사용되는 MLLM-as-a-Judge 패러다임에서 오는 편향을 완화합니다. 다양한 통합 모델과 생성 전용 시스템에 대한 광범위한 실험 결과, 통합 모델이 추론 기반 시각적 작업에서 더 우수한 능력을 보이지만 여전히 이해와 생성 간에 지속적인 격차가 존재함을 확인했습니다. GIR-Bench의 데이터와 코드는 https://hkust-longgroup.github.io/GIR-Bench에서 확인할 수 있습니다.
최근 텍스트-투-비디오(T2V) 모델들은 현실 세계의 기하학적 구조와 물리 법칙을 시뮬레이션하는 강력한 능력을 보여주며, 이들이 암묵적 세계 모델로서의 잠재력을 시사하고 있습니다. 이에 영감을 받아, 우리는 동적 장면과 자연스러운 시점을 내부적으로 포함하는 비디오의 특성을 활용하여 주어진 4D 장면에서의 시점 계획(viewpoint planning)을 위한 비디오 생성 사전 지식(video generation prior)의 활용 가능성을 탐구합니다. 이를 위해, 우리는 사전 학습된 T2V 모델을 시점 예측에 적응시키기 위한 두 단계의 패러다임을 제안합니다. 첫째, 우리는 4D 장면 표현을 사전 학습된 T2V 모델에 적응형 학습 분기를 통해 주입합니다. 여기서 4D 장면은 시점에 독립적이며, 조건부로 생성된 비디오는 시점을 시각적으로 내포합니다. 둘째, 우리는 시점 추출을 하이브리드 조건 기반의 카메라 외부 매개변수(extrinsic) 디노이징(denoising) 과정으로 공식화합니다. 구체적으로, 생성된 비디오와 4D 장면을 입력으로 받는 카메라 외부 매개변수 디퓨전(diffusion) 분기를 사전 학습된 T2V 모델에 추가로 도입합니다. 실험 결과는 우리가 제안한 방법이 기존 경쟁자들보다 우수함을 보여주며, 주요 기술 설계의 효과성을 검증하는 절제 연구(ablation study)를 통해 그 유효성을 입증합니다. 이 연구는 어느 정도 비디오 생성 모델들이 현실 세계의 4D 상호작용을 위한 잠재력을 가지고 있음을 증명합니다.
확산 기반 대형 언어 모델(dLLMs)은 다중 토큰을 병렬로 디코딩할 수 있는 능력으로 인해 자기회귀 모델의 효율적인 대안으로 떠오르고 있습니다. 그러나 dLLMs를 강화 학습(RL)을 통해 인간의 선호도나 작업 특화 보상과 정렬시키는 것은, 그들의 다루기 어려운 로그 가능도가 표준 정책 경사법의 직접적인 적용을 방해하기 때문에 어려운 과제입니다. 기존 연구에서는 증거 하한(ELBO)과 같은 대체 방법을 사용하지만, 이러한 일방적인 근사는 상당한 정책 경사 편향을 초래할 수 있습니다. 이를 해결하기 위해, 우리는 실제 로그 가능도의 상한과 하한을 모두 활용하는 샌드위치 정책 경사법(SPG)을 제안합니다. 실험 결과, SPG는 ELBO나 일단계 추정을 기반으로 한 기준선을 크게 능가하는 것으로 나타났습니다. 구체적으로, SPG는 dLLMs를 위한 최신 RL 방법 대비 GSM8K에서 3.6%, MATH500에서 2.6%, Countdown에서 18.4%, Sudoku에서 27.0%의 정확도 향상을 보였습니다.
대규모 시각-언어 모델(LVLMs)은 시각 인코더(VE)와 대규모 언어 모델을 통합하여 다양한 작업에서 주목할 만한 성과를 거두었습니다. 그러나 LVLMs에는 여전히 중요한 과제가 존재하는데, 그 중 하나는 입력 이미지에 존재하지 않는 객체에 대한 설명을 생성하는 객체 환각(object hallucination) 현상입니다. 본 연구에서는 VE 내의 불확실한 시각 토큰이 객체 환각에 기여하는 주요 요인임을 주장합니다. 통계적 분석 결과, 높은 인식론적 불확실성을 보이는 시각 토큰과 환각 발생 사이에 양의 상관관계가 있음을 발견했습니다. 또한, 이론적 및 실증적으로, 작은 적대적 섭동(adversarial perturbation) 하에서 큰 표현 편차를 보이는 초기 VE 레이어의 시각 토큰이 높은 인식론적 불확실성을 나타냄을 확인했습니다. 이러한 발견을 바탕으로, VE만을 수정하여 객체 환각을 완화하는 간단하면서도 효과적인 전략을 제안합니다. 우리의 방법은 불확실한 시각 토큰을 효율적으로 식별하기 위한 적대적 섭동을 활용한 프록시 방법과, VE의 중간 레이어에서의 자기 주의(self-attention) 과정 중에 이러한 불확실한 시각 토큰을 마스킹하여 시각 인코딩에 미치는 영향을 억제함으로써 환각을 완화하는 방법으로 구성됩니다. 광범위한 실험을 통해 우리의 방법이 LVLMs에서 객체 환각을 크게 줄일 수 있으며, 다른 기존 기술과 시너지 효과를 낼 수 있음을 입증했습니다.
대규모 언어 모델(LLMs)과 시각 언어 모델(VLMs)의 최근 발전은 수학적 추론에서 상당한 진전을 보여주었지만, 보조선을 그리거나 함수를 플롯하여 문제를 해결하는 등 시각적 지원이 필요한 문제에서는 여전히 중요한 한계에 직면해 있습니다. 대부분의 LLMs와 VLMs은 텍스트 기반의 추론 체인에 제한되어 있으며, 텍스트와 이미지를 교차하여 생성할 수 있는 멀티모달 통합 모델은 이러한 작업에 필요한 정밀도와 제어 가능성을 갖추지 못하고 있습니다. 이를 해결하기 위해, 우리는 수학에서 "이미지와 함께 사고"하기 위한 코드 기반의 Chain-of-Thought 패러다임인 CodePlot-CoT를 제안합니다. 우리의 접근 방식은 VLM을 활용하여 텍스트 추론과 실행 가능한 플롯팅 코드를 생성한 후, 이를 "시각적 사고"로 렌더링하여 수학 문제를 해결합니다. 이를 위해, 우리는 먼저 시각적 추론이 필요한 수학 문제를 위한 최초의 대규모 이중 언어 데이터셋 및 벤치마크인 Math-VR를 구축했습니다. 이 데이터셋은 178K개의 샘플로 구성되어 있습니다. 둘째, 고품질의 학습 데이터를 생성하기 위해 복잡한 수학적 도형을 코드로 파싱하는 데 특화된 최첨단 이미지-코드 변환기를 개발했습니다. 마지막으로, 이러한 학습 데이터를 사용하여 CodePlot-CoT 모델을 훈련시켜 수학 문제를 해결합니다. 실험 결과, 우리의 모델은 새로운 벤치마크에서 기본 모델 대비 최대 21%의 성능 향상을 달성하여, 제안된 코드 기반 추론 패러다임의 효용성을 완전히 입증했습니다. 우리의 연구는 멀티모달 수학적 추론을 위한 새로운 방향을 제시하고, 커뮤니티에 최초의 대규모 데이터셋, 포괄적인 벤치마크, 그리고 이러한 문제를 해결하기 위한 강력한 접근 방식을 제공합니다. 향후 연구를 촉진하기 위해, 우리는 데이터셋, 코드, 그리고 사전 훈련된 모델을 https://github.com/HKU-MMLab/Math-VR-CodePlot-CoT에서 공개합니다.
대형 언어 모델(LLM) 에이전트는 놀라운 추론 능력을 보여주고 있다. 그러나 기존의 다중 에이전트 프레임워크는 종종 고정된 역할이나 중앙 집중식 제어에 의존함으로써 장기적 추론에서의 확장성과 적응성을 제한한다. 본 연구에서는 군집 지능에서 영감을 받은 분산형 다중 에이전트 추론을 위한 폐루프 프레임워크인 SwarmSys를 소개한다. SwarmSys에서의 조정은 탐색자(Explorers), 작업자(Workers), 검증자(Validators)라는 세 가지 특화된 역할 간의 반복적 상호작용을 통해 발생하며, 이들은 탐색, 활용, 검증의 과정을 지속적으로 순환한다. 확장 가능하고 적응적인 협업을 가능하게 하기 위해, 적응형 에이전트 및 이벤트 프로파일, 임베딩 기반 확률적 매칭, 페로몬에서 영감을 받은 강화 메커니즘을 통합하여, 전역 감독 없이도 동적 작업 할당과 자기 조직화적 수렴을 지원한다. 기호 추론, 연구 종합, 과학적 프로그래밍 과제 전반에 걸쳐 SwarmSys는 기준선을 일관되게 능가하며 정확도와 추론 안정성을 모두 향상시켰다. 이러한 결과는 군집 지능에서 영감을 받은 조정이 확장 가능하고 견고하며 적응적인 다중 에이전트 추론을 위한 유망한 패러다임임을 강조하며, 조정의 확장이 LLM 지능을 발전시키는 데 있어 모델 확장에 필적할 수 있음을 시사한다.
우리는 높은 시간적 일관성, 그럴듯한 장면 전환, 그리고 제어 가능한 스트리밍 스토리라인을 통해 무한 길이의 비디오를 생성할 수 있는 Stable Video Infinity(SVI)를 제안합니다. 기존의 장편 비디오 생성 방법들은 수작업으로 만든 안티 드리프팅(예: 수정된 노이즈 스케줄러, 프레임 앵커링)을 통해 누적 오류를 완화하려고 시도하지만, 단일 프롬프트 외삽에 국한되어 반복적인 동작과 동질적인 장면을 생성하는 데 그칩니다. 우리는 근본적인 문제가 오류 누적을 넘어 훈련 가정(깨끗한 데이터를 보는 것)과 테스트 시점의 자기회귀적 현실(자체 생성된 오류가 포함된 출력에 조건을 거는 것) 사이의 중요한 불일치에 있음을 확인했습니다. 이 가설 간극을 해소하기 위해 SVI는 Diffusion Transformer(DiT)의 자체 생성 오류를 감독 프롬프트로 재활용하는 새로운 유형의 효율적인 훈련인 Error-Recycling Fine-Tuning을 도입했습니다. 이를 통해 DiT가 스스로 오류를 식별하고 수정하도록 장려합니다. 이는 폐쇄 루프 재활용을 통해 오류를 주입, 수집, 저장하고, 오류가 주입된 피드백으로부터 자기회귀적으로 학습함으로써 달성됩니다. 구체적으로, 우리는 (i) DiT가 만든 과거 오류를 깨끗한 입력에 주입하여 플로우 매칭에서 오류가 누적된 궤적을 시뮬레이션하고, (ii) 일단계 양방향 통합으로 예측을 효율적으로 근사화하고 잔차를 통해 오류를 계산하며, (iii) 이산화된 시간 단계에 걸쳐 오류를 동적으로 리플레이 메모리에 저장하여 새로운 입력에 재샘플링합니다. SVI는 추가적인 추론 비용 없이 비디오를 초 단위에서 무한한 지속 시간으로 확장할 수 있으며, 다양한 조건(예: 오디오, 스켈레톤, 텍스트 스트림)과 호환됩니다. 우리는 SVI를 일관성, 창의성, 조건부 설정을 포함한 세 가지 벤치마크에서 평가하여 그 다양성과 최첨단 역할을 철저히 검증했습니다.
로봇 학습의 확장성은 현실 세계 데이터 수집의 상당한 비용과 노동력에 의해 근본적으로 제한됩니다. 시뮬레이션 데이터는 확장 가능한 대안을 제공하지만, 시각적 외관, 물리적 특성, 그리고 객체 상호작용에서의 상당한 차이로 인해 현실 세계로의 일반화에 실패하는 경우가 많습니다. 이를 해결하기 위해, 우리는 다중 시점 현실 세계 이미지를 확장 가능하고 고충실도이며 물리적으로 상호작용 가능한 시뮬레이션 환경으로 변환하는 새로운 Real2Sim2Real 프레임워크인 RoboSimGS를 제안합니다. 우리의 접근 방식은 하이브리드 표현을 사용하여 장면을 재구성합니다: 3D Gaussian Splatting(3DGS)은 환경의 사실적인 외관을 포착하고, 상호작용 가능한 객체를 위한 메시 프리미티브는 정확한 물리 시뮬레이션을 보장합니다. 특히, 우리는 물리적으로 타당한 관절형 자산의 생성을 자동화하기 위해 다중 모드 대형 언어 모델(MLLM)을 최초로 사용합니다. MLLM은 시각 데이터를 분석하여 물리적 특성(예: 밀도, 강성)뿐만 아니라 객체의 복잡한 운동학적 구조(예: 힌지, 슬라이딩 레일)도 추론합니다. 우리는 RoboSimGS에서 생성된 데이터로 완전히 훈련된 정책이 다양한 현실 세계 조작 작업에서 성공적인 제로샷 시뮬레이션-투-리얼 전이를 달성함을 보여줍니다. 또한, RoboSimGS의 데이터는 최신 기술(SOTA) 방법의 성능과 일반화 능력을 크게 향상시킵니다. 우리의 결과는 RoboSimGS가 시뮬레이션-투-리얼 간극을 해결하는 강력하고 확장 가능한 솔루션임을 입증합니다.
최근 3D 인간 메쉬 복원(HMR)을 위한 트랜스포머 기반 모델들은 강력한 성능을 달성했지만, 깊은 트랜스포머 아키텍처와 불필요한 토큰으로 인해 높은 계산 비용과 복잡성을 겪는 경우가 많습니다. 본 논문에서는 HMR에 특화된 두 가지 병합 전략을 소개합니다: 오류 제한 계층 병합(ECLM)과 마스크 기반 토큰 병합(Mask-ToMe). ECLM은 평균 관절 위치 오차(MPJPE)에 미치는 영향이 최소인 트랜스포머 계층을 선택적으로 병합하며, Mask-ToMe는 최종 예측에 거의 기여하지 않는 배경 토큰을 병합하는 데 초점을 맞춥니다. 또한 병합으로 인한 성능 저하를 추가적으로 해결하기 위해, 대규모 모션 캡처 데이터셋에서 학습된 자세 사전 정보를 활용하고 시간적 맥락을 통합하는 확산 기반 디코더를 제안합니다. 여러 벤치마크에서의 실험 결과, 우리의 방법은 기준 모델 대비 성능을 약간 향상시키면서 최대 2.3배의 속도 향상을 달성함을 보여줍니다.
대형 언어 모델(LLM)은 알고리즘 코드 생성에서 뛰어난 성능을 보이지만, 렌더링된 픽셀과 상호작용으로 정확성이 판단되는 프론트엔드 개발에서는 어려움을 겪습니다. 우리는 ReLook을 제안합니다. ReLook은 다중 모달 LLM(MLLM)을 도구로 활용하여 강력한 생성-진단-개선 루프를 닫을 수 있도록 에이전트를 지원하는 비전 기반 강화 학습 프레임워크입니다. 학습 과정에서 에이전트는 MLLM-in-the-loop를 시각적 비평가(스크린샷으로 코드를 평가)와 실행 가능한 비전 기반 피드백의 원천으로 사용합니다. 무효 렌더링에 대한 엄격한 제로 리워드 규칙은 렌더링 가능성을 고정하고 리워드 해킹을 방지합니다. 행동 붕괴를 방지하기 위해, 개선된 수정만을 허용하는 엄격한 수용 규칙인 Forced Optimization을 도입하여 단조롭게 향상되는 궤적을 얻습니다. 추론 시에는 비평가를 분리하고 경량의 비평가 없는 자체 편집 주기를 실행하여 기본 디코딩과 비슷한 지연 시간을 유지하면서 대부분의 이점을 유지합니다. 널리 사용되는 세 가지 벤치마크에서 ReLook은 비전 기반 프론트엔드 코드 생성에서 강력한 베이스라인을 꾸준히 능가하며, 에이전트적 인식, 시각적 보상, 그리고 학습-추론 분리의 이점을 강조합니다.
언어 모델(LM) 미세 조정의 한 가지 패러다임은 대규모 훈련 데이터셋을 생성하는 데 의존하며, 높은 양과 다양성이 사후 훈련 후 모델이 새로운 작업에 일반화할 수 있게 해줄 것이라는 가정 하에 진행됩니다. 실제로 대규모 데이터셋을 수집하는 것은 비효율적이며, 이를 훈련에 사용하는 것은 엄청난 비용이 듭니다. 더 나쁜 점은, 결과적으로 얻은 모델이 복잡한 시나리오를 처리하거나 더 나은 일반화를 보장할 수 없다는 것입니다. 또한, 기존 기술들은 훈련 샘플이 새로운 정보를 제공하는지, 아니면 모델이 이미 습득한 지식과 중복되는지를 거의 평가하지 않아 불필요한 비용을 초래합니다. 본 연구에서는 테스트 시간에 더 효과적이고 일반화 가능한 에이전트 LM을 즉석에서 생성하기 위한 새로운 테스트 시간 자기 개선 방법을 탐구합니다. 제안된 알고리즘은 세 단계로 요약할 수 있습니다: (i) 먼저 모델이 어려움을 겪는 샘플을 식별(자기 인식), (ii) 그런 다음 불확실한 샘플에서 유사한 예제를 생성(자기 데이터 증강), (iii) 이렇게 새로 생성된 샘플을 테스트 시간 미세 조정에 사용(자기 개선). 우리는 이 접근법의 두 가지 변형을 연구합니다: 테스트 시간 자기 개선(TT-SI)은 동일한 모델이 자신의 불확실한 사례에서 추가 훈련 예제를 생성한 후 이를 학습하는 방식이며, 테스트 시간 증류(TT-D)는 더 강력한 모델이 불확실한 사례에 대해 유사한 예제를 생성하여 학생 모델이 증류된 감독을 통해 적응할 수 있게 하는 방식입니다. 다양한 에이전트 벤치마크에 대한 실험적 평가 결과, TT-SI는 모든 벤치마크에서 평균 +5.48%의 절대 정확도 향상을 보였으며, 다른 표준 학습 방법을 능가하면서도 68배 적은 훈련 샘플을 사용했습니다. 우리의 연구 결과는 TT-SI의 가능성을 강조하며, 테스트 시간 자기 개선 알고리즘이 자기 진화를 향한 더 능력 있는 에이전트를 구축하기 위한 새로운 패러다임으로서의 잠재력을 보여줍니다.
언어 모델은 종종 학습 세트에서 본 것과 유사한 데이터(예: MATH)에 대해 일반적인 지도 미세 조정(SFT)을 통해 학습할 때 거의 개선되지 않거나 "포화" 상태를 보입니다. 우리는 더 강력한 대형 언어 모델(LLM)의 메타인지 능력을 교사로 활용하여 이러한 학생 모델을 학습시키기 위한 새로운 미세 조정 전략인 STAT을 소개합니다. 교사는 작업 데이터셋을 사용하여 작업에 필요한 기술 목록을 작성한 다음, 각 데이터 포인트에 필요한 기술을 라벨링합니다(Didolkar et al., 2024). 학생의 답변을 모니터링함으로써, 교사는 학생의 Missing-Skill-Profile을 생성하여 각 기술을 응답에 적용하지 못한 빈도를 추적합니다. 우리는 이 아이디어를 사용하여 두 가지 방법 중 하나로 수정된 학습 세트를 구축합니다. STAT-Sel에서는 교사가 기존의 학습 예제 세트를 사용하지만 Missing-Skill-Profile에 따라 적응적으로 재가중합니다. STAT-Syn에서는 교사가 누락된 기술을 포함한 추가 예제를 합성합니다. Llama 및 Qwen 모델에 대한 광범위한 실험에서, 우리의 방법은 MATH에서 최대 7.5%의 개선을 가져온 반면, SFT는 제한된 이득만 제공했습니다. 또한, STAT은 분포 외 벤치마크(예: AIME24/25, AMC23 등)에서 평균 4.6%의 성능 향상을 보였습니다. 중요한 것은, STAT이 GRPO(Shao et al., 2024)를 통한 강화 학습(RL)과 상호 보완적이라는 점입니다: 모델이 STAT을 통해 기술 격차를 해결한 후, GRPO는 추가적인 이득을 계속 제공합니다. 우리는 기술 대상 적응 학습이 현재의 학습 파이프라인을 광범위하게 개선할 것이라고 결론지었습니다. 우리의 코드는 https://github.com/princeton-pli/STAT에서 확인할 수 있습니다.
언어 모델 방어 메커니즘의 견고성을 어떻게 평가해야 할까? 현재, 재킹브레이크(jailbreak)와 프롬프트 주입(prompt injection)에 대한 방어 메커니즘(각각 공격자가 유해한 지식을 유도하거나 원격으로 악의적인 행동을 유발하는 것을 방지하기 위한 것)은 일반적으로 정적인 유해 공격 문자열 세트에 대해 평가되거나, 방어 메커니즘을 고려하지 않고 설계된 계산적으로 약한 최적화 방법에 대해 평가된다. 우리는 이러한 평가 과정이 결함이 있다고 주장한다. 대신, 우리는 방어 메커니즘의 설계를 카운터하기 위해 공격 전략을 명시적으로 수정하고 목표를 최적화하기 위해 상당한 자원을 투자하는 적응형 공격자에 대해 방어 메커니즘을 평가해야 한다. 일반적인 최적화 기술인 경사 하강법(gradient descent), 강화 학습(reinforcement learning), 무작위 탐색(random search), 그리고 인간이 주도하는 탐색(human-guided exploration)을 체계적으로 조정하고 확장함으로써, 우리는 최근의 12가지 방어 메커니즘(다양한 기술을 기반으로 한)을 대부분 90% 이상의 공격 성공률로 우회했다; 중요한 것은, 대부분의 방어 메커니즘이 원래 거의 0%에 가까운 공격 성공률을 보고했다는 점이다. 우리는 미래의 방어 연구가 우리가 설명한 것과 같은 더 강력한 공격을 고려해야만 견고성에 대한 신뢰할 수 있고 설득력 있는 주장을 할 수 있다고 믿는다.
인간과 모델의 성능을 비교하는 것은 임베딩 모델의 강점과 한계를 이해하고, 의미와 뉘앙스를 포착하는 데 있어 성공과 실패의 지점을 밝히는 데 유용한 관점을 제공합니다. 그러나 이러한 비교는 드물게 이루어지는데, 이는 임베딩 작업에서의 인간 성능을 측정하기가 어렵기 때문입니다. 이러한 격차를 메우기 위해, 우리는 HUME(Human Evaluation Framework for Text Embeddings)를 소개합니다. MTEB와 같은 프레임워크는 광범위한 모델 평가를 제공하지만, 인간 성능에 대한 신뢰할 수 있는 추정치가 부족하여 모델 점수의 해석 가능성을 제한합니다. 우리는 리랭킹, 분류, 클러스터링, 그리고 언어적으로 다양한 고자원 및 저자원 언어에 걸친 의미적 텍스트 유사성을 포함한 16개의 MTEB 데이터셋에서 인간 성능을 측정했습니다. 인간은 평균 77.6%의 성능을 달성했으며, 이는 최고의 임베딩 모델의 80.1%와 비교됩니다. 그러나 변동이 크다는 점을 확인했습니다: 모델은 일부 데이터셋에서는 거의 최고 수준의 성능을 보이지만, 다른 데이터셋에서는 어려움을 겪으며, 이는 데이터셋의 문제와 저자원 언어에서의 단점을 드러냅니다. 우리는 인간 성능 기준선, 작업 난이도 패턴에 대한 통찰, 그리고 모델의 해석을 더 의미 있게 하고 모델 및 벤치마크 개발에 정보를 제공하는 확장 가능한 평가 프레임워크를 제공합니다. 우리의 코드, 데이터셋, 리더보드는 https://github.com/embeddings-benchmark/mteb에서 공개적으로 이용 가능합니다.
대형 추론 모델(LRMs)은 복잡한 추론 과제에서 상세한 사고의 연쇄(CoT) 설명을 생성함으로써 인상적인 성능을 달성했습니다. 그러나 이러한 응답은 종종 지나치게 길며, 불필요한 추론 단계를 포함하여 추론 비용을 증가시키고 사용성을 저하시킵니다. 정확도를 희생하지 않고 생성된 추론의 길이를 제어하는 것은 여전히 해결되지 않은 과제입니다. 체계적인 실증적 분석을 통해, 우리는 다양한 LRM에서 모델 엔트로피와 응답 길이 사이에 일관된 양의 상관관계가 있음을 밝혔습니다: 사고 단계는 더 높은 엔트로피를 보이며, 이는 더 긴 응답의 탐색적 행동을 반영하는 반면, 최종 답변 단계는 더 낮은 엔트로피를 보이며, 더 결정론적인 해결책을 나타냅니다. 이 관찰은 다양한 추론 단계에서의 엔트로피가 간결성과 성능의 균형을 맞추기 위한 제어 수단으로 사용될 수 있음을 시사합니다. 이러한 통찰을 바탕으로, 본 논문은 단계별 엔트로피를 보상 설계에 통합한 Phase Entropy Aware Reward(PEAR)라는 보상 메커니즘을 소개합니다. PEAR는 모든 토큰을 균일하게 처리하는 대신, 사고 단계에서 과도한 엔트로피를 제한하고 최종 답변 단계에서 적당한 탐색을 허용함으로써, 모델이 과제를 올바르게 해결할 수 있는 충분한 유연성을 유지하면서 간결한 추론 흔적을 생성하도록 장려합니다. 이를 통해 명시적인 길이 목표나 엄격한 잘림 규칙에 의존하지 않고도 응답 길이를 적응적으로 제어할 수 있습니다. 네 가지 벤치마크에 걸친 광범위한 실험은 PEAR가 모델 규모에 걸쳐 경쟁력 있는 정확도를 유지하면서 응답 길이를 지속적으로 줄이는 것을 보여줍니다. 또한, PEAR는 훈련 분포를 넘어서는 강력한 분포 외(OOD) 견고성을 보여줍니다. 우리의 코드는 https://github.com/iNLP-Lab/PEAR에서 확인할 수 있습니다.
AI 어시스턴트가 Sarah가 두 가지 일을 하는 싱글맘이라는 사실을 기억할 때, 그녀가 부유한 임원이었다면 그녀의 스트레스를 다르게 해석할까? 개인화된 AI 시스템이 장기적인 사용자 메모리를 점점 더 통합함에 따라, 이러한 메모리가 감정적 추론에 미치는 영향을 이해하는 것이 중요해졌다. 우리는 15개의 대형 언어 모델(LLM)을 인간이 검증한 감성 지능 테스트에 평가함으로써 사용자 메모리가 감성 지능에 미치는 영향을 조사했다. 동일한 시나리오가 다른 사용자 프로필과 짝을 이룰 때 체계적으로 다른 감정적 해석이 생성된다는 것을 발견했다. 검증된 사용자 독립적 감정 시나리오와 다양한 사용자 프로필에서, 여러 고성능 LLM에서는 우월한 프로필이 더 정확한 감정적 해석을 받는 체계적 편향이 나타났다. 더욱이, LLM은 감정 이해와 지원적 권장 사항 작업에서 인구통계학적 요인에 따른 상당한 격차를 보여주며, 개인화 메커니즘이 모델의 감정적 추론에 사회적 계층 구조를 내재시킬 수 있음을 시사한다. 이러한 결과는 메모리 강화 AI의 주요 과제를 강조한다: 개인화를 위해 설계된 시스템이 의도치 않게 사회적 불평등을 강화할 수 있다는 점이다.
비디오 확산 모델에서의 직관적 물리학 이해는 일반적인 목적의 물리적으로 타당한 세계 시뮬레이터를 구축하는 데 필수적인 역할을 하지만, 생성 과정에서 물리학적 정확성과 시각적 외관을 분리하는 어려움으로 인해 이러한 능력을 정확히 평가하는 것은 여전히 어려운 과제로 남아 있습니다. 이를 위해, 우리는 LikePhys를 소개합니다. 이는 훈련이 필요 없는 방법으로, 물리적으로 유효한 비디오와 불가능한 비디오를 구분하여 비디오 확산 모델의 직관적 물리학 이해를 평가합니다. 이를 위해 ELBO 기반의 가능성 대용체로서의 디노이징 목적 함수를 사용하여, 유효-무효 쌍으로 구성된 데이터셋에서 평가를 수행합니다. 우리가 구성한 4개 물리학 영역에 걸친 12가지 시나리오 벤치마크에서 테스트한 결과, 우리의 평가 지표인 타당성 선호 오차(PPE)는 인간의 선호와 강력한 일치를 보이며, 최신 평가 기준선을 능가하는 성능을 보였습니다. 그런 다음, 우리는 현재의 비디오 확산 모델에서 직관적 물리학 이해를 체계적으로 벤치마크했습니다. 우리의 연구는 모델 설계와 추론 설정이 직관적 물리학 이해에 미치는 영향을 분석하고, 물리 법칙에 걸친 영역별 능력 변이를 강조합니다. 실험 결과는, 현재의 모델들이 복잡하고 혼돈스러운 동역학에 어려움을 겪고 있음에도 불구하고, 모델 용량과 추론 설정이 확장됨에 따라 물리학 이해가 개선되는 명확한 경향이 있음을 보여줍니다.
현실적이고 제어 가능한 3D 인간 아바타를 생성하는 것은 오랜 기간 동안의 과제로 남아 있으며, 특히 인종, 나이, 의상 스타일, 상세한 신체 형태와 같은 광범위한 속성 범위를 다룰 때 더욱 그러합니다. 생성 모델을 훈련시키기 위해 대규모 인간 데이터셋을 수집하고 주석을 달기는 비용이 너무 많이 들며, 규모와 다양성 면에서 제한적입니다. 본 논문에서 우리가 다루는 핵심 질문은 다음과 같습니다: 기존의 파운데이션 모델을 활용하여 이론적으로 무한하며, 풍부한 주석이 달린 3D 인간 데이터를 생성할 수 있는가? 우리는 InfiniHuman을 소개하며, 이 프레임워크는 이러한 모델들을 시너지적으로 활용하여 최소 비용으로 풍부한 주석이 달린 인간 데이터를 생성하고, 이론적으로 무한한 확장성을 제공합니다. 우리는 InfiniHumanData를 제안하는데, 이는 비전-언어 및 이미지 생성 모델을 활용하여 대규모 다중 모달 데이터셋을 생성하는 완전 자동화된 파이프라인입니다. 사용자 연구 결과, 우리가 자동으로 생성한 신원은 스캔 렌더링과 구분할 수 없음을 보여줍니다. InfiniHumanData는 전례 없는 다양성을 가진 111,000개의 신원을 포함하고 있습니다. 각 신원은 다중 세분화 텍스트 설명, 다중 뷰 RGB 이미지, 상세한 의상 이미지, 그리고 SMPL 신체 형태 파라미터로 주석이 달려 있습니다. 이 데이터셋을 기반으로, 우리는 InfiniHumanGen을 제안하는데, 이는 텍스트, 신체 형태, 의상 자산에 조건부된 디퓨전 기반 생성 파이프라인입니다. InfiniHumanGen은 빠르고 현실적이며 정밀하게 제어 가능한 아바타 생성을 가능하게 합니다. 광범위한 실험을 통해 시각적 품질, 생성 속도, 제어 가능성 면에서 최신 기술을 크게 개선함을 입증했습니다. 우리의 접근 방식은 실용적이고 경제적인 솔루션을 통해 세밀한 제어가 가능한 고품질 아바타 생성을 이론적으로 무한한 규모로 가능하게 합니다. 우리는 자동 데이터 생성 파이프라인, 포괄적인 InfiniHumanData 데이터셋, 그리고 InfiniHumanGen 모델을 https://yuxuan-xue.com/infini-human에서 공개할 예정입니다.
생성 모델은 텍스트, 비전, 그리고 멀티모달 애플리케이션에서 최첨단 시스템을 뒷받침하는 현대 기계 학습의 핵심을 이루고 있습니다. 전통적으로 최대 가능도 추정(Maximum Likelihood Estimation)이 지배적인 훈련 패러다임으로 자리 잡아 왔지만, 최근 연구들은 특히 일반화 능력과 재난적 망각(catastrophic forgetting)에 대한 취약성 측면에서 그 한계를 지적하고 있습니다. 이는 정책 경사(Policy Gradient) 방법과 같은 강화 학습 기법과 비교할 때 두드러집니다. 그러나 이러한 접근법들은 명시적인 보상 신호에 의존하는데, 이는 실제로는 종종 사용할 수 없어, 고품질 데이터셋만 접근 가능할 때 생성 모델을 어떻게 정렬할지에 대한 근본적인 문제를 남깁니다. 본 연구에서는 이 문제를 이중 수준 최적화(Bilevel Optimization) 프레임워크를 통해 해결합니다. 여기서 보상 함수는 외부 수준 문제의 최적화 변수로 취급되고, 정책 경사 목적 함수는 내부 수준을 정의합니다. 그런 다음, 우리는 이 최적화 문제를 이론적으로 분석하여, 표 형태 분류(tabular classification) 및 모델 기반 강화 학습과 같은 애플리케이션에 일반화할 수 있는 통찰을 도출합니다. 우리는 코드를 https://github.com/abenechehab/nll_to_po 에 공개합니다.
사전 학습된 비전 기초 모델(VFMs)은 풍부한 시각적 표현을 통해 로봇 학습을 발전시키지만, 개별 VFM은 일반적으로 특정 도메인에서만 뛰어나기 때문에 다양한 작업에 걸친 일반성이 제한됩니다. 여러 VFM을 정책을 위한 통합 표현으로 압축하면 이러한 한계를 완화할 수 있지만, 이는 종종 유연하지 않은 작업별 특징 선택을 초래하고 로봇 도메인 지식을 통합하기 위해 비용이 많이 드는 전체 재학습을 필요로 합니다. 우리는 로봇 학습을 위한 비전 전문가 트랜스포머인 VER을 제안합니다. 사전 학습 동안 VER은 여러 VFM을 비전 전문가 라이브러리로 압축합니다. 그런 다음 사전 학습된 라이브러리에서 작업과 관련된 전문가를 동적으로 선택하기 위해 경량 라우팅 네트워크(매개변수의 0.4% 미만)만 미세 조정합니다. 또한, 동적 전문가 선택의 유연성과 정밀도를 향상시키기 위해 Curriculum Top-K Annealing을 통한 Patchwise Expert Routing을 도입했습니다. 더 나아가, VER은 확장 가능한 전문가 활용과 적응형 로봇 도메인 지식 통합을 위한 매개변수 효율적 미세 조정을 지원합니다. 17가지 다양한 로봇 작업과 여러 정책 헤드에서 VER은 최첨단 성능을 달성했습니다. 우리는 VER이 작업과 무관한 영역(예: 배경)에서 큰 규모의 이상치를 줄이고 작업에 중요한 영역에 집중한다는 것을 발견했습니다. 시각화 자료와 코드는 https://yixiaowang7.github.io/ver_page/에서 확인할 수 있습니다.
고품질의 사전 학습 데이터는 대규모 언어 모델(LLM)의 화석 연료와 같지만, 최첨단 모델을 위한 이 자원은 점점 고갈되어 가고 있습니다. 본 논문에서는 상대적으로 작은 언어 모델(LM)을 강화 학습으로 훈련시켜 사전 학습 데이터의 효과적이고 충실한 재구성을 생성하는 새로운 웹 재활용 방법인 RePro를 소개합니다. 구체적으로, 우리는 하나의 품질 보상과 세 가지 충실도 보상을 설계하여 LM 재구성기가 유기적 데이터를 고품질의 재구성으로 변환하면서도 그 핵심 의미와 구조를 유지하도록 최적화했습니다. 실험에서는 4B 크기의 재구성기를 훈련시켜 DCLM-RefinedWeb에서 샘플링된 72B 토큰을 재활용했습니다. 400M 및 1.4B 모델에 대한 사전 학습 결과는 RePro가 22개의 다운스트림 작업에서 유기적 데이터만 사용한 베이스라인 대비 4.7%-14.0%의 상대적 정확도 향상을 제공함을 보여줍니다. RePro는 또한 70B 재구성기를 사용한 최신 웹 재활용 방법인 ReWire와 4배 더 큰 데이터 풀을 가진 유기적 데이터 베이스라인을 능가했습니다. 다양한 양의 재활용 데이터를 사용한 실험은 RePro가 유기적 데이터 효율성을 2-3배 향상시킨다는 것을 강조합니다. 개별 및 분포 분석은 RePro가 프롬프트 기반 방법에 비해 더 많은 중요한 정보를 보존하고 유기적 데이터의 특성을 충실히 반영함을 검증합니다. 이러한 결과들은 RePro가 LLM 사전 학습의 화석 연료를 효과적으로 활용하기 위한 효율적이고 제어 가능한 경로를 제공함을 보여줍니다. 우리는 코드, 재구성기, 재활용 데이터를 https://github.com/cxcscmu/RePro에서 오픈소스로 공개합니다.
유기 반응 메커니즘은 반응물이 중간체와 생성물을 형성하는 단계별 기본 반응으로, 화학적 반응성을 이해하고 새로운 분자와 반응을 설계하는 데 필수적입니다. 대규모 언어 모델(LLM)이 합성 설계와 같은 화학 작업을 이해하는 데 유망한 성과를 보였지만, 이들이 실제로 유효한 중간체를 생성하고 화학적 일관성을 유지하며 논리적으로 일관된 다단계 경로를 따르는 진정한 화학적 추론 능력을 어느 정도 반영하는지는 불분명합니다. 우리는 이를 해결하기 위해 유기 화학 분야에서 최초로 대규모 전문가 검증 벤치마크인 oMeBench를 소개합니다. 이 벤치마크는 중간체, 유형 레이블 및 난이도 등급이 포함된 10,000개 이상의 주석이 달린 메커니즘 단계로 구성되어 있습니다. 또한, LLM의 능력을 더 정밀하게 평가하고 세분화된 점수를 산출할 수 있도록 단계별 논리와 화학적 유사성을 결합한 동적 평가 프레임워크인 oMeS를 제안합니다. 우리는 최첨단 LLM의 성능을 분석했으며, 그 결과 현재 모델들이 유망한 화학적 직관을 보이지만 정확하고 일관된 다단계 추론에는 어려움을 겪는 것으로 나타났습니다. 특히, 우리가 제안한 데이터셋에 대해 전문가 모델을 미세 조정하고 프롬프트 전략을 사용하면 선도적인 클로즈드 소스 모델 대비 성능이 50% 향상되는 것을 확인했습니다. 우리는 oMeBench가 AI 시스템이 진정한 화학적 추론을 향해 나아가는 데 엄격한 기반이 되기를 바랍니다.
텍스트-이미지(T2I) 모델은 고품질의 이미지를 합성할 수 있지만, 내재된 지식의 한계로 인해 새로운 또는 분포 외(OOD) 개체를 프롬프트로 사용할 경우 성능이 크게 저하된다. 본 연구에서는 에이전트 기반의 세계 지식을 활용하여 T2I 생성의 격차를 해소하는 새로운 프레임워크인 World-To-Image를 소개한다. 우리는 기본 모델이 알지 못하는 개념에 대해 웹을 동적으로 검색하여 이미지를 검색하는 에이전트를 설계했다. 이 정보는 다중 모드 프롬프트 최적화를 수행하는 데 사용되며, 강력한 생성 백본을 정확한 합성으로 유도한다. 특히, 우리의 평가는 전통적인 지표를 넘어 LLMGrader 및 ImageReward와 같은 현대적인 평가 방법을 활용하여 진정한 의미적 충실도를 측정한다. 실험 결과, World-To-Image는 의미적 정렬과 시각적 미학 모두에서 최신 방법을 크게 능가하며, 우리가 선별한 NICE 벤치마크에서 프롬프트 대비 정확도가 +8.1% 향상되었다. 우리의 프레임워크는 3회 미만의 반복으로 높은 효율성을 달성하며, 끊임없이 변화하는 현실 세계를 더 잘 반영할 수 있는 T2I 시스템의 길을 열어준다. 데모 코드는 https://github.com/mhson-kyle/World-To-Image에서 확인할 수 있다.
ChatGPT와 Alexa+와 같은 현대적 대화 에이전트는 메타데이터, 응답 스타일, 도구 사용 규칙 등을 명시한 사전 정의된 정책에 의존합니다. 이러한 대규모 언어 모델(LLM) 기반 시스템이 다양한 비즈니스 및 사용자 질의를 지원하기 위해 확장됨에 따라, 이러한 정책들은 종종 컨텍스트 내 프롬프트로 구현되면서 점점 더 복잡하고 길어져, 충실한 준수가 어려워지고 큰 고정 계산 비용을 초래하고 있습니다. 멀티모달 에이전트의 등장과 함께, 시각적 및 멀티모달 행동을 제어하는 정책이 중요해졌으나, 이에 대한 연구는 여전히 부족한 상태입니다. 기존의 프롬프트 압축 작업은 주로 작업 템플릿과 데모를 단축하는 데 초점을 맞추었으며, 기존의 정책 정렬 연구는 텍스트 기반 안전 규칙에만 집중했습니다. 본 연구에서는 멀티모달 정책 내재화(Multimodal Policy Internalization, MPI)라는 새로운 작업을 소개합니다. MPI는 추론 중에 정책을 포함하지 않고도 모델 파라미터 내에 추론 집약적인 멀티모달 정책을 내재화하여 더 강력한 정책 준수를 가능하게 합니다. MPI는 독특한 데이터 및 알고리즘적 도전 과제를 제기합니다. 우리는 합성 및 실제 세계의 의사 결정 및 도구 사용 작업을 아우르는 두 개의 데이터셋을 구축하고, TriMPI라는 세 단계의 훈련 프레임워크를 제안합니다. TriMPI는 먼저 지속적 사전 훈련을 통해 정책 지식을 주입한 후, 지도 미세 조정을 수행하고, 마지막으로 PolicyRollout을 적용합니다. PolicyRollout은 GRPO 스타일의 강화 학습 확장으로, 정책 인식 응답을 통해 롤아웃을 강화하여 근거 있는 탐색을 가능하게 합니다. TriMPI는 종단 간 정확도, 일반화, 그리고 망각에 대한 견고함에서 주목할 만한 성과를 달성했습니다. 멀티모달 정책 내재화에 관한 첫 번째 연구로서, 우리는 데이터셋, 훈련 레시피, 그리고 포괄적인 평가를 제공하여 향후 연구를 촉진하고자 합니다. 프로젝트 페이지: https://mikewangwzhl.github.io/TriMPI.
일반적인 대형 언어 모델(LLMs)은 추론 능력에서 뛰어나지만, 번역을 위해 강화된 모델들은 추론 과제에서 어려움을 겪습니다. 이를 해결하기 위해, 우리는 인스트럭트 모델로 시작하고 병렬 데이터에 대해서만 레이어 선택적 튜닝을 적용하는 새로운 번역 강화 방식을 제안합니다. 이 파이프라인을 따라, 우리는 Qwen3-XPlus 모델을 소개하며, 이 모델은 스와힐리어와 같은 저자원 언어를 포함한 고자원 및 저자원 언어 모두에서 번역 성능이 크게 향상되어 15+ spBLEU와 40+ xComet을 달성합니다. 흥미롭게도, 소규모 병렬 데이터셋만으로 훈련된 Qwen3-XPlus는 7개의 다국어 과제에서 평균 1점 이상의 향상을 보이면서도, 15개의 인기 있는 추론 데이터셋에서 Qwen3 인스트럭트 모델과 비슷한 숙련도를 유지합니다. 이 연구는 다국어 강화를 위한 유망한 접근 방식을 제시하며, 복잡성을 크게 줄이고 더 넓은 범위의 언어에 대한 접근성을 향상시킵니다. 코드와 모델은 공개적으로 이용 가능합니다.
Deep Research의 핵심은 사용자 지시에 따라 대규모 비정형 텍스트에서 구조화된 정보를 추출하는 지식 마이닝 작업입니다. 대형 언어 모델(LLM)은 이러한 지시를 해석하는 데 탁월하지만 대규모로 배포하기에는 비용이 너무 많이 들며, 전통적인 분류기 및 추출기 파이프라인은 효율적이지만 취약하고 새로운 작업으로 일반화할 수 없습니다. 우리는 LLM의 에이전트적 추론과 확장 가능한 지식 마이닝을 위한 경량 프록시 모델을 결합한 협업 프레임워크인 Falconer를 소개합니다. Falconer에서 LLM은 사용자 지시를 실행 가능한 파이프라인으로 분해하는 플래너 역할과 작은 프록시를 훈련하기 위한 감독을 생성하는 어노테이터 역할을 합니다. 이 프레임워크는 분류와 추출을 두 가지 기본 작업인 'get label'과 'get span'으로 통합하여 단일 지시 수행 모델이 여러 작업별 구성 요소를 대체할 수 있도록 합니다. Falconer에 의해 양성된 프록시 모델과 인간 및 대형 모델이 제공한 어노테이션 간의 일관성을 평가하기 위해, 우리는 플래닝과 종단 간 실행을 모두 포함하는 새로운 벤치마크를 구축했습니다. 실험 결과, Falconer는 지시 수행 정확도에서 최신 LLM과 거의 일치하면서 추론 비용을 최대 90% 절감하고 대규모 지식 마이닝 속도를 20배 이상 가속화하여 Deep Research를 위한 효율적이고 확장 가능한 기반을 제공합니다.
창의적 생성은 사용자 의도를 반영하면서도 미리 예상할 수 없는 새롭고 놀라우며 가치 있는 샘플을 합성하는 과정입니다. 이 작업은 인간의 상상력을 확장하여 익숙한 영역 사이의 미탐구 공간에 존재하는 시각적 개념을 발견할 수 있도록 하는 것을 목표로 합니다. 텍스트-이미지 확산 모델은 사용자 프롬프트에 충실하게 부합하는 사실적인 장면을 렌더링하는 데 뛰어나지만, 진정으로 새로운 콘텐츠를 생성하는 데는 여전히 어려움을 겪고 있습니다. 기존의 창의적 생성 능력을 향상시키기 위한 접근법들은 이미지 특징의 보간에 의존하여 탐색을 미리 정의된 범주로 제한하거나, 임베딩 최적화나 모델 미세 조정과 같은 시간이 많이 소요되는 절차를 필요로 합니다. 우리는 VLM-가이드 적응형 네거티브 프롬프팅(VLM-Guided Adaptive Negative-Prompting)을 제안합니다. 이는 훈련이 필요 없으며 추론 시점에 적용되는 방법으로, 생성된 객체의 유효성을 유지하면서 창의적인 이미지 생성을 촉진합니다. 우리의 접근법은 생성 과정의 중간 출력을 분석하고 이를 전통적인 시각적 개념에서 벗어나도록 적응적으로 조정하여 새롭고 놀라운 출력의 출현을 장려하는 시각-언어 모델(VLM)을 활용합니다. 우리는 CLIP 임베딩 공간에서의 통계적 지표를 사용하여 창의성을 새로움과 유효성 측면에서 평가합니다. 광범위한 실험을 통해 우리는 계산 오버헤드를 거의 발생시키지 않으면서도 창의적 새로움에서 일관된 향상을 보여줍니다. 더욱이, 기존의 방법들이 주로 단일 객체를 생성하는 데 초점을 맞추는 반면, 우리의 접근법은 창의적인 객체들의 일관된 집합을 생성하거나 복잡한 구성 프롬프트 내에서 창의성을 유지하는 것과 같은 복잡한 시나리오로 확장됩니다. 우리의 방법은 기존의 확산 파이프라인에 원활하게 통합되어 텍스트 설명의 제약을 넘어서는 창의적인 출력을 생산하는 실용적인 경로를 제공합니다.
컨텍스트 내 학습(in-context learning)은 대형 모델이 소수의 데모를 통해 새로운 작업에 적응할 수 있게 하지만, 분자 설계 분야에서는 제한된 성공만을 보여왔습니다. ChEMBL과 같은 기존 데이터베이스는 수백만 개의 생물학적 분석을 아우르는 분자 특성을 포함하고 있지만, 각 특성에 대한 레이블 데이터는 여전히 부족합니다. 이러한 한계를 해결하기 위해, 우리는 텍스트 설명 대신 소수의 분자-점수 예제를 사용하여 작업 컨텍스트를 정의하는 데모 조건부 확산 모델(DemoDiff)을 소개합니다. 이러한 데모는 디노이징 트랜스포머가 목표 특성에 맞는 분자를 생성하도록 안내합니다. 확장 가능한 사전 학습을 위해, 우리는 분자를 모티프 수준에서 표현하며 노드 수를 5.5배 줄이는 Node Pair Encoding을 사용한 새로운 분자 토크나이저를 개발했습니다. 우리는 약물과 재료를 모두 포함한 다양한 출처의 수백만 개의 컨텍스트 작업을 포함한 데이터셋을 구축하고, 이를 기반으로 7억 개의 파라미터를 가진 모델을 사전 학습했습니다. 6개 카테고리의 33개 설계 작업에서 DemoDiff는 100-1000배 더 큰 언어 모델과 동등하거나 더 나은 성능을 보였으며, 도메인 특화 접근법의 평균 순위 5.25-10.20에 비해 평균 3.63의 순위를 달성했습니다. 이러한 결과는 DemoDiff를 컨텍스트 내 분자 설계를 위한 분자 기반 모델로 자리매김합니다. 우리의 코드는 https://github.com/liugangcode/DemoDiff에서 확인할 수 있습니다.
최근 몇 년 동안 QwenVL, InternVL, GPT-4o, Gemini, Claude Sonnet과 같은 클라우드 기반 MLLM(Multimodal Large Language Model)들은 수천억 개의 파라미터에 달하는 거대한 모델 크기로 뛰어난 성능을 보여주었지만, 이들은 스마트폰과 같은 엣지 디바이스의 메모리, 전력 소비, 컴퓨팅 용량 한계를 크게 초과합니다. 본 논문에서는 Qwen3의 LLM과 다양한 비주얼 인코더를 기반으로 0.6B에서 4B 파라미터 규모의 모바일 측면 MLLM 제품군인 AndesVL을 소개합니다. AndesVL의 모델 아키텍처, 학습 파이프라인, 학습 데이터를 포괄적으로 설명하며, 텍스트가 풍부한 이미지 이해, 추론 및 수학, 다중 이미지 이해, 일반 VQA(Visual Question Answering), 환각 완화, 다국어 이해, GUI 관련 작업 등 다양한 오픈소스 벤치마크에서 유사 규모의 최신 모델들과 비교하여 최상위 수준의 성능을 달성합니다. 또한, 1+N LoRA(Low-Rank Adaptation) 기법을 도입하여
대형 시각-언어 모델(LVLMs)의 전형적인 사후 학습 패러다임은 지도 미세 조정(Supervised Fine-Tuning, SFT)과 검증 가능한 보상을 활용한 강화 학습(Reinforcement Learning with Verifiable Rewards, RLVR)을 포함한다. SFT는 외부 지도를 활용하여 새로운 지식을 주입하는 반면, RLVR은 내부 강화를 통해 추론 능력과 전반적인 성능을 향상시킨다. 그러나 우리의 분석에 따르면, SFT는 종종 최적이 아닌 성능을 초래하는 반면, RLVR은 모델의 내부 지식 기반을 초과하는 작업에서 어려움을 겪는다. 이러한 한계를 해결하기 위해, 우리는 SFT와 RLVR의 강점을 단일 단계 내에서 통합한 통합 사후 학습 패러다임인 ViSurf(Visual Supervised-and-Reinforcement Fine-Tuning)를 제안한다. 우리는 SFT와 RLVR 목표의 유도를 분석하여 ViSurf 목표를 수립함으로써 이 두 패러다임에 대한 통합적 관점을 제공한다. ViSurf의 핵심은 RLVR 롤아웃에 실제 레이블을 주입함으로써 동시에 외부 지도와 내부 강화를 제공하는 것이다. 또한, 우리는 훈련 과정을 안정화하고 최적화하기 위해 세 가지 새로운 보상 제어 전략을 도입한다. 다양한 벤치마크에 걸친 광범위한 실험을 통해 ViSurf의 효과를 입증하였으며, 이는 개별 SFT, RLVR 및 두 단계의 SFT → RLVR을 모두 능가하는 성능을 보여준다. 심층 분석은 이러한 결과를 뒷받침하며, ViSurf의 유도 및 설계 원칙을 검증한다.
지침 기반 비디오 편집은 직관적인 콘텐츠 변환을 위한 새로운 기회를 제공하면서도 체계적인 평가에 있어 상당한 도전 과제를 제시하며, 빠르게 발전하는 연구 분야로 부상하고 있다. 기존의 비디오 편집 벤치마크는 지침 기반 비디오 편집의 평가를 충분히 지원하지 못하며, 소스 다양성의 부족, 좁은 작업 범위, 불완전한 평가 지표 등의 문제를 겪고 있다. 이러한 한계를 해결하기 위해, 우리는 지침 기반 비디오 편집 평가를 위해 특별히 설계된 현대적인 벤치마크 제품군인 IVEBench를 소개한다. IVEBench는 7개의 의미론적 차원에 걸쳐 32프레임에서 1,024프레임까지 다양한 길이의 600개의 고품질 소스 비디오 데이터베이스로 구성되어 있다. 또한, 대형 언어 모델과 전문가 검토를 통해 생성 및 정제된 35개의 하위 범주를 포함한 8개의 편집 작업 카테고리를 포함한다. 특히, IVEBench는 비디오 품질, 지침 준수 및 비디오 충실도를 포괄하는 3차원 평가 프로토콜을 확립하며, 전통적인 지표와 다중 모드 대형 언어 모델 기반 평가를 통합한다. 광범위한 실험을 통해 IVEBench가 최신 지침 기반 비디오 편집 방법을 벤치마킹하는 데 효과적이며, 포괄적이고 인간 중심의 평가 결과를 제공할 수 있는 능력을 입증하였다.
지상 레이저 스캐닝(TLS) 포인트 클라우드의 정확한 의미론적 분할은 비용이 많이 드는 수동 주석 작업으로 인해 제한적이다. 본 연구에서는 구형 투영, 특징 강화, 앙상블 학습, 그리고 표적 주석을 통합하여 라벨링 작업을 줄이면서도 높은 정확도를 유지하는 반자동화된 불확실성 인식 파이프라인을 제안한다. 제안된 접근법은 3D 포인트를 2D 구형 그리드에 투영하고, 픽셀을 다중 소스 특징으로 강화하며, 분할 네트워크 앙상블을 학습시켜 의사 라벨과 불확실성 맵을 생성한다. 이때 불확실성 맵은 모호한 영역의 주석 작업을 안내한다. 2D 출력은 3D로 역투영되어, 2D 특징 맵, 3D 색상화된 포인트 클라우드, 그리고 컴팩트 가상 구체로 구성된 3단계 시각화 도구를 통해 신속한 분류와 검토자 안내를 지원하는 밀집 주석 포인트 클라우드를 생성한다. 이 파이프라인을 사용하여 맹그로브 숲을 위한 의미론적 분할 TLS 데이터셋인 Mangrove3D를 구축하였다. 또한 데이터 효율성과 특징 중요성을 평가하여 두 가지 핵심 질문에 답하고자 하였다: (1) 얼마나 많은 주석 데이터가 필요한가, (2) 어떤 특징이 가장 중요한가. 결과는 약 12개의 주석 스캔 이후 성능이 포화되고, 기하학적 특징이 가장 큰 기여를 하며, 9채널 스택이 거의 모든 판별력을 포착하며, 평균 교차 합집합(mIoU)이 약 0.76에서 정체기에 도달함을 보여준다. 마지막으로, ForestSemantic과 Semantic3D에 대한 교차 데이터셋 테스트를 통해 특징 강화 전략의 일반화를 확인하였다. 본 연구의 기여는 다음과 같다: (i) 시각화 도구를 포함한 견고한 불확실성 인식 TLS 주석 파이프라인; (ii) Mangrove3D 데이터셋; (iii) 데이터 효율성과 특징 중요성에 대한 실증적 지침. 이를 통해 생태 모니터링 및 그 이상을 위한 TLS 포인트 클라우드의 확장 가능한 고품질 분할이 가능해졌다. 데이터셋과 처리 스크립트는 https://fz-rit.github.io/through-the-lidars-eye/에서 공개적으로 이용 가능하다.
모델 구축의 개선, 특히 강화된 안전 가드레일을 통해 대형 언어 모델(LLMs)이 표준 안전 검사를 점점 더 통과할 수 있게 되었습니다. 그러나 LLMs는 때때로 대화 중에 인종차별적 관점을 표현하는 등 유해한 행동을 드러내기도 합니다. 이를 체계적으로 분석하기 위해, 우리는 CoBia라는 경량의 적대적 공격 도구 세트를 소개합니다. 이 도구는 LLMs가 대화에서 규범적 또는 윤리적 행동에서 벗어나는 조건의 범위를 세밀하게 조정할 수 있게 해줍니다. CoBia는 모델이 특정 사회 집단에 대해 편향된 주장을 하는 구성된 대화를 생성합니다. 그런 다음 모델이 이 조작된 편향 주장에서 회복하고 편향된 후속 질문을 거부할 수 있는지 평가합니다. 우리는 11개의 오픈소스 및 독점 LLMs를 대상으로 성별, 인종, 종교, 국적, 성적 지향 및 기타 개인의 안전과 공정한 대우와 관련된 6가지 사회인구학적 범주에 대한 출력을 평가합니다. 이 평가는 확립된 LLM 기반 편향 지표를 기반으로 하며, 인간의 판단과 비교하여 LLMs의 신뢰성과 정렬 정도를 파악합니다. 결과는 의도적으로 구성된 대화가 편향 증폭을 신뢰적으로 드러내며, LLMs가 대화 중에 편향된 후속 질문을 거부하지 못하는 경우가 많다는 것을 보여줍니다. 이러한 형태의 스트레스 테스트는 상호작용을 통해 표면화될 수 있는 깊이 내재된 편향을 강조합니다. 코드와 아티팩트는 https://github.com/nafisenik/CoBia에서 확인할 수 있습니다.
대규모 추론 모델(LRMs)은 복잡한 추론 작업에서 뛰어난 성능을 보이지만, 전통적으로 정적인 "고정된 세계" 설정에서 평가되어 왔습니다: 모델의 응답은 즉각적인 것으로 가정되며, 요청의 맥락은 응답 기간 동안 변하지 않는다고 전제됩니다. 이러한 가정은 단기 작업에서는 일반적으로 타당하지만, 모델이 문제를 고민하는 데 몇 시간이 걸리고 모델이 사고를 시작한 시점부터 최종 출력까지 코드가 크게 변경될 수 있는 보조 프로그래밍과 같은 현대적인 추론 작업에서는 "고정된 세계" 가정이 무너집니다. 본 연구에서는 이러한 고정된 세계 가정에 도전하고, 두 가지 현실적인 동적 시나리오에서 LRM의 견고성을 평가합니다: 중단(interruptions)은 제한된 예산 내에서 모델의 부분 출력의 품질을 테스트하고, 동적 맥락(dynamic context)은 진행 중인 변화에 대한 모델의 적응 능력을 테스트합니다. 장문 추론이 필요한 수학 및 프로그래밍 벤치마크에서 정적 평가는 일관적으로 견고성을 과대평가했습니다: 정적 설정에서 높은 정확도를 달성하는 최첨단 LRM조차도 중단되거나 변화하는 맥락에 노출될 때 예측 불가능하게 실패할 수 있으며, 추론 과정 후반에 업데이트가 도입되면 성능이 최대 60%까지 하락했습니다. 우리의 분석은 또한 여러 새로운 실패 모드를 밝혀냈습니다: 중단 시 모델이 추론을 최종 답변에 포함시키는 추론 누출(reasoning leakage), 시간 압박 하에서 모델이 추론을 완전히 포기하고 잘못된 답변을 반환하는 패닉(panic), 업데이트된 정보를 통합하면서 성능이 저하되는 자기 의심(self-doubt) 등이 그것입니다.
본 논문에서는 대규모 언어 모델(LLM)이 생성한 JavaScript 코드가 어떤 모델에서 생성되었는지를 밝혀내어 신뢰할 수 있는 저자 귀속 및 모델 지문 인식이 가능한지 탐구하는 첫 번째 대규모 연구를 소개합니다. AI 생성 코드의 급속한 증가 속에서, 취약점 탐지, 악성 콘텐츠 표시, 책임성 확보를 위해 저자 귀속은 중요한 역할을 하고 있습니다. 일반적으로 AI 대 인간 탐지는 AI를 단일 범주로 취급하지만, 우리는 동일한 계열이나 파라미터 크기를 가진 모델들 사이에서도 개별 LLM이 독특한 스타일적 특징을 남긴다는 것을 보여줍니다. 이를 위해, 우리는 20개의 대규모 언어 모델에서 생성된 50,000개의 Node.js 백엔드 프로그램으로 구성된 LLM-NodeJS 데이터셋을 소개합니다. 각 프로그램은 네 가지 변형 버전을 가지며, 이는 250,000개의 고유한 JavaScript 샘플과 두 가지 추가 표현(JSIR 및 AST)을 제공하여 다양한 연구 응용에 활용될 수 있습니다. 이 데이터셋을 사용하여, 우리는 전통적인 머신 러닝 분류기를 미세 조정된 Transformer 인코더와 비교 평가하고, 770M 파라미터 CodeT5 모델에서 디코더를 제거하고 수정된 분류 헤드를 추가한 맞춤형 아키텍처인 CodeT5-JSA를 소개합니다. 이 모델은 5개 클래스 귀속에서 95.8%, 10개 클래스에서 94.6%, 20개 클래스에서 88.5%의 정확도를 달성하며, BERT, CodeBERT, Longformer와 같은 다른 테스트 모델을 능가합니다. 우리는 분류기가 프로그램 데이터 흐름과 구조에서 더 깊은 스타일적 규칙성을 포착하며, 표면적 특징에 의존하지 않는다는 것을 입증합니다. 그 결과, 코드 변형, 주석 제거, 심각한 코드 변환 후에도 저자 귀속이 효과적으로 유지됩니다. 개방형 과학과 재현성을 지원하기 위해, 우리는 LLM-NodeJS 데이터셋, Google Colab 학습 스크립트 및 관련 자료를 GitHub에 공개합니다: https://github.com/LLM-NodeJS-dataset.
전체 슬라이드 이미지 진단은 배율 변경과 시야 간 이동을 포함한 상호작용적, 다단계 과정입니다. 최근의 병리학 기반 모델들은 강력하지만, 다음에 어떤 시야를 검사할지 결정하고 배율을 조정하며 설명 가능한 진단을 제공하는 실용적인 에이전트 시스템은 여전히 부족합니다. 이 문제의 핵심은 데이터입니다: 전문가의 경험과 암묵적 지식에 기반한, 교과서나 온라인에 기록되지 않은 임상적으로 정렬된 전문가의 시각 행동에 대한 확장 가능한 감독이 대규모 언어 모델 훈련에서 누락되어 있습니다. 우리는 AI 세션 레코더를 소개합니다. 이 도구는 표준 WSI 뷰어와 함께 작동하여 일상적인 탐색을 방해 없이 기록하고, 뷰어 로그를 표준화된 행동 명령(이산 배율에서 검사하거나 살펴보기)과 경계 상자로 변환합니다. 경량의 인간 참여 검토를 통해 AI가 작성한 근거를 병리학-CoT 데이터셋으로 변환하며, 이는 "어디를 볼 것인가"와 "왜 중요한가"를 짝지은 감독 데이터로, 기존 라벨링 시간의 약 1/6로 생성됩니다. 이 행동 데이터를 사용하여, 우리는 Pathologist-o3를 구축했습니다. 이는 두 단계의 에이전트로, 먼저 관심 영역을 제안한 다음 행동 기반 추론을 수행합니다. 위장관 림프절 전이 검출에서 84.5%의 정밀도, 100.0%의 재현율, 75.4%의 정확도를 달성하여 최첨단 OpenAI o3 모델을 능가하고 다양한 백본에서 일반화되었습니다. 우리가 아는 한, 이는 병리학 분야에서 최초의 행동 기반 에이전트 시스템 중 하나입니다. 일상적인 뷰어 로그를 확장 가능하고 전문가 검증된 감독으로 전환함으로써, 우리의 프레임워크는 에이전트 병리학을 실용적으로 만들고 인간과 정렬된, 업그레이드 가능한 임상 AI로의 길을 열었습니다.
대형 언어 모델(LLMs)은 "아인슈타인은 언제 태어났는가?"와 같은 질문에 정확히 답할 수 있지만, 아인슈타인의 삶에 대해 글을 쓸 때 동일한 날짜를 제공하지 못하는 경우가 있어, 모델이 다양한 작업 복잡도에 걸쳐 사실적 지식에 접근하는 방식에서 근본적인 불일치가 있음을 드러냅니다. 모델들은 사실적 질문-응답 벤치마크에서 인상적인 정확도를 보이지만, 단순한 질문과 복잡한 질문 간의 신뢰성 격차는 여전히 잘 이해되지 않고 있어 그들의 신뢰성을 훼손하고 있습니다. 본 연구에서는 단순한 질문과 복잡한 질문에 대한 LLMs의 답변을 비교하는 통제된 평가 프레임워크인 Short-Long Form Alignment for Factual Question Answering (SLAQ)를 소개합니다. 16개의 LLMs와 600개의 질문을 대상으로 분석한 결과, 단순 질문과 복잡 질문에 대한 답변 간의 체계적인 불일치를 발견했습니다. 또한, 위치에 따른 정확도 손실과 연속적인 정답 또는 오답이 자기 강화 패턴을 만드는 모멘텀 효과를 추가로 밝혀냈습니다. 기계적 분석을 통해, 일치하는 사실들이 모델 내부에서 중첩된 활성화를 유발하며, 기계적 유사성에 기반한 메트릭이 단순-복잡 질문 답변 일치를 최대 78%의 정확도로 예측할 수 있음을 발견했습니다. 본 연구는 질문 복잡도에 따른 사실적 일관성을 LLMs의 신뢰성의 중요한 측면으로 확립하고, 단순한 사실적 질문에 대한 우수한 성능이 더 복잡한 지식 탐색 작업에서도 신뢰성을 암시한다는 현재의 평가 관행에 도전합니다.
비디오 인비트위닝은 두 이미지 프레임 사이에 부드럽고 자연스러운 전환을 생성하여 비디오 편집 및 장편 비디오 합성에 필수적인 도구로 자리 잡고 있습니다. 이 분야의 기존 연구들은 크고 복잡하거나 정교한 동작을 생성하는 데 한계가 있습니다. 특히, 사용자 의도의 다양성을 수용하지 못하며 중간 프레임의 세부 사항에 대한 미세한 제어가 부족하여 창의적인 의도와의 불일치를 초래합니다. 이러한 격차를 메우기 위해, 우리는 MultiCOIN을 소개합니다. 이는 깊이 전환 및 레이어링, 모션 궤적, 텍스트 프롬프트, 이동 지역화를 위한 타겟 영역 등 다중 모드 제어를 허용하면서 유연성, 사용 편의성, 세밀한 비디오 보간을 위한 정밀도 사이의 균형을 달성하는 비디오 인비트위닝 프레임워크입니다. 이를 위해, 우리는 고품질의 긴 비디오를 생성하는 데 검증된 능력을 가진 Diffusion Transformer (DiT) 아키텍처를 비디오 생성 모델로 채택했습니다. DiT와 우리의 다중 모드 제어 간의 호환성을 보장하기 위해, 모든 모션 제어를 공통의 희소하고 사용자 친화적인 포인트 기반 표현으로 매핑하여 비디오/노이즈 입력으로 사용합니다. 더 나아가, 다양한 수준의 세분성과 영향력을 가진 제어의 다양성을 존중하기 위해, 콘텐츠 제어와 모션 제어를 두 개의 브랜치로 분리하여 디노이징 프로세스를 안내하기 전에 필요한 특징을 인코딩합니다. 이로 인해 모션과 콘텐츠를 위한 두 개의 생성기가 만들어집니다. 마지막으로, 우리는 모델이 다중 모드 제어를 원활하게 학습할 수 있도록 단계별 훈련 전략을 제안합니다. 광범위한 정성적 및 정량적 실험을 통해 다중 모드 제어가 더 동적이고 맞춤화 가능하며 문맥적으로 정확한 시각적 내러티브를 가능하게 함을 입증합니다.