번역이 포함된 일일 선별된 AI 연구 논문
우리는 Qwen3-Omni를 소개합니다. 이는 텍스트, 이미지, 오디오, 비디오 전 영역에서 단일 모달리티 모델 대비 성능 저하 없이 최첨단 성능을 유지하는 최초의 단일 멀티모달 모델입니다. Qwen3-Omni는 Qwen 시리즈 내 동일 규모의 단일 모달리티 모델들과 동등한 성능을 보이며, 특히 오디오 작업에서 탁월한 성과를 거둡니다. 36개의 오디오 및 오디오-비주얼 벤치마크에서 Qwen3-Omni는 32개 벤치마크에서 오픈소스 SOTA(State-of-the-Art)를 달성하고, 전체적으로 22개 벤치마크에서 SOTA를 기록하며, Gemini-2.5-Pro, Seed-ASR, GPT-4o-Transcribe와 같은 강력한 클로즈드소스 모델들을 능가합니다. Qwen3-Omni는 텍스트, 이미지, 오디오, 비디오 전 영역에 걸쳐 인지와 생성을 통합하는 Thinker-Talker MoE 아키텍처를 채택하여 유창한 텍스트와 자연스러운 실시간 음성을 생성합니다. 이 모델은 119개 언어의 텍스트 상호작용, 19개 언어의 음성 이해, 10개 언어의 음성 생성을 지원합니다. 스트리밍 합성에서 첫 패킷 지연 시간을 줄이기 위해 Talker는 멀티 코드북 방식을 사용하여 이산 음성 코덱을 자동회귀적으로 예측합니다. 이러한 코드북의 표현력을 활용하여 계산 집약적인 블록 단위 확산을 경량화된 인과적 ConvNet으로 대체함으로써 첫 코덱 프레임부터 스트리밍이 가능하도록 했습니다. 콜드 스타트 설정에서 Qwen3-Omni는 이론적으로 234ms의 종단 간 첫 패킷 지연 시간을 달성합니다. 멀티모달 추론을 더욱 강화하기 위해, 우리는 모든 모달리티의 입력에 대해 명시적으로 추론하는 Thinking 모델을 도입했습니다. 현재 연구 커뮤니티에는 범용 오디오 캡셔닝 모델이 부족한 상황을 고려하여, 우리는 Qwen3-Omni-30B-A3B를 미세 조정하여 Qwen3-Omni-30B-A3B-Captioner를 개발했습니다. 이 모델은 임의의 오디오 입력에 대해 상세하고 낮은 환각(hallucination) 수준의 캡션을 생성합니다. Qwen3-Omni-30B-A3B, Qwen3-Omni-30B-A3B-Thinking, 그리고 Qwen3-Omni-30B-A3B-Captioner는 Apache 2.0 라이선스 하에 공개되었습니다.
우리는 에이전시(Agency)를 AI 시스템이 환경과 도구와의 자율적 상호작용을 통해 능동적으로 문제를 발견하고, 가설을 수립하며, 해결책을 실행하는 자율 에이전트로서 기능하는 창발적 능력으로 정의합니다. 이 근본적인 능력은 AI 에이전시 시대의 시작을 알리는 것으로, 단순히 사고하는 것이 아니라 실제로 작업을 수행할 수 있는 AI 시스템에 대한 산업계의 긴급한 요구에 의해 주도되고 있습니다. 현재의 AI는 추론과 응답 생성에서 뛰어난 성능을 보이지만, 산업계는 작업을 실행하고 도구를 조작하며 현실 세계의 결과를 이끌어낼 수 있는 자율 에이전트를 요구하고 있습니다. 에이전트 지능이 인지 시스템과 생산적 작업자 간의 차이를 정의하는 특성이 되면서, 기계 자율성을 효율적으로 육성하는 것이 최우선 과제가 되었습니다. 현재의 접근 방식은 언어 모델링의 전통적인 스케일링 법칙을 따라 더 많은 데이터가 더 나은 에이전시를 가져온다고 가정합니다. 우리는 이 패러다임에 근본적으로 도전합니다. LIMI(Less Is More for Intelligent Agency)는 에이전시가 근본적으로 다른 개발 원칙을 따름을 보여줍니다. 협업 소프트웨어 개발 및 과학 연구 워크플로우에 대한 전략적 초점을 통해, 우리는 최소한이지만 전략적으로 선별된 자율 행동 시연에서 정교한 에이전트 지능이 창발할 수 있음을 입증합니다. 단 78개의 신중하게 설계된 훈련 샘플만을 사용하여, LIMI는 포괄적인 에이전시 벤치마크에서 73.5%를 달성하며, 최첨단 모델들을 크게 앞섭니다: Kimi-K2-Instruct(24.1%), DeepSeek-V3.1(11.9%), Qwen3-235B-A22B-Instruct(27.5%), GLM-4.5(45.1%). 가장 놀라운 점은, LIMI는 10,000개의 샘플로 훈련된 모델들보다 53.7% 더 나은 성능을 보이며, 128배 적은 샘플로 우수한 에이전트 지능을 달성했습니다. 우리의 연구 결과는 에이전시 효율성 원칙(Agency Efficiency Principle)을 확립합니다: 기계 자율성은 데이터의 풍부함이 아니라 고품질 에이전시 시연의 전략적 선별에서 창발합니다.
디퓨전 모델 기반 비디오 삽입 기술의 최근 발전은 매우 인상적입니다. 그러나 기존 방법들은 복잡한 제어 신호에 의존하면서도 주체 일관성 문제에 어려움을 겪어 실용적 적용성이 제한되고 있습니다. 본 논문에서는 마스크 없는 비디오 삽입 작업에 초점을 맞추어 데이터 부족, 주체-장면 균형, 삽입 조화라는 세 가지 주요 과제를 해결하고자 합니다. 데이터 부족 문제를 해결하기 위해, 우리는 다양한 교차 쌍 데이터를 자동으로 구성하는 새로운 데이터 파이프라인인 InsertPipe를 제안합니다. 이 데이터 파이프라인을 기반으로, 단일 및 다중 주체 참조로부터 마스크 없는 비디오 삽입을 위한 새로운 통합 프레임워크인 OmniInsert를 개발했습니다. 특히, 주체-장면 균형을 유지하기 위해, 우리는 다중 소스 조건을 명확하게 주입하는 간단하지만 효과적인 Condition-Specific Feature Injection 메커니즘을 도입하고, 모델이 주체와 소스 비디오로부터의 특징 주입을 균형 있게 조절할 수 있도록 하는 Progressive Training 전략을 제안했습니다. 동시에, 주체의 세부 외관을 개선하기 위해 Subject-Focused Loss를 설계했습니다. 삽입 조화를 더욱 강화하기 위해, 우리는 인간의 선호도를 시뮬레이션하여 모델을 최적화하는 Insertive Preference Optimization 방법론을 제안하고, 참조 과정에서 Context-Aware Rephraser 모듈을 통합하여 주체를 원본 장면에 자연스럽게 통합했습니다. 해당 분야의 벤치마크 부재 문제를 해결하기 위해, 우리는 다양한 장면과 신중하게 선별된 주체로 구성된 포괄적인 벤치마크인 InsertBench를 소개합니다. InsertBench에서의 평가 결과, OmniInsert는 최첨단의 상용 솔루션들을 능가하는 성능을 보였습니다. 코드는 공개될 예정입니다.
우리는 환경의 확장 가능한 생성, 합성 또는 실제 애플리케이션의 통합, 그리고 에이전트 오케스트레이션의 실행을 위한 연구 플랫폼인 Meta Agents Research Environments(ARE)를 소개한다. ARE는 각각 고유의 규칙, 도구, 콘텐츠, 검증기를 갖춘 복잡하고 다양한 환경을 구축하기 위한 간단한 추상화를 제공함으로써 모델 개발과 실제 배포 간의 격차를 해소하는 데 도움을 준다. 또한, 우리는 ARE 내에서 구축되고 일반적인 에이전트 능력을 측정하기 위해 설계된 벤치마크인 Gaia2를 제안한다. Gaia2는 검색과 실행을 넘어, 에이전트가 모호성과 노이즈를 처리하고, 동적 환경에 적응하며, 다른 에이전트와 협력하고, 시간적 제약 하에서 작동할 것을 요구한다. 기존 벤치마크와 달리, Gaia2는 비동기적으로 실행되며, 정적 설정에서는 보이지 않는 새로운 실패 모드를 드러낸다. 우리의 실험은 어떤 시스템도 지능 스펙트럼 전반에 걸쳐 우위를 점하지 않음을 보여준다: 더 강력한 추론은 종종 효율성의 비용을 수반하며, 예산 확장 곡선은 정체되어, 새로운 아키텍처와 적응형 컴퓨팅 전략의 필요성을 강조한다. 아마도 더 중요한 것은, ARE의 추상화는 Gaia2를 다른 환경으로 지속적으로 확장할 수 있게 하여, 커뮤니티가 자신의 도메인에 맞춘 새로운 벤치마크를 신속하게 생성할 수 있도록 한다. AI의 후반부에서, 진전은 점점 더 의미 있는 작업과 견고한 평가를 정의하여 최첨단 능력을 앞으로 나아가게 하는 데 달려 있다.
대규모 언어 모델(LLM)의 성공을 산업 검색 및 추천 시스템에 확장하려는 관심이 증가하고 있음에도 불구하고, 대부분의 기존 산업적 노력은 Transformer 아키텍처를 이식하는 데 그치고 있으며, 이는 강력한 딥러닝 추천 모델(DLRM)에 비해 점진적인 개선만을 가져옵니다. 근본적인 관점에서, LLM의 혁신은 아키텍처뿐만 아니라 두 가지 상호 보완적인 메커니즘에서 비롯됩니다: 첫째, 컨텍스트 엔지니어링은 원시 입력 쿼리를 컨텍스트 단서로 풍부하게 하여 모델의 능력을 더 잘 이끌어내고, 둘째, 다단계 추론은 중간 추론 경로를 통해 모델 출력을 반복적으로 개선합니다. 그러나 이러한 두 메커니즘과 그들이 가져올 수 있는 상당한 개선 가능성은 산업적 랭킹 시스템에서 여전히 크게 탐구되지 않고 있습니다. 이 논문에서 우리는 OnePiece를 제안합니다. OnePiece는 LLM 스타일의 컨텍스트 엔지니어링과 추론을 산업적 캐스케이드 파이프라인의 검색 및 랭킹 모델에 원활하게 통합하는 통합 프레임워크입니다. OnePiece는 순수 Transformer 백본을 기반으로 하며, 세 가지 주요 혁신을 추가로 도입합니다: (1) 구조화된 컨텍스트 엔지니어링은 상호작용 이력에 선호도와 시나리오 신호를 추가하고 이를 구조화된 토큰화된 입력 시퀀스로 통합하여 검색과 랭킹 모두에 활용합니다; (2) 블록 단위 잠재 추론은 모델에 다단계 표현 개선 기능을 제공하고 블록 크기를 통해 추론 대역폭을 확장합니다; (3) 점진적 다중 작업 학습은 사용자 피드백 체인을 활용하여 학습 중 추론 단계를 효과적으로 감독합니다. OnePiece는 Shopee의 주요 개인화 검색 시나리오에 배포되었으며, +2% 이상의 GMV/UU 및 광고 수익 +2.90% 증가를 포함한 다양한 핵심 비즈니스 지표에서 일관된 온라인 성과를 달성했습니다.
본 논문은 비디오 시간적 정립 작업에 다중모달 대형 언어 모델(MLLMs)을 적응시키는 효과를 향상시키기 위해 설계된 새로운 강화 미세 조정 프레임워크인 TempSamp-R1을 소개합니다. 우리는 Group Relative Policy Optimization(GRPO)과 같은 기존의 강화 학습 방법들이 정책 업데이트를 위해 온-정책 샘플링에 의존한다는 점을 밝혔습니다. 그러나 큰 시간적 탐색 공간을 가진 작업에서는 이러한 전략이 비효율적이고 성능이 제한적이며, 종종 시간적으로 정확한 해결책을 찾지 못하는 문제가 있습니다. 이러한 한계를 해결하기 위해 TempSamp-R1은 오프-정책 감독으로서의 실측 주석을 활용하여 시간적으로 정밀한 지침을 제공함으로써 온-정책 해결책의 희소성과 불일치를 효과적으로 보완합니다. 또한, 학습을 안정화하고 보상 기반 업데이트의 분산을 줄이기 위해 TempSamp-R1은 비선형 소프트 이점 계산 방법을 제공하며, 이는 비대칭 변환을 통해 보상 피드백을 동적으로 재구성합니다. 하이브리드 Chain-of-Thought(CoT) 학습 패러다임을 사용함으로써, TempSamp-R1은 CoT와 비 CoT 추론 모드를 모두 지원하는 단일 통합 모델을 최적화하여 다양한 추론 복잡성을 가진 질의를 효율적으로 처리할 수 있게 합니다. 실험 결과는 TempSamp-R1이 GRPO 기반의 베이스라인을 능가하며, 벤치마크 데이터셋에서 새로운 최첨단 성능을 달성함을 보여줍니다: Charades-STA(R1@0.7: 52.9%, +2.7%), ActivityNet Captions(R1@0.5: 56.0%, +5.3%), QVHighlights(mAP: 30.0%, +3.0%). 또한, TempSamp-R1은 제한된 데이터 하에서도 강력한 소수 샷 일반화 능력을 보여줍니다. 코드: https://github.com/HVision-NKU/TempSamp-R1
본 논문에서는 거친 기하학적 구조, 카메라 궤적, 그리고 참조 이미지로부터 고품질의 3D 장면 비디오를 합성하기 위한 새로운 프레임워크인 VideoFrom3D를 제안합니다. 우리의 접근 방식은 3D 그래픽 디자인 워크플로를 간소화하여 유연한 디자인 탐색과 신속한 결과물 생산을 가능하게 합니다. 거친 기하학적 구조로부터 비디오를 합성하는 직관적인 방법은 비디오 확산 모델을 기하학적 구조에 기반하여 조건화하는 것일 수 있습니다. 그러나 기존의 비디오 확산 모델은 시각적 품질, 움직임, 그리고 시간적 일관성을 동시에 모델링하는 데 어려움을 겪기 때문에 복잡한 장면에 대해 고품질의 결과를 생성하는 데 한계가 있습니다. 이를 해결하기 위해, 우리는 이미지와 비디오 확산 모델의 상호 보완적인 강점을 활용하는 생성 프레임워크를 제안합니다. 구체적으로, 우리의 프레임워크는 Sparse Anchor-view Generation (SAG) 모듈과 Geometry-guided Generative Inbetweening (GGI) 모듈로 구성됩니다. SAG 모듈은 Sparse Appearance-guided Sampling을 통해 이미지 확산 모델을 사용하여 고품질의 크로스 뷰 일관성을 가진 앵커 뷰를 생성합니다. 이러한 앵커 뷰를 기반으로, GGI 모듈은 플로우 기반 카메라 제어와 구조적 가이던스를 통해 비디오 확산 모델을 사용하여 중간 프레임을 충실하게 보간합니다. 특히, 두 모듈 모두 3D 장면 모델과 자연 이미지의 페어링된 데이터셋 없이도 작동하며, 이러한 데이터셋은 얻기가 매우 어렵습니다. 포괄적인 실험을 통해 우리의 방법이 다양한 도전적인 시나리오에서 고품질의 스타일 일관성을 가진 장면 비디오를 생성하며, 단순하고 확장된 베이스라인을 능가함을 보여줍니다.
온라인 강화 학습(RL)은 사후 학습 언어 모델의 핵심이 되어왔지만, 확산 모델로의 확장은 다루기 어려운 가능성 때문에 여전히 어려운 과제로 남아 있습니다. 최근 연구들은 역 샘플링 과정을 이산화하여 GRPO 스타일의 학습을 가능하게 했지만, 이는 솔버 제약, 순방향-역방향 불일치, 그리고 분류자 없는 지도(CFG)와의 복잡한 통합과 같은 근본적인 단점을 그대로 물려받았습니다. 우리는 순방향 과정에서 직접 확산 모델을 최적화하는 새로운 온라인 RL 패러다임인 Diffusion Negative-aware FineTuning(DiffusionNFT)을 소개합니다. DiffusionNFT는 긍정적 생성과 부정적 생성을 대조하여 암묵적인 정책 개선 방향을 정의하며, 강화 신호를 지도 학습 목표에 자연스럽게 통합합니다. 이 공식화는 임의의 블랙박스 솔버를 사용한 학습을 가능하게 하고, 가능성 추정의 필요성을 없애며, 정책 최적화를 위해 샘플링 궤적 대신 깨끗한 이미지만 필요로 합니다. DiffusionNFT는 FlowGRPO와의 직접 비교에서 최대 25배 더 효율적이며, CFG를 사용하지 않습니다. 예를 들어, DiffusionNFT는 1,000단계 내에서 GenEval 점수를 0.24에서 0.98로 향상시키는 반면, FlowGRPO는 5,000단계 이상과 추가 CFG 사용으로 0.95를 달성합니다. 다중 보상 모델을 활용함으로써, DiffusionNFT는 SD3.5-Medium의 성능을 모든 벤치마크에서 크게 향상시킵니다.
우리는 SWE-BENCH [25]의 모범 사례를 기반으로 하지만, SWE-BENCH의 범위를 넘어서는 현실적이고 복잡한 기업 수준의 문제를 명시적으로 포착하도록 설계된 훨씬 더 도전적인 벤치마크인 SWE-Bench Pro를 소개합니다. SWE-BENCH PRO는 비즈니스 애플리케이션, B2B 서비스, 개발자 도구 등 다양한 분야의 41개의 활발히 유지되는 저장소에서 수집된 1,865개의 문제로 구성되어 있습니다. 이 벤치마크는 11개의 저장소에서 수집된 문제에 대해 공개적으로 접근 가능한 공개 세트, 12개의 저장소로 구성된 보류 세트, 그리고 초기 단계 스타트업과의 공식 파트너십 계약이 있는 18개의 독점 저장소로 구성된 상업용 세트로 구분됩니다. 보류 세트와 상업용 세트의 문제는 공개적으로 접근할 수 없지만, 상업용 세트에 대한 결과는 공개합니다. 우리의 벤치마크는 전문 소프트웨어 엔지니어가 완료하는 데 몇 시간에서 며칠이 걸릴 수 있는 장기적인 작업을 특징으로 하며, 종종 여러 파일에 걸친 패치와 상당한 코드 수정이 필요합니다. 모든 작업은 인간이 검증하고 해결 가능성을 보장하기 위해 충분한 컨텍스트로 보강되었습니다. 널리 사용되는 코딩 모델을 통합된 스캐폴드 하에서 평가한 결과, SWE-Bench PRO에서의 성능은 25%(Pass@1) 미만으로 나타났으며, GPT-5가 현재까지 가장 높은 점수인 23.3%를 달성했습니다. 이러한 한계를 더 잘 이해하기 위해, 수집된 에이전트 궤적에서 관찰된 실패 모드를 클러스터링하여 현재 모델이 보이는 오류 패턴을 더 명확하게 특성화했습니다. 전반적으로, SWE-BENCH PRO는 현실 세계의 소프트웨어 개발의 복잡성과 다양성을 더 충실히 포착하며, 전문가 수준에서 진정한 자율 소프트웨어 엔지니어링 에이전트를 추구하는 데 기여합니다.
최근 대규모 언어 모델(LLM)의 발전으로 컨텍스트 길이가 확장되어, 어시스턴트가 일관적이고 개인화된 응답을 위해 긴 대화 기록을 유지할 수 있게 되었습니다. 그러나 이러한 능력은 키-값(KV) 캐싱에 의존하며, 이 캐시의 메모리는 대화 길이에 따라 선형적으로 증가하여 엄격한 자원 제약 하에서 빠르게 지배적이 됩니다. 이러한 오버헤드를 줄이기 위한 활발한 연구 분야는 KV 캐시 압축으로, 캐시 크기를 제한하면서도 정확도를 유지하는 것을 목표로 합니다. 그러나 기존 방법은 두 가지 주요 한계에 직면해 있습니다: (i) 전체 컨텍스트 프리필 이후 항목을 제거하면 무한정의 피크 메모리가 발생하고, (ii) 쿼리 의존적 제거는 캐시를 단일 쿼리로 좁히기 때문에 다중 턴 대화에서 정확도가 저하됩니다. 우리는 고정 메모리 예산 하에서 장기 대화형 질문 응답(LongConvQA)을 위한 훈련이 필요 없는 KV 캐시 관리 프레임워크인 EpiCache를 소개합니다. EpiCache는 블록 단위 프리필을 통해 캐시 증가를 제한하고, 에피소드별 KV 압축을 통해 주제 관련 컨텍스트를 보존합니다. 이는 대화 기록을 일관된 에피소드로 클러스터링하고 에피소드별 KV 캐시 제거를 적용합니다. 또한, 각 레이어의 제거 민감도를 측정하고 메모리 예산을 레이어 간에 적응적으로 배분하는 전략을 설계했습니다. 세 가지 LongConvQA 벤치마크에서 EpiCache는 최근 기준선 대비 최대 40%의 정확도 향상을 보였으며, 4-6배 압축 하에서 거의 완전한 KV 정확도를 유지하고, 지연 시간과 메모리를 각각 최대 2.4배와 3.5배 줄여 엄격한 자원 제약 하에서도 효율적인 다중 턴 상호작용을 가능하게 합니다.
최근 강화학습(RL)의 발전으로 대형 언어 모델(LLM)의 추론 능력이 향상되었지만, 다중모달 LLM(MLLM)에 미치는 영향은 제한적입니다. 특히 기하학적 추론과 같은 시각 중심 작업에서 MLLM은 빈번한 환각 현상을 보이며, 이는 부정확한 추론으로 이어집니다. 우리는 이를 MLLM의 지각적 병목 현상으로 보고, 이로 인해 추론 훈련의 효과가 제한된다고 분석합니다. 이를 정량화하기 위해 기본적인 기하학적 개념과 공간 관계를 대상으로 한 Geo-Perception Question-Answering(GeoPQA) 벤치마크를 설계했습니다. GeoPQA 실험 결과, MLLM의 시각적 지각 능력이 심각하게 부족하며, 이는 효과적인 훈련을 위한 RL 보상 신호를 제한하는 것으로 나타났습니다. 이러한 병목 현상을 해결하기 위해, 우리는 두 단계의 RL 훈련 프레임워크를 제안합니다. 첫 번째 단계에서는 기하학적 구조에 대한 시각적 지각 능력을 강화하고, 두 번째 단계에서는 추론 능력을 키우는 방식입니다. Qwen2.5-VL-3B-Instruct에 적용한 결과, 직접적인 추론 훈련 방식에 비해 기하학적 추론 능력이 9.7%, 기하학적 문제 해결 능력이 9.1% 향상되었습니다. 또한, 이 방법은 도형 이해와 같은 다른 시각 중심 영역에서도 일반화 가능성을 보여주며, 효과적인 MLLM 추론을 위한 지각적 기반의 중요성을 강조합니다.
본 논문은 로봇 매니퓰레이션을 위한 고도로 유연하고 인간형에 가까운 새로운 병렬형 손목인 ByteWrist를 소개한다. ByteWrist는 아치형 끝단 링키지를 통합한 컴팩트한 3단계 병렬 구동 메커니즘을 통해 기존의 직렬형 및 병렬형 손목들이 좁은 공간 작업에서 겪는 한계를 해결한다. 이 설계는 정밀한 RPY(Roll-Pitch-Yaw) 운동을 달성하면서도 탁월한 컴팩트함을 유지하여, 가정 서비스, 의료 지원, 정밀 조립과 같은 복잡한 비정형 환경에 특히 적합하다. 주요 혁신 사항은 다음과 같다: (1) 부피를 최소화하면서 독립적인 다자유도 제어를 가능하게 하는 중첩형 3단계 모터 구동 링키지, (2) 힘 전달을 최적화하고 운동 범위를 확장하는 아치형 끝단 링키지, (3) 유연성을 저해하지 않으면서 구조적 강성을 강화하는 구형 조인트 역할을 하는 중심 지지 볼. 또한, 정밀한 제어를 위한 전방/역기구학 및 수치적 야코비안 솔루션을 포함한 포괄적인 기구학적 모델링을 제시한다. 실험적으로, ByteWrist는 좁은 공간에서의 기동성 및 양팔 협업 매니퓰레이션 작업에서 강력한 성능을 보이며 Kinova 기반 시스템을 능가한다. 결과는 전통적인 설계 대비 컴팩트함, 효율성, 강성에서의 상당한 개선을 나타내며, ByteWrist가 제한된 환경에서의 차세대 로봇 매니퓰레이션을 위한 유망한 솔루션임을 입증한다.
우리는 현재의 대규모 추론 모델(LRMs)에 대해 어느 정도 오염 없는 중간 규모의 평가를 수행하고 몇 가지 예비 결과를 제시합니다. 또한 시각적 단서로부터의 추론 능력을 테스트하기 위한 비전 언어 모델 평가 벤치마크인 ROME을 공개합니다. 벤치마크, 평가 데이터 및 기타 업데이트에 대한 링크는 다음 웹사이트에 첨부되어 있습니다: https://flageval-baai.github.io/LRM-Eval/
대규모 언어 모델(LLM)은 사전 학습 과정에서 상당한 세계 지식을 습득하며, 이는 지도 미세 조정(SFT)과 같은 사후 학습 기법을 통해 더욱 구체화됩니다. 그러나 SFT가 모델의 지식에 미치는 영향은 아직 충분히 탐구되지 않아, 미세 조정된 모델에서 지식 변화 행동을 제어하는 능력이 제한적입니다. 이러한 격차를 해결하기 위해, 우리는 LLaMA-2와 LLaMA-3 계열의 다섯 가지 LLM에 대해 폐쇄형 질문 응답(CBQA) 성능을 평가했습니다. 놀랍게도, 1,920개의 샘플로 미세 조정된 모델은 단 240개의 샘플로 미세 조정된 모델보다 최대 14% 더 낮은 성능을 보였습니다. 또한, 미세 조정 데이터의 지식 숙련도 수준을 달리하면 12% 이상의 성능 변동이 발생했습니다. 이러한 효과를 조사하기 위해, 우리는 토큰 및 매개변수 수준에서 모델 행동을 분석했습니다. 분석 결과, SFT 동안 최대 90%의 매개변수 업데이트가 지식 향상에 기여하지 않는 것으로 나타났습니다. 이러한 업데이트를 복원하면 미세 조정 데이터의 특성에 따라 CBQA 작업에서 성능을 개선할 수 있습니다. 이러한 통찰은 모델 지식을 보다 효과적으로 강화하는 미세 조정 전략 개발에 실질적인 지침을 제공합니다.
대형 언어 모델(LLM) 개발자들은 모델이 정직하고 유용하며 무해하도록 만드는 것을 목표로 한다. 그러나 악의적인 요청에 직면했을 때 모델은 유용성을 희생하면서 거부하도록 훈련된다. 우리는 최첨단 LLM들이 다른 선택지가 있음에도 불구하고 새로운 전략으로서 부정직함을 선호할 수 있음을 보여준다. 영향을 받은 모델들은 유해한 요청에 대해 실제로는 미묘하게 잘못되었거나 무해한 듯 들리는 출력으로 응답한다. 이러한 행동은 동일한 모델 계열 내에서도 예측하기 어려운 변이를 보이며 나타난다. 우리는 이러한 속임수 성향에 대한 명확한 원인을 찾지 못했지만, 더 능력 있는 모델들이 이 전략을 더 잘 실행할 수 있음을 보여준다. 전략적 부정직함은 이미 안전성 평가에 실질적인 영향을 미치고 있으며, 우리가 테스트한 모든 출력 기반 모니터를 속여 벤치마크 점수를 신뢰할 수 없게 만드는 것으로 나타났다. 더 나아가, 전략적 부정직함은 악의적인 사용자에게 허니팟처럼 작용하여 기존의 탈옥 공격을 눈에 띄게 모호하게 만든다. 출력 모니터가 실패하는 동안, 우리는 내부 활성화에 대한 선형 탐침을 사용하여 전략적 부정직함을 신뢰할 수 있게 탐지할 수 있음을 보여준다. 우리는 검증 가능한 결과를 가진 데이터셋에서 탐침을 검증하고, 그 특징들을 스티어링 벡터로 사용함으로써 이를 확인한다. 전반적으로, 우리는 전략적 부정직함을 LLM의 정렬이 특히 유용성과 무해성이 충돌할 때 통제하기 어려운 더 넓은 문제의 구체적인 예로 간주한다.
대규모 언어 모델(LLM)의 효율적인 배포에 대한 수요가 증가하면서, 추론 비용을 줄이는 양자화(quantization)와 훈련 오버헤드를 낮추는 파라미터 효율적 미세 조정(PEFT)에 대한 관심이 높아졌습니다. 이는 정확하면서도 효율적인 양자화 모델을 생산하기 위한 양자화 인지 PEFT(quantization-aware PEFT)의 개발을 촉진했습니다. 이러한 환경에서, 미세 조정 전에 양자화 오류를 줄이는 것은 높은 모델 정확도를 달성하는 데 중요합니다. 그러나 기존의 저순위 적응(low-rank adaptation)에 의존하는 방법들은 제한된 표현 능력으로 인해 어려움을 겪고 있습니다. 최근 푸리에 관련 변환(Fourier-related transform, FT) 기반 어댑터는 저순위 어댑터보다 더 큰 표현력을 제공하지만, 이를 양자화 모델에 직접 통합하면 오류 감소가 비효율적이고 계산 오버헤드가 증가하는 문제가 발생합니다. 이러한 한계를 극복하기 위해, 우리는 월시-해머드 변환(Walsh-Hadamard Transform, WHT)을 변환 커널로 사용하고, 적응형 파라미터 선택 및 값 정제를 포함한 새로운 어댑터 초기화 방식을 도입한 QWHA 방법을 제안합니다. QWHA는 양자화 오류를 효과적으로 완화하면서 미세 조정을 용이하게 하며, 그 설계는 계산 비용을 상당히 줄입니다. 실험 결과는 QWHA가 저비트 양자화 정확도에서 기준선을 지속적으로 능가하고, 기존 FT 기반 어댑터 대비 상당한 훈련 속도 향상을 달성함을 보여줍니다. 코드는 https://github.com/vantaa89/qwha에서 확인할 수 있습니다.
그래픽 사용자 인터페이스(GUI)는 인간-컴퓨터 상호작용의 주요 매체이지만, 시각적 요소의 복잡성, 동적 환경, 그리고 다단계 추론의 필요성으로 인해 GUI 상호작용의 자동화는 여전히 어려운 과제로 남아 있습니다. 기존의 시각-언어 모델(VLM) 기반 방법들은 제한된 해상도, 도메인 불일치, 그리고 불충분한 순차적 의사결정 능력으로 인해 한계를 보입니다. 이러한 문제를 해결하기 위해, 우리는 광범위한 웹 및 컴퓨터 시스템 데이터로 사전 학습된 다중 모달 기반 모델을 기반으로 한 강력한 GUI 에이전트인 Mano를 제안합니다. 우리의 접근 방식은 고해상도 데이터 생성을 위한 새로운 시뮬레이션 환경, 세 단계의 학습 파이프라인(지도 미세 조정, 오프라인 강화 학습, 그리고 온라인 강화 학습), 그리고 오류 복구를 위한 검증 모듈을 통합합니다. Mano는 Mind2Web 및 OSWorld를 포함한 여러 GUI 벤치마크에서 최첨단 성능을 보이며, 성공률과 운영 정확도에서 상당한 개선을 달성합니다. 우리의 연구는 실용적인 GUI 에이전트 배치를 위해 강화 학습과 VLM의 효과적인 통합에 대한 새로운 통찰을 제공하며, 도메인 특화 데이터, 반복적 학습, 그리고 전체적인 보상 설계의 중요성을 강조합니다.
우리는 Synthetic Bootstrapped Pretraining(SBP)을 소개합니다. SBP는 언어 모델(LM)을 사전 학습하는 절차로, 먼저 사전 학습 데이터셋에서 문서 간의 관계를 모델링한 다음, 이를 활용하여 방대한 새로운 코퍼스를 합성하여 공동 학습을 수행합니다. 표준 사전 학습은 LM이 단일 문서 내 토큰 간의 인과적 상관관계를 학습하도록 설계되었지만, 잠재적으로 더 나은 성능을 이끌 수 있는 풍부하고 학습 가능한 문서 간 상관관계를 효율적으로 모델링하도록 설계되지는 않았습니다. 우리는 SBP를 검증하기 위해 계산 자원을 맞춘 사전 학습 설정을 설계하고, 최대 1조 개의 토큰을 사용하여 30억 개의 파라미터를 가진 모델을 처음부터 사전 학습했습니다. 그 결과, SBP는 강력한 반복 기반 베이스라인을 지속적으로 개선하며, 20배 더 많은 고유 데이터에 접근할 수 있는 오라클 상한선이 달성할 수 있는 성능 향상의 상당 부분을 제공하는 것으로 나타났습니다. 정성적 분석에 따르면, 합성된 문서는 단순한 패러프레이즈를 넘어서서, SBP가 먼저 시드 자료에서 핵심 개념을 추상화한 다음 그 위에 새로운 서사를 구축하는 것으로 나타났습니다. 강력한 실험적 성능 외에도, SBP는 자연스러운 베이지안 해석을 허용합니다: 합성기는 관련 문서 간에 공유되는 잠재 개념을 추상화하는 방법을 암묵적으로 학습합니다.
범용 멀티모달 임베딩 모델은 쿼리와 후보 간의 의미적 관련성을 포착하는 데 큰 성공을 거두었습니다. 그러나 현재의 방법들은 쿼리와 후보를 단일 벡터로 압축하여 세부 정보의 표현력을 제한하거나, 다중 벡터 검색에 비용이 너무 많이 드는 수많은 벡터를 생성하는 한계가 있습니다. 본 연구에서는 멀티모달 임베딩이 대규모로 구성되고 상호작용되는 방식을 재고하는 새로운 프레임워크인 MetaEmbed를 소개합니다. 학습 과정에서 고정된 수의 학습 가능한 메타 토큰이 입력 시퀀스에 추가됩니다. 테스트 시, 이들의 최종 계층에서 문맥화된 표현은 간결하면서도 표현력 있는 다중 벡터 임베딩으로 기능합니다. 제안된 Matryoshka 다중 벡터 검색 학습을 통해 MetaEmbed는 여러 벡터에 걸쳐 세분화된 정보를 조직하는 방법을 학습합니다. 결과적으로, 사용자가 인덱싱 및 검색 상호작용에 사용할 토큰 수를 선택하여 검색 품질과 효율성 요구 사항 간의 균형을 맞출 수 있는 멀티모달 검색의 테스트 시 스케일링이 가능해집니다. Massive Multimodal Embedding Benchmark(MMEB)와 Visual Document Retrieval Benchmark(ViDoRe)에 대한 광범위한 평가를 통해 MetaEmbed가 320억 개의 파라미터를 가진 모델에 대해 견고하게 확장되면서도 최첨단 검색 성능을 달성함을 확인했습니다.
학습 없이 동영상 객체 편집을 수행하는 것은 객체 삽입, 교체, 삭제를 포함한 정밀한 객체 수준 조작을 목표로 합니다. 그러나 이러한 접근법은 충실도와 시간적 일관성을 유지하는 데 있어 상당한 어려움에 직면해 있습니다. 기존 방법들은 주로 U-Net 아키텍처를 위해 설계되었으며, 두 가지 주요 한계를 가지고 있습니다: 1차 솔버로 인한 부정확한 역변환과, 원시적인 "하드" 특징 교체로 인한 문맥적 충돌입니다. 이러한 문제는 Diffusion Transformer(DiT)에서 더욱 도전적인데, 기존의 레이어 선택 휴리스틱이 적합하지 않아 효과적인 가이던스를 적용하기 어렵기 때문입니다. 이러한 한계를 해결하기 위해, 우리는 DiT 기반 동영상 객체 편집을 위한 새로운 학습 없는 프레임워크인 ContextFlow를 제안합니다. 구체적으로, 우리는 먼저 고차 Rectified Flow 솔버를 사용하여 견고한 편집 기반을 구축합니다. 우리 프레임워크의 핵심은 Adaptive Context Enrichment(무엇을 편집할지 지정)으로, 문맥적 충돌을 해결하는 메커니즘입니다. 이는 특징을 교체하는 대신, 병렬 재구성 및 편집 경로에서 Key-Value 쌍을 연결하여 self-attention 문맥을 풍부하게 함으로써 모델이 정보를 동적으로 융합할 수 있도록 합니다. 또한, 이러한 풍부화를 어디에 적용할지(어디를 편집할지 지정) 결정하기 위해, 우리는 작업별 핵심 레이어를 식별하기 위한 체계적이고 데이터 기반의 분석을 제안합니다. 새로운 Guidance Responsiveness Metric을 기반으로, 우리의 방법은 삽입, 교체 등 다양한 작업에 대해 가장 영향력 있는 DiT 블록을 정확히 찾아내어, 표적화된 고효율 가이던스를 가능하게 합니다. 광범위한 실험 결과, ContextFlow는 기존의 학습 없는 방법들을 크게 능가하며, 심지어 여러 최첨단 학습 기반 접근법을 뛰어넘는, 시간적으로 일관되고 고충실도의 결과를 제공함을 보여줍니다.
대규모 언어 모델(LLMs)의 광범위한 채택은 사실적으로 부정확하지만 그럴듯한 정보를 생성하는 환각(hallucination) 현상으로 인해 제한을 받아왔습니다. 검색 증강 생성(Retrieval-Augmented Generation, RAG) 시스템은 외부 지식을 기반으로 응답을 근거지어 이 문제를 해결하려고 시도하지만, 특히 터키어와 같은 형태학적으로 복잡하고 자원이 부족한 언어의 경우 환각 현상은 여전히 지속적인 과제로 남아 있습니다. 본 논문은 터키어 RAG 애플리케이션을 위해 특별히 설계된 최초의 환각 탐지 모델 세트인 Turk-LettuceDetect를 소개합니다. LettuceDetect 프레임워크를 기반으로, 우리는 환각 탐지를 토큰 수준의 분류 작업으로 공식화하고 세 가지 독특한 인코더 아키텍처를 미세 조정했습니다: 터키어 특화 ModernBERT, TurkEmbed4STS, 그리고 다국어 EuroBERT입니다. 이 모델들은 질문 응답, 데이터-텍스트 생성, 요약 작업을 포함한 17,790개의 인스턴스로 구성된 RAGTruth 벤치마크 데이터셋의 기계 번역 버전으로 학습되었습니다. 실험 결과, ModernBERT 기반 모델은 전체 테스트 세트에서 0.7266의 F1 점수를 달성했으며, 특히 구조화된 작업에서 강력한 성능을 보였습니다. 이 모델들은 최대 8,192 토큰까지의 긴 문맥을 지원하면서도 계산 효율성을 유지하여 실시간 배포에 적합합니다. 비교 분석 결과, 최신 LLMs는 높은 재현율(recall)을 보이지만 환각된 내용을 과도하게 생성함으로써 정밀도(precision)가 낮아, 전문화된 탐지 메커니즘의 필요성을 강조합니다. 우리의 모델과 번역된 데이터셋을 공개함으로써, 이 연구는 다국어 NLP에서의 중요한 격차를 해결하고 터키어 및 기타 언어를 위한 더 신뢰할 수 있는 AI 애플리케이션 개발의 기반을 마련합니다.
크로스 어텐션(cross-attention)은 음성-텍스트(S2T) 처리를 포함한 다양한 분야에서 널리 사용되는 인코더-디코더 아키텍처의 핵심 메커니즘입니다. 크로스 어텐션 점수는 입력 음성 표현과 생성된 텍스트 간의 의존성을 반영한다는 가정 하에, 타임스탬프 추정 및 오디오-텍스트 정렬과 같은 다양한 다운스트림 작업에 재사용되어 왔습니다. 더 넓은 자연어 처리(NLP) 문헌에서 어텐션 메커니즘의 설명력에 대한 논쟁이 지속되어 왔음에도 불구하고, 이러한 가정은 음성 도메인 내에서 크게 탐구되지 않았습니다. 이러한 격차를 해결하기 위해, 우리는 크로스 어텐션 점수를 특성 귀속(feature attribution)에서 도출된 입력 중요도 맵(saliency map)과 비교하여 S2T 모델에서의 설명력을 평가합니다. 우리의 분석은 단일 언어 및 다국어, 단일 작업 및 다중 작업 모델을 다양한 규모로 포괄하며, 어텐션 점수가 특히 헤드와 레이어를 통합할 때 중요도 기반 설명과 중간에서 강한 수준으로 일치함을 보여줍니다. 그러나 크로스 어텐션은 입력 관련성의 약 50%만 포착하며, 최상의 경우에도 디코더가 인코더의 표현에 주의를 기울이는 방식을 부분적으로만 반영합니다. 이는 중요도의 52-75%만을 설명합니다. 이러한 발견들은 크로스 어텐션을 설명적 프록시로 해석하는 데 있어 근본적인 한계를 드러내며, S2T 모델의 예측을 이끄는 요인에 대한 유익하지만 불완전한 시각을 제공함을 시사합니다.
대규모 추천 모델로의 확장은 가장 널리 논의되는 주제 중 하나가 되었습니다. 최근 연구들은 임베딩 차원 확장을 넘어선 구성 요소들에 초점을 맞추고 있는데, 이는 임베딩 확장이 성능 저하를 초래할 수 있다고 여겨지기 때문입니다. 비록 임베딩에 대한 몇 가지 초기 관찰이 있었지만, 그 확장 불가능성의 근본 원인은 여전히 불분명합니다. 또한, 다양한 유형의 모델과 데이터셋에서 성능 저하가 발생하는지 여부는 아직 탐구되지 않은 영역입니다. 임베딩 차원이 성능에 미치는 영향을 이해하기 위해, 우리는 다양한 희소성 수준과 규모를 가진 10개의 데이터셋과 4개의 대표적인 고전적 아키텍처를 사용하여 대규모 실험을 수행했습니다. 우리는 놀랍게도 두 가지 새로운 현상, 즉 이중 피크(double-peak)와 로그(logarithmic) 현상을 관찰했습니다. 전자의 경우, 임베딩 차원이 증가함에 따라 성능이 처음에는 향상되다가 감소하고, 다시 상승한 후 최종적으로 하락하는 패턴을 보였습니다. 후자의 경우, 완벽한 로그 곡선을 나타냈습니다. 우리의 기여는 세 가지입니다. 첫째, 협업 필터링 모델을 확장할 때 두 가지 새로운 현상을 발견했습니다. 둘째, 이중 피크 현상의 근본 원인을 이해했습니다. 마지막으로, 협업 필터링 모델의 노이즈 강건성을 이론적으로 분석했으며, 그 결과가 실험적 관찰과 일치함을 확인했습니다.
최근 대규모 멀티모달 모델(LMMs)의 발전은 일반적인 목적의 멀티모달 어시스턴트로서의 놀라운 성공을 보여주었으며, 특히 이미지와 비디오-언어 이해에 대한 종합적인 접근에 초점을 맞추고 있습니다. 반면, 시각 신호와 언어 의미 간의 픽셀 수준 정렬을 실현해야 하는 세밀한 픽셀 수준 이해 능력의 확장에는 상대적으로 적은 관심이 주어졌습니다. 일부 선행 연구에서는 LMMs를 영역 수준 캡셔닝 및 참조 표현 분할과 같은 관련 작업에 적용했습니다. 그러나 이러한 모델들은 참조 또는 분할 작업을 독립적으로 수행하는 데 제한되어 있으며, 이러한 세밀한 인식 능력을 시각적 추론에 통합하지 못했습니다. 이러한 격차를 해소하기 위해, 우리는 시각적 프롬프트 입력을 유연하게 이해하고 마스크 기반 응답을 생성할 수 있는 대규모 멀티모달 모델인 UniPixel을 제안합니다. 우리의 모델은 픽셀 수준 인식과 일반적인 시각 이해 능력을 원활하게 통합함으로써 차별화됩니다. 구체적으로, UniPixel은 시각적 프롬프트를 처리하고 요청에 따라 관련 마스크를 생성하며, 추론 과정에서 이러한 중간 포인터를 조건으로 하여 후속 추론을 수행함으로써 세밀한 픽셀 수준 추론을 가능하게 합니다. 우리의 접근 방식의 효과는 픽셀 수준 참조/분할 및 이미지/비디오에서의 객체 중심 이해를 포함한 다양한 작업에 걸친 10개의 벤치마크에서 검증되었습니다. 또한 참조, 분할 및 질문 응답을 동시에 요구하는 새로운 PixelQA 작업을 설계하여 우리 방법의 유연성을 검증했습니다.
우리는 대규모 언어 모델(LLMs)의 기초적인 기호 추론 능력을 발전시키기 위해 설계된 새로운 확장 가능한 환경인 'Reasoning Core'를 소개한다. 이 환경은 검증 가능한 보상이 있는 강화 학습(RLVR)을 위한 것으로, 기존의 게임이나 고립된 퍼즐에 초점을 맞춘 벤치마크와는 달리 PDDL 계획, 일차 논리, 문맥 자유 문법 파싱, 인과 관계 추론, 시스템 방정식 풀이 등 핵심 형식적 영역에 걸쳐 절차적으로 문제를 생성한다. 이 환경은 고도의 일반성 문제 분포, 외부 도구를 통한 검증, 지속적인 난이도 제어라는 핵심 설계 원칙에 기반을 두고 있어, 사실상 무한한 새로운 훈련 인스턴스를 제공한다. 최첨단 LLMs를 이용한 초기 제로샷 평가 결과, Reasoning Core의 과제들이 상당히 어려운 것으로 확인되어, 향후 모델의 추론 능력을 향상시키기 위한 유망한 자원으로 자리매김할 것으로 기대된다.
현재 최첨단 자율주행 차량은 도로상의 근접한 대형 물체에 의해 로컬 센서가 가려지는 상황에서 안전 위험에 직면할 수 있습니다. 이러한 문제를 해결하기 위해 차량 간 협력 자율주행(V2V)이 제안되었으며, 최근 도입된 협력 자율주행 프레임워크는 협력 인식 및 계획 프로세스를 통합하기 위해 다중모드 대형 언어 모델(MLLM)을 접목한 방식을 추가로 채택했습니다. 그러나 MLLM에 그래프 오브 생각(Graph-of-Thoughts) 추론을 적용할 경우의 잠재적 이점에도 불구하고, 이 아이디어는 기존의 협력 자율주행 연구에서 고려되지 않았습니다. 본 논문에서는 MLLM 기반 협력 자율주행을 위해 특별히 설계된 새로운 그래프 오브 생각 프레임워크를 제안합니다. 우리의 그래프 오브 생각은 가려짐 인식 인식(occlusion-aware perception) 및 계획 인식 예측(planning-aware prediction)이라는 새로운 아이디어를 포함합니다. 또한 협력 주행 그래프 오브 생각을 학습하고 테스트하기 위해 V2V-GoT-QA 데이터셋을 구축하고 V2V-GoT 모델을 개발했습니다. 실험 결과, 우리의 방법은 협력 인식, 예측 및 계획 작업에서 다른 베이스라인을 능가하는 성능을 보여줍니다.
대형 언어 모델(LLMs)의 안전성과 정렬은 그들의 책임 있는 배포에 있어 매우 중요하다. 현재의 평가 방법은 주로 노골적으로 유해한 출력을 식별하고 방지하는 데 초점을 맞추고 있다. 그러나 이러한 방법들은 종종 더 교묘한 실패 모드, 즉 악의적이거나 기만적인 내부 추론을 수행하면서도 겉보기에는 무해한 출력을 생성하는 모델들을 다루지 못한다. 이러한 취약점은 정교한 시스템 프롬프트 주입에 의해 종종 유발되며, 이는 모델이 기존의 안전 필터를 우회할 수 있게 하여 상당히 탐구되지 않은 위험을 초래한다. 이러한 격차를 해결하기 위해, 우리는 모델의 내부 추론 과정과 최종 출력 간의 불일치를 평가하기 위해 설계된 새로운 데이터셋인 기만적 추론 노출 스위트(D-REX)를 소개한다. D-REX는 참가자들이 이러한 기만적 행동을 유도하기 위해 적대적 시스템 프롬프트를 제작한 경쟁적인 레드 팀 연습을 통해 구축되었다. D-REX의 각 샘플은 적대적 시스템 프롬프트, 최종 사용자의 테스트 쿼리, 모델의 겉보기에는 무해한 응답, 그리고 결정적으로 모델의 내부 사고 사슬을 포함하며, 이는 내재된 악의적 의도를 드러낸다. 우리의 벤치마크는 기만적 정렬 탐지라는 새로운 필수 평가 과제를 가능하게 한다. 우리는 D-REX가 기존 모델과 안전 메커니즘에 상당한 도전을 제시하며, LLMs의 최종 출력뿐만 아니라 그들의 내부 과정을 면밀히 검토하는 새로운 기술의 필요성을 강조한다는 것을 보여준다.
사람들은 직접 소리를 듣지 않더라도 청각적 상식을 바탕으로 음높이, 음량, 음원 연관성과 같은 청각적 속성을 쉽게 추론할 수 있습니다. 반면, 언어 모델은 종종 이러한 능력이 부족하여 다중모달 상호작용에서의 효과성이 제한됩니다. 이러한 격차를 해결하기 위한 첫 번째 단계로, 우리는 텍스트 전용 환경에서 청각 지식과 추론 능력을 평가하기 위한 포괄적인 벤치마크인 AuditoryBench++를 제안합니다. 이 벤치마크는 기본적인 청각 비교부터 맥락 기반 추론에 이르는 다양한 과제를 포함하여, 모델이 청각 개념을 처리하고 통합하는 방식을 세밀하게 분석할 수 있도록 합니다. 또한, 우리는 특수 토큰을 통한 범위 탐지와 지식 주입을 통해 추론 과정에서 청각 정보를 생성하고 통합하는 새로운 청각 상상 추론 방법인 AIR-CoT를 소개합니다. 최신 LLM(Large Language Model) 및 다중모달 LLM을 대상으로 한 광범위한 실험을 통해 AIR-CoT가 일반적으로 오프더셸프 모델과 청각 지식이 보강된 모델 모두를 능가함을 입증했습니다. 프로젝트 페이지는 https://auditorybenchpp.github.io에서 확인할 수 있습니다.
본 논문에서는 대규모 신경망의 저순위 적응(Low-Rank Adaptation, LoRA)을 병합하는 과정에서 발생하는 문제점들을 다룹니다. LoRA와 같은 매개변수 효율적 적응 기법의 등장으로 모델 미세조정이 더욱 접근 가능해졌습니다. LoRA를 사용한 모델 미세조정은 매우 효율적이지만, 기존의 병합 방법들은 완전한 크기의 가중치 행렬을 병합함으로써 이러한 효율성을 희생하는 경우가 많습니다. 우리는 공통 정렬 기반 내에서 LoRA 적응 모델을 병합할 수 있는 Core Space 병합 프레임워크를 제안합니다. 이를 통해 저순위 적응의 효율성을 유지하면서도 다양한 작업에서의 정확도를 크게 향상시킬 수 있습니다. 또한, Core Space로의 투영이 정보 손실 없이 이루어짐을 공식적으로 증명하고, 효율성 향상을 보여주는 복잡도 분석을 제공합니다. 광범위한 실험 결과를 통해 Core Space가 기존 병합 기법을 크게 개선하고, 시각 및 언어 작업에서 최첨단 결과를 달성하면서도 계산 자원의 일부만을 사용함을 입증합니다. 코드베이스는 https://github.com/apanariello4/core-space-merging에서 확인할 수 있습니다.
강화 학습(Reinforcement Learning)은 대형 언어 모델(LLMs)의 추론 능력을 향상시키기 위한 핵심 기술로 부상했습니다. 그러나 기존 알고리즘은 모든 토큰에 동일한 최적화를 적용하여, 추론 과정에서 토큰들이 수행하는 다양한 역할을 무시해 왔습니다. 이러한 한계를 해결하기 위해, 우리는 토큰 엔트로피를 기반으로 동적으로 최적화를 조정하는 포괄적인 토큰 인식 알고리즘인 이종 적응형 정책 최적화(Heterogeneous Adaptive Policy Optimization, HAPO)를 소개합니다. 롤아웃 샘플링을 위해, 우리는 실시간으로 샘플링 온도를 조정하여 높은 엔트로피 토큰에서는 탐색을 촉진하고 낮은 엔트로피 토큰에서는 일관성을 유지하는 적응형 온도 샘플링(Adaptive Temperature Sampling)을 제안합니다. 이점 계산을 위해, 우리는 토큰 수준 그룹 평균(Token Level Group Average)을 도입하여 토큰 수준에서 이점을 정규화하고, 토큰 평균 손실에서와 같이 시퀀스 길이를 고려하면서 편향되지 않은 처리를 유지합니다. 그런 다음, 우리는 엔트로피와 중요도 비율을 활용하여 명확한 신호를 가진 토큰에 대한 보조 조정 업데이트를 변조하는 차등 이점 재분배(Differential Advantage Redistribution)를 개발합니다. 클리핑 손실을 위해, 우리는 노이즈가 많은 낮은 엔트로피 토큰에 대해서는 공격적인 확률 감소를 허용하고 높은 엔트로피 토큰에 대해서는 탐색을 가능하게 하는 비대칭 적응형 클리핑(Asymmetric Adaptive Clipping)을 설계했습니다. 엔트로피와 훈련 동역학 간의 체계적인 연구를 통해, 우리는 모든 단계에 토큰 수준 처리를 내장하여 세밀한 제어를 달성했습니다. 광범위한 실험을 통해 HAPO가 다양한 모델 규모에서 DAPO를 일관되게 능가함을 입증했습니다. 우리의 코드는 https://github.com/starriver030515/HAPO에서 확인할 수 있습니다.
오픈소스 AI 생태계 내에서 숨겨진 라이선스 충돌은 심각한 법적 및 윤리적 위험을 초래하며, 조직은 잠재적인 소송에 노출되고 사용자는 공개되지 않은 위험에 직면할 수 있습니다. 그러나 이러한 충돌이 얼마나 자주 발생하는지, 어디에서 기인하는지, 그리고 어떤 커뮤니티가 가장 큰 영향을 받는지에 대한 데이터 기반 이해가 부족한 실정입니다. 본 연구에서는 Hugging Face의 데이터셋과 모델, 그리고 이를 오픈소스 소프트웨어 애플리케이션에 통합한 사례를 포함하여 총 36만 4천 개의 데이터셋, 160만 개의 모델, 그리고 14만 개의 GitHub 프로젝트를 대상으로 최초의 종단 간 라이선스 감사를 수행했습니다. 실증 분석 결과, 모델에서 애플리케이션으로의 전환 과정에서 35.5%가 제한적인 라이선스 조항을 허용적 조건으로 재라이선스하여 제거하는 시스템적 비준수 사례가 발견되었습니다. 또한, 거의 200개의 SPDX 및 모델 특정 조항을 인코딩하여 라이선스 충돌을 탐지할 수 있는 확장 가능한 규칙 엔진 프로토타입을 개발했으며, 이는 소프트웨어 애플리케이션에서 발생하는 라이선스 충돌의 86.4%를 해결할 수 있습니다. 향후 연구를 지원하기 위해 본 연구의 데이터셋과 프로토타입 엔진을 공개합니다. 본 연구는 오픈소스 AI에서 라이선스 준수가 중요한 거버넌스 과제임을 강조하며, 자동화된 AI 인식 준수를 대규모로 가능하게 하는 데이터와 도구를 제공합니다.
로봇 데이터 수집을 위한 새로운 패러다임인 'perioperation'을 소개한다. 이 패러다임은 인간의 조작 과정을 센서화하고 기록함과 동시에, 수집된 데이터가 실제 로봇으로의 전이성을 극대화하도록 설계되었다. 이를 구현한 DEXOP은 자연 환경에서 다양한 정교한 조작 작업을 위한 풍부한 감각(시각 + 촉각) 데이터를 수집할 수 있도록 인간의 능력을 극대화한 패시브 핸드 엑소스켈레톤이다. DEXOP은 인간의 손가락을 로봇 손가락에 기계적으로 연결하여 사용자에게 직접적인 접촉 피드백(고유수용감각을 통해)을 제공하고, 인간의 손 자세를 패시브 로봇 손에 반영함으로써 시연된 기술이 로봇으로 최대한 전달되도록 한다. 힘 피드백과 자세 반영은 원격 조작에 비해 인간에게 더 자연스러운 작업 시연을 가능하게 하여 속도와 정확성을 모두 향상시킨다. DEXOP은 다양한 접촉이 많은 정교한 작업에 걸쳐 평가되었으며, 대규모로 고품질의 시연 데이터를 수집할 수 있는 능력을 입증했다. DEXOP 데이터로 학습된 정책은 원격 조작에 비해 데이터 수집 단위 시간당 작업 성능을 크게 향상시켜, 로봇의 정교함을 발전시키는 강력한 도구임을 보여준다. 프로젝트 페이지는 https://dex-op.github.io에서 확인할 수 있다.
디퓨전 기반 대형 언어 모델(DLLMs)은 최근 자동회귀 디코더의 대안으로서 점점 더 많은 관심을 받고 있다. 본 연구에서는 디퓨전 기반 대형 언어 모델인 LLaDA를 자동 음성 인식(ASR)에 활용한 실험적 연구를 제시한다. 먼저, Whisper-LLaMA 전사본에 대한 외부 숙고 기반 처리 모듈로서의 사용 가능성을 탐구한다. LLaDA의 양방향 주의 메커니즘과 잡음 제거 능력을 활용하여, 무작위 마스킹, 낮은 신뢰도 마스킹, 그리고 준-자동회귀 전략을 탐색한 결과, Whisper-LLaDA가 기준선 대비 WER을 상당히 감소시킴을 보여준다. LibriSpeech 데이터셋에서, 최적의 캐스케이드 시스템은 test-clean/test-other에서 각각 2.25%/4.94%의 WER을 달성하며, 이는 test-other 분할에서 Whisper-LLaMA 기준선 대비 12.3%의 상대적 개선을 나타낸다. 반면, 음향 특성이 없는 일반 텍스트 LLaDA는 정확도를 개선하지 못하며, 이는 오디오 조건 임베딩의 중요성을 강조한다. 또한, Whisper-LLaDA를 디퓨전 기반 및 준-자동회귀 디코딩을 사용한 ASR의 독립형 디코더로 평가한다. 대부분의 실험 구성에서 기준선보다 빠른 추론 속도를 달성했지만, 인식 정확도는 약간 낮았다. 이러한 결과는 ASR을 위한 디퓨전 기반 LLM의 실험적 관점을 제공하며, 개선을 위한 유망한 방향을 제시한다.
베이지안 최적화(BO)의 효율성은 가우시안 프로세스(GP) 커널 선택에 크게 의존하며, 이는 제한된 평가 예산 하에서 탐색과 활용 간의 균형을 맞추는 데 핵심적인 역할을 합니다. 전통적인 BO 방법은 고정적이거나 휴리스틱한 커널 선택 전략에 의존하는 경우가 많아, 선택된 커널이 기본 목적 함수에 적합하지 않을 경우 느린 수렴 또는 차선의 해결책을 초래할 수 있습니다. 이러한 한계를 해결하기 위해, 우리는 대규모 언어 모델(LLM)을 활용하여 BO를 강화하는 새로운 Context-Aware Kernel Evolution(CAKE)을 제안합니다. 구체적으로, CAKE는 최적화 과정에서 관찰된 데이터를 기반으로 GP 커널을 적응적으로 생성하고 개선하기 위해 LLM을 교차 및 변이 연산자로 활용합니다. CAKE의 성능을 극대화하기 위해, 우리는 추가로 BIC-Acquisition Kernel Ranking(BAKER)을 제안하여, 베이지안 정보 기준(BIC)으로 측정된 모델 적합도와 각 BO 반복에서의 기대 개선도를 균형 있게 고려하여 가장 효과적인 커널을 선택합니다. 광범위한 실험을 통해, 우리의 새로운 CAKE 기반 BO 방법이 하이퍼파라미터 최적화, 컨트롤러 튜닝, 광자 칩 설계 등 다양한 실제 작업에서 기존의 기준 방법들을 일관되게 능가함을 입증했습니다. 우리의 코드는 https://github.com/cake4bo/cake에서 공개적으로 이용 가능합니다.
대형 언어 모델(LLMs)은 다양한 작업과 응용 분야에서 널리 사용되고 있다. 그러나 그들의 광범위한 능력에도 불구하고, 문화적 지식과 역량의 부족으로 인해 문화적 정렬이 부족하고 편향된 생성물을 만들어내는 것으로 나타났다(ryan-etal-2024-unintended, alkhamissi-etal-2024-investigating, naous-etal-2024-beer). LLMs의 문화적 인식과 정렬을 평가하는 것은 적절한 평가 지표의 부족과 지역 및 하위 지역 수준에서 문화의 복잡성을 반영한 문화적으로 기반을 둔 데이터셋의 부재로 인해 특히 어려운 과제이다. 기존의 문화 특정 항목(CSIs)에 대한 데이터셋은 주로 지역 수준의 개념에 초점을 맞추고 있으며, 거짓 양성을 포함할 수 있다. 이러한 문제를 해결하기 위해, 우리는 17개의 문화적 측면에 속하는 인도 문화를 위한 새로운 CSI 데이터셋을 소개한다. 이 데이터셋은 36개의 하위 지역에서 수집된 8,000개의 문화적 개념으로 구성되어 있다. 문화적 텍스트 적응 작업에서 LLMs의 문화적 역량을 측정하기 위해, 우리는 생성된 CSIs, LLM as Judge, 그리고 다양한 사회-인구학적 지역에서의 인간 평가를 사용하여 적응을 평가한다. 또한, 우리는 모든 고려된 LLMs에 걸쳐 선택적 하위 지역 커버리지와 표면적 적응을 보여주는 정량적 분석을 수행한다. 우리의 데이터셋은 여기에서 확인할 수 있다: https://huggingface.co/datasets/nlip/DIWALI, 프로젝트 웹페이지\href{https://nlip-lab.github.io/nlip/publications/diwali/}, 그리고 모델 출력물과 함께 우리의 코드베이스는 여기에서 찾을 수 있다: https://github.com/pramitsahoo/culture-evaluation.
우리는 인간-컴퓨터 상호작용 및 오디오 머신러닝 분야에서 빠르고 권리 문제가 없는 실험을 위해 설계된 소형의 완전 합성 이어콘/알림 데이터셋인 BeepBank-500(300-500개의 클립)을 소개합니다. 각 클립은 파형 패밀리(사인, 사각, 삼각, FM), 기본 주파수, 지속 시간, 진폭 엔벨로프, 진폭 변조(AM), 그리고 경량의 슈뢰더 스타일 리버브레이션을 제어하는 파라메트릭 레시피로 생성됩니다. 우리는 세 가지 리버브레이션 설정을 사용합니다: 건조(dry), 그리고 'rir small'('small')과 'rir medium'('medium')으로 표기된 두 개의 합성 방입니다. 이 설정은 논문 전체와 메타데이터에서 일관되게 사용됩니다. 우리는 모노 48 kHz WAV 오디오(16비트), 풍부한 메타데이터 테이블(신호/스펙트럼 특징), 그리고 (i) 파형 패밀리 분류와 (ii) 단일 톤에 대한 f0 회귀를 위한 작은 재현 가능한 베이스라인을 공개합니다. 이 코퍼스는 이어콘 분류, 음색 분석, 시작점 탐지와 같은 작업을 목표로 하며, 명확히 명시된 라이선스와 제한 사항을 가지고 있습니다. 오디오는 CC0-1.0을 통해 퍼블릭 도메인에 기부되었으며, 코드는 MIT 라이선스 하에 있습니다. 데이터 DOI: https://doi.org/10.5281/zenodo.17172015. 코드: https://github.com/mandip42/earcons-mini-500.
문화유산 유물 분석은 MLLM(Multimodal Large Language Models)에게 여전히 도전적인 과제입니다: 일반 모델은 도메인 전문성이 부족하고, SFT(Supervised Fine-Tuning)는 종종 표면적인 패턴에 과적합되어 인증 및 역사적 귀속에 취약한 추론을 생성합니다. 이는 고대 그리스 도자기에 대한 전문가 수준의 견고한 추론 능력을 MLLM에 어떻게 부여할 수 있을지라는 질문을 제기합니다. 우리는 평가를 지도 학습으로 전환하는 SFT-then-RL 시스템인 VaseVL을 제안합니다: 질문 유형의 분류 체계를 구축하고, SFT 모델을 탐색하여 유형별 성능 격차를 파악하며, 이러한 격차를 대상으로 유형 조건화 및 조합성 지향 보상을 통해 최적화합니다. 또한, 깊은 이해를 탐구하기 위해 설계된 31,773개의 이미지로 구성된 포괄적인 벤치마크인 VaseVQA를 공개합니다. 실험 결과, 스타일 분류 및 역사적 귀속에서 최첨단 성적을 보이며 SFT만 사용한 베이스라인 대비 조합적 견고성에서 뚜렷한 향상을 보여, 진단 기반 및 분류 체계 조건화 보상 엔지니어링의 유효성을 입증하고 향후 연구를 위한 재사용 가능한 자원을 제공합니다. 코드와 데이터셋은 https://github.com/AIGeeksGroup/VaseVQA에서 확인할 수 있습니다.
대규모 시각-언어 모델(L-VLMs)은 시각 질의응답(VQA)을 포함한 다양한 시각 및 언어 작업에서 뛰어난 성능을 보여주고 있습니다. 그러나 이들의 높은 계산 비용은 자원이 제한된 환경과 추론이 많이 필요한 응용 프로그램에서는 실용적이지 못하게 만듭니다. 반면, 소규모 시각-언어 모델(S-VLMs)은 효율성을 제공하지만 대규모 모델에 비해 상당한 성능 격차를 보입니다. 본 연구에서는 레이블이 없는 이미지와 L-VLMs의 효과적인 지식 전이를 활용하여 S-VLMs을 체계적으로 개선하기 위한 새로운 프레임워크인 모델 패리티 정렬기(MPA)를 소개합니다. 기존의 레이블된 학습 데이터에 의존하는 지식 증류 방법과는 달리, MPA는 S-VLMs와 L-VLMs 간의 지식 격차를 정확히 식별하고 이러한 격차만을 대상으로 학습을 최적화하는 전략적 패리티 기반 접근 방식을 사용합니다. 우리는 텍스트 인식, 차트 해석, 상식 및 사실 이해와 같은 특수한 추론 능력을 요구하는 TextVQA, ST-VQ, ChartQA, OKVQA 등 네 가지 다양한 VQA 벤치마크에서 광범위한 실험을 수행했습니다. 실험 결과, MPA는 모든 벤치마크에서 S-VLMs의 성능을 지속적으로 향상시키며, 계산 효율성을 유지하면서 성능 격차를 줄이는 것을 보여줍니다. 우리는 코드를 공개적으로 제공합니다.
수중 스테레오 깊이 추정은 저비용의 수동 카메라를 사용하여 단안 방법의 스케일 불확실성을 피하면서 항법, 검사 및 매핑과 같은 로봇 공학 작업을 위한 정확한 3D 기하학을 제공합니다. 그러나 기존의 접근 방식은 두 가지 중요한 문제에 직면해 있습니다: (i) 대규모 비전 기반 인코더를 수중 도메인에 효율적으로 적응시키면서도 대량의 레이블 데이터 없이 이를 수행하는 것, 그리고 (ii) 전역적으로 일관되지만 스케일이 불확실한 단안 사전 정보와 지역적으로 미터법이지만 광도적으로 취약한 스테레오 대응점을 긴밀하게 융합하는 것입니다. 이러한 문제를 해결하기 위해, 우리는 LoRA-적응 단안 기반 인코더와 순환 스테레오 정제 모듈을 통합한 매개변수 효율적인 자기 지도 프레임워크인 StereoAdapter를 제안합니다. 또한, 다양한 수중 조건에서의 견고성을 향상시키기 위해 합성 UW-StereoDepth-40K 데이터셋에 대한 동적 LoRA 적응과 사전 학습을 도입했습니다. 시뮬레이션 및 실제 벤치마크에 대한 종합적인 평가는 TartanAir에서 6.11%, SQUID에서 5.12%의 개선을 보여주며, BlueROV2 로봇을 사용한 실제 배치에서도 우리 접근 방식의 일관된 견고성을 입증했습니다. 코드: https://github.com/AIGeeksGroup/StereoAdapter. 웹사이트: https://aigeeksgroup.github.io/StereoAdapter.
신경망 오디오 코덱은 현대 생성형 오디오 파이프라인의 핵심 구성 요소입니다. 최근 코덱들은 낮은 비트레이트에서 강력한 재구성 성능을 달성하고 다운스트림 작업을 위한 유용한 표현을 제공하지만, 대부분이 스트리밍이 불가능하여 실시간 애플리케이션에서의 사용이 제한됩니다. 본 논문에서는 포컬 변조(focal modulation) 기반의 하이브리드 코덱인 FocalCodec-Stream을 소개합니다. 이 코덱은 음성을 0.55 - 0.80 kbps의 단일 이진 코드북으로 압축하며, 이론적 지연 시간은 80ms입니다. 우리의 접근 방식은 WavLM의 다단계 인과적 증류(causal distillation)와 지연 시간 제약 하에서 품질을 향상시키는 경량 리파이너(refiner) 모듈을 포함한 표적 아키텍처 개선을 결합합니다. 실험 결과, FocalCodec-Stream은 유사한 비트레이트에서 기존 스트리밍 가능 코덱들을 능가하며, 의미론적 및 음향적 정보를 모두 보존합니다. 이는 재구성 품질, 다운스트림 작업 성능, 지연 시간 및 효율성 간의 유리한 균형을 제공합니다. 코드와 체크포인트는 https://github.com/lucadellalib/focalcodec에서 공개될 예정입니다.
자동화된 코드 리뷰(CR)는 대형 언어 모델(LLM)의 주요 응용 분야 중 하나이지만, "현실 격차"로 인해 진전이 더딘 상황이다. 기존 벤치마크는 단순화되고 맥락이 부족한 데이터를 사용하여 모델을 고립된 하위 작업에 대해 평가함으로써, 실제 CR의 포괄적이고 맥락이 풍부한 특성을 반영하지 못하고 있다. 이러한 격차를 해소하기 위해, 우리는 리포지토리 수준의 CR 평가를 위한 첫 번째 포괄성 인식 벤치마크인 CodeFuse-CR-Bench를 소개한다. CodeFuse-CR-Bench는 70개의 파이썬 프로젝트에서 추출한 601개의 고품질 인스턴스로 구성되어 있으며, 9개의 풀 리퀘스트(PR) 문제 영역을 다룬다. 각 인스턴스는 관련 이슈, PR 세부 정보, 리포지토리 상태 등 풍부하고 다각적인 맥락을 제공하여 종단 간 평가를 가능하게 한다. 또한, 우리는 위치와 구문에 대한 규칙 기반 검사와 리뷰 품질에 대한 모델 기반 판단을 결합한 새로운 평가 프레임워크를 제안한다. 우리는 이 포괄적인 CR 작업에 대해 최신 LLM의 대규모 평가를 처음으로 수행한다. 그 결과, (1) 단일 LLM이 CR의 모든 측면에서 우위를 점하지 못하며, (2) Gemini 2.5 Pro가 가장 높은 종합 성능을 달성하며, (3) 서로 다른 LLM이 중복된 맥락에 대해 다양한 견고성을 보인다는 점을 확인했다. 이러한 발견은 포괄적이고 다차원적인 평가의 필요성을 강조하며, 진정으로 지능적이면서 실용적인 CR 도구를 발전시키기 위한 실행 가능한 통찰을 제공한다.
프로세스 보상 모델(PRMs)은 대규모 언어 모델(LLMs)에서 더 깊은 추론 과정을 촉진하는 세분화된 단계별 평가를 제공하며, 수학적 추론과 같은 복잡한 작업에서 효과적임이 입증되었습니다. 그러나 인간이 주석을 단 데이터의 높은 비용과 제한된 확장성으로 인해 PRMs 개발은 어려운 과제입니다. 몬테카를로(MC) 추정에서 생성된 합성 데이터는 유망한 대안이지만 높은 노이즈 비율로 인해 과적합을 유발하고 대규모 학습을 방해할 수 있습니다. 본 연구에서는 MC 추정에서 생성된 합성 데이터의 노이즈 분포에 대한 예비 연구를 수행하며, 주석 모델이 주석 능력의 한계로 인해 단계 정확성을 과소평가하거나 과대평가하는 경향이 있음을 확인했습니다. 이러한 통찰을 바탕으로, 우리는 효율적인 데이터 합성 및 노이즈 내성 학습 프레임워크인 Self-Denoising Monte Carlo Annotation(SCAN)을 제안합니다. 주요 연구 결과는 다음과 같습니다: (1) 경량 모델(예: 1.5B 매개변수)도 자기 노이즈 제거 전략을 통해 고품질 주석을 생성할 수 있으며, 이를 통해 PRMs는 기존 MC 추정에 필요한 추론 비용의 6%만으로도 우수한 성능을 달성할 수 있습니다. (2) 우리의 강력한 학습 전략을 통해 PRMs는 이러한 약한 감독에서도 효과적으로 학습할 수 있으며, ProcessBench에서 39.2 F1 점수 향상(19.9에서 59.1로)을 달성했습니다. 소규모 합성 데이터셋만 사용했음에도 불구하고, 우리의 모델은 PRM800K와 같은 대규모 인간 주석 데이터셋으로 학습된 강력한 베이스라인을 능가했습니다. 또한 합성 데이터를 확장함에 따라 성능이 지속적으로 향상되어 SCAN이 확장 가능하고 비용 효율적이며 견고한 PRM 학습에 대한 잠재력을 보여줍니다.