번역이 포함된 일일 선별된 AI 연구 논문
공간적 기하학과 시간적 동역학을 동시에 포착하는 것을 목표로 하는 4D 세계 모델링 분야는 최근 몇 년 동안 대규모 생성 모델과 다중모달 학습의 발전으로 인해 눈부신 진전을 이루었습니다. 그러나 진정으로 일반적인 4D 세계 모델의 개발은 고품질 데이터의 가용성에 의해 근본적으로 제약받고 있습니다. 기존의 데이터셋과 벤치마크는 종종 4D 기하학적 재구성, 미래 예측, 카메라 제어 비디오 생성과 같은 핵심 작업을 지원하는 데 필요한 동적 복잡성, 다중 도메인 다양성, 시공간 주석이 부족합니다. 이러한 격차를 해결하기 위해, 우리는 4D 세계 모델링을 위해 특별히 설계된 대규모, 다중 도메인, 다중모달 데이터셋인 OmniWorld를 소개합니다. OmniWorld는 새로 수집된 OmniWorld-Game 데이터셋과 다양한 도메인을 아우르는 여러 공개 데이터셋으로 구성됩니다. 기존의 합성 데이터셋과 비교하여, OmniWorld-Game은 더 풍부한 모달리티 범위, 더 큰 규모, 그리고 더 현실적인 동적 상호작용을 제공합니다. 이 데이터셋을 기반으로, 우리는 복잡한 4D 환경을 모델링하는 데 있어 현재 최첨단(SOTA) 접근법의 한계를 드러내는 도전적인 벤치마크를 구축합니다. 또한, OmniWorld에서 기존 SOTA 방법을 미세 조정하면 4D 재구성 및 비디오 생성 작업 전반에 걸쳐 상당한 성능 향상을 이끌어내어, OmniWorld가 훈련 및 평가를 위한 강력한 자원임을 강력히 입증합니다. 우리는 OmniWorld가 범용 4D 세계 모델의 개발을 가속화하는 촉매제가 되어, 궁극적으로 기계가 물리적 세계를 종합적으로 이해하는 데 진전을 이루는 데 기여할 것으로 기대합니다.
그래픽 사용자 인터페이스(GUI) 에이전트는 강화 학습을 통해 복잡한 사용자 인터페이스 상호작용을 자동화하는 데 있어서 놀라운 진전을 보여왔습니다. 그러나 현재의 접근 방식은 근본적인 딜레마에 직면해 있습니다: 오프라인 강화 학습(RL)은 사전 수집된 궤적에 대해 안정적인 학습을 가능하게 하지만, 궤적 수준의 보상 신호가 부족하여 다단계 작업 실행에 어려움을 겪습니다. 반면, 온라인 강화 학습은 환경 상호작용을 통해 이러한 신호를 포착하지만, 희소한 보상과 과도한 배포 비용으로 인해 어려움을 겪습니다. 이를 해결하기 위해, 우리는 오프라인 궤적에서 온라인 강화 학습을 시뮬레이션하는 새로운 패러다임인 세미온라인 강화 학습(Semi-online Reinforcement Learning)을 제안합니다. 각 롤아웃 과정에서, 우리는 다중 턴 대화 내에서 원본 모델 출력을 보존하며, 패치 모듈(Patch Module)이 롤아웃과 전문가 궤적 간의 차이를 적응적으로 복구합니다. 장기적인 학습 신호를 포착하기 위해, 세미온라인 강화 학습은 할인된 미래 수익을 보상 계산에 도입하고, 가중치가 적용된 단계 수준과 에피소드 수준의 이점을 통해 정책을 최적화합니다. 또한, 우리는 실제 온라인 성능과 더 잘 일치하는 실용적이고 효과적인 평가 지표인 세미온라인 성능(Semi-Online Performance, SOP)을 제안합니다. 실험 결과, 우리의 세미온라인 강화 학습은 4개의 동적 벤치마크에서 7B 모델들 중 최고 성능을 달성하며, 기본 모델 대비 상당한 성능 향상을 보였습니다(예: AndroidWorld에서 +12.0%, AITW에서 +23.8%). 이를 통해 오프라인 학습 효율성과 온라인 다중 턴 추론 간의 격차를 줄이는 데 있어서 상당한 진전을 이루었음을 입증했습니다. 코드는 https://github.com/X-PLUG/MobileAgent/tree/main/UI-S1에서 확인할 수 있습니다.
구현된 AI(Embodied AI)의 발전은 장면 다양성과 현실적인 레이아웃을 특징으로 하는 대규모 시뮬레이션 가능한 3D 장면 데이터셋에 크게 의존합니다. 그러나 기존 데이터셋은 일반적으로 데이터 규모나 다양성의 한계, 소품이 부족한 단순화된 레이아웃, 심각한 객체 충돌 문제를 겪고 있습니다. 이러한 단점을 해결하기 위해, 우리는 InternScenes라는 새로운 대규모 시뮬레이션 가능한 실내 장면 데이터셋을 소개합니다. 이 데이터셋은 세 가지 다른 장면 소스(실제 스캔, 절차적 생성 장면, 디자이너 제작 장면)를 통합하여 약 40,000개의 다양한 장면으로 구성되며, 196만 개의 3D 객체를 포함하고 15개의 일반적인 장면 유형과 288개의 객체 클래스를 다룹니다. 특히, 우리는 장면 내에 대량의 소품을 보존하여, 평균적으로 한 영역당 41.5개의 객체가 있는 현실적이고 복잡한 레이아웃을 구현했습니다. 우리의 포괄적인 데이터 처리 파이프라인은 실제 스캔에 대해 실시간 시뮬레이션 복제본을 생성하여 시뮬레이션 가능성을 보장하고, 이러한 장면에 상호작용 가능한 객체를 포함시켜 상호작용성을 강화하며, 물리적 시뮬레이션을 통해 객체 충돌을 해결합니다. 우리는 InternScenes의 가치를 장면 레이아웃 생성과 포인트 목표 탐색이라는 두 가지 벤치마크 애플리케이션을 통해 입증합니다. 둘 다 복잡하고 현실적인 레이아웃이 제기하는 새로운 도전 과제를 보여줍니다. 더 중요한 것은, InternScenes가 이러한 복잡한 장면에서의 생성과 탐색을 가능하게 하기 위해 두 작업 모두에 대한 모델 훈련을 확장할 수 있는 길을 열어준다는 점입니다. 우리는 데이터, 모델, 벤치마크를 오픈소스로 공개하여 전체 커뮤니티에 이바지할 것을 약속합니다.
비전-언어 모델(VLMs)은 시각적 입력을 사전 학습된 비전 인코더를 통해 처리한 후, 커넥터(connector) 컴포넌트를 통해 언어 모델의 임베딩 공간으로 투영하는 방식으로 작동합니다. 이 투영 단계에서 발생할 수 있는 정보 손실과 이로 인한 모델 성능에 대한 직접적인 영향은 아직 충분히 연구되지 않았습니다. 본 연구에서는 잠재 표현 공간을 분석하여 이러한 정보 손실을 검토하고 정량화하기 위한 두 가지 상호 보완적인 접근 방식을 제안합니다. 첫째, 투영 전후의 이미지 표현 간 k-최근접 이웃(k-nearest neighbor) 관계의 변화를 분석함으로써 의미 정보 보존 정도를 평가합니다. 둘째, 투영된 표현에서 시각적 임베딩을 재구성하여 이미지 패치 수준에서 정보 손실을 직접 측정합니다. 실험 결과, 커넥터는 시각적 표현의 지역적 기하학적 구조를 상당히 왜곡시키며, 투영 후 k-최근접 이웃이 40-60% 정도 달라져 검색 성능 저하와 상관관계가 있음을 보여줍니다. 또한, 패치 수준의 임베딩 재구성은 시각적 기반 질의응답 작업에서 모델의 행동에 대한 해석 가능한 통찰을 제공하며, 정보 손실이 높은 영역은 모델이 어려움을 겪는 사례를 신뢰성 있게 예측함을 발견했습니다.
드래그 기반 편집에서 주의 메커니즘을 통한 암묵적 포인트 매칭에 대한 의존은 핵심적인 병목 현상으로 작용하며, 이는 약화된 역변환 강도와 비용이 많이 드는 테스트 시간 최적화(TTO) 간의 근본적인 타협을 초래합니다. 이러한 타협은 확산 모델의 생성 능력을 심각하게 제한하여, 고품질의 인페인팅과 텍스트 기반 생성이 억제되는 결과를 가져옵니다. 본 논문에서는 다중 모달 확산 트랜스포머를 위한 첫 번째 드래그 기반 이미지 편집 방법인 LazyDrag을 소개하며, 이는 암묵적 포인트 매칭에 대한 의존을 직접적으로 제거합니다. 구체적으로, 우리의 방법은 사용자 드래그 입력으로부터 명시적 대응 맵을 생성하여 주의 제어를 강화하는 신뢰할 수 있는 참조를 제공합니다. 이 신뢰할 수 있는 참조는 드래그 기반 편집 작업에서 처음으로 안정적인 완전 강도 역변환 프로세스의 가능성을 열어줍니다. 이는 TTO의 필요성을 없애고 모델의 생성 능력을 해제합니다. 따라서 LazyDrag은 정확한 기하학적 제어와 텍스트 지침을 자연스럽게 통합하여, 이전에는 달성할 수 없었던 복잡한 편집을 가능하게 합니다: 개의 입을 열고 내부를 인페인팅하거나, "테니스 공"과 같은 새로운 객체를 생성하거나, 모호한 드래그의 경우 컨텍스트를 인식한 변경(예: 손을 주머니에 넣기)을 수행합니다. 또한, LazyDrag은 동시 이동 및 크기 조정 작업을 포함한 다중 라운드 워크플로우를 지원합니다. DragBench에서 평가된 결과, 우리의 방법은 VIEScore와 인간 평가를 통해 검증된 드래그 정확도와 지각적 품질에서 기준선을 능가합니다. LazyDrag은 새로운 최첨단 성능을 확립할 뿐만 아니라, 편집 패러다임에 대한 새로운 길을 열어줍니다.
지도 미세조정(Supervised Fine-Tuning, SFT)은 대규모 언어 모델(LLM)을 훈련하는 데 필수적이며, 명령어 수행 및 문맥 학습과 같은 중요한 능력을 크게 향상시킵니다. 그러나 특정 도메인에 맞춤화된 적절한 훈련 데이터셋을 생성하는 것은 고유한 도메인 제약과 데이터 부족으로 인해 여전히 어려운 과제입니다. 본 논문에서는 SFT를 위한 고품질 명령어 데이터셋을 구축하기 위해 명시적으로 설계된 혁신적인 방법인 SearchInstruct를 제안합니다. 우리의 접근 방식은 도메인 특화된 소량의 인간 생성 질문으로 시작하며, 이를 대규모 언어 모델을 사용해 체계적으로 확장합니다. 이후, 각 확장된 질문에 대해 정확하고 문맥에 적합한 답변을 생성하기 위해 도메인 관련 리소스를 동적으로 검색합니다. 실험 평가 결과, SearchInstruct는 SFT 데이터셋의 다양성과 품질을 모두 향상시켜 특수 도메인 내에서 LLM 성능의 측정 가능한 개선을 이끌어냄을 보여줍니다. 또한, 제안된 방법이 데이터셋 생성 이상으로 모델 편집과 같은 작업에도 효과적으로 기여하여 기존 모델의 효율적인 업데이트를 가능하게 함을 보여줍니다. 재현성과 커뮤니티 채용을 돕기 위해, 우리는 전체 구현 세부 사항, 생성된 명령어-응답 쌍의 완전한 세트, 그리고 소스 코드를 공개적으로 접근 가능한 Git 저장소에 제공합니다: [https://github.com/mostafaamiri/SearchInstruct](https://github.com/mostafaamiri/SearchInstruct)
생성 모델 중에서도 확산 모델(diffusion model)은 그 훈련 목적 함수의 폐쇄형 최적 최소화 도구, 즉 최적 제노이저(optimal denoiser)의 존재로 인해 특히 흥미롭습니다. 그러나 이 최적 제노이저를 사용한 확산은 단순히 훈련 데이터셋의 이미지를 재현할 뿐이며, 따라서 심층 확산 모델의 동작을 포착하지 못합니다. 최근 연구들은 이 최적 제노이저와 심층 확산 모델 간의 차이를 규명하려는 시도를 하며, 훈련된 UNet이 생성하는 이미지와 유사한 이미지를 생성할 수 있는 분석적이고 훈련이 필요 없는 모델을 제안했습니다. 가장 성능이 뛰어난 방법은 합성곱 신경망(CNN)의 이동 등변성(shift equivariance)과 지역성 귀납 편향(locality inductive bias)이 이러한 성능 차이의 원인이라고 가정하고, 이러한 가정을 분석적 모델에 통합했습니다. 본 연구에서는 심층 확산 모델의 지역성이 합성곱 신경망의 귀납 편향이 아니라 이미지 데이터셋의 통계적 특성으로부터 발생한다는 증거를 제시합니다. 구체적으로, 최적의 매개변수 선형 제노이저가 심층 신경 제노이저와 유사한 지역성 특성을 보인다는 것을 입증합니다. 또한, 이론적 및 실험적으로 이러한 지역성이 자연 이미지 데이터셋에 존재하는 픽셀 간 상관관계에서 직접적으로 발생한다는 것을 보여줍니다. 마지막으로, 이러한 통찰을 바탕으로 심층 확산 모델이 예측한 점수와 더 잘 일치하는 분석적 제노이저를 설계하여, 이전의 전문가가 설계한 대안보다 더 나은 성능을 달성했습니다.
다중 목표 강화 학습 분야의 기존 연구들은 일반적으로 고정된 가중치를 사용한 선형 보상 스칼라화(linear reward scalarization)를 적용해 왔으며, 이는 이론적으로 비볼록(non-convex) 파레토 프론트(Pareto front)를 포착하지 못해 최적이 아닌 결과를 도출하는 것으로 입증되었습니다. 이러한 한계는 대규모 언어 모델의 온라인 선호도 정렬(online preference alignment)에서 특히 심각한 문제로 대두됩니다. 여기서 매개변수화된 정책에 의해 생성된 확률적 궤적은 매개변수에서 목표로의 고도로 비선형적이고 비볼록한 매핑을 생성하며, 단일 정적 가중치 체계로는 최적의 균형을 찾을 수 없습니다. 우리는 이러한 한계를 해결하기 위해 온라인 강화 학습 과정에서 보상 가중치를 적응적으로 조정하는 동적 보상 가중치(dynamic reward weighting)를 도입했습니다. 고정 가중치 보간에 의존하는 기존 접근법과 달리, 우리의 동적 가중치는 학습 중 목표를 지속적으로 균형 잡고 우선순위를 정하여 목표 공간에서 파레토 프론트의 효과적인 탐색을 가능하게 합니다. 우리는 점점 더 정교하고 일반화 가능한 두 가지 접근 방식을 소개합니다: (1) 하이퍼볼륨(hypervolume) 기반 가중치 적응과 (2) 그래디언트 기반 가중치 최적화로, 온라인 다중 목표 정렬을 위한 다용도 도구를 제공합니다. 우리의 광범위한 실험은 이들이 일반적으로 사용되는 온라인 강화 학습 알고리즘(GRPO, REINFORCE, RLOO 포함)과의 호환성, 여러 수학적 추론 데이터셋에서의 효과성, 그리고 다양한 모델 패밀리에 대한 적용 가능성을 입증하며, 고정 가중치 선형 스칼라화 기준선보다 더 적은 학습 단계로 파레토 우월(Pareto dominant) 솔루션을 일관되게 달성함을 보여줍니다.
멀티모달 대형 언어 모델(MLLM)에서 발생하는 환각 현상 -- 모델이 입력 이미지와 일치하지 않는 콘텐츠를 생성하는 경우 -- 는 실제 응용 프로그램에서 시각적 질의응답에서의 잘못된 정보 제공부터 의사결정 과정에서의 안전하지 않은 오류에 이르기까지 상당한 위험을 초래합니다. 기존 벤치마크는 주로 인식 정확도를 테스트하는데, 즉 모델이 여러 선택지 중에서 정답을 선택할 수 있는지 여부를 평가합니다. 이는 신뢰할 수 있는 AI를 위해 동등하게 중요한 능력인 제공된 옵션 중 어느 것도 정답이 아닌 경우를 인식하는 능력, 즉 인식적 겸손을 반영하는 행동을 간과하고 있습니다. 우리는 HumbleBench라는 새로운 환각 벤치마크를 제안하며, 이는 MLLM이 객체, 관계, 속성이라는 세 가지 환각 유형에서 그럴듯하지만 잘못된 답변을 거부할 수 있는 능력을 평가하도록 설계되었습니다. 팬옵틱 장면 그래프 데이터셋을 기반으로 구축된 이 벤치마크는 세밀한 장면 그래프 주석을 활용하여 실제 엔티티와 관계를 추출하고, GPT-4-Turbo를 사용하여 객관식 질문을 생성한 후 엄격한 수동 필터링 과정을 거칩니다. 각 질문에는 "위의 어느 것도 아님" 옵션이 포함되어 있어, 모델이 올바른 시각적 정보를 인식할 뿐만 아니라 제공된 답변 중 유효한 것이 없을 때 이를 식별해야 합니다. 우리는 HumbleBench에서 다양한 최첨단 MLLM -- 일반 목적 및 특화된 추론 모델 모두 포함 -- 을 평가하고, 이를 통해 얻은 귀중한 발견과 통찰을 커뮤니티와 공유합니다. 명시적인 잘못된 옵션 거부를 통합함으로써, HumbleBench는 현재의 평가 도구에서 중요한 간극을 메우며, 안전이 중요한 환경에서 MLLM의 신뢰성을 더 현실적으로 측정할 수 있게 합니다. 우리의 코드와 데이터셋은 공개적으로 제공되며, https://github.com/maifoundations/HumbleBench에서 접근할 수 있습니다.
텍스트 전용 "느린 사고" 추론의 최근 발전은 이러한 능력을 시각-언어 모델(VLMs)로 전이하여 시각적 추론 모델(VRMs)을 훈련시키려는 노력으로 이어졌습니다. 그러나 이러한 전이는 중요한 과제에 직면해 있습니다: VRMs에서 효과적인 "느린 사고"는 시각적 반영, 즉 시각 정보를 기반으로 추론 과정을 점검하는 능력을 필요로 합니다. 정량적 분석을 통해, 현재의 VRMs가 생성된 응답이 길어질수록 시각 정보에 대한 주의가 급격히 감소함으로써 제한된 시각적 반영을 보인다는 것을 관찰했습니다. 이 문제를 해결하기 위해, 우리는 새로운 VRM인 Reflection-V를 제안합니다. 이 모델은 콜드 스타트를 위한 추론 데이터 구축과 강화 학습(RL)을 위한 보상 설계를 기반으로 시각적 반영을 강화합니다. 첫째, VLMs와 추론 LLMs 간의 상호작용을 통해 시각 중심의 추론 데이터를 구축함으로써 시각적 반영 패턴의 콜드 스타트 학습을 가능하게 합니다. 둘째, RL 과정에서 시각적 주의 기반 보상 모델을 사용하여 시각 정보를 기반으로 한 추론을 장려합니다. 결과적으로, Reflection-V는 여러 시각적 추론 벤치마크에서 상당한 개선을 보여줍니다. 더 나아가, Reflection-V는 시각적 추론 과정에서 시각 정보에 대한 더 강력하고 일관된 의존성을 유지하며, 이는 시각적 반영 능력의 효과적인 강화를 나타냅니다.
구현된 내비게이션은 에이전트가 복잡한 3D 환경에서 견고한 상호작용을 위해 지각, 추론, 행동을 통합할 것을 요구합니다. 기존 접근 방식들은 다양한 환경 간 일반화를 방해하는 비일관적이고 불안정한 추론 흔적, 그리고 실시간 내비게이션을 위한 저지연 제어와 장기적 의미론적 추론 간의 균형을 맞추는 데 어려움을 겪는 경우가 많습니다. 이러한 문제를 해결하기 위해, 우리는 구현된 환경에서의 추론을 통합하는 구현된 기초 모델인 Nav-R1을 제안합니다. 먼저, 구조화된 추론을 통한 콜드 스타트 초기화를 가능하게 하는 구현된 작업을 위한 단계별 사고의 연쇄(CoT) 대규모 데이터셋인 Nav-CoT-110K를 구축했습니다. 이를 기반으로, 구조적 준수, 의미론적 근거, 경로 충실도를 개선하기 위해 형식, 이해, 내비게이션의 세 가지 상호보완적인 보상을 갖춘 GRPO 기반 강화 학습 프레임워크를 설계했습니다. 또한, 효율적이면서도 일관된 내비게이션을 위해 신중한 의미론적 추론과 저지연 반응 제어를 분리하는 Fast-in-Slow 추론 패러다임을 도입했습니다. 구현된 AI 벤치마크에 대한 광범위한 평가 결과, Nav-R1은 강력한 베이스라인을 일관적으로 능가하며 추론 및 내비게이션 성능에서 평균 8% 이상의 향상을 보였습니다. 모바일 로봇에 대한 실제 배포는 제한된 온보드 자원 하에서의 견고성을 추가로 검증했습니다. 코드: https://github.com/AIGeeksGroup/Nav-R1. 웹사이트: https://aigeeksgroup.github.io/Nav-R1.
분산형 소셜 미디어 플랫폼의 등장은 공공 담론의 실시간 분석에 새로운 기회와 도전을 제시합니다. 본 연구는 연합형 트위터 또는 X.com 대안인 Bluesky에서 감정, 감정, 그리고 내러티브 분석을 위해 설계된 오픈소스 및 확장 가능한 프레임워크인 CognitiveSky를 소개합니다. CognitiveSky는 Bluesky의 애플리케이션 프로그래밍 인터페이스(API)를 통해 데이터를 수집하고, 트랜스포머 기반 모델을 적용하여 대규모 사용자 생성 콘텐츠에 주석을 달고 구조화된 분석 가능한 출력을 생성합니다. 이러한 요약은 감정, 활동, 그리고 대화 주제의 진화하는 패턴을 시각화하는 동적 대시보드를 구동합니다. 무료 티어 인프라에 전적으로 구축된 CognitiveSky는 낮은 운영 비용과 높은 접근성을 동시에 달성합니다. 여기서는 정신 건강 담론 모니터링을 위해 시연되었지만, 그 모듈식 설계는 허위 정보 탐지, 위기 대응, 그리고 시민 감정 분석과 같은 다양한 도메인에 걸쳐 적용할 수 있도록 합니다. 대규모 언어 모델과 분산형 네트워크를 연결함으로써, CognitiveSky는 변화하는 디지털 생태계 시대에 계산 사회 과학을 위한 투명하고 확장 가능한 도구를 제공합니다.
인간 행동 특성을 이해하는 것은 인간-컴퓨터 상호작용, 계산 사회과학, 개인화된 AI 시스템 등의 응용 분야에서 핵심적인 요소입니다. 이러한 이해는 종종 미묘한 패턴과 관계를 포착하기 위해 다중 모달리티를 통합하는 것을 요구합니다. 그러나 기존의 자료는 행동 기술자와 얼굴 속성, 전기 정보와 같은 보완적 모달리티를 결합한 데이터셋을 거의 제공하지 않습니다. 이러한 격차를 해결하기 위해, 우리는 다중 모달리티 간의 공공 특성에 대한 포괄적인 분석을 가능하게 하는 다중 모달리티 데이터셋의 정제된 컬렉션인 PersonaX를 제시합니다. PersonaX는 (1) 다양한 직업군의 9444명의 공인을 포함한 CelebPersona와 (2) 7개 주요 스포츠 리그의 4181명의 프로 운동선수를 다루는 AthlePersona로 구성됩니다. 각 데이터셋은 세 개의 고성능 대형 언어 모델에 의해 추론된 행동 특성 평가와 함께 얼굴 이미지 및 구조화된 전기적 특성을 포함합니다. 우리는 PersonaX를 두 가지 상호 보완적인 수준에서 분석합니다. 먼저, 텍스트 설명에서 고수준 특성 점수를 추상화하고 다섯 가지 통계적 독립성 검정을 적용하여 다른 모달리티와의 관계를 검토합니다. 둘째, 다중 모달리티 및 다중 측정 데이터에 맞춰진 새로운 인과 표현 학습(CRL) 프레임워크를 소개하며, 이론적 식별 가능성을 보장합니다. 합성 데이터와 실제 데이터에 대한 실험은 우리의 접근법의 효과를 입증합니다. 구조화된 분석과 비구조화된 분석을 통합함으로써, PersonaX는 시각적 및 전기적 속성과 함께 LLM 추론 행동 특성을 연구하기 위한 기반을 마련하며, 다중 모달리티 특성 분석과 인과적 추론을 발전시킵니다.
음성 토큰화는 이산적 표현을 가능하게 하고 음성 언어 모델링을 용이하게 합니다. 그러나 기존의 신경 코덱은 저수준의 음향적 특징만을 포착하여 인간 음성에 내재된 의미론적 및 맥락적 단서를 간과해 왔습니다. 최근에는 자기 지도 학습 음성 모델에서 의미론적 표현을 도입하거나 사전 학습된 언어 모델에서 맥락적 표현을 통합하려는 시도가 있었지만, 의미론적 및 맥락적 표현을 정렬하고 통합하는 데는 여전히 과제가 남아 있습니다. 우리는 강력한 교차 모달 정렬과 전역적으로 정보화된 지도를 통해 음향적, 의미론적, 맥락적 표현을 통합하는 FuseCodec을 소개합니다. 우리는 세 가지 상호 보완적인 기술을 제안합니다: (i) 잠재 표현 융합(Latent Representation Fusion), 의미론적 및 맥락적 특징을 인코더 잠재 공간에 직접 통합하여 견고하고 통합된 표현 학습을 가능하게 함; (ii) 전역 의미론적-맥락적 지도(Global Semantic-Contextual Supervision), 전역적으로 풀링 및 브로드캐스트된 표현으로 이산 토큰을 지도하여 시간적 일관성과 교차 모달 정렬을 강화; (iii) 시간적 정렬 맥락적 지도(Temporally Aligned Contextual Supervision), 로컬 윈도우 내에서 맥락적 및 음성 토큰을 동적으로 매칭하여 세밀한 토큰 수준의 지도를 강화. 또한, 우리는 제로샷 음성 합성에 대한 우리의 방법론의 적용 가능성을 입증하는 FuseCodec-TTS를 소개합니다. 실험적으로, FuseCodec은 LibriSpeech에서 최신 기술을 능가하며, EnCodec, SpeechTokenizer, DAC를 전사 정확도, 지각적 품질, 명료성, 화자 유사성에서 능가합니다. 결과는 음성 토큰화 및 하위 작업을 위한 맥락적 및 의미론적 지도 토큰화의 효과를 강조합니다. 코드와 사전 학습된 모델은 https://github.com/mubtasimahasan/FuseCodec에서 이용 가능합니다.
대형 비디오 모델(LVMs)의 최근 발전은 비디오 이해를 크게 향상시켰습니다. 그러나 이러한 모델들은 여전히 환각(hallucination) 문제를 겪고 있으며, 입력 비디오와 상충되는 내용을 생성합니다. 이 문제를 해결하기 위해, 우리는 세밀한 시공간적 그라운딩을 통해 비디오 환각을 진단하는 지각적, 시간적, 인지적 수준을 아우르는 계층적 프레임워크인 Dr.V를 제안합니다. Dr.V는 두 가지 주요 구성 요소로 이루어져 있습니다: 벤치마크 데이터셋 Dr.V-Bench와 위성 비디오 에이전트 Dr.V-Agent입니다. Dr.V-Bench는 다양한 작업을 아우르는 4,974개의 비디오에서 추출한 10,000개의 인스턴스로 구성되며, 각각 상세한 시공간적 주석이 포함되어 있습니다. Dr.V-Agent는 지각적 및 시간적 수준에서 세밀한 시공간적 그라운딩을 체계적으로 적용한 후, 인지적 수준의 추론을 통해 LVMs의 환각을 탐지합니다. 이 단계별 파이프라인은 인간과 유사한 비디오 이해를 반영하며, 환각을 효과적으로 식별합니다. 광범위한 실험을 통해 Dr.V-Agent가 환각 진단에 효과적이며, 해석 가능성과 신뢰성을 향상시켜 실세계 시나리오에서 견고한 비디오 이해를 위한 실용적인 청사진을 제공함을 입증했습니다. 우리의 모든 데이터와 코드는 https://github.com/Eurekaleo/Dr.V에서 확인할 수 있습니다.
정신 건강 및 기타 민감한 분야에서 대규모 언어 모델(LLM)의 배치는 윤리적 추론, 공정성, 책임 있는 정렬에 관한 긴급한 질문들을 제기합니다. 그러나 기존의 도덕적 및 임상적 의사결정 벤치마크는 기밀성, 자율성, 선행, 편향이 빈번히 교차하는 정신 건강 실무에서 마주치는 독특한 윤리적 딜레마를 충분히 포착하지 못합니다. 이러한 격차를 해소하기 위해, 우리는 치료 및 정신과적 맥락에서 AI 시스템이 윤리적으로 민감한 상황을 어떻게 처리하는지 평가하기 위해 설계된 125개의 시나리오로 구성된 파일럿 데이터셋인 '정신 건강 윤리 추론(EthicsMH)'을 소개합니다. 각 시나리오는 다중 의사결정 옵션, 전문가와 일치하는 추론, 기대 모델 행동, 실제 세계 영향, 다중 이해관계자 관점을 포함한 구조화된 필드로 보강되었습니다. 이 구조는 의사결정 정확성뿐만 아니라 설명 품질과 전문적 규범과의 일치도 평가를 가능하게 합니다. 규모는 작고 모델 지원 생성을 통해 개발되었지만, EthicsMH는 AI 윤리와 정신 건강 의사결정을 연결하는 작업 프레임워크를 구축합니다. 이 데이터셋을 공개함으로써, 우리는 커뮤니티와 전문가의 기여를 통해 확장될 수 있는 시드 리소스를 제공하여 사회의 가장 섬세한 결정을 책임 있게 처리할 수 있는 AI 시스템의 개발을 촉진하고자 합니다.
본 논문은 CLEF 2025 CheckThat! Lab의 Task 3를 위한 우리의 시스템을 소개하며, 이 작업은 검색된 증거를 활용하여 수치적 및 시간적 주장을 검증하는 데 초점을 맞추고 있습니다. 우리는 두 가지 상호 보완적인 접근 방식을 탐구합니다: 명령어 튜닝된 대형 언어 모델(LLM)을 이용한 제로샷 프롬프팅과 파라미터 효율적인 LoRA를 사용한 지도 학습 미세 조정입니다. 증거의 질을 향상시키기 위해, 전체 문서 입력과 BM25 및 MiniLM을 사용한 상위 k개 문장 필터링을 포함한 여러 선택 전략을 조사합니다. LoRA로 미세 조정된 LLaMA 모델은 영어 검증 세트에서 강력한 성능을 보여주지만, 테스트 세트에서의 뚜렷한 성능 하락은 일반화의 어려움을 드러냅니다. 이러한 결과는 견고한 수치적 사실 검증을 위해 증거의 세분성과 모델 적응의 중요성을 강조합니다.
도메인 특화 임베딩 모델은 코딩 에이전트나 금융 검색 시스템과 같이 특수한 의미 이해가 필요한 애플리케이션에서 유망한 성과를 보여주며, 종종 일반 모델보다 더 높은 성능 향상을 달성합니다. 그러나 최첨단 임베딩 모델은 일반적으로 수십억 개의 파라미터를 포함하는 대형 언어 모델(LLM)을 기반으로 하기 때문에, 자원이 제한된 환경에서의 배포가 어려운 문제가 있습니다. 모델 압축을 위한 가지치기(pruning)는 유망한 해결책이지만, 기존의 가지치기 방법들은 모든 파라미터를 동일하게 취급하여 일반적인 의미 표현과 도메인 특화 패턴을 구분하지 못해 최적이 아닌 가지치기 결정을 내리게 됩니다. 따라서 우리는 이 문제를 해결하기 위해 도메인 중요성과 일반 언어 기반을 모두 고려하는 GAPrune이라는 가지치기 프레임워크를 제안합니다. 우리의 방법은 Fisher 정보를 사용하여 중요성을 측정하고, 일반 도메인 그래디언트 정렬을 통해 파라미터의 동작을 평가한 후, 도메인 정렬 중요도(DAI) 점수를 사용하여 이러한 신호를 결합합니다. 낮은 DAI 점수는 해당 파라미터가 도메인 작업에 덜 중요하거나 도메인과 일반 목표 간에 충돌을 일으킨다는 것을 나타냅니다. FinMTEB와 ChemTEB라는 두 가지 도메인 벤치마크에서의 실험 결과, GAPrune은 50% 희소성에서 원샷 가지치기 시 밀집 모델의 성능을 2.5% 이내로 유지하면서 모든 베이스라인을 능가하는 것으로 나타났습니다. 100단계의 재학습을 통해 GAPrune은 FinMTEB에서 +4.51%, ChemTEB에서 +1.73%의 성능 향상을 달성하며, 우리의 가지치기 전략이 도메인 특화 능력을 보존할 뿐만 아니라 강화할 수 있음을 입증했습니다. 이러한 연구 결과는 원칙에 기반한 가지치기 전략이 모델 압축과 도메인 특화 강화를 동시에 달성할 수 있음을 보여주며, 연구 커뮤니티에 새로운 개발 접근법을 제공합니다.
대형 언어 모델(LLM)이 외부 도구와의 상호작용을 점점 더 많이 수행함에 따라, 도구 사용에 대한 보상 모델링은 중요하면서도 충분히 탐구되지 않은 분야로 부상했습니다. 자연어 출력을 주로 학습한 기존의 보상 모델들은 도구 기반 추론과 실행을 평가하는 데 어려움을 겪고 있습니다. 이러한 격차를 정량화하기 위해, 우리는 도구 호출 시나리오에서 보상 모델의 성능을 체계적으로 평가하기 위한 첫 번째 벤치마크인 FC-RewardBench를 소개합니다. 우리의 분석은 현재의 보상 모델들이 효과적인 도구 사용의 핵심 신호를 놓치는 경우가 많음을 보여주며, 이는 도메인 특화 모델링의 필요성을 강조합니다. 이를 해결하기 위해, 우리는 허가된 오픈 웨이트 LLM에서 합성된 데이터를 사용하여 결과 기반 보상 모델을 위한 훈련 프레임워크를 제안합니다. 1.7B에서 14B 파라미터에 이르는 다양한 모델을 훈련하고, 이를 7개의 도메인 외 벤치마크에서 평가합니다. 이러한 모델들은 일반 목적의 베이스라인을 꾸준히 능가하며, 다운스트림 작업 성능에서 최대 25%의 평균 개선을 달성하고, 보안 가이드 필터링을 통해 데이터 효율적인 미세 조정을 가능하게 합니다.
대형 언어 모델(LLM)은 감성 지능(EI)과 장문맥 이해에서 상당한 진전을 이루었습니다. 그러나 기존 벤치마크는 특히 상호작용이 길고 다양하며 종종 노이즈가 있는 현실적이고 실용적인 설정에서 장문맥 시나리오의 EI 특정 측면을 간과하는 경향이 있습니다. 이러한 현실적인 설정으로 나아가기 위해, 우리는 장문맥 EI 작업을 위해 특별히 설계된 벤치마크인 LongEmotion을 제시합니다. 이 벤치마크는 감정 분류, 감정 탐지, 감정 질의응답, 감정 대화, 감정 요약, 감정 표현 등 다양한 작업을 포함합니다. 평균적으로, 이러한 작업의 입력 길이는 8,777 토큰에 달하며, 감정 표현을 위해 장문 생성이 요구됩니다. 현실적인 제약 하에서 성능을 향상시키기 위해, 우리는 검색 증강 생성(RAG)과 협력적 감성 모델링(CoEM)을 도입하고 이를 표준 프롬프트 기반 방법과 비교합니다. 기존 접근 방식과 달리, 우리의 RAG 방법은 대화 문맥과 대형 언어 모델 자체를 검색 소스로 활용하여 외부 지식 베이스에 대한 의존을 피합니다. CoEM 방법은 작업을 다섯 단계로 분해하고 검색 증강과 제한된 지식 주입을 통합함으로써 성능을 더욱 향상시킵니다. 실험 결과는 RAG와 CoEM이 대부분의 장문맥 작업에서 EI 관련 성능을 지속적으로 향상시켜 LLM이 더 실용적이고 현실적인 EI 응용으로 나아가도록 돕는 것을 보여줍니다. 또한, 우리는 GPT 시리즈에 대한 비교 사례 연구 실험을 수행하여 다양한 모델 간의 EI 차이를 입증했습니다. 코드는 GitHub(https://github.com/LongEmotion/LongEmotion)에서 확인할 수 있으며, 프로젝트 페이지는 https://longemotion.github.io/에서 찾을 수 있습니다.