번역이 포함된 일일 선별된 AI 연구 논문
최근 대규모 언어 모델(LLM)과 다중 에이전트 시스템의 발전은 심층 연구, 바이브 코딩, 수학적 추론과 같은 복잡한 문제 해결 과제에서 놀라운 능력을 보여주고 있습니다. 그러나 대부분의 기존 다중 에이전트 시스템은 정교한 에이전트 프레임워크를 기반으로 수동 프롬프트/워크플로 엔지니어링을 통해 구축되어 계산적으로 비효율적이고, 능력이 제한적이며, 데이터 중심 학습의 이점을 얻을 수 없습니다. 본 연구에서는 하나의 모델 내에서 다중 에이전트 시스템(즉, 다중 도구와 다중 에이전트를 사용한 다중 턴 문제 해결)과 동일한 방식으로 네이티브 엔드투엔드 복잡 문제 해결을 가능하게 하는 새로운 LLM 추론 패러다임인 Chain-of-Agents(CoA)를 소개합니다. Chain-of-Agents 문제 해결에서 모델은 동적으로 다양한 도구 에이전트와 역할 수행 에이전트를 활성화하여 다중 에이전트 협업을 엔드투엔드 방식으로 시뮬레이션합니다. LLM에서 엔드투엔드 Chain-of-Agents 문제 해결 능력을 유도하기 위해, 우리는 최첨단 다중 에이전트 시스템을 Chain-of-Agents 트레이젝토리로 증류하여 에이전트 지도 미세 조정을 위한 다중 에이전트 증류 프레임워크를 도입했습니다. 그런 다음 검증 가능한 에이전트 작업에 대해 에이전트 강화 학습을 사용하여 Chain-of-Agents 문제 해결에서 모델의 능력을 더욱 향상시켰습니다. 우리는 이를 통해 얻은 모델을 에이전트 기반 모델(AFM)이라고 명명했습니다. 우리의 실험 연구는 AFM이 웹 에이전트 및 코드 에이전트 설정에서 다양한 벤치마크에서 새로운 최첨단 성능을 달성함을 보여줍니다. 우리는 모델 가중치, 훈련 및 평가 코드, 훈련 데이터를 포함한 전체 연구를 완전히 오픈소스로 공개하여, 에이전트 모델 및 에이전트 강화 학습에 대한 미래 연구를 위한 견고한 출발점을 제공합니다.
LongSplat은 불규칙한 카메라 움직임, 알려지지 않은 카메라 포즈, 그리고 광활한 장면으로 특징지어지는 캐주얼하게 촬영된 긴 동영상으로부터 새로운 시점 합성(Novel View Synthesis, NVS)의 중요한 과제를 해결합니다. 기존 방법들은 종종 포즈 드리프트, 부정확한 기하학적 초기화, 그리고 심각한 메모리 제약으로 어려움을 겪습니다. 이러한 문제를 해결하기 위해, 우리는 LongSplat을 소개합니다. 이는 강력한 포즈 미지정 3D 가우시안 스플래팅 프레임워크로, 다음과 같은 특징을 갖추고 있습니다: (1) 로컬 최소값을 피하고 전역 일관성을 보장하기 위해 카메라 포즈와 3D 가우시안을 동시에 최적화하는 증분적 결합 최적화, (2) 학습된 3D 사전 지식을 활용한 강력한 포즈 추정 모듈, 그리고 (3) 공간 밀도에 기반하여 조밀한 포인트 클라우드를 앵커로 변환하는 효율적인 옥트리 앵커 형성 메커니즘. 도전적인 벤치마크에서의 광범위한 실험을 통해 LongSplat이 기존 접근법에 비해 렌더링 품질, 포즈 정확도, 그리고 계산 효율성을 크게 개선하며 최첨단 결과를 달성함을 입증했습니다. 프로젝트 페이지: https://linjohnss.github.io/longsplat/
대규모 언어 모델(LLMs)은 정교한 프롬프팅을 필요로 하지만, 현재의 관행은 구조, 데이터 통합, 형식 민감도, 도구 사용 등에서 여러 도전에 직면해 있습니다. 기존 방법들은 다양한 데이터 유형(문서, 테이블, 이미지)을 포함하는 복잡한 프롬프트를 체계적으로 구성하거나 프레젠테이션 변형을 관리하기 위한 포괄적인 솔루션이 부족합니다. 이러한 격차를 해결하기 위해, 우리는 POML(Prompt Orchestration Markup Language)을 소개합니다. POML은 논리적 구조(역할, 작업, 예제)를 위한 컴포넌트 기반 마크업, 원활한 데이터 통합을 위한 특수 태그, 그리고 콘텐츠와 프레젠테이션을 분리하여 형식 민감도를 줄이는 CSS 스타일링 시스템을 사용합니다. 또한 동적 프롬프트를 위한 템플릿과 버전 관리 및 협업을 개선하기 위한 포괄적인 개발자 도구 키트(IDE 지원, SDK)를 포함합니다. 우리는 POML의 효과를 검증하기 위해 복잡한 애플리케이션 통합(PomLink)과 정확도 성능(TableQA)을 보여주는 두 가지 사례 연구와 실제 개발 시나리오에서의 효과를 평가하는 사용자 연구를 수행했습니다.
시각 디자이너들은 자연스럽게 여러 시각적 참고 자료에서 영감을 얻으며, 다양한 요소와 미학적 원칙을 결합하여 작품을 창작합니다. 그러나 현재의 이미지 생성 프레임워크는 주로 단일 소스 입력(텍스트 프롬프트 또는 개별 참조 이미지)에 의존하고 있습니다. 본 논문에서는 다중 시각적 참조를 활용한 제어 가능한 이미지 생성 작업에 초점을 맞춥니다. 우리는 MultiRef-bench를 소개하는데, 이는 다중 참조 이미지의 시각적 내용을 통합해야 하는 990개의 합성 샘플과 1,000개의 실제 샘플로 구성된 엄격한 평가 프레임워크입니다. 합성 샘플은 우리의 데이터 엔진 RefBlend를 통해 생성되었으며, 10개의 참조 유형과 33개의 참조 조합을 포함합니다. RefBlend를 기반으로, 우리는 추가 연구를 촉진하기 위해 38,000개의 고품질 이미지를 포함한 MultiRef 데이터셋을 구축했습니다. 세 가지 인터리브 이미지-텍스트 모델(OmniGen, ACE, Show-o)과 여섯 가지 에이전트 프레임워크(ChatDiT, LLM + SD 등)에 대한 실험 결과, 최첨단 시스템조차 다중 참조 조건화에 어려움을 겪는 것으로 나타났습니다. 최고의 모델인 OmniGen은 합성 샘플에서 평균 66.6%, 실제 사례에서 79.0%의 성능을 보였으며, 이는 골든 답안과 비교한 수치입니다. 이러한 발견은 다중 시각적 영감을 효과적으로 통합할 수 있는 더 유연하고 인간적인 창의적 도구 개발에 유용한 방향을 제시합니다. 데이터셋은 https://multiref.github.io/에서 공개적으로 이용 가능합니다.
개인화된 추천 시스템의 평가는 여전히 핵심적인 과제로 남아 있으며, 특히 팟캐스트와 같은 장편 오디오 콘텐츠 영역에서는 기존의 오프라인 평가 지표가 노출 편향 문제를 겪고, A/B 테스트와 같은 온라인 방법은 비용이 많이 들고 운영상의 제약이 따릅니다. 본 논문에서는 대규모 언어 모델(LLM)을 오프라인 평가자로 활용하여 팟캐스트 추천의 품질을 확장 가능하고 해석 가능한 방식으로 평가하는 새로운 프레임워크를 제안합니다. 우리의 2단계 프로파일 인식 접근 방식은 먼저 90일간의 청취 기록에서 추출한 자연어 사용자 프로파일을 구성합니다. 이러한 프로파일은 주제별 관심사와 행동 패턴을 요약하여 사용자 선호도를 간결하고 해석 가능한 형태로 표현합니다. 원시 데이터를 LLM에 직접 입력하는 대신, 이러한 프로파일을 사용하여 고차원적이고 의미론적으로 풍부한 컨텍스트를 제공함으로써 LLM이 사용자의 관심사와 추천된 에피소드 간의 일치성을 더 효과적으로 추론할 수 있도록 합니다. 이는 입력 복잡성을 줄이고 해석 가능성을 향상시킵니다. 이후 LLM은 프로파일과 에피소드 간의 매칭을 기반으로 세분화된 점수 기반 및 쌍대 비교 평가를 수행하도록 프롬프트됩니다. 47명의 참가자를 대상으로 한 통제된 연구에서, 우리의 프로파일 인식 평가자는 인간의 판단과 높은 정확도로 일치했으며, 원시 청취 기록을 사용한 변형 모델과 동등하거나 더 나은 성능을 보였습니다. 이 프레임워크는 추천 시스템의 반복적 테스트와 모델 선택을 위한 효율적이고 프로파일 인식적인 평가를 가능하게 합니다.
구현된 AI에서의 일반화는 데이터 부족과 구현체의 이질성으로 인한 "보기에서 행동으로의 간극(seeing-to-doing gap)"에 의해 방해받습니다. 이를 해결하기 위해 우리는 "포인팅(pointing)"을 통합적이고 구현체에 구애받지 않는 중간 표현으로 제안하며, 고수준의 시각-언어 이해와 저수준의 행동 기본 요소를 연결하는 네 가지 핵심 구현체 포인팅 능력을 정의합니다. 우리는 구현체 추론과 포인팅을 위해 특별히 설계된 30억 파라미터 규모의 시각-언어 모델(VLM)인 Embodied-R1을 소개합니다. 다양한 구현체 및 일반 시각 추론 데이터셋을 활용하여 대규모 데이터셋인 Embodied-Points-200K를 구축하였으며, 이는 핵심 구현체 포인팅 능력을 지원합니다. 이후, 특화된 다중 작업 보상 설계와 함께 두 단계의 강화 미세 조정(Reinforced Fine-tuning, RFT) 커리큘럼을 사용해 Embodied-R1을 학습시킵니다. Embodied-R1은 11개의 구현체 공간 및 포인팅 벤치마크에서 최첨단 성능을 달성했습니다. 특히, SIMPLEREnv에서 56.2%의 성공률과 8개의 실제 XArm 작업에서 87.5%의 성공률을 기록하며, 어떠한 작업별 미세 조정 없이도 강력한 제로샷 일반화 능력을 입증했습니다. 이는 강력한 베이스라인 대비 62%의 개선을 나타냅니다. 또한, 이 모델은 다양한 시각적 방해 요인에 대해 높은 견고성을 보였습니다. 우리의 연구는 포인팅 중심 표현과 RFT 학습 패러다임의 결합이 로봇 공학에서의 지각-행동 간극을 해소하는 효과적이고 일반화 가능한 접근 방식을 제공함을 보여줍니다.
대규모 언어 모델(LLM)은 다양한 작업에서 뛰어난 성능을 보여주었지만, 근본적으로 자기 인식이 부족하며 종종 잘못된 예측에 대해 높은 신뢰 점수를 부여하는 과도한 자신감을 보이는 경우가 많습니다. 따라서 정확한 신뢰도 추정은 LLM이 생성한 출력의 신뢰성과 신뢰도를 향상시키는 데 매우 중요합니다. 그러나 기존의 접근 방식은 생성 과정 전반에 걸쳐 세밀하고 연속적인 신뢰도 추정을 제공하지 못하는 거친 점수 매커니즘의 한계를 가지고 있습니다. 이러한 한계를 해결하기 위해, 본 논문에서는 텍스트 생성 과정에서 정확하고 세밀한 신뢰도 점수를 제공하는 새로운 신뢰도 추정 방법인 FineCE를 소개합니다. 구체적으로, 먼저 LLM 응답의 기본 확률 분포를 효과적으로 포착하는 훈련 데이터 구축을 위한 포괄적인 파이프라인을 개발하고, 이를 통해 임의의 텍스트 시퀀스에 대한 신뢰도 점수를 지도 학습 방식으로 예측하는 모델을 훈련시킵니다. 또한, 추론 과정에서 현재 시퀀스의 신뢰도 추정을 향상시키기 위해 후속 텍스트의 정보를 활용하는 역방향 신뢰도 통합(Backward Confidence Integration, BCI) 전략을 제안합니다. 더불어, 생성 과정 내에서 신뢰도 추정을 수행할 최적의 위치를 식별하기 위한 세 가지 전략을 소개합니다. 여러 벤치마크 데이터셋에서의 광범위한 실험을 통해 FineCE가 기존의 고전적인 신뢰도 추정 방법들을 지속적으로 능가함을 입증합니다. 본 논문에서 사용된 코드와 모든 베이스라인은 GitHub에서 확인할 수 있습니다.
텍스트 기반 이미지 및 비디오 색상 편집은 기본적이면서도 아직 해결되지 않은 문제로, 알베도, 광원 색상, 주변 조명 등 색상 속성의 세밀한 조작이 필요하며, 동시에 기하학적 구조, 재질 특성, 빛-물질 상호작용의 물리적 일관성을 유지해야 합니다. 기존의 학습 없이 적용 가능한 방법들은 다양한 편집 작업에 폭넓게 사용될 수 있지만, 정확한 색상 제어에는 어려움을 겪으며 편집된 영역과 편집되지 않은 영역 모두에서 시각적 불일치를 초래하는 경우가 많습니다. 본 연구에서는 최신 멀티모달 디퓨전 트랜스포머(MM-DiT)의 어텐션 메커니즘을 활용한 학습 없는 색상 편집 방법인 ColorCtrl을 제안합니다. 어텐션 맵과 값 토큰을 대상으로 구조와 색상을 분리하여 조작함으로써, 이 방법은 정확하고 일관된 색상 편집과 함께 속성 강도의 단어 수준 제어를 가능하게 합니다. 또한, 이 방법은 프롬프트로 지정된 영역만을 수정하고 관련 없는 영역은 그대로 유지합니다. SD3와 FLUX.1-dev에 대한 광범위한 실험을 통해 ColorCtrl이 기존의 학습 없는 접근법을 능가하며 편집 품질과 일관성 모두에서 최신 기술 수준의 성능을 달성함을 입증했습니다. 더 나아가, 이 방법은 FLUX.1 Kontext Max 및 GPT-4o 이미지 생성과 같은 강력한 상용 모델들보다 일관성 측면에서 우수한 성능을 보였습니다. CogVideoX와 같은 비디오 모델로 확장했을 때, 이 접근법은 특히 시간적 일관성과 편집 안정성 유지 측면에서 더 큰 장점을 보였습니다. 마지막으로, 이 방법은 Step1X-Edit 및 FLUX.1 Kontext dev와 같은 지시 기반 편집 디퓨전 모델에도 일반화 가능하여 그 다양성을 추가로 입증했습니다.
가상 피팅(Virtual Try-ON, VTON)은 실용적이며 널리 적용되는 작업으로, 기존 연구 대부분은 의류에 초점을 맞추고 있습니다. 본 논문은 OmniTry를 소개하며, 이는 VTON을 의류를 넘어 보석류와 액세서리와 같은 모든 착용 가능한 물건으로 확장하고, 더 실용적인 적용을 위해 마스크 없이 설정된 통합 프레임워크입니다. 다양한 유형의 물건으로 확장할 때, 데이터 큐레이션은 물건 이미지와 해당 피팅 결과와 같은 짝을 이루는 이미지를 얻는 데 어려움이 있습니다. 이 문제를 해결하기 위해, 우리는 두 단계의 파이프라인을 제안합니다: 첫 번째 단계에서는 대규모의 짝을 이루지 않은 이미지, 즉 착용 가능한 아이템이 있는 인물 사진을 활용하여 마스크 없이 위치를 파악하는 모델을 학습시킵니다. 구체적으로, 우리는 인페인팅 모델을 재활용하여 빈 마스크가 주어졌을 때 적절한 위치에 물건을 자동으로 그립니다. 두 번째 단계에서는, 짝을 이루는 이미지로 모델을 추가로 미세 조정하여 물건 외관의 일관성을 전달합니다. 우리는 첫 번째 단계 이후의 모델이 적은 수의 짝을 이루는 샘플로도 빠르게 수렴하는 것을 관찰했습니다. OmniTry는 매장 내와 야외 이미지로 구성된 12가지 일반적인 착용 가능한 물건 클래스의 포괄적인 벤치마크에서 평가되었습니다. 실험 결과는 OmniTry가 기존 방법들에 비해 물건 위치 파악과 ID 보존 모두에서 더 나은 성능을 보인다는 것을 시사합니다. OmniTry의 코드, 모델 가중치, 그리고 평가 벤치마크는 https://omnitry.github.io/에서 공개될 예정입니다.
최근 자기 개선(self-refinement) 분야의 발전은 반복적 개선을 통해 대규모 언어 모델(LLM)의 출력을 향상시킬 수 있는 상당한 잠재력을 보여주었습니다. 그러나 기존의 대부분의 자기 개선 방법은 고정된 반복 횟수를 가진 반응적 프로세스에 의존하고 있어, 생성 과정에서 변화하는 맥락에 따라 최적의 개선 시기와 내용을 결정하기 어렵습니다. 인간이 실행 중에 자신의 생각을 동적으로 개선하는 방식에서 영감을 받아, 우리는 생성 과정에서 LLM이 출력을 개선할 수 있도록 하는 새로운 방법인 ProActive Self-Refinement(PASR)를 제안합니다. 전체 응답을 재생성하는 방법과 달리, PASR은 모델의 내부 상태와 변화하는 맥락을 기반으로 개선 여부, 시기, 방법을 능동적으로 결정합니다. 우리는 PASR의 효과를 평가하기 위해 10가지 다양한 작업에 대한 광범위한 실험을 수행했습니다. 실험 결과, PASR은 문제 해결 성능을 크게 향상시키는 것으로 나타났습니다. 특히, Qwen3-8B 모델에서 PASR은 표준 생성 방식에 비해 평균 토큰 소비량을 41.6% 줄이면서도 정확도에서 8.2%의 개선을 달성했습니다. 논문에서 사용된 모든 코드와 베이스라인은 GitHub에서 확인할 수 있습니다.
"칵테일 파티 문제"를 다루는 음성 분리 분야는 DNN(심층 신경망)을 통해 혁신적인 발전을 이루어 왔습니다. 음성 분리는 복잡한 음향 환경에서의 명료성을 향상시키며, 음성 인식 및 화자 인식을 위한 중요한 전처리 과정으로 작용합니다. 그러나 현재의 연구는 특정 아키텍처나 고립된 접근법에만 초점을 맞추어 파편화된 이해를 초래하고 있습니다. 본 조사는 이러한 격차를 해소하기 위해 DNN 기반 음성 분리 기술을 체계적으로 검토합니다. 우리의 작업은 다음과 같은 점에서 차별화됩니다: (I) 포괄적 관점: 학습 패러다임, 알려진/알려지지 않은 화자를 포함한 분리 시나리오, 지도/자기 지도/비지도 프레임워크의 비교 분석, 그리고 인코더부터 추정 전략까지의 아키텍처 구성 요소를 체계적으로 조사합니다. (II) 시의성: 최첨단 개발 동향을 다루어 최신 혁신과 벤치마크에 대한 접근성을 보장합니다. (III) 독창적 통찰: 요약을 넘어 기술적 궤적을 평가하고, 신흥 패턴을 식별하며, 도메인-강건 프레임워크, 효율적인 아키텍처, 다중모달 통합, 새로운 자기 지도 패러다임과 같은 유망한 방향을 강조합니다. (IV) 공정한 평가: 표준 데이터셋에 대한 정량적 평가를 제공하여 다양한 방법의 실제 능력과 한계를 드러냅니다. 이 포괄적인 조사는 음성 분리의 복잡한 지형을 탐색하는 경험 많은 연구자와 초보자 모두에게 접근 가능한 참고 자료로 활용될 것입니다.
본 연구는 실제 상황을 자연어로 기술한 설명문으로부터 인간이 지각하는 고통 점수를 예측하기 위해 대규모 언어 모델(LLM)의 활용을 탐구합니다. 이 과제는 회귀 문제로 설정되며, 모델은 각 입력 문장에 대해 0부터 100까지의 스칼라 값을 할당합니다. 우리는 제로샷, 고정된 문맥을 사용한 퓨샷, 그리고 BERT 문장 임베딩을 활용한 검색 기반 프롬프팅을 포함한 다양한 프롬프팅 전략을 평가합니다. 퓨샷 접근법은 일관적으로 제로샷 기준선을 능가하며, 감정 예측에서 문맥적 예시의 중요성을 강조합니다. 정적 평가를 넘어서기 위해, 우리는 텔레비전 형식에서 영감을 받은 새로운 게임화 프레임워크인 "고통 게임 쇼"를 도입합니다. 이는 순위 비교, 이진 분류, 스칼라 추정, 그리고 피드백 기반 추론을 포함한 구조화된 라운드를 통해 LLM을 테스트합니다. 이 설정은 예측 정확도뿐만 아니라 수정 피드백에 기반하여 모델이 적응하는 능력도 평가할 수 있게 합니다. 게임화된 평가는 표준 회귀를 넘어 동적 감정 추론 과제에서 LLM의 더 넓은 잠재력을 강조합니다. 코드 및 데이터 링크: https://github.com/abhi1nandy2/Misery_Data_Exps_GitHub
최근 텍스트-이미지 생성을 위한 플로우 매칭 모델들은 뛰어난 품질을 달성했으나, 인간 선호도 정렬을 위한 강화 학습과의 통합은 여전히 최적화되지 못해 세밀한 보상 기반 최적화를 방해하고 있습니다. 우리는 플로우 모델의 효과적인 GRPO(Generalized Reward Policy Optimization) 훈련에 있어 주요 장애 요인이 기존 접근법의 시간적 균일성 가정에 있음을 관찰했습니다: 균일한 신용 할당을 가진 희소한 최종 보상은 생성 타임스텝 간 결정의 다양한 중요성을 포착하지 못해 비효율적인 탐색과 차선의 수렴을 초래합니다. 이러한 단점을 해결하기 위해, 우리는 플로우 기반 생성에 내재된 시간적 구조를 포착하고 활용하는 원칙적인 GRPO 프레임워크인 TempFlow-GRPO(Temporal Flow GRPO)를 제안합니다. TempFlow-GRPO는 두 가지 주요 혁신을 도입합니다: (i) 지정된 분기 지점에서 확률성을 집중시켜 프로세스 보상을 제공하는 궤적 분기 메커니즘으로, 특수한 중간 보상 모델 없이도 정확한 신용 할당이 가능하며; (ii) 각 타임스텝의 내재적 탐색 잠재력에 따라 정책 최적화를 조절하는 노이즈 인식 가중치 기법으로, 초기 고영향 단계에서의 학습을 우선시하면서 후기 단계에서의 안정적인 정제를 보장합니다. 이러한 혁신들은 모델에 기본 생성 역학을 존중하는 시간적 인식 최적화를 부여하여, 인간 선호도 정렬 및 표준 텍스트-이미지 벤치마크에서 최첨단 성능을 달성하게 합니다.
다중 에이전트 강화 학습(MARL)은 협력적 및 경쟁적 의사결정 문제를 해결하기 위한 강력한 패러다임이다. 많은 MARL 벤치마크가 제안되었지만, 연속적인 상태 및 행동 공간과 도전적인 조정 및 계획 작업을 결합한 사례는 드물다. 본 연구에서는 연속적인 행동을 지원하는 환경에서 다중 에이전트 경로 탐색을 위해 명시적으로 설계된 새로운 MARL 벤치마크인 CAMAR를 소개한다. CAMAR는 에이전트 간의 협력적 및 경쟁적 상호작용을 지원하며 초당 최대 100,000 환경 단계까지 효율적으로 실행된다. 또한, 알고리즘의 진전을 더 잘 추적하고 성능에 대한 심층 분석을 가능하게 하기 위해 3단계 평가 프로토콜을 제안한다. 더불어, CAMAR는 RRT 및 RRT*와 같은 고전적인 계획 방법을 MARL 파이프라인에 통합할 수 있도록 한다. 이를 독립적인 기준선으로 사용하고, RRT*를 인기 있는 MARL 알고리즘과 결합하여 하이브리드 접근법을 생성한다. 재현성과 공정한 비교를 보장하기 위해 테스트 시나리오 및 벤치마킹 도구 세트를 제공한다. 실험 결과, CAMAR는 MARL 커뮤니티에게 도전적이고 현실적인 테스트베드를 제공함을 보여준다.
대규모 언어 모델(LLM)에 대한 저작권 보호는 그 막대한 개발 비용, 독점적 가치, 그리고 오용 가능성으로 인해 매우 중요합니다. 기존 연구들은 주로 LLM 생성 콘텐츠의 추적 기술, 즉 텍스트 워터마킹에 초점을 맞추어 왔으며, 모델 자체를 보호하는 방법(예: 모델 워터마킹 및 모델 핑거프린팅)에 대한 체계적인 탐구는 아직 부족한 상태입니다. 더욱이, 텍스트 워터마킹, 모델 워터마킹, 그리고 모델 핑거프린팅 간의 관계와 차이점이 포괄적으로 명확히 정리되지 않았습니다. 본 연구는 LLM 저작권 보호 기술의 현재 상태를 종합적으로 조사하며, 특히 모델 핑거프린팅에 초점을 맞추어 다음과 같은 측면을 다룹니다: (1) 텍스트 워터마킹에서 모델 워터마킹 및 핑거프린팅으로의 개념적 연결을 명확히 하고, 모델 워터마킹을 더 넓은 핑거프린팅 프레임워크에 통합하는 통일된 용어를 채택; (2) 다양한 텍스트 워터마킹 기술의 개요 및 비교를 제공하며, 이러한 방법이 모델 핑거프린팅으로 기능할 수 있는 사례를 강조; (3) LLM 저작권 보호를 위한 기존 모델 핑거프린팅 접근법을 체계적으로 분류 및 비교; (4) 최초로 핑거프린트 전이 및 제거 기술을 소개; (5) 모델 핑거프린트의 평가 지표(효과성, 무해성, 견고성, 은밀성, 신뢰성 등)를 요약; (6) 개방형 과제 및 향후 연구 방향을 논의. 본 조사는 연구자들에게 LLM 시대의 텍스트 워터마킹 및 모델 핑거프린팅 기술에 대한 깊은 이해를 제공함으로써, 그들의 지적 재산권 보호를 위한 추가 발전을 촉진하고자 합니다.
고급 추론 및 도구 사용 능력을 갖춘 AI 에이전트들은 심층 검색을 위한 웹 브라우징에서 인상적인 성능을 보여왔습니다. 기존의 BrowseComp와 같은 벤치마크가 이러한 브라우징 능력을 평가하지만, 이들은 주로 텍스트 정보에 초점을 맞추어 다중 모달 콘텐츠의 보편성을 간과하고 있습니다. 이러한 격차를 해소하기 위해, 우리는 MM-BrowseComp라는 새로운 벤치마크를 소개합니다. 이 벤치마크는 에이전트들의 다중 모달 검색 및 추론 능력을 평가하기 위해 특별히 설계된 224개의 도전적인, 수작업으로 제작된 질문들로 구성되어 있습니다. 이러한 질문들은 종종 프롬프트에 이미지를 포함하며, 검색 및 추론 과정에서 마주치는 중요한 정보는 웹페이지의 이미지나 비디오에 내재되어 있을 수 있습니다. 결과적으로, 텍스트에만 의존하는 방법들은 우리의 벤치마크에 충분하지 않습니다. 또한, 각 질문에 대해 검증된 체크리스트를 제공하여 다중 모달 의존성과 추론 경로에 대한 세부적인 분석을 가능하게 합니다. MM-BrowseComp에서 최신 모델들을 종합적으로 평가한 결과, OpenAI o3와 같은 최상위 모델들도 도구를 사용하여 단 29.02%의 정확도만을 달성함으로써, 현재 모델들의 다중 모달 능력이 최적화되지 않았으며, 기본적인 다중 모달 추론이 부족함을 보여줍니다.
오디오 이해—음성, 비음성 소리, 음악을 포함한—는 인간 수준의 지능을 달성하기 위해 필수적입니다. 따라서, 일반 지능을 갖춘 것으로 간주되기 위해서는 AI 에이전트가 포괄적인 오디오 이해 능력을 보여주어야 합니다. 그러나, 청각 지능을 종합적으로 평가하는 것은 여전히 어려운 과제로 남아 있습니다. 이러한 격차를 해결하기 위해, 우리는 AI 시스템의 오디오 지능을 평가하기 위해 가장 포괄적이고 엄격하게 선별된 벤치마크인 MMAU-Pro를 소개합니다. MMAU-Pro는 5,305개의 인스턴스를 포함하며, 각 인스턴스는 하나 이상의 오디오와 인간 전문가가 생성한 질문-답변 쌍으로 구성되어 있으며, 음성, 소리, 음악 및 이들의 조합을 다룹니다. 기존 벤치마크와 달리, MMAU-Pro는 49가지 독특한 기술과 여러 복잡한 차원에 걸쳐 청각 지능을 평가합니다. 이는 장편 오디오 이해, 공간 오디오 추론, 다중 오디오 이해 등을 포함합니다. 모든 질문은 신중하게 설계되어 다중 단계 추론을 요구하며, 객관식과 주관식 응답 형식을 모두 포함합니다. 중요한 점은, 오디오 데이터가 기존의 알려진 분포를 가진 데이터셋이 아니라 "야생에서" 직접 수집되었다는 것입니다. 우리는 22개의 주요 오픈소스 및 독점 멀티모달 AI 모델을 평가하여 상당한 한계를 발견했습니다: Gemini 2.5 Flash와 Audio Flamingo 3과 같은 최첨단 모델조차 각각 59.2%와 51.7%의 정확도를 보이며, 여러 범주에서 무작위 성능에 근접했습니다. 우리의 광범위한 분석은 특정 단점을 강조하고 새로운 통찰을 제공하여, 향후 AI 시스템이 오디오 일반 지능을 향해 나아가기 위한 실행 가능한 관점을 제시합니다. 벤치마크와 코드는 https://sonalkum.github.io/mmau-pro에서 확인할 수 있습니다.
본 연구는 골격 구조가 크게 다른 캐릭터 간의 애니메이션 전달 문제를 다룹니다. 수십 년 동안 많은 기술들이 리타겟팅 기법을 발전시켜 왔지만, 다양한 토폴로지 간의 모션 전달은 여전히 덜 탐구된 분야입니다. 주요 장애물은 소스와 타겟 골격 간의 고유한 토폴로지 불일치에 있으며, 이는 직관적인 일대일 뼈 대응 관계 설정을 제한합니다. 또한, 서로 다른 토폴로지 구조를 아우르는 대규모 페어링된 모션 데이터셋의 부재는 데이터 기반 접근법의 개발을 심각하게 제약하고 있습니다. 이러한 한계를 해결하기 위해, 우리는 Motion2Motion이라는 새로운 훈련이 필요 없는 프레임워크를 소개합니다. Motion2Motion은 단순하면서도 효과적으로, 소스와 타겟 골격 간의 희소한 뼈 대응 관계에 접근하여 타겟 골격에서 하나 또는 몇 개의 예시 모션만으로 작동합니다. 포괄적인 정성적 및 정량적 평가를 통해, Motion2Motion이 유사 골격 및 종 간 골격 전달 시나리오에서 모두 효율적이고 신뢰할 수 있는 성능을 달성함을 입증합니다. 우리의 접근법의 실용적 유용성은 다운스트림 애플리케이션과 사용자 인터페이스에 성공적으로 통합된 사례를 통해 더욱 입증되며, 산업적 응용 가능성을 강조합니다. 코드와 데이터는 https://lhchen.top/Motion2Motion에서 확인할 수 있습니다.
희소 오토인코더(SAE)는 지도 없이도 대규모 언어 모델(LLM)에서 해석 가능한 특징을 추출할 수 있습니다. 그러나 하류 작업에서의 효과는 대조 데이터셋이나 대규모 활성화 저장이 필요하다는 점에 의해 제한됩니다. 이러한 한계를 해결하기 위해, 우리는 CorrSteer를 제안합니다. 이 방법은 생성된 토큰의 SAE 활성화와 샘플 정확도를 상관 관계를 통해 특징을 선택합니다. 이 접근법은 추론 시 활성화만을 사용하여 더 관련성 높은 특징을 추출함으로써 허위 상관 관계를 피합니다. 또한 평균 활성화로부터 조정 계수를 얻어 전체 파이프라인을 자동화합니다. 우리의 방법은 Gemma 2 2B와 LLaMA 3.1 8B에서 QA, 편향 완화, 탈옥 방지, 추론 벤치마크에서 개선된 작업 성능을 보여주며, 특히 MMLU 성능에서 +4.1%, HarmBench에서 +22.9%의 향상을 단 4000개의 샘플로 달성했습니다. 선택된 특징은 각 작업의 요구 사항과 일치하는 의미론적으로 의미 있는 패턴을 보여주며, 성능을 이끄는 근본적인 능력을 드러냅니다. 우리의 연구는 상관 관계 기반 선택이 언어 모델 응용 프로그램 전반에 걸쳐 자동화된 SAE 조정을 위한 효과적이고 확장 가능한 접근법임을 입증합니다.
범용 의료 영상 분할 모델은 다양한 작업에 걸친 강력한 일반화 능력으로 인해 다양한 임상 응용 분야에서 큰 잠재력을 보이며 유망한 패러다임으로 부상하고 있습니다. 이러한 잠재력은 Segment Anything Model (SAM)과 같은 범용 비전 모델의 성공에 부분적으로 기인하며, 이는 의료 분할 작업을 위한 다양한 미세 조정 변형 모델의 개발에 영감을 주었습니다. 그러나 MedSAM과 같은 미세 조정 변형 모델은 비교적 제한된 의료 영상 데이터로 학습되며, 이 데이터는 종종 이질성, 부족한 주석, 그리고 분포 변화로 인해 어려움을 겪습니다. 이러한 문제들은 다양한 의료 분할 작업에 걸친 일반화 능력을 제한합니다. 이러한 점을 고려하여, 우리는 의료 영상 분할을 위해 범용 모델(예: SAM)과 전문가 모델(예: MedSAM)의 강점을 통합한 학습이 필요 없는 모델 병합 방법인 MedSAMix를 제안합니다. 수동 구성에 의존하며 종종 최적이 아닌 결과를 초래하는 전통적인 모델 병합 접근법과 달리, 우리는 최적의 계층별 병합 솔루션을 자동으로 발견하기 위한 제로-오더 최적화 방법을 제안합니다. 더 나아가, 임상 응용을 위해, 단일 작업 최적화와 다중 목표 최적화를 각각 통해 도메인 특수성과 일반화 능력의 요구를 충족시키는 두 가지 체계를 개발합니다. 25개의 의료 분할 작업에 대한 광범위한 평가를 통해 MedSAMix가 모델 편향을 효과적으로 완화하고 도메인 특수 정확도와 일반화 모두에서 성능을 지속적으로 개선하며, 전문 작업에서 6.67%, 다중 작업 평가에서 4.37%의 성능 향상을 달성함을 입증합니다.
대형 언어 모델(LLMs)로 구동되는 생성 모델은 추천 및 검색 작업을 모두 지원하는 통합 솔루션으로 부상하고 있습니다. 이러한 모델에서의 주요 설계 선택은 아이템을 어떻게 표현할지에 관한 것으로, 전통적으로는 고유 식별자(ID)를 사용했으며 최근에는 임베딩에서 얻은 이산 코드로 구성된 시맨틱 ID(Semantic ID)를 사용하는 추세입니다. 작업별 임베딩 모델은 개별 작업의 성능을 향상시킬 수 있지만, 통합 환경에서는 잘 일반화되지 않을 수 있습니다. 본 논문에서는 통합 모델을 사용할 때 검색과 추천 모두에서 잘 작동하는 시맨틱 ID를 구축하는 방법을 탐구합니다. 우리는 시맨틱 ID를 구성하기 위한 다양한 전략을 비교하며, 작업별 및 작업 간 접근 방식을 살펴보고, 통합 검색 및 추천 생성 모델에서 각 작업이 자체 시맨틱 ID 토큰을 가져야 하는지 여부도 검토합니다. 우리의 실험 결과, 검색 및 추천 작업 모두에 대해 미세 조정된 바이-인코더 모델을 사용하여 아이템 임베딩을 얻은 후 통합 시맨틱 ID 공간을 구축하는 것이 두 작업 모두에서 강력한 성능을 발휘하는 효과적인 절충안임을 보여줍니다. 이러한 연구 결과가 일반화 가능하고 의미론적으로 기반을 둔 ID 체계에 대한 후속 연구를 촉발하고, 통합 생성 추천 아키텍처의 다음 물결에 정보를 제공하기를 바랍니다.
기존의 비디오 추천 시스템은 주로 사용자 정의 메타데이터나 특수 인코더로 추출된 저수준의 시각 및 음향 신호에 의존해 왔습니다. 이러한 저수준 특징들은 화면에 나타나는 내용을 기술하지만, 클립이 시청자와 공감을 일으키게 하는 의도, 유머, 세계 지식과 같은 더 깊은 의미를 놓치고 있습니다. 예를 들어, 30초짜리 클립이 단순히 지붕 위에 있는 가수인지, 아니면 터키 카파도키아의 요정 굴뚝 배경에서 촬영된 아이러니한 패러디인지와 같은 구분은 개인화된 추천에 있어서는 매우 중요하지만, 전통적인 인코딩 파이프라인에서는 보이지 않습니다. 본 논문에서는 오프더셰프 멀티모달 대형 언어 모델(MLLM)을 활용하여 각 클립을 풍부한 자연어 설명(예: "슬랩스틱 싸움과 오케스트라 음악이 어우러진 슈퍼히어로 패러디")으로 요약함으로써, 원시 콘텐츠와 사용자 의도 간의 간극을 메우는 간단하고 추천 시스템에 독립적인 제로-파인튜닝 프레임워크를 소개합니다. 우리는 MLLM 출력을 최신 텍스트 인코더와 함께 사용하여 이를 표준 협업 필터링, 콘텐츠 기반, 생성형 추천 시스템에 입력합니다. TikTok 스타일의 비디오와의 사용자 상호작용을 모방한 MicroLens-100K 데이터셋에서, 우리의 프레임워크는 다섯 가지 대표적인 모델에서 기존의 비디오, 오디오, 메타데이터 특징을 지속적으로 능가했습니다. 우리의 연구 결과는 MLLM을 실시간 지식 추출기로 활용하여 더욱 의도 인식적인 비디오 추천 시스템을 구축할 가능성을 강조합니다.
3D 가우시안 스플래팅(3DGS) 및 신경 방사 필드(NeRF)와 같은 방사 필드(RF)의 발전은 인터랙티브 포토리얼리스틱 뷰 합성을 혁신적으로 변화시켰으며, XR 연구 및 응용 분야에 막대한 기회를 제공하고 있습니다. 그러나 RF 연구가 기하급수적으로 성장함에도 불구하고, XR 커뮤니티에 기여한 RF 관련 연구는 여전히 드물게 나타납니다. 이러한 연구 격차를 더 잘 이해하기 위해, 우리는 현재의 RF 문헌을 체계적으로 조사하여 (i) RF가 XR 응용 분야에서 어떻게 구상되고 있는지, (ii) 이미 어떻게 구현되었는지, 그리고 (iii) 남아 있는 연구 격차를 분석했습니다. 우리는 컴퓨터 비전, 컴퓨터 그래픽스, 로보틱스, 멀티미디어, 인간-컴퓨터 상호작용, 그리고 XR 커뮤니티에서 XR과 관련된 365개의 RF 연구를 수집하여 위의 연구 질문에 답하고자 했습니다. 365편의 논문 중에서, 우리는 XR을 위한 RF 연구의 세부적인 측면을 이미 다룬 66편의 논문을 분석했습니다. 이 조사를 통해, 우리는 XR 특화 RF 연구 주제를 더 넓은 RF 연구 분야에서 확장하고 위치시켰으며, RF 연구의 급속한 발전 속에서 XR 커뮤니티가 이를 탐색하는 데 유용한 자료를 제공합니다.
모션 센서 시계열 데이터는 인간 활동 인식(HAR)의 핵심 요소로, 건강, 스포츠, 스마트 디바이스 등 다양한 분야에서 활용됩니다. 그러나 기존 방법들은 고정된 활동 집합에 대해 학습되며, 새로운 행동이나 센서 설정이 등장할 때마다 비용이 많이 드는 재학습이 필요합니다. 최근 대규모 언어 모델(LLM)을 HAR에 활용하려는 시도들은 일반적으로 신호를 텍스트나 이미지로 변환하는 방식을 사용하지만, 정확도가 제한적이고 검증 가능한 해석력을 결여하고 있습니다. 우리는 원시 모션 시계열 데이터에서 바로 제로샷(zero-shot) 및 설명 가능한 HAR을 수행하는 최초의 에이전트 기반 프레임워크인 ZARA를 제안합니다. ZARA는 각 활동 쌍에 대한 판별 통계를 포착하는 자동 생성된 쌍별 특징 지식 베이스, 관련 증거를 도출하는 다중 센서 검색 모듈, 그리고 LLM이 반복적으로 특징을 선택하고 이 증거를 활용하며 활동 예측과 자연어 설명을 생성하도록 안내하는 계층적 에이전트 파이프라인을 통합합니다. ZARA는 미세 조정이나 작업별 분류기 없이도 유연하고 해석 가능한 HAR을 가능하게 합니다. 8개의 HAR 벤치마크에서 진행된 광범위한 실험 결과, ZARA는 SOTA 제로샷 성능을 달성하며 명확한 추론을 제공하면서 가장 강력한 베이스라인을 매크로 F1 점수에서 2.53배 초과하는 성과를 보였습니다. 추가로 수행된 어블레이션 연구는 각 모듈의 필요성을 확인하며, ZARA를 신뢰할 수 있는 플러그 앤 플레이 모션 시계열 분석을 위한 유망한 단계로 표시합니다. 우리의 코드는 https://github.com/zechenli03/ZARA에서 확인할 수 있습니다.
대규모 언어 모델은 인간과 비교하여 도덕적 차원을 어떻게 이해하는가? 이번 연구는 시장을 선도하는 언어 모델에 대한 첫 번째 대규모 베이지안 평가를 통해 그 답을 제공한다. 기존의 결정론적 기준(다수결 또는 포함 규칙)을 사용한 연구와 달리, 우리는 주석자 간의 불일치를 모델링하여 알레토릭 불확실성(고유한 인간의 불일치)과 에피스테믹 불확실성(모델의 도메인 민감도)을 모두 포착한다. 우리는 소셜 미디어, 뉴스, 포럼 등에서 수집된 10만 개 이상의 텍스트에 대해 약 700명의 주석자가 작성한 25만 개 이상의 주석을 바탕으로 주요 언어 모델(Claude Sonnet 4, DeepSeek-V3, Llama 4 Maverick)을 평가했다. GPU 최적화된 베이지안 프레임워크를 통해 100만 개 이상의 모델 쿼리를 처리한 결과, AI 모델은 일반적으로 상위 25%의 인간 주석자에 속하며 평균보다 훨씬 우수한 균형 정확도를 달성하는 것으로 나타났다. 특히, AI는 인간보다 훨씬 적은 수의 거짓 부정(false negative)을 생성하는데, 이는 AI의 더 민감한 도덕적 탐지 능력을 강조한다.
우리는 훈련 데이터와 비교하여 보이지 않는 합성 방법, 화자, 언어 또는 오디오 조건으로 인해 발생하는 분포 변화(distribution shifts) 하에서 합성 음성을 탐지하는 과제를 다룹니다. 소수 샘플 학습(few-shot learning) 방법은 소수의 분포 내(in-distribution) 샘플을 기반으로 신속하게 적응함으로써 이러한 분포 변화를 해결할 수 있는 유망한 접근법입니다. 우리는 더 강력한 소수 샘플 적응을 가능하게 하는 자기 주의(self-attentive) 프로토타입 네트워크를 제안합니다. 우리의 접근 방식을 평가하기 위해, 전통적인 제로샷(zero-shot) 탐지기와 제안된 소수 샘플 탐지기의 성능을 체계적으로 비교하고, 평가 시점에 분포 변화를 도입하기 위해 훈련 조건을 신중하게 통제합니다. 분포 변화가 제로샷 성능을 저해하는 조건에서, 우리가 제안한 소수 샘플 적응 기술은 단 10개의 분포 내 샘플만을 사용하여 신속하게 적응할 수 있습니다. 이를 통해 일본어 딥페이크(deepfake) 데이터셋에서 최대 32%의 상대적 EER(Equal Error Rate) 감소를 달성했으며, ASVspoof 2021 딥페이크 데이터셋에서도 20%의 상대적 감소를 보였습니다.
대규모 언어 모델(LLM)은 놀라운 문제 해결 능력을 보여주지만, 정적인 내부 지식으로 인해 복잡한 작업에 어려움을 겪습니다. 검색 강화 생성(RAG)은 외부 정보에 대한 접근성을 향상시키지만, 경직된 워크플로우로 인해 다중 홉 추론과 전략적 검색에서 한계를 보입니다. 최근 에이전트 기반 심층 연구의 발전으로 LLM이 자율적으로 추론, 검색 및 정보를 종합할 수 있게 되었습니다. 그러나 결과 기반 강화 학습(RL)에 의존하는 현재의 접근 방식은 상충되는 그래디언트와 희소한 보상과 같은 중요한 문제를 안고 있어 성능 향상과 훈련 효율성을 제한합니다. 이를 해결하기 위해, 우리는 먼저 추론을 세분화된 기능 단위로 분해하는 새로운 LLM 사고 패러다임인 Atomic Thought를 제안합니다. 이러한 단위는 추론 보상 모델(RRM)에 의해 감독되며, 세분화된 지침을 위한 Atomic Thought 보상(ATR)을 제공합니다. 이를 기반으로, 우리는 Atomic Thought와 ATR을 통합한 에이전트 기반 심층 연구를 위한 새로운 RL 프레임워크인 Atom-Searcher를 제안합니다. Atom-Searcher는 커리큘럼에서 영감을 받은 보상 스케줄을 사용하여 초기에는 프로세스 수준의 ATR을 우선시하고, 이후 결과 보상으로 전환함으로써 효과적인 추론 경로에 대한 수렴을 가속화합니다. 7개의 벤치마크에서의 실험은 최신 기술 대비 일관된 개선을 보여줍니다. 주요 장점은 다음과 같습니다: (1) Atom-Searcher는 테스트 시 계산을 확장합니다. (2) Atomic Thought는 RRM을 위한 감독 앵커를 제공하여 심층 연구 작업과 RRM을 연결합니다. (3) Atom-Searcher는 더 해석 가능하고 인간과 유사한 추론 패턴을 보입니다.