번역이 포함된 일일 선별된 AI 연구 논문
AI 기반 예술 창작을 위한 오픈소스 플랫폼인 ComfyUI의 사용성과 효율성을 향상시키기 위해 설계된 대형 언어 모델 기반 플러그인인 ComfyUI-Copilot을 소개한다. ComfyUI는 유연성과 사용자 친화적인 인터페이스를 갖추고 있지만, 초보자에게는 제한된 문서화, 모델 설정 오류, 워크플로 설계의 복잡성 등의 어려움을 제공할 수 있다. ComfyUI-Copilot은 이러한 문제를 해결하기 위해 지능형 노드 및 모델 추천과 자동화된 원클릭 워크플로 구축 기능을 제공한다. 이 시스템의 핵심은 작업 위임을 담당하는 중앙 어시스턴트 에이전트와 다양한 용도에 특화된 작업자 에이전트로 구성된 계층적 다중 에이전트 프레임워크로, 이를 통해 디버깅 및 배포 과정을 간소화한다. 또한, ComfyUI-Copilot의 효과를 오프라인 정량적 평가와 온라인 사용자 피드백을 통해 검증하였으며, 이 플러그인이 노드를 정확하게 추천하고 워크플로 개발 속도를 가속화함을 확인하였다. 추가적으로, 사용 사례를 통해 ComfyUI-Copilot이 초보자의 진입 장벽을 낮추고 숙련된 사용자의 워크플로 효율성을 향상시킴을 보여준다. ComfyUI-Copilot 설치 패키지와 데모 비디오는 https://github.com/AIDC-AI/ComfyUI-Copilot에서 확인할 수 있다.
최근 확산 기반 비디오 복원(VR) 기술의 발전은 시각적 품질에서 상당한 개선을 보여주었지만, 추론 과정에서 과도한 계산 비용을 초래하고 있습니다. 한편, 여러 증류 기반 접근법이 단일 단계 이미지 복원의 잠재력을 입증했음에도 불구하고, 이를 VR로 확장하는 것은 여전히 어려운 과제로 남아 있으며, 특히 실제 환경에서 고해상도 비디오를 다룰 때 더욱 그렇습니다. 본 연구에서는 SeedVR2로 명명된 단일 단계 확산 기반 VR 모델을 제안하며, 이 모델은 실제 데이터에 대해 적대적 VR 훈련을 수행합니다. 단일 단계 내에서 고해상도 VR을 처리하기 위해, 우리는 모델 아키텍처와 훈련 절차 모두에 여러 가지 개선 사항을 도입했습니다. 구체적으로, 출력 해상도에 맞춰 창 크기를 동적으로 조정하는 적응형 창 주의 메커니즘을 제안하여, 미리 정의된 창 크기를 사용한 창 주의 메커니즘에서 관찰된 고해상도 VR 하의 창 불일치 문제를 해결했습니다. 또한, VR을 위한 적대적 사후 훈련을 안정화하고 개선하기 위해, 훈련 효율성을 크게 희생하지 않으면서 제안된 특징 매칭 손실을 포함한 일련의 손실 함수의 효과를 검증했습니다. 광범위한 실험을 통해 SeedVR2가 단일 단계에서 기존 VR 접근법과 비교하여 비슷하거나 더 나은 성능을 달성할 수 있음을 입증했습니다.
본 연구에서는 Qwen3 기반 모델을 기반으로 텍스트 임베딩 및 리랭킹 기능에서 이전 버전인 GTE-Qwen 시리즈를 크게 개선한 Qwen3 임베딩 시리즈를 소개합니다. Qwen3 대형 언어 모델(LLM)의 다국어 텍스트 이해 및 생성 능력을 활용하여, 우리는 대규모 비지도 사전 학습과 고품질 데이터셋에 대한 지도 미세 조정을 결합한 혁신적인 다단계 학습 파이프라인을 개발했습니다. 효과적인 모델 병합 전략은 Qwen3 임베딩 시리즈의 견고성과 적응성을 더욱 보장합니다. 학습 과정에서 Qwen3 LLM은 백본 모델로 사용될 뿐만 아니라, 다양한 도메인과 언어에 걸쳐 고품질의 풍부하고 다양한 학습 데이터를 합성하는 데 중요한 역할을 하여 학습 파이프라인을 강화합니다. Qwen3 임베딩 시리즈는 임베딩 및 리랭킹 작업을 위해 다양한 모델 크기(0.6B, 4B, 8B)를 제공하여 사용자가 효율성 또는 효과성을 최적화할 수 있는 다양한 배포 시나리오를 해결합니다. 실험적 평가 결과, Qwen3 임베딩 시리즈는 다양한 벤치마크에서 최첨단 성능을 달성함을 보여줍니다. 특히, 텍스트 임베딩을 위한 다국어 평가 벤치마크 MTEB에서 우수한 성능을 보이며, 코드 검색, 교차 언어 검색 및 다국어 검색을 포함한 다양한 검색 작업에서도 뛰어난 성과를 거두었습니다. 재현성을 촉진하고 커뮤니티 주도의 연구 및 개발을 장려하기 위해 Qwen3 임베딩 모델은 Apache 2.0 라이선스 하에 공개되었습니다.
새롭게 등장하는 세계 모델은 카메라 이동 및 텍스트 프롬프트와 같은 제어 신호에 대한 응답으로 비디오 프레임을 자동회귀적으로 생성한다. 제한된 시간적 컨텍스트 창 크기로 인해, 이러한 모델들은 재방문 시 장면 일관성을 유지하는 데 어려움을 겪으며, 이전에 생성된 환경을 심각하게 잊어버리는 문제가 발생한다. 인간의 기억 메커니즘에서 영감을 받아, 우리는 기하학적으로 기반을 둔 장기 공간 메모리를 통해 비디오 세계 모델의 장기적 일관성을 향상시키는 새로운 프레임워크를 제안한다. 우리의 프레임워크는 장기 공간 메모리에서 정보를 저장하고 검색하는 메커니즘을 포함하며, 명시적으로 저장된 3D 메모리 메커니즘을 갖춘 세계 모델을 훈련하고 평가하기 위해 맞춤형 데이터셋을 구축한다. 평가 결과, 관련 기준선과 비교하여 품질, 일관성 및 컨텍스트 길이에서 개선된 성능을 보여주며, 장기적 일관성을 갖춘 세계 생성으로 나아가는 길을 열어준다.
공간 참조(spatial referring)는 구현된 로봇이 3D 물리 세계와 상호작용하기 위한 기본적인 능력입니다. 그러나 강력한 사전 학습된 시각-언어 모델(VLMs)이 있음에도 불구하고, 최근 접근법들은 여전히 복잡한 3D 장면을 정확히 이해하고 지시된 위치에 대해 동적으로 추론하여 상호작용할 수 있는 수준에 이르지 못했습니다. 이를 위해 우리는 RoboRefer를 제안합니다. RoboRefer는 감독된 미세 조정(SFT)을 통해 분리되었지만 전용 깊이 인코더를 통합함으로써 정확한 공간 이해를 먼저 달성할 수 있는 3D 인식 VLM입니다. 더 나아가, RoboRefer는 공간 참조 작업에 맞춤화된 메트릭-민감 프로세스 보상 함수를 통해 강화 미세 조정(RFT)을 거쳐 일반화된 다단계 공간 추론을 발전시킵니다. SFT와 RFT 훈련을 지원하기 위해, 우리는 20M QA 쌍(기존의 2배)으로 구성된 대규모 데이터셋인 RefSpatial을 소개합니다. 이 데이터셋은 31개의 공간 관계(기존 15개 대비)를 포함하며 최대 5단계의 복잡한 추론 과정을 지원합니다. 또한, 다단계 추론을 통한 공간 참조 평가의 격차를 메우기 위한 도전적인 벤치마크인 RefSpatial-Bench를 소개합니다. 실험 결과, SFT로 훈련된 RoboRefer는 평균 89.6%의 성공률로 최첨단 공간 이해를 달성했습니다. RFT로 훈련된 RoboRefer는 모든 다른 베이스라인을 큰 차이로 능가하며, RefSpatial-Bench에서 평균 정확도 기준 Gemini-2.5-Pro를 17.4% 앞섰습니다. 특히, RoboRefer는 다양한 제어 정책과 통합되어 복잡한 실제 장면에서 다양한 로봇(예: UR5, G1 휴머노이드)에 걸친 장기적이고 동적인 작업을 실행할 수 있습니다.
Transformer 모델은 2차 시간 복잡도와 선형 메모리 복잡도로 인해 장문맥 추론에 어려움을 겪는다. Recurrent Memory Transformers(RMTs)는 이러한 문제를 해결하기 위해 점근적 비용을 선형 시간과 상수 메모리 사용량으로 줄이는 방법을 제안한다. 그러나 RMT의 메모리 업데이트 메커니즘은 순차적 실행을 유발하여 성능 병목 현상을 초래한다. 본 연구에서는 Diagonal Batching이라는 스케줄링 기법을 소개한다. 이 기법은 RMT에서 세그먼트 간 병렬성을 활성화하면서도 정확한 재귀 구조를 유지한다. 이 접근법은 순차적 제약을 제거함으로써 복잡한 배칭 및 파이프라이닝 기법 없이도 단일 장문맥 입력에 대해 효율적인 GPU 추론을 가능하게 한다. 이 기술은 순수하게 런타임 계산 재배열에 기반하므로, 기존 RMT 모델은 재학습 없이도 이를 적용할 수 있다. LLaMA-1B ARMT 모델에 Diagonal Batching을 적용한 결과, 131,072 토큰 시퀀스에서 표준 full-attention LLaMA-1B 대비 3.3배, 순차적 RMT 구현 대비 1.8배의 속도 향상을 달성했다. Diagonal Batching은 순차적 병목 현상을 제거함으로써 추론 비용과 지연 시간을 줄여, RMT를 실용적인 장문맥 애플리케이션 솔루션으로 더욱 강화한다.
대형 언어 모델(LLM)은 일반적으로 엄청난 양의 비허가 텍스트를 기반으로 훈련되며, 이는 지적 재산권 침해 및 윤리적 문제로 인해 비판을 받아 왔다. 공개적으로 허가된 텍스트를 사용하여 LLM을 훈련하는 것은 이러한 문제를 해결하기 위한 첫 번째 단계이지만, 기존의 데이터 수집 노력은 성능이 우수한 LLM을 생산하기에는 너무 작거나 저품질의 데이터셋을 산출해 왔다. 이러한 격차를 해결하기 위해 우리는 LLM 사전 훈련을 위해 설계된 8테라바이트 규모의 공개 허가 텍스트 컬렉션인 Common Pile v0.1을 수집, 정제 및 공개한다. Common Pile은 연구 논문, 코드, 책, 백과사전, 교육 자료, 오디오 트랜스크립트 등 다양한 도메인을 아우르는 30개의 출처로부터 구성된다. 특히, 우리는 Common Pile의 텍스트를 사용하여 두 개의 70억 파라미터 LLM인 Comma v0.1-1T와 Comma v0.1-2T를 각각 1조 및 2조 토큰으로 훈련함으로써 우리의 노력을 검증했다. 두 모델 모두 Llama 1 및 2 7B와 유사한 컴퓨팅 예산으로 비허가 텍스트를 기반으로 훈련된 LLM과 경쟁력 있는 성능을 달성했다. Common Pile v0.1 자체를 공개하는 것 외에도, 우리는 이를 생성하는 데 사용된 코드와 Comma v0.1 모델의 훈련 혼합물 및 체크포인트도 공개한다.
우리는 비전-언어 모델(VLM)을 통합하여 웹에서 사용자 정의 작업을 수행하는 비용 효율적인 웹 에이전트인 Surfer-H를 소개합니다. 이를 웹 탐색 및 정보 추출에 특화된 새로운 오픈 웨이트 VLM 컬렉션인 Holo1과 결합했습니다. Holo1은 공개 접근 가능한 웹 콘텐츠, 합성 예제, 그리고 자체 생성된 에이전트 데이터를 포함한 신중하게 선별된 데이터 소스로 학습되었습니다. Holo1은 일반적인 사용자 인터페이스(UI) 벤치마크와 우리의 새로운 웹 UI 지역화 벤치마크인 WebClick에서 최고의 성능을 보입니다. Holo1을 기반으로 하는 Surfer-H는 WebVoyager에서 92.2%의 최첨단 성능을 달성하며, 정확도와 비용 효율성 사이의 파레토 최적 균형을 이루었습니다. 에이전트 시스템 연구의 발전을 가속화하기 위해, 우리는 WebClick 평가 데이터셋과 Holo1 모델 가중치를 오픈소스로 공개합니다.
추론 시간 스케일링은 더 길거나 더 병렬적인 시퀀스를 생성함으로써 효율성을 희생시키는 대신 추론 정확도를 높입니다. 그러나 트랜스포머 대형 언어 모델(LLM)에서는 생성 비용이 생성된 토큰의 수보다는 키-값(KV) 캐시의 크기에 의해 병목 현상이 발생합니다. 따라서 우리는 추론 시간 초스케일링을 탐구합니다: KV 캐시를 압축함으로써 동일한 컴퓨팅 예산 내에서 더 많은 토큰을 생성하고 스케일링된 추론의 정확도를 더욱 향상시킬 수 있습니다. 그러나 이 접근법의 성공은 높은 압축률에서도 정확도를 유지할 수 있는 압축 방법의 능력에 달려 있습니다. 초스케일링을 실용적으로 만들기 위해, 우리는 동적 메모리 희소화(DMS)라는 새로운 방법을 도입했습니다. 이 방법은 단 1,000번의 훈련 단계로 8배 압축을 달성하면서도 훈련이 필요 없는 희소 주의력보다 더 나은 정확도를 유지합니다. DMS는 캐시된 토큰을 조기에 버리는 대신 토큰 제거를 지연시켜 표현을 암묵적으로 병합하고 중요한 정보를 보존합니다. 우리는 DMS를 사용한 추론 시간 초스케일링의 효과를 여러 LLM 계열에서 입증하며, 이 방법이 비슷한 추론 실행 시간과 메모리 부하에서 정확도를 향상시킨다는 것을 보여줍니다. 예를 들어, 우리는 Qwen-R1 32B 모델을 AIME 24에서 평균 9.1점, GPQA에서 7.6점, LiveCodeBench에서 9.6점 향상시켰습니다.
본 논문은 플로우 기반 생성 모델을 사전 분포로 활용하여 학습 가능한 잠재 공간을 임의의 목표 분포에 정렬하는 새로운 프레임워크를 제시합니다. 우리의 방법은 먼저 목표 특징에 대해 플로우 모델을 사전 학습하여 기저 분포를 포착합니다. 이 고정된 플로우 모델은 이후 정렬 손실을 통해 잠재 공간을 정규화하며, 이는 플로우 매칭 목표를 재구성하여 잠재 변수를 최적화 대상으로 취급합니다. 우리는 이 정렬 손실을 최소화하는 것이 목표 분포 하에서 잠재 변수의 로그 가능도의 변분 하한을 최대화하는 계산적으로 다루기 쉬운 대리 목표를 설정함을 공식적으로 증명합니다. 특히, 제안된 방법은 계산적으로 비용이 많이 드는 가능도 평가를 제거하고 최적화 과정에서 ODE(상미분 방정식) 해결을 피합니다. 개념 증명으로, 우리는 통제된 환경에서 정렬 손실 경관이 목표 분포의 음의 로그 가능도와 매우 근사함을 보여줍니다. 또한, 우리는 다양한 목표 분포를 가진 ImageNet에 대한 대규모 이미지 생성 실험을 통해 제안된 접근법의 효과를 검증하며, 상세한 논의와 절제 연구를 함께 제시합니다. 이론적 및 실증적 검증을 통해, 우리의 프레임워크는 잠재 공간 정렬을 위한 새로운 방식을 제시합니다.
실세계 비디오 환경에서의 수학적 추론은 정적 이미지나 텍스트와는 근본적으로 다른 도전 과제를 제시합니다. 이는 세밀한 시각 정보를 해석하고, 손글씨 또는 디지털 텍스트를 정확하게 읽으며, 시간에 걸쳐 비선형적으로 분산된 음성 단서를 통합하는 것을 요구합니다. 이러한 다중 모달 상황에서 성공은 단순히 인식에만 의존하는 것이 아니라, 풍부하고 잡음이 많은 콘텐츠 스트림에서 적절한 문맥적 세부 사항을 선택적으로 식별하고 통합하는 데 달려 있습니다. 이를 위해 우리는 모델이 비디오에서 이러한 시간적으로 확장된 교차 모달 추론을 수행할 수 있는지 평가하기 위해 VideoMathQA 벤치마크를 소개합니다. 이 벤치마크는 10가지 다양한 수학 영역을 포괄하며, 10초에서 1시간 이상의 비디오를 다룹니다. 이는 모델이 구조화된 시각 콘텐츠를 해석하고, 교육적 내러티브를 이해하며, 시각, 오디오, 텍스트 모달리티 간의 개념을 공동으로 기반으로 하는 것을 요구합니다. 우리는 고품질을 보장하기 위해 대학원 수준의 전문가를 고용하여 총 920시간 이상의 주석 작업을 수행했습니다. 실세계 시나리오를 반영하기 위해, 질문은 세 가지 핵심 추론 도전 과제를 중심으로 설계되었습니다: 제시된 질문에 기반한 답을 찾는 직접 문제 해결, 학습된 방법을 새로운 문제에 적용하는 개념적 전이, 그리고 확장된 설명과 부분적으로 해결된 솔루션에 대한 다단계 추론을 포함하는 깊은 교육적 이해입니다. 각 질문에는 다단계 추론 주석이 포함되어 있어 모델의 능력을 세밀하게 진단할 수 있습니다. 이 벤치마크를 통해 우리는 기존 접근법의 한계를 강조하고, 시간적으로 확장되고 모달리티가 풍부한 수학적 문제 설정에서 단순히 인식하는 것이 아니라 추론해야 하는 모델을 위한 체계적인 평가 프레임워크를 확립합니다. 우리의 벤치마크와 평가 코드는 https://mbzuai-oryx.github.io/VideoMathQA에서 확인할 수 있습니다.
최근 텍스트-투-비디오(T2V) 확산 모델의 발전으로 고화질이고 사실적인 비디오 합성이 가능해졌습니다. 그러나 현재의 T2V 모델들은 물리학을 정확히 이해하는 능력이 제한적이어서 물리적으로 타당한 콘텐츠를 생성하는 데 어려움을 겪고 있습니다. 우리는 T2V 모델 내부의 표현들이 어느 정도 물리학 이해 능력을 갖추고 있지만, 최근의 비디오 자기 지도 학습 방법들에 비해 크게 뒤처져 있음을 발견했습니다. 이를 해결하기 위해, 우리는 VideoREPA라는 새로운 프레임워크를 제안합니다. 이 프레임워크는 비디오 이해 기반 모델로부터 물리학 이해 능력을 T2V 모델로 전이시키기 위해 토큰 수준의 관계를 정렬합니다. 이를 통해 물리학 이해 격차를 줄이고 더 물리적으로 타당한 생성이 가능해집니다. 구체적으로, 우리는 Token Relation Distillation (TRD) 손실을 도입하여, 공간-시간 정렬을 활용해 강력한 사전 학습된 T2V 모델을 미세 조정하기에 적합한 소프트 가이드를 제공합니다. 이는 기존의 표현 정렬(REPA) 방법들과는 차별화된 접근입니다. 우리가 아는 한, VideoREPA는 T2V 모델을 미세 조정하고 특히 물리학 지식을 주입하기 위해 설계된 최초의 REPA 방법입니다. 실험 평가 결과, VideoREPA는 베이스라인 방법인 CogVideoX의 물리학 상식을 크게 향상시켰으며, 관련 벤치마크에서 상당한 개선을 달성하고 직관적인 물리학과 일관된 비디오를 생성하는 강력한 능력을 보여주었습니다. 더 많은 비디오 결과는 https://videorepa.github.io/에서 확인할 수 있습니다.
비디오 이해 분야에서의 진전에도 불구하고, 현재의 MLLM(Multimodal Large Language Models)들은 카운팅 작업에 어려움을 겪고 있습니다. 기존 벤치마크들은 짧은 비디오 길이, 폐쇄형 질문, 단서 주석의 부재, 그리고 약한 다중모달 커버리지로 인해 제한적입니다. 본 논문에서는 497개의 긴 비디오에 걸쳐 1,027개의 다중모달 질문과 5,845개의 주석이 달린 단서를 포함한 수동 주석 기반의 CG-AV-Counting 벤치마크를 소개합니다. 이 벤치마크는 블랙박스와 화이트박스 평가를 모두 지원하며, 종단간 및 추론 기반 카운팅을 위한 포괄적인 테스트베드 역할을 합니다. 모델의 카운팅 능력을 향상시키는 방법을 탐구하기 위해, 우리는 GRPO와 커리큘럼 학습을 통해 훈련된 AV-Reasoner 모델을 제안합니다. 이 모델은 관련 작업들로부터 카운팅 능력을 일반화하며, 여러 벤치마크에서 최첨단 성능을 달성함으로써 강화 학습의 효과를 입증합니다. 그러나 실험 결과, 도메인 외 벤치마크에서는 언어 공간에서의 추론이 성능 향상을 가져오지 못하는 것으로 나타났습니다. 코드와 벤치마크는 https://av-reasoner.github.io에서 공개되었습니다.
Deepseek-R1-Distill 시리즈로 대표되는 추론 모델들은 수학, 과학, 프로그래밍 등 다양한 영역에서 강력한 성능을 보이며 오픈소스 커뮤니티에서 널리 채택되고 있습니다. 그러나 우리의 연구에 따르면, 이러한 모델들의 벤치마크 평가 결과는 다양한 요인에 의해 상당한 변동성을 보입니다. 평가 조건의 미세한 차이만으로도 결과에 큰 변화가 발생할 수 있습니다. 이와 유사한 현상은 Deepseek-R1-Distill 시리즈를 기반으로 미세 조정된 다른 오픈소스 추론 모델들뿐만 아니라 QwQ-32B 모델에서도 관찰되며, 이로 인해 주장된 성능 개선을 신뢰성 있게 재현하기가 어렵습니다. 따라서 우리는 모델 성능 평가를 위한 보다 엄격한 패러다임의 수립을 주장하며, Deepseek-R1-Distill 시리즈 모델들에 대한 경험적 평가 결과를 제시합니다.
공간 인지 능력은 인간의 지능에 있어 필수적이며, 이를 통해 언어적 추론에만 의존하지 않고 시각적 시뮬레이션을 통해 문제를 해결할 수 있다. 그러나 기존의 AI 벤치마크는 주로 언어적 추론을 평가하며, 비언어적이고 다단계 시각적 시뮬레이션의 복잡성을 간과하고 있다. 본 연구에서는 다단계 시각적 시뮬레이션을 통해 더 잘 해결될 수 있는 과제들에 대해 다중모드 대형 언어 모델을 엄격히 평가하기 위해 STARE(Spatial Transformations and Reasoning Evaluation) 벤치마크를 소개한다. STARE는 기하학적 변환(2D 및 3D), 통합 공간 추론(큐브 넷 접기 및 탱그램 퍼즐), 그리고 실제 세계의 공간 추론(원근 및 시간적 추론)을 포함한 4,000개의 과제로 구성되어 있으며, 이는 물체 조립, 기계 도면 해석, 일상적인 공간 탐색과 같은 실질적인 인지적 도전을 반영한다. 평가 결과, 모델들은 단순한 2D 변환에 대한 추론에서는 뛰어난 성능을 보였으나, 다단계 시각적 시뮬레이션이 필요한 3D 큐브 넷 접기 및 탱그램 퍼즐과 같은 복잡한 과제에서는 거의 무작위 수준의 성능을 보였다. 인간은 복잡한 과제에서 거의 완벽한 정확도를 달성하지만 상당한 시간(최대 28.9초)이 소요되며, 중간 시각적 시뮬레이션을 통해 시간을 크게 단축(평균 7.5초 감소)할 수 있었다. 반면, 모델들은 시각적 시뮬레이션으로부터 일관된 성능 향상을 보이지 않았으며, 대부분의 과제에서는 개선되었으나 탱그램 퍼즐(GPT-4o, o1) 및 큐브 넷 접기(Claude-3.5, Gemini-2.0 Flash)와 같은 특정 사례에서는 성능이 저하되어, 모델들이 중간 시각적 정보를 효과적으로 활용하는 방법을 알지 못할 가능성을 시사한다.
검색 강화 언어 모델(Search-augmented Language Models)은 웹 검색과 대형 언어 모델(LLMs)을 결합하여 응답의 근거성과 최신성을 개선합니다. 그러나 이러한 시스템을 분석하는 것은 여전히 도전적인 과제입니다: 기존 데이터셋은 규모가 제한적이고 범위가 좁으며, 주로 정적이고 단일 턴의 사실 확인 질문에 국한되어 있습니다. 본 연구에서는 24,000개 이상의 다중 턴 사용자 상호작용 쌍으로 구성된 대규모 크라우드소싱 기반 인간 선호도 데이터셋인 Search Arena를 소개합니다. 이 데이터셋은 다양한 의도와 언어를 포괄하며, 약 12,000개의 인간 선호도 투표와 함께 전체 시스템 트레이스를 포함합니다. 우리의 분석은 사용자 선호도가 인용된 내용이 직접적으로 주장을 뒷받침하지 않더라도 인용 횟수에 영향을 받는다는 것을 보여주며, 인지된 신뢰도와 실제 신뢰도 간의 간극을 드러냅니다. 또한, 사용자 선호도는 인용된 출처에 따라 다양하게 나타나며, 커뮤니티 주도 플랫폼이 일반적으로 선호되고 정적 백과사전 출처가 항상 적절하고 신뢰할 만한 것은 아니라는 점을 보여줍니다. 다양한 설정에서의 성능을 평가하기 위해, 우리는 검색 강화 LLMs를 일반 목적 채팅 환경에서 테스트하고, 기존 LLMs를 검색 집중적 환경에서 테스트하는 교차 아레나 분석을 수행합니다. 우리는 웹 검색이 비검색 환경에서 성능을 저하시키지 않으며 오히려 개선할 수 있다는 것을 발견했습니다. 그러나 검색 환경에서는 모델의 파라미터 지식에만 의존할 경우 품질이 크게 영향을 받습니다. 우리는 이 방향의 미래 연구를 지원하기 위해 데이터셋을 오픈소스로 공개했습니다. 우리의 데이터셋과 코드는 https://github.com/lmarena/search-arena에서 확인할 수 있습니다.
멀티모달 대형 언어 모델(MLLMs)은 일반적으로 사전 훈련된 대형 언어 모델(LLMs)에 시각적 능력을 확장하여 파생됩니다. 본 연구에서는 MLLMs가 시각적 입력을 처리하는 방식을 주의 메커니즘을 분석하여 조사합니다. 우리는 놀라운 희소성 현상을 발견했습니다: LLMs의 주의 헤드 중 일부(약 5% 미만)만이 시각적 이해에 적극적으로 기여하며, 이를 시각적 헤드라고 명명했습니다. 이러한 헤드를 효율적으로 식별하기 위해, 우리는 대상 응답 분석을 통해 헤드 수준의 시각적 관련성을 정량화하는 훈련이 필요 없는 프레임워크를 설계했습니다. 이 발견을 바탕으로, 우리는 SparseMM을 소개합니다. 이는 시각적 헤드의 희소성을 활용하여 MLLMs의 추론을 가속화하기 위해 LLMs의 헤드에 비대칭적인 계산 예산을 할당하는 KV-Cache 최적화 전략입니다. 시각적 특성을 무시한 기존의 KV-Cache 가속 방법과 비교하여, SparseMM은 디코딩 과정에서 시각적 의미를 우선적으로 강조하고 유지합니다. 주류 멀티모달 벤치마크에 대한 광범위한 평가를 통해 SparseMM이 우수한 정확도-효율성 균형을 달성함을 입증했습니다. 특히, SparseMM은 실시간 1.38배 가속과 생성 과정에서 52%의 메모리 감소를 제공하면서도 효율성 테스트에서 성능을 유지합니다. 우리의 프로젝트는 https://github.com/CR400AF-A/SparseMM에서 오픈 소스로 제공됩니다.
긴 시퀀스 데이터에 대한 언어 모델 훈련은 복잡한 작업(예: 장기 추론)에서 모델의 성능을 향상시키기 위한 중요한 요구사항이다. 그러나 시퀀스 길이가 증가함에 따라, 역전파(Backpropagation, BP) 과정에서 활성화 값(activation values)을 저장하기 위한 메모리 비용이 크게 증가하며, 이는 그래디언트 체크포인팅(gradient checkpointing) 기술을 적용하더라도 여전히 문제가 된다. 이러한 문제를 해결하기 위해, 우리는 StreamBP라는 메모리 효율적이고 정확한 BP 방법을 제안한다. 이 방법은 시퀀스 차원에서 체인 규칙(chain rule)을 계층별로 선형 분해하여 활성화 값과 로짓(logits)의 메모리 비용을 크게 줄인다. 제안된 방법은 SFT, GRPO, DPO와 같은 일반적인 목적 함수에 적용 가능하다. 구현 측면에서, StreamBP는 언어 모델의 인과적 구조(causal structure)를 활용하여 계산 FLOPs를 줄이고 BP 속도를 향상시킨다. 그래디언트 체크포인팅과 비교했을 때, StreamBP는 BP의 최대 시퀀스 길이를 2.8~5.5배까지 확장할 수 있으며, 비슷하거나 더 적은 BP 시간을 사용한다. 또한, StreamBP의 시퀀스 길이 확장 능력은 훈련 가속을 위한 배치 크기(batch size) 확장으로 직접 전환될 수 있다. 우리는 더 나아가 통신 효율적인 분산 StreamBP를 개발하여 다중 GPU 훈련을 효과적으로 지원하고 적용 범위를 넓혔다. 우리의 코드는 모든 트랜스포머 모델의 훈련 파이프라인에 쉽게 통합될 수 있으며, https://github.com/Ledzy/StreamBP에서 확인할 수 있다.
다중 양식 대형 언어 모델(Multimodal Large Language Models, MLLMs)의 등장은 에고센트릭 비전(egocentric vision) 응용 분야에서의 혁신을 이끌어냈다. 이러한 응용 분야는 사용자가 동적이고 복잡한 환경에서 도구와 상호작용할 때, 객체에 대한 지속적이고 맥락을 인지하는 이해를 필요로 한다. 그러나 기존의 구현된 벤치마크는 주로 정적인 장면 탐색에 초점을 맞추어 객체의 외형과 공간적 속성을 강조하는 반면, 사용자 상호작용으로 인한 동적 변화의 평가는 소홀히 다루고 있다. 이러한 격차를 해결하기 위해, 우리는 동적 에고센트릭 시나리오에서 객체 중심의 구현된 인지 능력을 체계적으로 평가하기 위해 설계된 혁신적인 벤치마크인 EOC-Bench를 소개한다. 특히, EOC-Bench는 과거, 현재, 미래의 세 가지 시간적 범주로 분류된 3,277개의 세심하게 주석이 달린 질문-답변 쌍을 특징으로 하며, 11개의 세부 평가 차원과 3가지 시각적 객체 참조 유형을 포함한다. 철저한 평가를 보장하기 위해, 우리는 네 가지 유형의 질문을 포함한 혼합 형식의 인간 참여 주석 프레임워크를 개발하고, 개방형 시간적 평가를 위한 새로운 다중 스케일 시간적 정확도 지표를 설계했다. EOC-Bench를 기반으로, 우리는 다양한 전유, 오픈소스 및 객체 수준의 MLLMs에 대한 포괄적인 평가를 수행한다. EOC-Bench는 MLLMs의 구현된 객체 인지 능력을 발전시키는 데 중요한 도구로 작용하며, 구현된 시스템을 위한 신뢰할 수 있는 코어 모델 개발을 위한 견고한 기반을 마련한다.
텍스처 맵 생성은 3D 모델링의 중요한 부분이며 렌더링 품질을 결정짓습니다. 최근, 확산 기반 방법들이 텍스처 생성에 새로운 길을 열었습니다. 그러나 제한된 제어 유연성과 프롬프트 방식의 한계로 인해 창작자들이 원하는 결과를 얻는 데 어려움을 겪을 수 있습니다. 더욱이, 생성된 다중 뷰 이미지 간의 불일치로 인해 텍스처 생성 품질이 저하되는 경우가 많습니다. 이러한 문제를 해결하기 위해, 우리는 유연한 다중 모달 조건부 안내를 가능하게 하고 높은 일관성을 가진 텍스처 생성을 달성하는 새로운 텍스처 생성 파이프라인인 FlexPainter를 소개합니다. 공유 조건부 임베딩 공간을 구축하여 다양한 입력 모달리티 간의 유연한 집계를 수행합니다. 이러한 임베딩 공간을 활용하여, 우리는 구조적 정보와 스타일 정보를 분해하는 이미지 기반 CFG 방법을 제시하여 참조 이미지 기반 스타일화를 달성합니다. 이미지 확산 사전에 내재된 3D 지식을 활용하여, 우리는 먼저 그리드 표현을 사용하여 다중 뷰 이미지를 동시에 생성하여 전역적 이해를 강화합니다. 동시에, 확산 샘플링 과정에서 뷰 동기화 및 적응형 가중치 모듈을 제안하여 지역적 일관성을 더욱 보장합니다. 마지막으로, 3D 인식 텍스처 완성 모델과 텍스처 향상 모델을 결합하여 매끄럽고 고해상도의 텍스처 맵을 생성합니다. 포괄적인 실험을 통해 우리의 프레임워크가 유연성과 생성 품질 모두에서 최신 방법들을 크게 능가함을 입증합니다.
Chain-of-Thought(CoT)는 대규모 언어 모델(LLMs)의 수학적 추론 능력을 크게 향상시켰지만, 이를 다중 모달 영역으로 확장하는 것은 여전히 어려운 과제로 남아 있다. 기존 연구들은 이미지 입력에 대해 유사한 텍스트 기반 추론을 적용하거나, 수학적 CoT에 시각적 신호를 교차적으로 삽입하는 방법을 모색해왔다. 그러나 이러한 접근법들은 수학 문제 해결에 있어 세 가지 주요 한계에 직면한다: 거친 박스 형태의 이미지 영역에 대한 의존성, 수학 콘텐츠에 대한 시각 인코더의 제한된 인식 능력, 시각적 수정을 위한 외부 기능에 대한 의존성. 본 논문에서는 이러한 한계를 극복하기 위해 MINT-CoT를 제안한다. MINT-CoT는 수학적 교차 토큰(Mathematical INterleaved Tokens)을 도입하여 Chain-of-Thought 시각적 추론을 가능하게 한다. MINT-CoT는 Interleave Token을 통해 텍스트 추론 단계에 관련 시각적 토큰을 적응적으로 교차 삽입하며, 이 토큰은 수학 도형 내에서 임의의 형태의 시각적 영역을 동적으로 선택한다. 이러한 기능을 지원하기 위해, 우리는 각 추론 단계를 토큰 수준에서 시각적 영역과 정렬한 54K개의 수학 문제를 포함하는 MINT-CoT 데이터셋을 구축하고, 엄격한 데이터 생성 파이프라인을 함께 제공한다. 또한, 텍스트 전용 CoT SFT, 교차 CoT SFT, 교차 CoT RL을 점진적으로 결합한 3단계 MINT-CoT 훈련 전략을 제시하여 MINT-CoT-7B 모델을 도출한다. 광범위한 실험을 통해 우리의 방법이 수학 영역에서 효과적인 시각적 교차 추론을 가능하게 함을 입증하였으며, MINT-CoT-7B는 MathVista에서 +34.08%, GeoQA에서 +28.78%, MMStar에서 +23.2%로 기준 모델을 능가하는 성능을 보였다. 우리의 코드와 데이터는 https://github.com/xinyan-cxy/MINT-CoT에서 확인할 수 있다.
깊이 맵은 새로운 시점 합성을 위해 3D 포인트 클라우드로 역투영하는 피드-포워드 3D 가우시안 스플래팅(3DGS) 파이프라인에서 널리 사용됩니다. 이 접근법은 효율적인 학습, 알려진 카메라 포즈의 활용, 정확한 기하학적 추정과 같은 장점을 제공합니다. 그러나 객체 경계에서의 깊이 불연속성은 종종 파편화되거나 희소한 포인트 클라우드를 초래하여 렌더링 품질을 저하시키는데, 이는 깊이 기반 표현의 잘 알려진 한계입니다. 이 문제를 해결하기 위해, 우리는 사전 학습된 트랜스포머에 의해 예측된 포인트맵을 기반으로 한 새로운 정규화 손실인 PM-Loss를 소개합니다. 포인트맵 자체는 깊이 맵보다 정확도가 낮을 수 있지만, 특히 객체 경계 주변에서 기하학적 평활성을 효과적으로 강제합니다. 개선된 깊이 맵을 통해, 우리의 방법은 다양한 아키텍처와 장면에 걸쳐 피드-포워드 3DGS를 크게 개선하며, 일관되게 더 나은 렌더링 결과를 제공합니다. 우리의 프로젝트 페이지: https://aim-uofa.github.io/PMLoss
현재 언어-이미지 정렬을 구축하는 가장 주류적인 접근 방식은 CLIP 및 그 변형들과 같은 대조 학습(contrastive learning)을 통해 텍스트와 이미지 인코더를 공동으로 사전 학습하는 것입니다. 본 연구에서는 이러한 고비용의 공동 학습이 정말 필요한지에 대해 의문을 제기합니다. 특히, 사전 학습된 고정된 대형 언어 모델(LLM)이 시각적 표현 학습을 안내하기에 충분히 좋은 텍스트 인코더를 제공할 수 있는지 조사합니다. 즉, LLM에서 고정된 텍스트 인코더(Fixed Text Encoder)를 사용하여 언어-이미지 정렬을 학습하는 LIFT(Language-Image alignment with a Fixed Text encoder) 방법을 제안하며, 이때 이미지 인코더만을 학습합니다. 놀랍게도, 포괄적인 벤치마킹과 제거 연구(ablation studies)를 통해 이렇게 단순화된 LIFT 프레임워크가 매우 효과적이며, 구성적 이해(compositional understanding)와 긴 캡션(long captions)이 필요한 대부분의 시나리오에서 CLIP을 능가하는 동시에 계산 효율성에서 상당한 이점을 달성함을 발견했습니다. 본 연구는 LLM에서 추출한 텍스트 임베딩이 시각적 학습을 어떻게 안내할 수 있는지 체계적으로 탐구하는 첫걸음을 내딛으며, 언어 정렬된 시각적 표현을 학습하기 위한 대안적인 설계 선택을 제안합니다.
자기회귀(AR) 이미지 생성 모델은 합성 품질에서의 획기적인 발전으로 인해 점점 더 많은 관심을 받고 있으며, 이로 인해 오용을 방지하기 위한 강력한 워터마킹 기술의 필요성이 부각되고 있다. 그러나 기존의 생성 중 워터마킹 기술은 주로 확산 모델을 위해 설계되었으며, 워터마크가 확산 잠재 상태 내에 삽입된다. 이러한 설계는 토큰 예측을 통해 순차적으로 이미지를 생성하는 AR 모델에 직접 적용하기에는 상당한 어려움을 야기한다. 또한, 확산 기반 재생성 공격은 확산 잠재 상태를 교란함으로써 이러한 워터마크를 효과적으로 제거할 수 있다. 이러한 문제를 해결하기 위해, 우리는 재생성 공격에 저항하는 AR 모델을 위한 새로운 프레임워크인 어휘 편향 워터마킹(Lexical Bias Watermarking, LBW)을 제안한다. LBW는 생성 과정에서 미리 정의된 그린 리스트(green list)를 향해 토큰 선택을 편향시킴으로써 워터마크를 토큰 맵에 직접 삽입한다. 이 접근 방식은 기존 AR 모델과의 원활한 통합을 보장하며, 사후 워터마킹으로 자연스럽게 확장된다. 화이트박스 공격에 대한 보안을 강화하기 위해, 단일 그린 리스트를 사용하는 대신 각 이미지에 대한 그린 리스트를 그린 리스트 풀에서 무작위로 샘플링한다. 워터마크 검출은 토큰 분포의 양자화 및 통계적 분석을 통해 수행된다. 광범위한 실험을 통해 LBW가 특히 재생성 공격에 저항하는 데 있어 우수한 워터마크 견고성을 달성함을 입증하였다.
텍스트, 이미지, 비디오를 포함한 다중 모드 입력에 의해 안내되는 오디오 조건화된 말하는 초상화의 생성 및 편집은 아직 충분히 탐구되지 않은 분야이다. 본 논문에서는 고해상도 및 시간적 일관성을 갖춘 말하는 초상화 비디오를 합성하기 위한 통합 프레임워크인 SkyReels-Audio를 제안한다. 사전 학습된 비디오 확산 트랜스포머를 기반으로 구축된 이 프레임워크는 무한 길이의 생성 및 편집을 지원하며, 다중 모드 입력을 통해 다양하고 제어 가능한 조건화를 가능하게 한다. 우리는 오디오와 얼굴 움직임을 점진적으로 정렬하기 위해 하이브리드 커리큘럼 학습 전략을 사용하여 긴 비디오 시퀀스에 대한 세밀한 다중 모드 제어를 가능하게 한다. 얼굴의 지역적 일관성을 향상시키기 위해 얼굴 마스크 손실과 오디오 기반의 분류자 없는 지도 메커니즘을 도입하였다. 또한, 슬라이딩 윈도우 디노이징 접근법을 통해 시간적 세그먼트 간의 잠재적 표현을 융합하여 확장된 기간과 다양한 신원에 걸쳐 시각적 충실도와 시간적 일관성을 보장한다. 더 중요한 것은, 동기화된 오디오, 비디오, 텍스트 설명으로 구성된 고품질 트리플렛을 큐레이션하기 위한 전용 데이터 파이프라인을 구축하였다. 포괄적인 벤치마크 평가를 통해 SkyReels-Audio가 특히 복잡하고 도전적인 조건에서 입술 동기화 정확도, 신원 일관성, 현실적인 얼굴 역학 측면에서 우수한 성능을 달성함을 보여준다.
본 논문은 복잡한 동작을 포함한 동적 3D 장면 재구성의 문제를 다룬다. 최근 연구들은 정규 공간(canonical space)에 3D 가우시안 프리미티브를 정의하고 변형 필드(deformation field)를 사용하여 정규 프리미티브를 관찰 공간으로 매핑함으로써 실시간 동적 뷰 합성을 달성하였다. 그러나 이러한 방법들은 변형 필드 최적화의 어려움으로 인해 복잡한 동작이 포함된 장면을 처리하는 데 어려움을 겪는다. 이 문제를 극복하기 위해, 본 연구에서는 가우시안 프리미티브가 임의의 시간과 위치에 나타날 수 있는 새로운 4D 표현인 FreeTimeGS를 제안한다. 정규 가우시안 프리미티브와 달리, 제안된 표현은 높은 유연성을 가지며, 이를 통해 동적 3D 장면 모델링 능력이 향상된다. 또한, 각 가우시안 프리미티브에 동작 함수를 부여하여 시간에 따라 인접 영역으로 이동할 수 있도록 함으로써 시간적 중복성을 줄인다. 여러 데이터셋에 대한 실험 결과는 제안 방법의 렌더링 품질이 최근 방법들을 크게 능가함을 보여준다.
실용적인 효율성 관점에서 테스트 시점 스케일링 법칙을 재고하여, 더 작은 모델의 효과가 상당히 과대평가되었음을 밝혀냈다. 계산 최적화에 기반한 기존 연구는 추론 시점 전략(예: Best-of-N, 긴 CoTs)으로 인해 발생하는 중요한 메모리 접근 병목 현상을 간과했다. 0.6B에서 32B 파라미터에 이르는 모델을 포괄하는 우리의 종합적 분석은 계산 및 메모리 접근 비용을 모두 고려하여 자원 할당을 더 잘 안내하는 새로운 Kinetics 스케일링 법칙을 제시한다. Kinetics 스케일링 법칙은 테스트 시점 계산이 특정 임계값 이상의 모델에 사용될 때 더 효과적임을 시사한다. 이는 TTS에서 파라미터 수보다는 어텐션이 주요 비용 요인으로 부각되기 때문이다. 이를 바탕으로, 우리는 희소 어텐션을 중심으로 한 새로운 스케일링 패러다임을 제안한다. 이는 토큰당 비용을 낮추고 동일한 자원 예산 내에서 더 긴 생성과 더 많은 병렬 샘플을 가능하게 한다. 실험적으로, 희소 어텐션 모델이 조밀한 모델을 일관되게 능가하며, AIME에서 문제 해결 정확도 측면에서 저비용 영역에서 60점 이상, 고비용 영역에서 5점 이상의 성능 향상을 달성함을 보여준다. 이 결과는 희소 어텐션이 테스트 시점 스케일링의 전체 잠재력을 실현하는 데 필수적임을 시사한다. 이는 훈련 시 파라미터 스케일링이 포화되는 것과 달리, 테스트 시점 정확도는 생성량 증가를 통해 계속 개선되기 때문이다. 코드는 https://github.com/Infini-AI-Lab/Kinetics에서 확인할 수 있다.
일반 객체 합성(GOC)은 대상 객체를 원하는 기하학적 속성과 함께 배경 장면에 자연스럽게 통합하면서도 객체의 세밀한 외형 디테일을 보존하는 것을 목표로 합니다. 최근 접근법들은 시맨틱 임베딩을 도출하고 이를 고급 확산 모델에 통합하여 기하학 편집이 가능한 생성을 가능하게 합니다. 그러나 이러한 고도로 압축된 임베딩은 고수준의 시맨틱 단서만을 인코딩하며, 필연적으로 세밀한 외형 디테일을 손실합니다. 우리는 분리된 기하학 편집 및 외형 보존 확산 모델(DGAD)을 소개합니다. 이 모델은 먼저 시맨틱 임베딩을 활용하여 원하는 기하학적 변환을 암묵적으로 포착한 다음, 크로스-어텐션 검색 메커니즘을 사용하여 세밀한 외형 특징을 기하학 편집된 표현과 정렬함으로써 정확한 기하학 편집과 충실한 외형 보존을 모두 가능하게 합니다. 구체적으로, DGAD는 CLIP/DINO에서 파생된 임베딩과 참조 네트워크를 기반으로 시맨틱 임베딩과 외형 보존 표현을 추출한 후, 이를 인코딩 및 디코딩 파이프라인에 분리된 방식으로 원활하게 통합합니다. 먼저, 시맨틱 임베딩을 강력한 공간 추론 능력을 가진 사전 학습된 확산 모델에 통합하여 객체 기하학을 암묵적으로 포착함으로써 유연한 객체 조작을 가능하게 하고 효과적인 편집성을 보장합니다. 그런 다음, 암묵적으로 학습된 객체 기하학을 활용하여 외형 특징을 검색하고 해당 영역과 공간적으로 정렬하는 밀집 크로스-어텐션 메커니즘을 설계하여 충실한 외형 일관성을 보장합니다. 공개 벤치마크에서의 광범위한 실험을 통해 제안된 DGAD 프레임워크의 효과성을 입증합니다.
전이 학습 연구에서 다양한 중요한 기초 모델의 특성과 대규모에서의 성능을 예측하기 위해 스케일링 법칙이 도출됩니다. 본 연구에서는 스케일링 법칙 도출이 모델 및 데이터셋 비교에도 활용될 수 있음을 보여주며, 이를 통해 사전 학습에 어떤 절차를 선호할지 결정할 수 있습니다. 처음으로, CLIP과 MaMMUT라는 두 가지 중요한 언어-시각 학습 절차에 대해, 대조적 손실만 사용하거나 대조적 및 캡션 텍스트 생성 손실을 모두 사용하는 모델과 샘플 규모에 걸친 밀집 측정을 기반으로 한 완전한 스케일링 법칙이 도출되었습니다. 보유된 데이터 포인트에 대한 충분한 예측 정확도를 보장하면서, 도출된 스케일링 법칙을 사용하여 두 모델을 비교함으로써 MaMMUT가 규모에 따른 더 강력한 개선과 표준 CLIP보다 더 나은 샘플 효율성을 보이는 증거를 얻었습니다. 비교의 타당성을 강화하기 위해, 분류, 검색, 세분화와 같은 다양한 다운스트림 작업과 DataComp, DFN, Re-LAION과 같은 다른 오픈 데이터셋에 대한 스케일링 법칙을 제시하며, 일관된 동일한 경향을 관찰했습니다. 또한, 일정한 학습률 스케줄로 스케일링 법칙을 도출할 때도 비교가 가능함을 보여주며, 이는 계산 비용을 줄입니다. 스케일링 법칙의 정확한 도출은 단일 참조 규모에서의 측정만을 기반으로 한 오해의 소지를 피하고, 규모에 걸친 모델 및 데이터셋 비교를 수행할 수 있는 수단을 제공함으로써, 오픈 기초 모델과 데이터셋의 체계적인 비교 및 개선을 위한 길을 열어줍니다. 우리는 DataComp-1.4B의 12.8B 샘플로 학습된 80.3%의 제로샷 ImageNet-1k 정확도를 달성한 openMaMMUT-L/14를 포함한 모든 사전 학습 모델과 중간 체크포인트를 공개합니다. 논문의 실험을 재현하기 위한 코드와 원시 실험 데이터는 https://github.com/LAION-AI/scaling-laws-for-comparison에서 확인할 수 있습니다.
우리는 코딩 기반 의료 추론 능력을 대형 언어 모델(LLM) 에이전트에서 향상시키기 위해 설계된 최초의 공개 훈련 환경인 MedAgentGYM을 소개합니다. MedAgentGYM은 실제 생물의학 시나리오에서 도출된 129개 카테고리와 72,413개의 작업 인스턴스로 구성되어 있습니다. 각 작업은 실행 가능한 코딩 환경 내에 캡슐화되어 있으며, 상세한 작업 설명, 상호작용 피드백 메커니즘, 검증 가능한 정답 주석, 그리고 확장 가능한 훈련 궤적 생성을 포함합니다. 30개 이상의 LLM에 대한 광범위한 벤치마킹 결과, 상용 API 기반 모델과 오픈소스 모델 간에 뚜렷한 성능 차이가 나타났습니다. MedAgentGYM을 활용하여 Med-Copilot-7B는 지도 미세 조정(+36.44%)과 지속적인 강화 학습(+42.47%)을 통해 상당한 성능 향상을 달성했으며, gpt-4o와 경쟁력 있는 저렴하고 개인정보 보호가 가능한 대안으로 부상했습니다. MedAgentGYM은 통합 실행 환경 내에서 포괄적인 벤치마크와 접근 가능하며 확장 가능한 훈련 리소스를 제공함으로써, 고급 생물의학 연구 및 실습을 위한 LLM 기반 코딩 어시스턴트 개발을 위한 통합 플랫폼을 제공합니다.
대부분의 기존 비전 인코더는 이미지를 고정 길이의 토큰 시퀀스로 매핑하며, 서로 다른 이미지가 다양한 양의 정보를 포함한다는 사실을 간과한다. 예를 들어, 시각적으로 복잡한 이미지(예: 어수선한 방)는 본질적으로 더 많은 정보를 담고 있으므로 단순한 이미지(예: 빈 벽)보다 더 많은 토큰을 할당받아야 한다. 이러한 비효율성을 해결하기 위해, 우리는 각 이미지를 재구성하기 위해 가변적인 수의 시각적 토큰(즉, 연속적인 표현 벡터)을 생성하는 동적 비전 인코더인 DOVE를 제안한다. 우리의 실험 결과는 DOVE가 높은 재구성 품질을 유지하면서 평균 토큰 수를 크게 줄인다는 것을 보여준다. 여러 선형 탐색 및 다운스트림 멀티모달 작업에서, DOVE는 고정 길이 인코딩에 비해 훨씬 적은 수의 토큰을 사용하면서도 기존의 오토인코더 기반 토큰화 방법을 능가하며, 더 표현력 있는 의미적 특징을 포착한다. 우리는 또한 DOVE를 쿼리 조건부 토큰화로 확장한다. 모델이 쿼리와 관련된 영역에 집중하도록 유도함으로써, 더 효율적이고 목표 지향적인 의미 추출을 달성한다. 우리의 코드와 체크포인트는 https://dove-encoder.github.io/dove-encoder에서 확인할 수 있다.
3D 가우시안 스플래팅(3DGS)은 새로운 시점 합성과 3D 모델링에서 실시간, 사실적인 렌더링으로 큰 주목을 받고 있습니다. 그러나 기존 방법들은 일시적인 객체의 영향을 받는 장면을 정확하게 모델링하는 데 어려움을 겪으며, 이로 인해 렌더링된 이미지에 아티팩트가 발생합니다. 우리는 가우시안 밀도화 과정이 장면의 세부 사항을 더 잘 포착하는 동시에, 일시적인 방해 요소를 모델링하는 추가적인 가우시안을 생성함으로써 이러한 아티팩트에 의도치 않게 기여한다는 점을 발견했습니다. 이를 해결하기 위해, 우리는 두 가지 중요한 설계를 기반으로 한 RobustSplat이라는 강력한 솔루션을 제안합니다. 첫째, 정적 장면 구조를 최적화한 후에 가우시안 분할/복제를 허용하는 지연된 가우시안 성장 전략을 도입하여 초기 최적화 단계에서 일시적인 객체에 과적합되는 것을 완화합니다. 둘째, 더 낮은 해상도의 특징 유사성 감독을 활용하여 신뢰할 수 있는 초기 일시적 마스크 추정을 수행한 후, 더 정밀한 마스크 예측을 위해 고해상도 감독으로 진행하는 스케일 캐스케이드 마스크 부트스트래핑 접근 방식을 설계합니다. 이 방식은 더 강한 의미론적 일관성과 노이즈에 대한 강건성을 활용합니다. 여러 도전적인 데이터셋에서의 광범위한 실험을 통해 우리의 방법이 기존 방법들을 능가하며, 우리 방법의 강건성과 효과성을 명확히 입증했습니다. 우리의 프로젝트 페이지는 https://fcyycf.github.io/RobustSplat/입니다.
사용자를 대신해 결정을 내리는 자율 에이전트 시대가 도래함에 따라, 특정 작업을 수행하면서 어떤 정보를 공유하는 것이 적절한지에 대한 문맥적 무결성(Contextual Integrity, CI)은 이 분야의 핵심 질문으로 부상하고 있습니다. 우리는 CI가 에이전트가 운영 중인 문맥에 대해 추론해야 하는 형태의 사고를 요구한다고 주장합니다. 이를 검증하기 위해, 우리는 먼저 LLM(Large Language Models)이 어떤 정보를 공개할지 결정할 때 명시적으로 CI에 대해 추론하도록 유도했습니다. 그런 다음, 이 접근법을 확장하여 CI를 달성하기 위해 필요한 추론 능력을 모델에 더욱 깊이 심어주는 강화 학습(Reinforcement Learning, RL) 프레임워크를 개발했습니다. 다양한 문맥과 정보 공개 규범을 포함하지만 단 700개의 예시로 구성된 합성 데이터셋을 사용하여, 우리의 방법이 여러 모델 크기와 계열에 걸쳐 작업 성능을 유지하면서 부적절한 정보 공개를 상당히 줄인다는 것을 보여주었습니다. 중요한 점은, 이 합성 데이터셋에서의 개선이 인간 주석이 포함되고 AI 어시스턴트의 동작 및 도구 호출에서 개인정보 유출을 평가하는 PrivacyLens와 같은 기존 CI 벤치마크로도 전이된다는 것입니다.
본 논문에서는 점군 간의 쌍별 정합(pairwise point cloud registration)과 다중 부품 형태 조립(multi-part shape assembly)을 단일 조건부 생성 문제로 공식화하는 통합 파라미터화 방법인 Rectified Point Flow를 소개한다. 주어지지 않은 점군을 입력으로 받아, 본 방법은 노이즈가 포함된 점들을 목표 위치로 이동시키는 연속적인 점별 속도장(point-wise velocity field)을 학습하며, 이를 통해 부품의 포즈를 복원한다. 기존 연구들이 임의의 대칭 처리(ad-hoc symmetry handling)를 통해 부품별 포즈를 회귀하는 것과 달리, 본 방법은 대칭 레이블 없이도 내재적으로 조립 대칭성을 학습한다. 또한, 중첩된 점들에 초점을 맞춘 자기 지도(self-supervised) 인코더와 함께, 본 방법은 쌍별 정합 및 형태 조립을 아우르는 여섯 가지 벤치마크에서 새로운 최첨단 성능을 달성한다. 특히, 본 통합 공식화는 다양한 데이터셋에 대한 효과적인 공동 학습을 가능하게 하여, 공유된 기하학적 사전 지식(geometric priors)을 학습하고 결과적으로 정확도를 향상시킨다. 프로젝트 페이지: https://rectified-pointflow.github.io/.
검색 강화 생성(Retrieval-Augmented Generation, RAG) 시스템은 일반적으로 지식 충돌(Knowledge Conflicts) 문제를 겪는데, 이는 검색된 외부 지식이 대형 언어 모델(Large Language Models, LLMs)의 내재적, 파라미터적 지식과 상충하는 경우를 말한다. 이는 질의응답(Question Answering, QA)과 같은 하위 작업의 성능에 부정적인 영향을 미친다. 기존의 접근 방식은 종종 두 지식 소스를 나란히 비교하여 충돌을 완화하려고 시도하지만, 이는 LLMs에 불필요하거나 지나치게 긴 문맥을 제공하여 일관성을 식별하고 완화하는 능력을 저해할 수 있다. 이러한 문제를 해결하기 위해, 우리는 문맥 복잡성을 자동으로 인지하고 각 지식 소스를 세분화된 비교 시퀀스로 적응적으로 분해하는 계층적 행동 공간을 가진 Micro-Act 프레임워크를 제안한다. 이러한 비교는 실행 가능한 단계로 표현되어 표면적인 문맥을 넘어서는 추론을 가능하게 한다. 5개의 벤치마크 데이터셋에 대한 광범위한 실험을 통해, Micro-Act는 모든 5개의 데이터셋과 3가지 충돌 유형에서 최신 베이스라인 대비 QA 정확도를 크게 향상시켰으며, 특히 시간적 및 의미적 유형에서 모든 베이스라인이 크게 실패한 경우에도 뛰어난 성능을 보였다. 더 중요한 것은, Micro-Act가 비충돌 질문에서도 동시에 견고한 성능을 보여, 실제 RAG 애플리케이션에서의 실용적 가치를 강조한다.
고품질의 동적 의료 영상 합성은 공간적 일관성과 시간적 동역학을 모두 모델링해야 하기 때문에 여전히 큰 과제로 남아 있습니다. 기존의 Transformer 기반 접근법들은 불충분한 채널 상호작용, 자기 주의 메커니즘(self-attention)으로 인한 높은 계산 복잡성, 그리고 다양한 노이즈 수준을 처리할 때 타임스텝 임베딩(timestep embeddings)으로부터의 거친 노이즈 제거 지도 등의 중요한 한계점을 가지고 있습니다. 본 연구에서는 이러한 문제를 해결하기 위해 FEAT(Full-dimensional Efficient Attention Transformer)를 제안합니다. FEAT는 다음과 같은 세 가지 주요 혁신을 통해 이러한 문제를 해결합니다: (1) 모든 차원에서의 전역적 의존성을 포착하기 위한 순차적 공간-시간-채널 주의 메커니즘을 통합한 통합 패러다임, (2) 각 차원에서의 주의 메커니즘을 위한 선형 복잡도 설계로, 가중치가 적용된 키-값 주의 메커니즘과 전역 채널 주의 메커니즘을 활용, (3) 다양한 노이즈 수준에 적응하기 위한 픽셀 수준의 세밀한 지도를 제공하는 잔차 값 지도 모듈. FEAT는 표준 벤치마크와 하위 작업에서 평가되었으며, 최신 모델인 Endora의 매개변수의 23%만을 사용하는 FEAT-S가 비슷하거나 더 우수한 성능을 달성함을 보여줍니다. 또한, FEAT-L은 여러 데이터셋에서 모든 비교 방법을 능가하며, 우수한 효과성과 확장성을 입증합니다. 코드는 https://github.com/Yaziwel/FEAT에서 확인할 수 있습니다.
이미지 내 객체의 재질을 예시 이미지를 기반으로 편집하는 것은 컴퓨터 비전 및 그래픽스 분야에서 활발히 연구되는 주제입니다. 본 연구에서는 CLIP 공간 내에서 재질 임베딩을 찾고 이를 사전 학습된 텍스트-이미지 모델을 제어하는 데 활용하여 세부 재질 속성을 혼합 및 재구성하는 MARBLE 방법을 제안합니다. 예시 기반 재질 편집을 개선하기 위해, 디노이징 UNet 내에서 재질 속성을 담당하는 블록을 찾아냅니다. 두 개의 재질 예시 이미지가 주어졌을 때, CLIP 공간 내에서 재질을 혼합하기 위한 방향을 탐색합니다. 또한, 얕은 신경망을 사용하여 원하는 재질 속성 변화를 위한 방향을 예측함으로써 거칠기, 금속성, 투명도, 발광과 같은 세부 재질 속성에 대한 파라미터적 제어를 달성할 수 있습니다. 제안된 방법의 효용성을 입증하기 위해 정성적 및 정량적 분석을 수행하였으며, 단일 순방향 전달에서 다중 편집을 수행할 수 있는 능력과 회화에의 적용 가능성도 제시합니다. 프로젝트 페이지: https://marblecontrol.github.io/
텍스트 기반 비디오 편집은 자연어 지시에 따라 비디오 콘텐츠를 수정하는 것을 목표로 한다. 최근 훈련이 필요 없는 접근법들이 사전 훈련된 확산 모델을 활용하여 진전을 이루었지만, 이러한 방법들은 일반적으로 입력 비디오를 잠재 공간으로 매핑하는 역변환 기반 기술에 의존하며, 이는 종종 시간적 불일치와 구조적 충실도의 저하를 초래한다. 이를 해결하기 위해, 우리는 역변환이 필요 없는 새로운 비디오 편집 프레임워크인 FlowDirector를 제안한다. 우리의 프레임워크는 편집 과정을 데이터 공간에서의 직접적인 진화로 모델링하며, Ordinary Differential Equation (ODE)을 통해 비디오를 안내하여 고유한 시공간 다양체를 따라 부드럽게 전환함으로써 시간적 일관성과 구조적 세부 사항을 보존한다. 지역적이고 제어 가능한 편집을 달성하기 위해, 우리는 ODE 속도장을 조절하는 주의 기반 마스킹 메커니즘을 도입하여 비대상 영역을 공간적 및 시간적으로 보존한다. 또한, 불완전한 편집을 해결하고 편집 지시와의 의미적 정렬을 강화하기 위해, Classifier-Free Guidance에서 영감을 받은 지도 강화 편집 전략을 제시한다. 이 전략은 여러 후보 흐름 간의 차이 신호를 활용하여 구조적 일관성을 훼손하지 않으면서도 더 강력한 의미적 정렬을 향해 편집 궤적을 조종한다. 벤치마크를 통한 광범위한 실험은 FlowDirector가 지시 준수, 시간적 일관성, 배경 보존 측면에서 최첨단 성능을 달성함을 보여주며, 역변환 없이도 효율적이고 일관된 비디오 편집을 위한 새로운 패러다임을 확립한다.
최근 느린 사고 언어 모델(예: OpenAI-o1 및 DeepSeek-R1)의 발전은 인간과 유사한 반성적 인지를 모방함으로써 복잡한 추론 과제에서 놀라운 능력을 보여주었다. 그러나 이러한 능력을 다중 모달 대형 언어 모델(MLLMs)로 확장하는 것은 기본 추론자 LLMs를 업그레이드할 때 시각-언어 정렬을 재훈련하는 데 드는 높은 비용으로 인해 여전히 어려운 과제로 남아 있다. 간단한 해결책은 인지와 추론을 분리하는 것, 즉 시각적 입력을 언어 표현(예: 캡션)으로 변환한 후 이를 강력한 텍스트 전용 추론기에 전달하는 것이다. 그러나 이러한 분리는 중요한 문제를 야기한다: 시각 추출기는 이미지에 충실하면서도 정확한 하위 추론을 지원할 만큼 충분히 정보를 제공하는 설명을 생성해야 한다. 이를 해결하기 위해, 우리는 캡션 보상 최적화를 통한 추론-정렬된 인지 분리(Reasoning-Aligned Perceptual Decoupling via Caption Reward Optimization, RACRO)를 제안한다. 이는 추출기의 캡션 생성 행동을 추론 목표와 정렬시키는 추론-지도 강화 학습 전략이다. 보상 기반 최적화를 통해 인지-추론 루프를 닫음으로써, RACRO는 시각적 근거를 크게 강화하고 추론 최적화된 표현을 추출한다. 다중 모달 수학 및 과학 벤치마크에서의 실험은 제안된 RACRO 방법이 최첨단 평균 성능을 달성하면서도 더 진보된 추론 LLMs에 대한 우수한 확장성과 플러그 앤 플레이 적응을 가능하게 하며, 비용이 많이 드는 다중 모달 재정렬의 필요성을 없앰을 보여준다.
대규모 언어 모델(LLM)에 대한 워터마킹 기술은 출력 품질에 상당한 영향을 미칠 수 있지만, 진실성, 안전성 및 유용성에 미치는 영향은 여전히 심각하게 연구되지 않고 있다. 본 논문은 두 가지 인기 있는 워터마킹 접근법인 Gumbel과 KGW가 네 가지 정렬된 LLM에서 이러한 핵심 정렬 특성에 어떻게 영향을 미치는지에 대한 체계적인 분석을 제시한다. 우리의 실험은 두 가지 뚜렷한 성능 저하 패턴을 밝혀냈다: 가드 약화(guard attenuation), 즉 유용성의 강화가 모델의 안전성을 훼손하는 경우와 가드 증폭(guard amplification), 즉 지나친 주의로 인해 모델의 유용성이 감소하는 경우이다. 이러한 패턴은 워터마킹으로 인한 토큰 분포의 변화에서 비롯되며, 정렬 목표 간의 근본적인 긴장을 드러낸다. 이러한 성능 저하를 완화하기 위해, 우리는 외부 보상 모델을 사용하여 정렬을 복원하는 추론 시점 샘플링 방법인 정렬 재샘플링(Alignment Resampling, AR)을 제안한다. 우리는 샘플 크기가 증가함에 따라 기대 보상 점수의 개선에 대한 이론적 하한을 설정하고, 단 2~4개의 워터마킹된 생성물을 샘플링하는 것만으로도 기준(워터마킹되지 않은) 정렬 점수를 효과적으로 회복하거나 초과할 수 있음을 실증적으로 입증한다. 표준 Gumbel 워터마킹의 제한된 응답 다양성을 극복하기 위해, 우리의 수정된 구현은 엄격한 왜곡 없음(distortion-freeness)을 희생하면서도 강력한 탐지 가능성을 유지하여 AR과의 호환성을 보장한다. 실험 결과는 AR이 두 워터마킹 접근법 모두에서 기준 정렬을 성공적으로 회복하면서도 강력한 워터마크 탐지 가능성을 유지함을 확인한다. 이 연구는 워터마크 강도와 모델 정렬 간의 중요한 균형을 밝히며, 실무에서 워터마킹된 LLM을 책임 있게 배포하기 위한 간단한 추론 시점 해결책을 제공한다.
정확한 LiDAR-카메라 보정은 자율 주행 및 로봇 시스템에서 다중 모달 센서 융합의 기초가 됩니다. 기존의 보정 방법은 통제된 환경에서 대량의 데이터 수집을 요구하며, 차량/로봇 이동 중 발생하는 변환 변화를 보정할 수 없습니다. 본 논문에서는 원시 데이터를 이용해 LiDAR-카메라 보정을 수행하는 최초의 모델인 BEVCALIB를 제안합니다. 이를 위해 카메라 BEV(Bird's-Eye View) 특징과 LiDAR BEV 특징을 별도로 추출한 후 공유 BEV 특징 공간에 융합합니다. BEV 특징의 기하학적 정보를 최대한 활용하기 위해, 우리는 변환 디코더에서 가장 중요한 특징을 필터링하는 새로운 특징 선택기를 도입하여 메모리 소비를 줄이고 효율적인 학습을 가능하게 합니다. KITTI, NuScenes 및 자체 데이터셋에서의 광범위한 평가를 통해 BEVCALIB가 새로운 최첨단 기술을 확립함을 입증했습니다. 다양한 노이즈 조건에서 BEVCALIB는 KITTI 데이터셋에서 (47.08%, 82.32%), NuScenes 데이터셋에서 (78.17%, 68.29%)의 평균 (이동, 회전) 성능으로 기존 최고의 베이스라인을 능가했습니다. 오픈소스 영역에서는 재현 가능한 최고의 베이스라인을 한 차원 개선했습니다. 우리의 코드와 데모 결과는 https://cisl.ucr.edu/BEVCalib에서 확인할 수 있습니다.
손-물체 상호작용(Hand-Object Interaction, HOI) 생성은 상당한 응용 잠재력을 가지고 있습니다. 그러나 현재의 3D HOI 모션 생성 접근법은 사전 정의된 3D 물체 모델과 실험실에서 캡처된 모션 데이터에 크게 의존하여 일반화 능력이 제한됩니다. 한편, HOI 비디오 생성 방법은 픽셀 수준의 시각적 충실도를 우선시하며, 종종 물리적 타당성을 희생합니다. 시각적 외관과 모션 패턴이 현실 세계에서 동일한 기본 물리 법칙을 공유한다는 점을 인식하여, 우리는 HOI 비디오와 모션을 동시에 생성하기 위해 시각적 사전 지식과 동적 제약을 동기화된 확산 과정 내에서 결합하는 새로운 프레임워크를 제안합니다. 이질적인 의미론, 외관, 그리고 모션 특징을 통합하기 위해, 우리의 방법은 특징 정렬을 위한 삼중 모드 적응 변조를 구현하고, 모드 간 및 모드 내 의존성을 모델링하기 위해 3D 전체 주의 메커니즘을 결합합니다. 더 나아가, 우리는 동기화된 확산 출력에서 직접 명시적인 3D 상호작용 시퀀스를 생성한 후 이를 피드백하여 폐루프 피드백 사이클을 구축하는 시각 인식 3D 상호작용 확산 모델을 도입합니다. 이 아키텍처는 사전 정의된 물체 모델이나 명시적인 포즈 안내에 대한 의존성을 제거하면서도 비디오-모션 일관성을 크게 향상시킵니다. 실험 결과는 우리의 방법이 고충실도이고 동적으로 타당한 HOI 시퀀스를 생성하는 데 있어 최신 접근법을 능가하며, 보이지 않는 실제 시나리오에서도 뛰어난 일반화 능력을 보여줍니다. 프로젝트 페이지는 https://github.com/Droliven/SViMo\_project에서 확인할 수 있습니다.
시각적 입력으로부터 3D 점유 그리드를 정확하게 예측하는 것은 자율 주행에 있어 매우 중요하지만, 현재의 판별적 방법들은 노이즈가 있는 데이터, 불완전한 관측, 그리고 3D 장면에 내재된 복잡한 구조를 다루는 데 어려움을 겪고 있습니다. 본 연구에서는 3D 점유 예측을 확산 모델을 사용한 생성 모델링 작업으로 재구성합니다. 이 모델은 기본 데이터 분포를 학습하고 3D 장면 사전 정보를 통합하여 예측의 일관성과 노이즈 강인성을 향상시키며, 3D 공간 구조의 복잡성을 더 잘 처리합니다. 우리의 광범위한 실험 결과, 확산 기반 생성 모델은 최첨단 판별적 접근법을 능가하며, 특히 가려진 영역이나 시야가 낮은 영역에서 더 현실적이고 정확한 점유 예측을 제공합니다. 또한, 개선된 예측 결과는 하위 계획 작업에 상당한 이점을 제공하여, 실제 자율 주행 애플리케이션에서 우리 방법의 실용적 장점을 강조합니다.
자동화된 스포츠 기술 평가는 전문가와 초보자의 수행을 구별하는 기본적인 동작 패턴을 포착해야 하지만, 현재의 비디오 샘플링 방법은 숙련도 평가에 필수적인 시간적 연속성을 방해한다. 이를 위해 우리는 Proficiency-Aware Temporal Sampling(PATS)을 소개한다. PATS는 다중 시점 기술 평가를 위해 연속적인 시간 세그먼트 내에서 완전한 기본 동작을 보존하는 새로운 샘플링 전략이다. PATS는 비디오를 적응적으로 세그먼트화하여 분석된 각 부분이 중요한 수행 요소의 완전한 실행을 포함하도록 보장하며, 이 과정을 여러 세그먼트에 걸쳐 반복하여 정보 커버리지를 극대화하면서 시간적 일관성을 유지한다. EgoExo4D 벤치마크에서 SkillFormer와 함께 평가된 PATS는 모든 시점 구성에서 최신 정확도를 능가하며(+0.65%에서 +3.05%), 도전적인 영역에서 상당한 성과를 거두었다(+26.22% 볼더링, +2.39% 음악, +1.13% 농구). 체계적인 분석은 PATS가 동적 스포츠를 위한 고주파 샘플링에서 순차적 기술을 위한 세밀한 세그먼트화에 이르기까지 다양한 활동 특성에 성공적으로 적응함을 보여주며, 이는 실세계 응용을 위한 자동화된 기술 평가를 발전시키는 적응형 시간 샘플링 접근법으로서의 효과를 입증한다.
CT 영상의 자동 해석, 특히 다중 평면 및 전신 스캔에서의 이상 소견 위치 파악 및 기술은 임상 영상의학 분야에서 여전히 중요한 과제로 남아 있습니다. 본 연구는 이 문제를 해결하기 위해 네 가지 주요 기여를 제시합니다: (i) 분류 체계 측면에서, 수석 영상의학 전문가들과 협력하여 모든 신체 부위에 걸친 404개의 대표적인 이상 소견을 포함한 포괄적인 계층적 분류 시스템을 제안합니다; (ii) 데이터 측면에서, 다중 평면 및 모든 인체 부위에서 촬영된 14,500건 이상의 CT 영상을 포함한 데이터셋을 제공하며, 19,000건 이상의 이상 소견에 대한 정교한 그라운딩 주석을 상세 설명과 연결하여 분류 체계에 적용했습니다; (iii) 모델 개발 측면에서, 텍스트 쿼리를 기반으로 다중 평면 및 전신 CT 영상에서 이상 소견을 자동으로 그라운딩하고 기술할 수 있는 OminiAbnorm-CT를 제안하며, 시각적 프롬프트를 통한 유연한 상호작용도 가능하게 합니다; (iv) 벤치마크 측면에서, 실제 임상 시나리오를 기반으로 세 가지 대표적인 평가 과제를 설정했습니다. 광범위한 실험을 통해 OminiAbnorm-CT가 모든 과제와 평가 지표에서 기존 방법들을 크게 능가할 수 있음을 입증했습니다.
자기 지도 학습 모델이 학습한 음성 표현이 언어에 따라 얼마나 특정적인가? 기존 연구에서는 음성 녹음만으로 훈련된 종단 간 모델에서 다양한 언어학적 특성을 성공적으로 디코딩할 수 있음이 밝혀졌다. 그러나 특정 언어에 대한 사전 훈련이 언어별 언어학적 정보를 어느 정도 개선시키는지는 덜 명확하다. 본 연구에서는 자기 지도 학습 Wav2Vec2 모델의 내부 표현에서 네덜란드어의 음운 및 어휘 정보가 어떻게 인코딩되는지를 테스트한다. 네덜란드어로만 사전 훈련을 수행한 경우, 비슷한 양의 영어 또는 더 많은 양의 다국어 데이터로 사전 훈련한 경우와 비교하여 네덜란드어 언어학적 특성의 표현이 개선됨을 확인하였다. 이러한 언어별 이점은 훈련된 클러스터링 또는 분류 프로브를 통해 잘 감지되며, 제로샷 메트릭을 사용하여 부분적으로 관찰할 수 있다. 또한, 언어학적 특성 인코딩에서의 언어별 이점은 자동 음성 인식의 하류 작업 성능과 일치한다.