번역이 포함된 일일 선별된 AI 연구 논문
본 논문에서는 대규모 언어 모델 훈련을 위한 안정적이고 효율적이며 성능이 뛰어난 강화 학습 알고리즘인 그룹 시퀀스 정책 최적화(Group Sequence Policy Optimization, GSPO)를 소개한다. 토큰 수준의 중요도 비율을 채택한 기존 알고리즘과 달리, GSPO는 시퀀스 가능성에 기반하여 중요도 비율을 정의하고 시퀀스 수준의 클리핑, 보상, 최적화를 수행한다. 본 연구는 GSPO가 GRPO 알고리즘에 비해 우수한 훈련 효율성과 성능을 달성하며, 특히 Mixture-of-Experts(MoE) 강화 학습 훈련을 안정화하고, 강화 학습 인프라 설계를 단순화할 잠재력을 가지고 있음을 입증한다. 이러한 GSPO의 장점은 최신 Qwen3 모델의 뛰어난 성능 개선에 기여하였다.
트랜스포머 기반 아키텍처의 최근 발전은 비디오 생성 작업에서 놀라운 성공을 보여주고 있습니다. 그러나 전체 어텐션 메커니즘의 이차 복잡도는 여전히 중요한 병목 현상으로 남아 있으며, 특히 고해상도 및 장기간 비디오 시퀀스에서 더욱 두드러집니다. 본 논문에서는 비디오 디퓨전 트랜스포머(DiTs)의 희소성 패턴에 동적으로 적응하는 새로운 Neighborhood Adaptive Block-Level Attention(NABLA) 메커니즘을 제안합니다. NABLA는 적응형 희소성 기반 임계값을 사용한 블록 단위 어텐션을 활용하여 생성 품질을 유지하면서 계산 오버헤드를 줄입니다. 우리의 방법은 사용자 정의 저수준 연산자 설계가 필요하지 않으며, PyTorch의 Flex Attention 연산자와 원활하게 통합될 수 있습니다. 실험 결과, NABLA는 기준 모델 대비 최대 2.7배 빠른 학습 및 추론 속도를 달성하면서도 정량적 지표(CLIP 점수, VBench 점수, 인간 평가 점수)와 시각적 품질 저하를 거의 없앴습니다. 코드와 모델 가중치는 다음 링크에서 확인할 수 있습니다: https://github.com/gen-ai-team/Wan2.1-NABLA
대형 언어 모델(LLMs)은 추론 집약적인 작업에서 인상적인 성능을 달성했지만, 그들의 추론 효율성을 최적화하는 것은 여전히 해결해야 할 과제로 남아 있습니다. 테스트 시간 스케일링(TTS)은 추론 품질을 향상시키지만, 종종 과도한 사고를 유발하여 중복 계산에 토큰을 낭비하게 됩니다. 본 연구는 추가적인 학습 없이 LLM의 테스트 시간 스케일링을 효율적이고 적응적으로 안내하는 방법을 탐구합니다. 물리학의 운동량 개념에서 영감을 받아, 우리는 시간에 걸쳐 단계별 불확실성을 추적하고 집계함으로써 중요한 추론 단계에 사고 예산을 동적으로 할당하는 운동량 불확실성 기반 추론(MUR)을 제안합니다. 유연한 추론 시간 제어를 지원하기 위해, 단일 하이퍼파라미터를 통해 추론 예산을 조정하는 간단한 메커니즘인 감마 제어를 도입합니다. 우리는 MUR의 안정성과 편향 측면에서의 우수성을 뒷받침하기 위한 심층적인 이론적 증명을 제공합니다. MUR은 다양한 TTS 방법과 비교하여 네 가지 도전적인 벤치마크(MATH-500, AIME24, AIME25, GPQA-diamond)에서 최근의 Qwen3 모델(1.7B, 4B, 8B)을 사용하여 포괄적으로 평가되었습니다. 결과는 MUR이 평균적으로 계산량을 50% 이상 줄이면서 정확도를 0.62-3.37% 향상시킴을 보여줍니다.
우리는 짧은 영화 생성을 위한 생성 프레임워크인 'Captain Cinema'를 소개한다. 영화 스토리라인의 상세한 텍스트 설명이 주어지면, 우리의 접근 방식은 먼저 전체 내러티브를 요약하는 키프레임 시퀀스를 생성한다. 이를 통해 스토리라인과 시각적 외관(예: 장면과 캐릭터)에서 장거리 일관성을 보장한다. 우리는 이 단계를 '탑다운 키프레임 계획'이라고 부른다. 이 키프레임들은 이후 장문맥 학습을 지원하는 비디오 합성 모델의 조건 신호로 사용되어, 이들 간의 시공간적 역동성을 생성한다. 이 단계는 '바텀업 비디오 합성'이라고 불린다. 다중 장면의 긴 내러티브 영화 작품을 안정적이고 효율적으로 생성하기 위해, 우리는 장문맥 비디오 데이터에 특화된 멀티모달 디퓨전 트랜스포머(MM-DiT)를 위한 인터리브 훈련 전략을 도입했다. 우리의 모델은 인터리브 데이터 쌍으로 구성된 특별히 선별된 시네마틱 데이터셋에서 훈련되었다. 실험 결과, Captain Cinema는 시각적으로 일관되고 내러티브가 일치하는 고품질의 짧은 영화를 자동으로 생성하는 데 있어 유리한 성능을 보여준다. 프로젝트 페이지: https://thecinema.ai
대규모 추론 모델들은 확장된 사고 사슬(chain-of-thought) 시퀀스를 통해 뛰어난 성능을 달성했지만, 이러한 계산적 자유로 인해 간단한 문제에서도 과도한 토큰 생성이 발생합니다. 우리는 길이 적응형 정책 최적화(Length-Adaptive Policy Optimization, LAPO)라는 새로운 프레임워크를 제안합니다. 이 프레임워크는 추론 길이 제어를 외부 제약에서 모델의 내재적 능력으로 전환합니다. 기존의 접근 방식이 엄격한 제한을 부과하거나 사후 개입에 의존하는 것과 달리, LAPO는 두 단계의 강화 학습 과정을 통해 모델이 적절한 추론 깊이를 내재화하도록 합니다. 첫 번째 단계에서 모델은 성공적인 해결 길이의 통계적 분포를 발견함으로써 자연스러운 추론 패턴을 학습합니다. 두 번째 단계에서는 이러한 패턴을 메타인지적 지침으로 활용하여 모델의 추론 컨텍스트에 직접 내장함으로써 추론 시 유연성을 보장합니다. 수학적 추론 벤치마크에서의 실험 결과, LAPO는 토큰 사용량을 최대 40.9% 줄이면서 정확도를 2.3% 향상시킴을 보여줍니다. 우리의 분석은 LAPO로 훈련된 모델들이 문제 복잡도에 따라 계산 자원을 할당하는 새로운 능력을 개발하며, 품질을 희생하지 않고 효율적인 추론을 달성함을 보여줍니다.
최근 3D 생성 기술이 놀라운 발전을 이루었음에도 불구하고, 이러한 방법을 지구 표면의 수천 평방 킬로미터와 같은 지리적 규모로 확장하는 것은 여전히 해결되지 않은 과제로 남아 있습니다. 우리는 데이터 인프라와 모델 아키텍처에서의 이중 혁신을 통해 이 문제를 해결합니다. 먼저, 우리는 현재까지 가장 큰 3D 항공 데이터셋인 Aerial-Earth3D를 소개합니다. 이 데이터셋은 미국 본토 전역에서 촬영된 50,000개의 정제된 장면(각각 600m x 600m 크기)으로 구성되어 있으며, 4,500만 개의 다중 뷰 Google Earth 프레임을 포함합니다. 각 장면은 포즈 주석이 달린 다중 뷰 이미지, 깊이 맵, 노멀 맵, 의미론적 분할, 카메라 포즈를 제공하며, 지형 다양성을 보장하기 위한 명시적인 품질 관리가 적용되었습니다. 이를 기반으로, 우리는 희소-분리 잠재 확산을 통해 대규모 3D 지구 생성을 위한 맞춤형 프레임워크인 EarthCrafter를 제안합니다. 우리의 아키텍처는 구조적 생성과 질감 생성을 분리합니다: 1) 이중 희소 3D-VAE는 고해상도 기하학적 복셀과 질감 2D 가우시안 스플랫(2DGS)을 컴팩트한 잠재 공간으로 압축하여, 광대한 지리적 규모로 인한 고비용 계산 문제를 크게 완화하면서도 중요한 정보를 보존합니다. 2) 우리는 혼합 입력(의미론, 이미지, 또는 둘 다 없음)으로 훈련된 조건 인식 흐름 매칭 모델을 제안하여, 잠재 기하학 및 질감 특징을 독립적으로 유연하게 모델링합니다. 광범위한 실험을 통해 EarthCrafter가 극도로 대규모 생성에서 상당히 우수한 성능을 보임을 입증했습니다. 이 프레임워크는 의미론적으로 유도된 도시 레이아웃 생성부터 무조건적 지형 합성에 이르기까지 다양한 응용을 지원하며, Aerial-Earth3D의 풍부한 데이터 사전 정보를 통해 지리적 타당성을 유지합니다. 우리의 프로젝트 페이지는 https://whiteinblue.github.io/earthcrafter/에서 확인할 수 있습니다.
실세계 콘텐츠 생성에 있어 시각적 생성 모델의 확장은 필수적이지만, 상당한 훈련 및 계산 비용을 요구한다. 이에 반해, 테스트 시점 확장은 자원 효율성과 유망한 성능으로 인해 점점 더 주목받고 있다. 본 연구에서는 시각적 자기회귀(VAR) 모델을 위한 첫 번째 일반적인 테스트 시점 확장 프레임워크인 TTS-VAR를 제안하며, 생성 과정을 경로 탐색 문제로 모델링한다. 계산 효율성과 탐색 능력을 동적으로 균형 있게 조절하기 위해, 우리는 먼저 인과적 생성 과정 전반에 걸쳐 적응형 감소 배치 크기 스케줄을 도입한다. 또한, VAR의 계층적 coarse-to-fine 다중 스케일 생성에서 영감을 받아, 우리의 프레임워크는 두 가지 주요 구성 요소를 통합한다: (i) coarse 스케일에서는 생성된 토큰이 평가하기 어려워 열등한 샘플의 잘못된 수용이나 우수한 샘플의 거부로 이어질 수 있음을 관찰한다. coarse 스케일이 충분한 구조적 정보를 포함하고 있음을 인식하여, 우리는 클러스터링 기반 다양성 탐색을 제안한다. 이는 의미적 특징 클러스터링을 통해 구조적 다양성을 보존하며, 잠재력이 높은 샘플에 대한 후속 선택을 가능하게 한다. (ii) fine 스케일에서는, 재샘플링 기반 잠재력 선택이 다중 스케일 생성 이력을 포함한 보상 함수로 정의된 잠재력 점수를 사용하여 유망한 후보를 우선시한다. 강력한 VAR 모델인 Infinity에 대한 실험에서 GenEval 점수가 0.69에서 0.75로 8.7%의 주목할 만한 향상을 보였다. 주요 통찰은 초기 단계의 구조적 특징이 최종 품질에 효과적으로 영향을 미치며, 재샘플링 효율성이 생성 스케일 간에 다양하다는 것을 보여준다. 코드는 https://github.com/ali-vilab/TTS-VAR에서 확인할 수 있다.
대규모 추론 모델은 광범위한 사고 사슬 생성(chain-of-thought generation)을 통해 뛰어난 성능을 달성하지만, 문제의 복잡성과 관계없이 균일한 추론 전략을 적용함으로써 상당한 계산 비효율성을 보입니다. 우리는 Hierarchical Budget Policy Optimization(HBPO)을 제안합니다. 이는 강화 학습 프레임워크로, 모델이 능력을 희생하지 않고 문제별 추론 깊이를 학습할 수 있도록 합니다. HBPO는 효율 지향적 훈련에서 발생하는 탐색 공간 붕괴(exploration space collapse)라는 근본적인 문제를 해결합니다. 여기서 긴 출력 길이에 대한 패널티는 모델이 필요한 긴 추론 경로에서 벗어나도록 체계적으로 편향시킵니다. 계층적 예산 탐색(hierarchical budget exploration)을 통해, 우리의 접근 방식은 롤아웃 샘플을 서로 다른 토큰 예산을 가진 여러 하위 그룹으로 분할하여, 능력 저하를 방지하면서 효율적인 자원 할당을 가능하게 합니다. 우리는 문제의 복잡성과 일치하는 예산 인식 인센티브를 생성하는 차별화된 보상 메커니즘을 도입하여, 모델이 작업 요구사항과 계산 노력 사이의 자연스러운 대응 관계를 발견할 수 있도록 합니다. 광범위한 실험을 통해 HBPO가 평균 토큰 사용량을 최대 60.6%까지 줄이면서도 네 가지 추론 벤치마크에서 정확도를 3.14% 향상시킴을 입증했습니다. 외부 제약을 부과하거나 이산 모드 선택에 의존하는 기존 방법과 달리, HBPO는 모델이 문제 복잡성에 따라 자동으로 추론 깊이를 조정하는 적응적 행동을 나타냅니다. 우리의 결과는 추론 효율성과 능력이 본질적으로 상충되지 않으며, 탐색 다양성을 보존하는 적절하게 구조화된 계층적 훈련을 통해 동시에 최적화될 수 있음을 시사합니다.
정보 추출(Information Extraction, IE)은 다양한 NLP 애플리케이션의 기초가 되지만, 기존 솔루션들은 종종 특정 작업에 맞춰 전문화된 모델을 요구하거나 계산 비용이 많이 드는 대형 언어 모델에 의존합니다. 우리는 GLiNER2를 제안합니다. 이는 원래의 GLiNER 아키텍처를 개선하여 명명된 개체 인식, 텍스트 분류, 계층적 구조화 데이터 추출을 단일 효율적인 모델 내에서 지원하는 통합 프레임워크입니다. 사전 학습된 트랜스포머 인코더 아키텍처를 기반으로 구축된 GLiNER2는 CPU 효율성과 컴팩트한 크기를 유지하면서 직관적인 스키마 기반 인터페이스를 통해 다중 작업 구성을 도입합니다. 우리의 실험은 추출 및 분류 작업에서 경쟁력 있는 성능을 보여주며, LLM 기반 대안에 비해 배포 접근성이 크게 개선되었음을 입증합니다. 우리는 GLiNER2를 오픈소스 pip 설치 가능한 라이브러리로 공개하며, 사전 학습된 모델과 문서를 https://github.com/fastino-ai/GLiNER2에서 제공합니다.
개념 변화(concept drift)에 노출된 비정적 데이터 스트림에서 학습하기 위해서는 실시간으로 적응하면서도 자원 효율적인 모델이 필요합니다. 기존의 적응형 앙상블 방법들은 대부분 거친 수준의 적응 메커니즘이나 단순한 투표 방식을 사용하여 전문 지식을 최적으로 활용하지 못하는 경우가 많습니다. 본 논문은 이러한 한계를 해결하기 위해 새로운 공동 학습(co-training) 프레임워크를 도입한 온라인 Mixture-of-Experts(MoE) 아키텍처인 DriftMoE를 소개합니다. DriftMoE는 증분적 호프딩 트리(Hoeffding tree) 전문가 풀과 함께 공동 학습되는 컴팩트한 신경망 라우터를 특징으로 합니다. 주요 혁신은 전문가의 전문화를 가능하게 하는 상호 학습 루프에 있습니다: 라우터는 예측에 가장 적합한 전문가를 선택하고, 관련 전문가들은 실제 레이블을 사용해 증분적으로 업데이트하며, 라우터는 모든 정확한 전문가를 강화하는 다중 핫 정확도 마스크(multi-hot correctness mask)를 사용해 매개변수를 개선합니다. 이 피드백 루프는 라우터에 명확한 학습 신호를 제공함과 동시에 전문가의 전문화를 가속화합니다. 우리는 DriftMoE의 성능을 급격한 변화, 점진적 변화, 그리고 실제 세계의 변화를 포함한 9개의 최신 데이터 스트림 학습 벤치마크에서 평가했습니다. 이때 두 가지 구성을 테스트했습니다: 하나는 전문가들이 데이터 체제에 전문화되는 경우(다중 클래스 변형), 다른 하나는 단일 클래스 전문화에 초점을 맞추는 경우(태스크 기반 변형). 실험 결과, DriftMoE는 최신 스트림 학습 적응형 앙상블과 경쟁력 있는 성능을 보이며, 개념 변화 적응에 있어 원칙적이고 효율적인 접근 방식을 제공합니다. 모든 코드, 데이터 파이프라인, 그리고 재현성 스크립트는 공개된 GitHub 저장소에서 확인할 수 있습니다: https://github.com/miguel-ceadar/drift-moe.
최신 TeleChat 모델 시리즈인 TeleChat2, TeleChat2.5, 그리고 T1을 소개합니다. 이들은 이전 버전인 TeleChat에 비해 상당한 업그레이드를 제공합니다. 모델 아키텍처에는 최소한의 변경만 가해졌지만, 새로운 시리즈는 사전 학습과 사후 학습 단계에서 강화된 훈련 전략을 통해 상당한 성능 향상을 달성했습니다. 이 시리즈는 10조 개의 고품질이고 다양한 토큰으로 사전 학습을 거친 TeleChat2로 시작됩니다. 이후 지도 미세 조정(SFT)과 직접 선호 최적화(DPO)를 통해 그 능력을 더욱 향상시킵니다. TeleChat2.5와 T1은 도메인 특화 데이터셋을 활용한 지속적 사전 학습 단계와 강화 학습(RL)을 결합하여 코드 생성 및 수학적 추론 작업에서의 성능을 개선합니다. T1 변종은 복잡한 추론을 위해 설계되었으며, 긴 사고의 연쇄(CoT) 추론을 지원하고 수학 및 코딩에서 상당한 개선을 보여줍니다. 반면, TeleChat2.5는 빠른 추론 속도를 우선시합니다. T1과 TeleChat2.5의 두 가지 주력 모델은 115B 매개변수를 가진 밀집 Transformer 기반 아키텍처로, 원래의 TeleChat에 비해 추론 및 일반 작업 성능에서 상당한 발전을 보여줍니다. 특히, T1-115B는 OpenAI의 o1-mini 및 GPT-4o와 같은 독점 모델을 능가합니다. 우리는 개발자와 연구자들이 다양한 애플리케이션에 맞춘 최첨단 언어 모델을 활용할 수 있도록 TeleChat2, TeleChat2.5 및 T1을 공개합니다. 여기에는 35B 및 115B 매개변수를 가진 사후 학습 버전도 포함됩니다.
텍스트-이미지 합성 분야의 최근 발전은 고품질 생성을 보장하기 위해 정교한 샘플링 전략과 분류자 없는 가이던스(CFG)의 도움을 크게 받고 있습니다. 그러나 CFG는 두 번의 순방향 패스를 필요로 하며, 특히 복잡한 샘플링 알고리즘과 결합될 경우 과도하게 높은 추론 비용을 초래합니다. 이를 해결하기 위해, 우리는 TeEFusion(Text Embeddings Fusion)이라는 새로운 효율적인 지식 증류 방법을 제안합니다. 이 방법은 가이던스 크기를 텍스트 임베딩에 직접 통합하고, 교사 모델의 복잡한 샘플링 전략을 증류합니다. 조건부와 무조건부 텍스트 임베딩을 선형 연산을 통해 단순히 융합함으로써, TeEFusion은 추가 매개변수 없이도 원하는 가이던스를 재구성하며, 동시에 학생 모델이 교사 모델의 정교한 샘플링 접근법을 통해 생성된 출력을 학습할 수 있도록 합니다. SD3와 같은 최첨단 모델에 대한 광범위한 실험을 통해, 우리의 방법이 학생 모델이 훨씬 간단하고 효율적인 샘플링 전략으로 교사 모델의 성능을 밀접하게 모방할 수 있음을 입증했습니다. 결과적으로, 학생 모델은 교사 모델보다 최대 6배 빠른 추론 속도를 달성하면서도, 교사 모델의 복잡한 샘플링 접근법을 통해 얻은 수준과 비슷한 이미지 품질을 유지합니다. 코드는 https://github.com/AIDC-AI/TeEFusion에서 공개되어 있습니다.
본 보고서는 2024년 새롭게 개발된 영어 GloVe(Global Vectors for Word Representation) 모델을 문서화, 설명 및 평가합니다. 2014년에 구축된 원본 GloVe 모델은 널리 사용되어 유용성이 입증되었지만, 언어와 세계는 계속 진화하고 있으며, 우리는 최신 모델이 현재의 사용 환경에 더 적합할 것이라고 판단했습니다. 또한, 2014년 모델은 사용된 정확한 데이터 버전과 전처리 과정에 대해 충분히 문서화되지 않았으며, 이를 보완하기 위해 새로운 모델을 상세히 문서화했습니다. 우리는 Wikipedia, Gigaword, 그리고 Dolma의 일부를 사용하여 두 세트의 단어 임베딩을 학습했습니다. 어휘 비교, 직접 테스트, 그리고 NER(Named Entity Recognition) 작업을 통한 평가 결과, 2024년 벡터는 문화적 및 언어적으로 관련된 새로운 단어를 포함하고 있으며, 유사성 및 유추와 같은 구조적 작업에서 비슷한 성능을 보이며, 비서구권 뉴스 데이터와 같은 최신의 시간 의존적 NER 데이터셋에서 향상된 성능을 보여줍니다.
컴퓨터 비전에서 세그먼트는 종종 의미론적 고려사항에 의해 정의되며, 범주별 관례에 크게 의존합니다. 반면, 발달 심리학은 인간이 물리적 힘에 의해 함께 움직이는 물리적 사물들의 그룹인 '스펠크 객체(Spelke objects)'의 관점에서 세상을 인지한다고 제안합니다. 따라서 스펠크 객체는 범주에 구애받지 않는 인과적 운동 관계에 기반하여 작동하며, 이는 조작 및 계획과 같은 작업에 더 적합할 가능성이 있습니다. 본 논문에서는 먼저 스펠크 객체 개념을 벤치마킹하고, 자연 이미지에서 다양한 잘 정의된 스펠크 세그먼트를 포함한 SpelkeBench 데이터셋을 소개합니다. 다음으로, 이미지에서 스펠크 세그먼트를 알고리즘적으로 추출하기 위해 미래 운동 분포를 예측하도록 훈련된 시각적 세계 모델 클래스인 SpelkeNet을 구축합니다. SpelkeNet은 스펠크 객체 발견을 위한 두 가지 핵심 개념을 추정할 수 있도록 지원합니다: (1) 터치 시 움직일 가능성이 높은 영역을 식별하는 '운동 가능성 맵(motion affordance map)', 그리고 (2) 나머지 장면이 어떻게 움직일지를 포착하는 '예상 변위 맵(expected-displacement map)'. 이러한 개념은 '통계적 반사실적 탐색(statistical counterfactual probing)'에 사용되며, 여기서는 높은 운동 가능성을 가진 영역에 다양한 '가상 터치(virtual pokes)'를 적용하고, 그 결과로 생성된 예상 변위 맵을 사용하여 상관된 운동 통계의 집합으로 스펠크 세그먼트를 정의합니다. 우리는 SpelkeNet이 SpelkeBench에서 SegmentAnything(SAM)과 같은 지도 학습 기반 모델을 능가함을 발견했습니다. 마지막으로, 스펠크 개념이 다양한 오프더셰프 객체 조작 모델에서 사용될 때 물리적 객체 조작을 위한 3DEditBench 벤치마크에서 우수한 성능을 보이며, 실제 응용 프로그램에 유용함을 입증합니다.
확산 기반 텍스트-음성 변환(TTS) 시스템은 제로샷 음성 합성에서 놀라운 진전을 이루었지만, 모든 구성 요소를 지각적 지표에 최적화하는 것은 여전히 어려운 과제로 남아 있습니다. 이전 연구인 DMOSpeech는 음성 생성 구성 요소에 대한 직접적인 지표 최적화를 보여주었지만, 지속 시간 예측은 최적화되지 않은 상태로 남아 있었습니다. 본 논문은 강화 학습 접근법을 통해 지속 시간 예측기에까지 지표 최적화를 확장한 DMOSpeech 2를 소개합니다. 제안된 시스템은 화자 유사성과 단어 오류율을 보상 신호로 사용한 그룹 상대 선호 최적화(GRPO)를 기반으로 한 새로운 지속 시간 정책 프레임워크를 구현합니다. 이전에 최적화되지 않았던 이 구성 요소를 최적화함으로써, DMOSpeech 2는 더 완전한 지표 최적화 합성 파이프라인을 구축합니다. 또한, 본 논문은 교사 모델을 활용하여 초기 노이즈 제거 단계를 수행한 후 학생 모델로 전환하는 하이브리드 접근법인 교사 지도 샘플링을 도입하여, 효율성을 유지하면서 출력 다양성을 크게 향상시킵니다. 포괄적인 평가 결과, 이전 시스템 대비 모든 지표에서 우수한 성능을 보이면서도 샘플링 단계를 절반으로 줄이고도 품질 저하 없이 유지함을 입증했습니다. 이러한 발전은 여러 구성 요소에 걸친 지표 최적화를 갖춘 음성 합성 시스템으로 나아가는 중요한 단계를 나타냅니다. 오디오 샘플, 코드 및 사전 학습된 모델은 https://dmospeech2.github.io/에서 확인할 수 있습니다.
대형 언어 모델(LLMs)은 금융 애플리케이션에서 상당한 잠재력을 보여주지만, 기존 모델들은 정교한 추론 능력, 엄격한 신뢰성 기준, 그리고 도메인 특화 요구사항에 효율적으로 적응해야 하는 시나리오에서 종종 한계를 드러냅니다. 우리는 Qwen3 기반 모델을 기반으로 특별히 설계된 Agentar-Fin-R1 시리즈의 금융 대형 언어 모델(8B 및 32B 파라미터)을 소개합니다. 이 모델은 금융 애플리케이션을 위한 추론 능력, 신뢰성, 그리고 도메인 특화를 강화하기 위해 개발되었습니다. 우리의 최적화 접근법은 고품질의 체계적인 금융 작업 라벨 시스템과 포괄적인 다층 신뢰성 보장 프레임워크를 통합합니다. 이 프레임워크는 고품질 신뢰 가능한 지식 엔지니어링, 다중 에이전트 신뢰 가능한 데이터 합성, 그리고 엄격한 데이터 검증 거버넌스를 포함합니다. 라벨 기반 자동 난이도 인식 최적화, 2단계 학습 파이프라인, 그리고 동적 속성 시스템을 통해 우리는 학습 효율성을 크게 개선했습니다. 우리의 모델은 Fineva, FinEval, FinanceIQ와 같은 주류 금융 벤치마크뿐만 아니라 MATH-500 및 GPQA-diamond와 같은 일반 추론 데이터셋에서도 포괄적으로 평가되었습니다. 실제 배포 능력을 철저히 평가하기 위해, 우리는 에이전트 수준의 금융 추론 및 규정 준수 검증에 초점을 맞춘 Finova 평가 벤치마크를 혁신적으로 제안합니다. 실험 결과는 Agentar-Fin-R1이 금융 작업에서 최첨단 성능을 달성할 뿐만 아니라 탁월한 일반 추론 능력을 보여주어, 고위험 금융 애플리케이션을 위한 신뢰할 수 있는 솔루션으로서의 효과를 입증합니다. Finova 벤치는 https://github.com/antgroup/Finova에서 확인할 수 있습니다.
우리는 새로운 위치 임베딩이 필요 없는 계층적 비전 트랜스포머인 Iwin Transformer를 소개한다. 이 모델은 혁신적인 인터리브드 윈도우 어텐션과 깊이별 분리 가능 컨볼루션의 협업을 통해 저해상도에서 고해상도로 직접 미세 조정이 가능하다. 이 접근 방식은 어텐션을 사용해 멀리 떨어진 토큰들을 연결하고, 컨볼루션을 적용해 인접한 토큰들을 연결함으로써 단일 모듈 내에서 전역 정보 교환을 가능하게 하며, Swin Transformer가 전역 어텐션을 근사하기 위해 두 개의 연속 블록을 필요로 하는 한계를 극복한다. 다양한 비주얼 벤치마크에서의 실험 결과, Iwin Transformer는 이미지 분류(ImageNet-1K에서 87.4%의 top-1 정확도), 의미론적 분할, 비디오 동작 인식과 같은 작업에서 강력한 경쟁력을 보여준다. 또한, Iwin의 핵심 구성 요소가 클래스 조건부 이미지 생성에서 셀프 어텐션 모듈을 원활하게 대체할 수 있는 독립형 모듈로서의 효과를 검증하였다. Iwin Transformer가 도입한 개념과 방법은 비디오 생성에서의 Iwin 3D 어텐션과 같은 미래 연구에 영감을 줄 잠재력을 가지고 있다. 코드와 모델은 https://github.com/cominder/Iwin-Transformer에서 확인할 수 있다.
부분적 관련성 비디오 검색(Partially Relevant Video Retrieval, PRVR)은 전체 내용이 아닌 부분적인 내용만을 설명하는 텍스트 쿼리와 트리밍되지 않은 비디오를 매칭하는 중요한 과제를 다룹니다. 기존 방법들은 유클리드 공간에서의 기하학적 왜곡으로 인해 비디오의 내재적 계층 구조를 잘못 표현하거나 특정 계층적 의미를 간과하여, 궁극적으로 최적이 아닌 시간적 모델링을 초래하는 문제가 있습니다. 이 문제를 해결하기 위해, 우리는 PRVR을 위한 최초의 쌍곡면 모델링 프레임워크인 HLFormer를 제안합니다. HLFormer는 쌍곡면 공간 학습을 활용하여 유클리드 공간의 최적이 아닌 계층적 모델링 능력을 보완합니다. 구체적으로, HLFormer는 Lorentz Attention Block과 Euclidean Attention Block을 통합하여 하이브리드 공간에서 비디오 임베딩을 인코딩하고, Mean-Guided Adaptive Interaction Module을 사용하여 특징을 동적으로 융합합니다. 또한, 우리는 Lorentzian cone 제약을 통해 "텍스트 < 비디오" 계층 구조를 강제하는 Partial Order Preservation Loss를 도입했습니다. 이 접근법은 비디오 콘텐츠와 텍스트 쿼리 간의 부분적 관련성을 강화함으로써 크로스 모달 매칭을 더욱 향상시킵니다. 광범위한 실험 결과, HLFormer가 최신 방법들을 능가하는 성능을 보여줍니다. 코드는 https://github.com/lijun2005/ICCV25-HLFormer에서 공개되었습니다.
의료 영상 분할은 질병 진단 및 치료 계획을 포함한 다양한 의료 업무에 있어 핵심적인 역할을 합니다. 특히 피부 병변 분할은 피부암 진단 및 환자 모니터링에 필수적입니다. 본 논문에서는 이러한 맥락에서 확산 트랜스포머(Diffusion Transformer, DiT) 기반의 새로운 분할 모델인 SegDT를 소개합니다. SegDT는 저비용 하드웨어에서 작동하도록 설계되었으며, Rectified Flow를 통합하여 추론 단계를 줄이면서도 생성 품질을 향상시키고 표준 확산 모델의 유연성을 유지합니다. 제안된 방법은 세 가지 벤치마킹 데이터셋에서 평가되었으며, 여러 기존 연구와 비교하여 최첨단 성능을 달성하면서도 빠른 추론 속도를 유지합니다. 이는 실제 의료 현장에서의 적용 가능성을 높이는 요소입니다. 본 연구는 의료 영상 분석 분야에서 딥러닝 모델의 성능과 기능을 발전시켜, 의료 전문가들을 위한 더 빠르고 정확한 진단 도구를 가능하게 합니다. 코드는 https://github.com/Bekhouche/SegDT{GitHub}에서 공개되어 있습니다.
본 논문은 타겟 광고 캠페인의 효과를 향상시키기 위해 설계된, 얼굴 이미지로부터 연령과 성별을 동시에 분류하는 새로운 딥러닝 기반 접근 방식을 제시합니다. 우리는 두 가지 작업에 최적화된 맞춤형 합성곱 신경망(CNN) 아키텍처를 제안하며, 이는 얼굴 특징에 내재된 연령과 성별 정보 간의 상관관계를 활용합니다. 기존 방법들이 이러한 작업을 독립적으로 처리하는 것과 달리, 우리의 모델은 공유 표현을 학습함으로써 성능을 개선합니다. 이 네트워크는 조명, 포즈, 이미지 품질의 변화에 대해 견고성을 보장하기 위해 신중하게 전처리된 대규모의 다양한 얼굴 이미지 데이터셋으로 학습됩니다. 실험 결과, 성별 분류 정확도는 95%로 크게 향상되었으며, 연령 추정에서는 5.77년의 경쟁력 있는 평균 절대 오차를 달성했습니다. 특히, 우리는 다양한 연령대에 걸친 성능을 분석하여 어린 개인의 연령을 정확히 추정하는 데 있어 특정한 어려움을 식별했습니다. 이 분석은 이러한 편향을 해결하기 위한 타겟 데이터 증강 및 모델 개선의 필요성을 보여줍니다. 또한, 우리는 다양한 CNN 아키텍처와 하이퍼파라미터 설정이 전체 성능에 미치는 영향을 탐구함으로써 향후 연구를 위한 유용한 통찰을 제공합니다.
강력한 언어 기반 위에 구축된 멀티모달 대형 언어 모델(MLLMs)은 이미지, 질문, 답변으로 구성된 소수의 멀티모달 데모를 통해 새로운 작업에 적응하는 멀티모달 인컨텍스트 학습(MICL)을 가능하게 했습니다. 표준 시각-언어 데이터셋에서 눈에 띄는 개선을 보였음에도 불구하고, 현재의 MLLMs는 데모에서 시각 정보를 활용하는 데 어려움을 겪고 있습니다. 특히, 이들은 시각적 단서를 무시하고 텍스트 패턴에 지나치게 의존하는 경향이 있어, 진정한 멀티모달 적응이 아닌 단순한 텍스트 모방으로 이어지고 있습니다. 이러한 행동은 MICL을 여전히 단일 모달로 만들며, 그 실용성을 크게 제한합니다. 더 중요한 것은, 이러한 한계가 시각적 맥락을 이해할 필요가 없는 작업에서의 성능 향상으로 인해 종종 가려진다는 점입니다. 결과적으로, MICL 능력을 효과적으로 향상시키고 MICL 성능을 신뢰할 수 있게 평가하는 방법은 아직 충분히 탐구되지 않았습니다. 이러한 문제를 해결하기 위해, 우리는 먼저 시각적 맥락에 주의를 기울이도록 모델을 유도하는 효율적인 미세 조정 전략인 동적 주의 재배치(DARA)를 소개합니다. 또한, 작업 완료를 위해 멀티모달 정보, 특히 시각적 내용의 통합을 명시적으로 요구하는 지원 및 테스트 세트를 포함한 MICL 전용 데이터셋인 TrueMICL을 제시합니다. 광범위한 실험을 통해 우리의 종합적인 솔루션의 효과를 입증하며, 진정한 멀티모달 인컨텍스트 학습 능력의 상당한 개선을 보여줍니다. 코드와 데이터셋은 https://chenxshuo.github.io/true-micl-colm에서 확인할 수 있습니다.