번역이 포함된 일일 선별된 AI 연구 논문
우리는 대규모 언어 모델(LLM)의 지도 미세 조정(SFT)에 대한 간단하면서도 이론적으로 동기를 부여된 개선 방안을 제시하며, 강화 학습(RL)에 비해 제한된 일반화 능력을 해결합니다. 수학적 분석을 통해, 표준 SFT 그래디언트가 모델의 일반화 능력을 심각하게 제한할 수 있는 문제적인 보상 구조를 암묵적으로 인코딩한다는 사실을 밝혔습니다. 이를 바로잡기 위해, 우리는 동적 미세 조정(DFT)을 제안하며, 각 토큰에 대한 목적 함수를 해당 토큰의 확률로 동적으로 재조정하여 그래디언트 업데이트를 안정화합니다. 놀랍게도, 이 단일 라인 코드 변경은 여러 도전적인 벤치마크와 기본 모델에서 표준 SFT를 크게 능가하며, 크게 향상된 일반화 능력을 보여줍니다. 또한, 우리의 접근 방식은 오프라인 RL 설정에서도 경쟁력 있는 결과를 보여주며, 효과적이면서도 더 간단한 대안을 제공합니다. 이 작업은 이론적 통찰과 실용적인 솔루션을 연결하여 SFT 성능을 크게 발전시킵니다. 코드는 https://github.com/yongliang-wu/DFT에서 제공될 예정입니다.
자기 진화형 대규모 언어 모델(LLMs)은 자율적으로 경험을 생성, 개선, 학습함으로써 초지능으로 나아가는 확장 가능한 경로를 제공합니다. 그러나 이러한 모델을 훈련시키기 위한 기존 방법들은 여전히 인간이 큐레이션한 방대한 작업과 레이블에 크게 의존하고 있으며, 일반적으로 미세 조정(fine-tuning)이나 강화 학습(reinforcement learning)을 통해 이루어집니다. 이는 인간 지능을 넘어서는 AI 시스템의 능력을 발전시키는 데 근본적인 병목 현상을 야기합니다. 이러한 한계를 극복하기 위해, 우리는 처음부터 자체 훈련 데이터를 생성하는 완전 자율 프레임워크인 R-Zero를 소개합니다. 단일 기본 LLM에서 시작하여, R-Zero는 서로 다른 역할을 가진 두 개의 독립적인 모델인 Challenger와 Solver를 초기화합니다. 이 모델들은 별도로 최적화되며 상호작용을 통해 공동 진화합니다: Challenger는 Solver의 능력 한계 근처에서 작업을 제안하는 데 보상을 받고, Solver는 Challenger가 제시한 점점 더 어려운 작업을 해결하는 데 보상을 받습니다. 이 과정은 사전에 존재하는 작업과 레이블 없이도 목표 지향적이고 자기 개선적인 커리큘럼을 생성합니다. 실험적으로, R-Zero는 다양한 백본 LLM에서 추론 능력을 크게 향상시켰으며, 예를 들어 Qwen3-4B-Base 모델의 경우 수학 추론 벤치마크에서 +6.49, 일반 도메인 추론 벤치마크에서 +7.54의 성능 향상을 보였습니다.
로봇 조작을 위한 통합 세계 기반 플랫폼인 Genie Envisioner(GE)를 소개한다. 이 플랫폼은 정책 학습, 평가, 시뮬레이션을 단일 비디오 생성 프레임워크 내에 통합한다. GE의 핵심인 GE-Base는 대규모의 지시 조건 비디오 확산 모델로, 구조화된 잠재 공간에서 실제 로봇 상호작용의 공간적, 시간적, 의미적 역학을 포착한다. 이 기반 위에 구축된 GE-Act는 경량의 흐름 매칭 디코더를 통해 잠재 표현을 실행 가능한 동작 궤적으로 매핑하여, 최소한의 감독 하에서 다양한 구현체에 걸쳐 정확하고 일반화 가능한 정책 추론을 가능하게 한다. 확장 가능한 평가와 훈련을 지원하기 위해 GE-Sim은 동작 조건 신경 시뮬레이터로 작동하며, 폐루프 정책 개발을 위한 고충실도 롤아웃을 생성한다. 이 플랫폼은 시각적 충실도, 물리적 일관성, 지시-동작 정렬을 측정하는 표준화된 벤치마크 스위트인 EWMBench를 추가로 갖추고 있다. 이러한 구성 요소들은 Genie Envisioner를 지시 주도 범용 구현 지능을 위한 확장 가능하고 실용적인 기반으로 확립한다. 모든 코드, 모델, 벤치마크는 공개될 예정이다.
비전 언어 모델(VLMs)은 강력한 지각 능력과 인상적인 시각적 추론 능력을 보여주지만, 복잡하고 동적인 환경에서 세부 사항에 대한 주의력과 정확한 행동 계획에는 어려움을 겪어 성능이 저조한 편입니다. 실제 세계의 작업은 일반적으로 복잡한 상호작용, 고급 공간 추론, 장기적인 계획, 그리고 지속적인 전략 개선이 필요하며, 이는 대개 대상 시나리오의 물리 법칙을 이해해야 합니다. 그러나 이러한 능력을 실제 시나리오에서 평가하는 것은 종종 비용이 너무 많이 듭니다. 이러한 격차를 해소하기 위해, 우리는 DeepPHY라는 새로운 벤치마크 프레임워크를 소개합니다. DeepPHY는 일련의 도전적인 시뮬레이션 환경을 통해 VLMs의 기본 물리 원칙에 대한 이해와 추론 능력을 체계적으로 평가하도록 설계되었습니다. DeepPHY는 다양한 난이도의 물리 추론 환경을 통합하고 세밀한 평가 지표를 포함합니다. 우리의 평가 결과, 최첨단 VLMs조차도 서술적인 물리 지식을 정확하고 예측 가능한 제어로 전환하는 데 어려움을 겪는 것으로 나타났습니다.
3D 콘텐츠 생성 기술의 급속한 발전에도 불구하고, 생성된 3D 자산에 대한 품질 평가는 여전히 어려운 과제로 남아 있습니다. 기존 방법들은 주로 이미지 기반 메트릭에 의존하며 객체 수준에서만 작동하기 때문에, 공간적 일관성, 재질의 현실성, 그리고 고해상도의 세부 사항을 포착하는 데 한계가 있습니다. 1) 이러한 문제를 해결하기 위해, 우리는 3D 생성 콘텐츠를 위한 계층적 평가 프레임워크인 Hi3DEval을 소개합니다. 이 프레임워크는 객체 수준과 부품 수준의 평가를 결합하여 다차원적이고 포괄적인 평가와 더불어 세밀한 품질 분석을 가능하게 합니다. 또한, 텍스처 평가를 미적 외관을 넘어 재질의 현실성을 명시적으로 평가하도록 확장하여, 알베도, 채도, 금속성과 같은 속성에 초점을 맞춥니다. 2) 이 프레임워크를 지원하기 위해, 우리는 다양한 3D 자산과 고품질의 주석으로 구성된 대규모 데이터셋인 Hi3DBench를 구축하고, 신뢰할 수 있는 다중 에이전트 주석 파이프라인을 함께 제공합니다. 더 나아가, 우리는 하이브리드 3D 표현을 기반으로 한 3D 인식 자동 점수 시스템을 제안합니다. 구체적으로, 객체 수준 및 재질 주제 평가를 위해 비디오 기반 표현을 활용하여 시공간적 일관성 모델링을 강화하고, 부품 수준 인식을 위해 사전 훈련된 3D 특징을 사용합니다. 광범위한 실험을 통해 우리의 접근 방식이 기존의 이미지 기반 메트릭보다 3D 특성을 더 잘 모델링하며, 인간의 선호도와 더 높은 일치를 달성하여 수동 평가에 대한 확장 가능한 대안을 제공함을 입증했습니다. 프로젝트 페이지는 https://zyh482.github.io/Hi3DEval/에서 확인할 수 있습니다.
멀티모달 대형 언어 모델(MLLM)을 활용한 검색 증강 생성(Retrieval-Augmented Generation, RAG) 시스템은 복잡한 문서 이해에 있어 큰 잠재력을 보여주고 있지만, 이들의 개발은 부적절한 평가로 인해 심각하게 저해되고 있다. 현재의 벤치마크는 종종 문서 RAG 시스템의 특정 부분에 초점을 맞추고, 불완전한 정답 및 증거 레이블을 가진 합성 데이터를 사용함으로써 실제 세계의 병목 현상과 도전 과제를 반영하지 못하고 있다. 이러한 한계를 극복하기 위해, 우리는 Double-Bench를 소개한다: 이는 문서 RAG 시스템 내 각 구성 요소에 대한 세밀한 평가를 가능하게 하는 새로운 대규모, 다국어, 다중모달 평가 시스템이다. 이 시스템은 3,276개의 문서(72,880페이지)와 6개 언어 및 4가지 문서 유형에 걸친 5,168개의 단일 및 다중 홉 쿼리로 구성되어 있으며, 잠재적인 데이터 오염 문제를 위한 간소화된 동적 업데이트 지원을 제공한다. 쿼리는 철저히 스캔된 증거 페이지에 기반을 두고 있으며, 최대의 품질과 완전성을 보장하기 위해 인간 전문가에 의해 검증되었다. 9개의 최첨단 임베딩 모델, 4개의 MLLM 및 4개의 종단간 문서 RAG 프레임워크에 걸친 우리의 포괄적인 실험은 텍스트와 시각 임베딩 모델 간의 격차가 좁아지고 있음을 보여주며, 더 강력한 문서 검색 모델 구축의 필요성을 강조한다. 우리의 연구 결과는 또한 증거 지원 없이도 답변을 제공하려는 현재 문서 RAG 프레임워크 내의 과도한 자신감 딜레마를 드러낸다. 우리는 완전히 오픈소스인 Double-Bench가 향후 고급 문서 RAG 시스템 연구를 위한 엄격한 기반을 제공하기를 바란다. 우리는 시의적절한 코퍼스를 검색하고 매년 새로운 벤치마크를 출시할 계획이다.
웰빙은 개인 성장과 정보에 기반한 삶의 결정에 필수적인 정신적, 신체적, 사회적 차원을 포괄합니다. 개인들이 대형 언어 모델(LLM)을 점점 더 많이 활용하여 웰빙을 이해하려 함에 따라, 중요한 과제가 대두됩니다: LLM이 정확할 뿐만 아니라 다양한 청중에게 맞춤화된 설명을 생성할 수 있을까요? 고품질의 설명은 사실적 정확성과 다양한 전문성을 가진 사용자의 기대를 충족시킬 수 있는 능력 모두를 요구합니다. 본 연구에서는 2,194개의 웰빙 개념에 대한 43,880개의 설명으로 구성된 대규모 데이터셋을 구축하고, 이를 10개의 다양한 LLM이 생성하도록 했습니다. 우리는 원칙 기반의 LLM-as-a-judge 평가 프레임워크를 도입하여, 이중 판단자를 활용해 설명의 질을 평가합니다. 또한, 지도 미세 조정(SFT)과 직접 선호 최적화(DPO)를 사용해 오픈소스 LLM을 미세 조정함으로써 생성된 설명의 질을 크게 향상시킬 수 있음을 보여줍니다. 우리의 결과는 다음과 같습니다: (1) 제안된 LLM 판단자는 인간 평가와 잘 일치합니다; (2) 설명의 질은 모델, 청중, 카테고리에 따라 크게 달라집니다; (3) DPO와 SFT로 미세 조정된 모델이 더 큰 규모의 모델을 능가하며, 특수화된 설명 작업에 대한 선호 기반 학습의 효과를 입증합니다.
최근, 복잡한 작업 처리에서 뛰어난 성능을 보이며 Large Reasoning Models(LRMs)이 점차 연구의 핫스팟으로 부상하고 있습니다. 이 중에서도 DeepSeek R1은 탁월한 성능과 오픈소스 특성으로 큰 주목을 받으며 R1 스타일 LRMs 연구의 발전을 이끌고 있습니다. 기존의 Large Language Models(LLMs)과 달리, 이러한 모델들은 긴 사고 사슬(long chain-of-thought) 및 강화 학습을 통한 자기 반성(self-reflection)과 같은 메커니즘을 도입하여 추론 과정에서 논리적 추론 및 의사결정 능력을 강화합니다. 그러나 이러한 모델들의 광범위한 적용과 함께 과도한 사고(overthinking) 문제가 점차 대두되고 있습니다. 구체적으로, 답변을 생성할 때 이러한 모델들은 종종 불필요하거나 반복적인 단계로 구성된 지나치게 긴 추론 사슬을 구성하며, 이는 추론 효율성을 저하시키고 최종 답변의 정확성에 영향을 미칠 수 있습니다. 이를 위해 모델 성능과 추론 능력을 저하시키지 않으면서 추론 경로의 길이를 줄이는 다양한 효율적 추론 방법이 제안되었습니다. 본 논문에서는 효율적 추론 방법 분야의 현재 연구 동향을 체계적으로 검토하며, 단일 모델 최적화 대 모델 협업이라는 관점에서 기존 연구를 두 가지 주요 방향으로 분류합니다: (1) 단일 모델을 통한 효율적 추론(Efficient Reasoning with Single Model), 이는 개별 모델의 추론 효율성을 개선하는 데 초점을 맞춥니다; (2) 모델 협업을 통한 효율적 추론(Efficient Reasoning with Model Collaboration), 이는 다중 모델 간의 협업을 통해 추론 경로를 최적화하는 방법을 탐구합니다. 또한, 효율적 추론 방법의 최신 연구 동향을 추적하는 공개 GitHub 저장소를 유지하고 있습니다.
본 논문은 음성 복제와 감정 제어 음성 합성을 통합된 프레임워크 내에서 구현한 다기능 음성 합성 시스템을 제안한다. 이 연구의 목표는 다양한 언어적, 감정적 맥락에서 화자 정체성을 충실히 보존하면서도 높은 표현력과 제어 가능성, 자연스러움을 갖춘 음성 생성을 달성하는 데 오랫동안 존재해 온 과제를 해결하는 것이다. 우리의 접근 방식은 효과적인 화자-감정 분리 메커니즘과 인배치 대조 학습을 도입하여 화자 정체성과 감정 스타일을 독립적으로 조작할 수 있도록 하며, 부드러운 감정 제어를 위한 회전 감정 임베딩 통합 방법을 제안한다. 포괄적인 학습과 평가를 지원하기 위해, 우리는 6명의 전문 화자가 7가지 감정 범주로 발화한 10시간 분량의 고품질 중국어 감정 음성 데이터셋인 CSEMOTIONS를 구축했다. 광범위한 실험을 통해 우리의 시스템인 Marco-Voice가 객관적 및 주관적 지표 모두에서 상당한 개선을 달성했음을 입증했다. 포괄적인 평가와 분석 결과, Marco-Voice는 음성 명료성과 감정 풍부성 측면에서 경쟁력 있는 성능을 보여주며, 표현적 신경 음성 합성 분야에서 상당한 진전을 이루었음을 확인했다.
그래픽 사용자 인터페이스(GUI)를 통해 컴퓨터를 운영하는 자율 에이전트는 복잡하고 장기적인 작업에서 효율성과 신뢰성에 어려움을 겪는 경우가 많다. 이러한 에이전트에 플래너를 추가하여 작업 분해를 개선할 수 있지만, 모든 동작을 GUI 조작을 통해 수행해야 한다는 본질적인 한계로 인해 취약성과 비효율성이 여전히 존재한다. 본 연구에서는 더 강력하고 유연한 패러다임을 소개한다: 에이전트가 코딩을 강화된 동작으로 사용할 수 있도록 하는 것이다. 우리는 GUI 기반 제어와 직접적인 프로그래밍 실행을 시너지적으로 결합한 새로운 다중 에이전트 시스템인 CoAct-1을 제시한다. CoAct-1은 오케스트레이터를 통해 서브태스크를 기존의 GUI 오퍼레이터 또는 Python이나 Bash 스크립트를 작성하고 실행할 수 있는 특화된 프로그래머 에이전트에게 동적으로 위임한다. 이 하이브리드 접근 방식은 파일 관리 및 데이터 처리와 같은 작업에서 비효율적인 GUI 동작 시퀀스를 우회할 수 있게 하면서도 필요할 때는 시각적 상호작용을 여전히 활용할 수 있도록 한다. 우리는 이 시스템을 도전적인 OSWorld 벤치마크에서 평가하였으며, CoAct-1은 60.76%의 새로운 최첨단 성공률을 달성하여 기존 방법들을 크게 능가했다. 또한, 우리의 접근 방식은 작업 완료에 필요한 평균 단계 수를 선두 GUI 에이전트의 15단계에서 단 10.15단계로 크게 줄여 효율성을 극적으로 개선했다. 우리의 결과는 코딩을 핵심 동작으로 통합함으로써 일반화된 컴퓨터 자동화를 위한 더 강력하고 효율적이며 확장 가능한 경로를 제공한다는 것을 보여준다.
대규모 멀티모달 모델(Large Multimodal Models, LMMs)은 복잡한 멀티모달 작업을 처리하는 데 있어 탁월한 성능을 보이며 주목할 만한 성장을 이루어 왔다. 최근 연구는 대규모 언어 모델이 결함이 있는 입력을 수동적으로 수용하는 경향이 있으며, 이로 인해 잘못된 프롬프트에 대한 무의미한 추론이 발생하는 경우가 많음을 강조했다. 그러나 LMMs가 능동적으로 잘못된 입력을 탐지하고 검토할 수 있는지에 대한 동일한 중요한 질문은 여전히 탐구되지 않은 상태로 남아 있다. 이러한 격차를 해결하기 위해, 우리는 결함이 있는 전제의 일곱 가지 범주와 세 가지 평가 지표를 포함한 입력 검토 능력 평가 프레임워크(Input Scrutiny Ability Evaluation Framework, ISEval)를 소개한다. 우리는 10개의 고급 LMMs에 대한 광범위한 평가를 통해 주요 발견을 도출했다. 대부분의 모델은 지침 없이 결함이 있는 텍스트 전제를 능동적으로 탐지하는 데 어려움을 겪으며, 이는 전제 오류 식별에 대한 명시적 프롬프트에 대한 강한 의존성을 반영한다. 오류 유형에 따라 성능이 달라지는데, 모델들은 논리적 오류를 식별하는 데는 뛰어나지만 표면적 언어 오류와 특정 조건적 결함에는 어려움을 겪는다. 모달리티 신뢰도는 다양하게 나타나는데, Gemini 2.5 pro와 Claude Sonnet 4는 시각적 정보와 텍스트 정보를 균형 있게 처리하는 반면, aya-vision-8b는 충돌 상황에서 텍스트에 지나치게 의존한다. 이러한 통찰은 LMMs의 입력 유효성에 대한 능동적 검증을 강화할 필요성을 강조하며, 이 문제를 완화하기 위한 새로운 통찰을 제공한다. 코드는 https://github.com/MLGroupJLU/LMM_ISEval에서 확인할 수 있다.
효과적인 고객 지원은 정확한 문제 해결뿐만 아니라 전문적 기준에 부합하는 구조적이고 공감적인 커뮤니케이션을 요구합니다. 그러나 기존의 대화 데이터셋은 전략적 지침이 부족하며, 실제 서비스 데이터는 접근 및 주석 달기가 어렵습니다. 이를 해결하기 위해, 우리는 고객 서비스 담당자가 명확히 정의된 지원 전략을 사용하여 응답하도록 훈련시키는 것을 목표로 하는 고객 지원 대화(Customer Support Conversation, CSC) 작업을 소개합니다. 우리는 COPC 가이드라인에 기반한 구조화된 CSC 프레임워크를 제안하며, 고품질 상호작용을 이끌기 위한 다섯 가지 대화 단계와 열두 가지 전략을 정의합니다. 이를 바탕으로, 우리는 LLM(Large Language Model)을 사용하여 의도적인 전략 사용을 반영하도록 재작성된 1,855개의 실제 고객-에이전트 대화로 구성된 평가 데이터셋인 CSConv를 구축하고, 이에 맞게 주석을 달았습니다. 또한, CSC 프레임워크에 맞춰 LLM 기반 역할을 사용하여 전략이 풍부한 대화를 시뮬레이션하는 역할극 접근 방식을 개발하여, 훈련 데이터셋인 RoleCS를 생성했습니다. 실험 결과, RoleCS로 강력한 LLM을 미세 조정하면 CSConv에서 전략에 부합하는 고품질 응답을 생성하는 능력이 크게 향상됨을 보여줍니다. 인간 평가는 또한 문제 해결 측면에서의 개선을 추가로 확인합니다. 모든 코드와 데이터는 https://github.com/aliyun/qwen-dianjin에서 공개될 예정입니다.
비디오 객체 분할(Video Object Segmentation, VOS)은 비디오 전체에서 지정된 대상 객체를 분할하는 것을 목표로 합니다. 최신 방법들은 DAVIS 및 YouTube-VOS와 같은 기존 벤치마크에서 인상적인 성능(예: 90% 이상의 J&F)을 달성했지만, 이러한 데이터셋은 주로 두드러지고 지배적이며 고립된 객체를 포함하고 있어 실제 시나리오로의 일반화가 제한됩니다. VOS를 더 현실적인 환경으로 발전시키기 위해, 복잡한 장면에서의 VOS 연구를 촉진하기 위해 coMplex video Object SEgmentation (MOSEv1)이 도입되었습니다. MOSEv1의 강점과 한계를 바탕으로, 우리는 실제 조건에서 VOS 방법을 더욱 발전시키기 위해 훨씬 더 도전적인 데이터셋인 MOSEv2를 제시합니다. MOSEv2는 5,024개의 비디오와 200개 카테고리에 걸친 10,074개 객체에 대한 701,976개 이상의 고품질 마스크로 구성됩니다. 이전 버전과 비교하여, MOSEv2는 더 빈번한 객체의 사라짐과 재등장, 심각한 가림 및 혼잡, 더 작은 객체, 그리고 악천후(예: 비, 눈, 안개), 저조도 장면(예: 야간, 수중), 멀티샷 시퀀스, 위장된 객체, 비물리적 대상(예: 그림자, 반사), 외부 지식이 필요한 시나리오 등과 같은 새로운 도전 요소를 포함하여 훨씬 더 복잡한 장면을 도입했습니다. 우리는 5가지 다른 설정에서 20개의 대표적인 VOS 방법을 벤치마크하고 일관된 성능 하락을 관찰했습니다. 예를 들어, SAM2는 MOSEv1에서 76.4%에서 MOSEv2에서 단 50.9%로 떨어졌습니다. 또한 9개의 비디오 객체 추적 방법을 평가하고 유사한 하락을 발견하여, MOSEv2가 다양한 작업에서 도전을 제시함을 입증했습니다. 이러한 결과는 기존 데이터셋에서 높은 정확도를 보이는 현재의 VOS 방법들이 여전히 실제 세계의 복잡성에 직면했을 때 어려움을 겪고 있음을 강조합니다. MOSEv2는 https://MOSE.video에서 공개적으로 이용 가능합니다.
대규모 언어 모델(LLMs)은 다양한 복잡한 작업에서 인상적인 추론 능력을 보여주고 있습니다. 그러나 사후 훈련을 통해 이러한 능력을 향상시키는 것은 여전히 데이터와 계산 비용 측면에서 많은 자원을 필요로 합니다. 최근에는 선택적 데이터 큐레이션을 통해 샘플 효율성을 개선하려는 시도가 있었지만, 기존 방법들은 휴리스틱이나 작업별 전략에 의존하는 경우가 많아 확장성을 저해하는 문제가 있습니다. 본 연구에서는 LLM의 추론 능력을 향상시키기 위해 지도 미세 조정(SFT)과 직접 선호 최적화(DPO)를 통합한 확장 가능하고 샘플 효율적인 사후 훈련 프레임워크인 InfiAlign을 소개합니다. InfiAlign의 핵심은 다차원 품질 메트릭을 사용하여 오픈소스 추론 데이터셋에서 고품질 정렬 데이터를 자동으로 큐레이션하는 강력한 데이터 선택 파이프라인입니다. 이 파이프라인은 데이터 요구량을 크게 줄이면서도 성능을 크게 향상시킬 수 있으며, 새로운 데이터 소스에도 확장 가능합니다. Qwen2.5-Math-7B-Base 모델에 적용한 결과, 우리의 SFT 모델은 DeepSeek-R1-Distill-Qwen-7B와 동등한 성능을 달성하면서도 훈련 데이터의 약 12%만 사용했으며, 다양한 추론 작업에서 강력한 일반화 능력을 보여주었습니다. DPO를 적용함으로써 추가적인 개선이 이루어졌으며, 특히 수학적 추론 작업에서 두드러진 성능 향상을 보였습니다. 이 모델은 AIME 24/25 벤치마크에서 평균 3.89%의 성능 향상을 달성했습니다. 우리의 결과는 원칙적인 데이터 선택과 전 단계 사후 훈련을 결합하는 것이 효과적임을 보여주며, 대규모 추론 모델을 확장 가능하고 데이터 효율적인 방식으로 정렬하는 실용적인 해결책을 제시합니다. 모델 체크포인트는 https://huggingface.co/InfiX-ai/InfiAlign-Qwen-7B-SFT에서 확인할 수 있습니다.
실감나는 머리카락 가닥 생성은 컴퓨터 그래픽스와 가상 현실과 같은 응용 분야에서 매우 중요합니다. 확산 모델은 텍스트나 이미지로부터 헤어스타일을 생성할 수 있지만, 이러한 입력은 정밀도와 사용자 친화성이 부족합니다. 대신, 우리는 더 정밀한 제어를 제공하면서도 사용자 친화적인 최초의 스케치 기반 가닥 생성 모델을 제안합니다. 우리의 프레임워크는 복잡한 가닥 상호작용과 다양한 스케치 패턴을 모델링하는 주요 과제를 두 가지 주요 혁신을 통해 해결합니다: 3D 가닥을 다중 스케일 잠재 공간으로 인코딩하는 학습 가능한 가닥 업샘플링 전략, 그리고 세분성 수준 간 일관성을 보장하기 위해 확산 헤드를 가진 트랜스포머를 사용한 다중 스케일 적응형 조건화 메커니즘입니다. 여러 벤치마크 데이터셋에서의 실험은 우리의 방법이 현실감과 정밀도 면에서 기존 접근법을 능가함을 보여줍니다. 질적 결과 또한 그 효과를 입증합니다. 코드는 [GitHub](https://github.com/fighting-Zhang/StrandDesigner)에서 공개될 예정입니다.
확산 기반 이미지 압축은 인지적 성능 면에서 뛰어난 성과를 보여왔습니다. 그러나 이 방법은 두 가지 중요한 단점을 가지고 있습니다: (1) 다단계 샘플링으로 인한 과도한 디코딩 지연 시간, 그리고 (2) 생성적 사전 정보에 대한 과도한 의존으로 인한 낮은 충실도. 이러한 문제를 해결하기 위해, 우리는 SODEC라는 새로운 단일 단계 확산 이미지 압축 모델을 제안합니다. 우리는 이미지 압축에서 충분히 정보가 풍부한 잠재 공간은 다단계 정제를 불필요하게 만든다고 주장합니다. 이러한 통찰을 바탕으로, 우리는 사전 훈련된 VAE 기반 모델을 활용하여 정보가 풍부한 잠재 공간을 생성하고, 반복적인 노이즈 제거 과정을 단일 단계 디코딩으로 대체합니다. 동시에, 충실도를 향상시키기 위해 원본 이미지에 충실한 출력을 유도하는 충실도 가이던스 모듈을 도입합니다. 또한, 극도로 낮은 비트레이트에서도 효과적인 훈련이 가능하도록 비율 어닐링 훈련 전략을 설계합니다. 광범위한 실험을 통해 SODEC가 기존 방법들을 크게 능가하며, 우수한 비율-왜곡-인지 성능을 달성함을 보여줍니다. 더 나아가, 이전의 확산 기반 압축 모델과 비교하여 SODEC는 디코딩 속도를 20배 이상 향상시킵니다. 코드는 https://github.com/zhengchen1999/SODEC에서 공개되었습니다.
추론 대형 언어 모델(R-LLMs)은 복잡한 추론 작업에서 상당한 진전을 이루었지만, 사실성 측면에서는 여전히 어려움을 겪으며, 장문의 사실성 벤치마크에서 비추론 모델보다 훨씬 더 많은 환각(hallucination)을 생성하는 경향이 있습니다. 그러나 최근 R-LLM 발전의 핵심 요소인 온라인 강화 학습(RL)을 장문의 사실성 설정으로 확장하는 것은 신뢰할 수 있는 검증 방법의 부재로 인해 여러 가지 독특한 과제를 안고 있습니다. 기존 연구에서는 FActScore와 같은 자동 사실성 평가 프레임워크를 활용하여 오프라인 RL 설정에서 선호 데이터를 구축해 왔지만, 이러한 방법을 온라인 RL의 보상으로 직접 활용할 경우, 덜 상세하거나 관련성이 낮은 응답을 생성하는 등 여러 방식의 보상 해킹(reward hacking)이 발생함을 발견했습니다. 우리는 사실적 정확성, 응답의 상세 수준, 답변의 관련성을 동시에 고려하는 새로운 보상 함수를 제안하고, 온라인 RL을 적용하여 고품질의 사실적 추론을 학습합니다. 6개의 장문 사실성 벤치마크에서 평가한 결과, 우리의 사실적 추론 모델은 평균 23.1% 포인트의 환각률 감소, 23%의 답변 상세 수준 증가를 달성했으며, 전반적인 응답의 유용성에는 저하가 없었습니다.
참조 표현 분할(Reference Expression Segmentation, RES)은 참조 표현으로 지정된 이미지 영역을 분할하는 것을 목표로 하며, 멀티모달 대형 모델(Multimodal Large Models, MLLMs)의 부상과 함께 인기를 얻고 있다. MLLMs는 의미론적 이해에서 뛰어난 성능을 보이지만, 토큰 생성 패러다임은 픽셀 수준의 밀집 예측에는 어려움을 겪는다. 기존의 RES 방법들은 632M 네트워크 파라미터를 가진 부피가 큰 Segment Anything Model(SAM)을 MLLMs와 결합하거나, 정확도를 희생시키는 SAM-free 경량 파이프라인을 채택한다. 성능과 비용 간의 균형을 맞추기 위해, 우리는 추가적인 시각적 인코더를 도입하지 않고 MLLM 시각 인코더에 내재된 시각적 세부 특징을 완전히 활용하는 새로운 프레임워크인 MLLMSeg를 제안한다. 또한, MLLM의 대형 언어 모델(Large Language Model, LLM)이 출력하는 의미론적 특징과 세부 관련 시각적 특징을 완전히 통합하는 세부 강화 및 의미 일관성 특징 융합 모듈(Detail-Enhanced and Semantic-Consistent Feature Fusion Module, DSFF)을 제안한다. 마지막으로, 시각 인코더의 세부 공간 특징과 LLM의 의미론적 특징을 최적으로 활용하여 정확한 마스크 예측을 달성하는 단 34M 네트워크 파라미터를 가진 경량 마스크 디코더를 구축한다. 광범위한 실험을 통해 우리의 방법이 SAM 기반 및 SAM-free 경쟁자들을 일반적으로 능가하며, 성능과 비용 간의 더 나은 균형을 달성함을 입증한다. 코드는 https://github.com/jcwang0602/MLLMSeg에서 확인할 수 있다.
기존의 시각-언어 모델(VLMs)은 일반적이거나 특수한 목적을 가진 모델 모두 매개변수 규모에 제약을 받으며, 강력한 자기 수정 능력이 부족하고, 긴 시각적 맥락과 복잡한 추론을 포함하는 작업에서 성능이 떨어져 문서 기반 작업에서 최적의 성능을 내지 못한다. 이를 해결하기 위해, 우리는 시각적 문서 이해와 시각적 질의응답(VQA)을 위해 설계된 테스트 시간 확장을 갖춘 다중 에이전트 협업 프레임워크인 MACT를 제안한다. 이 프레임워크는 계획, 실행, 판단, 답변 에이전트라는 네 가지 독특한 소규모 에이전트로 구성되며, 각각의 역할이 명확히 정의되고 효과적으로 협업한다. 특히, 판단 에이전트는 정확성을 독점적으로 검증하고 수정을 위해 이전 에이전트로 재지향함으로써 기존의 수정 전략을 능가한다. 프레임워크의 능력 한계를 더욱 확장하기 위해, 우리는 에이전트별 능력과 전역적 협업을 균형 있게 조절하는 혼합 보상 모델링과 각 에이전트의 기능에 따라 맞춤화된 에이전트별 하이브리드 테스트 시간 확장을 제안한다. 문서 기반 및 비문서 기반 설정을 아우르는 벤치마크에서 평가된 결과, 우리의 MACT는 더 작은 매개변수 규모로도 일반적 및 수학적 작업 능력을 희생하지 않으면서 우수한 성능을 보였다. 특히, 긴 시각적 맥락과 복잡한 추론을 포함하는 벤치마크에서 두드러진 성과를 보였다. MACT의 세 가지 변형은 평균 점수에서 상위 세 자리를 꾸준히 차지하며, 15개 벤치마크 중 13개에서 선두를 달렸다. 코드는 https://github.com/YU-deep/MACT.git에서 확인할 수 있다.
대규모 언어 모델(LLMs)의 성능은 입력 정보의 문맥적 위치에 크게 민감합니다. 이러한 위치 편향의 메커니즘을 조사하기 위해, 우리의 광범위한 실험은 '주의 분지(attention basin)'라고 명명한 일관된 현상을 밝혀냈습니다: 구조화된 항목(예: 검색된 문서 또는 소수 예제)의 시퀀스가 제시될 때, 모델은 시퀀스의 시작과 끝에 위치한 항목에 더 높은 주의를 할당하는 반면, 중간에 위치한 항목은 소홀히 하는 경향을 보입니다. 무엇보다도, 우리의 분석은 중요한 정보에 더 높은 주의를 할당하는 것이 모델 성능 향상의 핵심임을 추가로 밝혀냈습니다. 이러한 통찰을 바탕으로, 우리는 '주의 주도 재순위화(Attention-Driven Reranking, AttnRank)'라는 두 단계 프레임워크를 제안합니다. 이 프레임워크는 (i) 작은 보정 세트를 사용하여 모델의 내재적 위치 주의 선호도를 추정하고, (ii) 검색된 문서 또는 소수 예제를 재정렬하여 가장 중요한 내용이 이러한 높은 주의 위치와 일치하도록 합니다. AttnRank는 모델에 구애받지 않고, 추가 학습이 필요 없으며, 플러그 앤 플레이 방식으로 최소한의 계산 오버헤드만을 요구합니다. 다중 홉 질의응답(multi-hop QA) 및 소수 예제 문맥 학습(few-shot in-context learning) 작업에 대한 실험은 AttnRank가 다양한 아키텍처와 규모를 가진 10개의 대규모 언어 모델에서 모델 매개변수나 학습 절차를 수정하지 않고도 상당한 성능 향상을 달성함을 보여줍니다.
본 논문은 대형 언어 모델(LLMs)이 언어적 시볼레스(linguistic shibboleths), 즉 성별, 사회 계층, 지역적 배경과 같은 인구통계학적 속성을 의도치 않게 드러낼 수 있는 미묘한 언어적 표지에 어떻게 반응하는지 평가하기 위한 포괄적인 벤치마크를 소개한다. 검증된 100개의 질문-응답 쌍을 사용하여 신중하게 구성된 인터뷰 시뮬레이션을 통해, 우리는 LLMs가 동일한 내용의 질문에도 불구하고 특정 언어 패턴, 특히 헤징 언어(hedging language)를 체계적으로 불리하게 평가하는 방식을 보여준다. 본 벤치마크는 의미적 동등성을 유지하면서 특정 현상을 분리할 수 있는 통제된 언어적 변이를 생성하며, 이를 통해 자동화된 평가 시스템에서의 인구통계학적 편향을 정밀하게 측정할 수 있다. 우리는 다중 언어적 차원에서 접근법을 검증하며, 헤징된 응답이 평균적으로 25.6% 낮은 평가를 받는 것을 보여주고, 모델별 편향을 식별하는 데 벤치마크의 효과성을 입증한다. 이 연구는 AI 시스템에서의 언어적 차별을 탐지하고 측정하기 위한 기초적인 프레임워크를 구축하며, 자동화된 의사결정 맥락에서의 공정성에 광범위하게 적용될 수 있다.
멀티모달 엔티티 링크는 다양한 애플리케이션에서 중요한 역할을 합니다. 최근 대규모 언어 모델 기반 방법의 발전은 이 작업에서 주도적인 패러다임이 되었으며, 텍스트와 시각적 모달리티를 효과적으로 활용하여 성능을 향상시켰습니다. 이러한 성공에도 불구하고, 이러한 방법들은 여전히 두 가지 과제에 직면해 있습니다. 이는 특정 시나리오에서 불필요한 이미지 데이터의 통합과 시각적 특징의 일회성 추출에만 의존하는 것으로, 이는 효과성과 정확성을 저해할 수 있습니다. 이러한 과제를 해결하기 위해, 우리는 Intra- 및 Inter-modal Collaborative Reflections라는 새로운 LLM 기반 프레임워크를 제안합니다. 이 프레임워크는 텍스트 정보를 우선적으로 활용하여 작업을 해결합니다. 텍스트만으로는 Intra- 및 Inter-modality 평가를 통해 올바른 엔티티를 링크하기에 불충분한 경우, 이미지의 다양한 측면에서 핵심 시각적 단서를 통합하여 추론을 지원하고 매칭 정확도를 향상시키는 다중 라운드 반복 전략을 사용합니다. 널리 사용되는 세 가지 공개 데이터셋에 대한 광범위한 실험을 통해, 우리의 프레임워크가 현재 최첨단 방법들을 일관되게 능가하며 각각 3.2%, 5.1%, 1.6%의 개선을 달성함을 입증했습니다. 우리의 코드는 https://github.com/ziyan-xiaoyu/I2CR/에서 확인할 수 있습니다.
정렬(Alignment)과 균일성(Uniformity)은 대조 학습(Contrastive Learning) 분야의 근본적인 원칙들입니다. 추천 시스템에서, 기존 연구들은 베이지안 개인화 순위(Bayesian Personalized Ranking, BPR) 손실을 최적화하는 것이 정렬과 균일성 목표에 기여한다는 것을 입증했습니다. 구체적으로, 정렬은 상호작용하는 사용자와 아이템의 표현을 가깝게 만드는 것을 목표로 하는 반면, 균일성은 사용자와 아이템 임베딩이 단위 초구(unit hypersphere) 상에서 균일하게 분포되도록 요구합니다. 본 연구는 다중모드(multimodal) 추천 시스템의 맥락에서 정렬과 균일성 특성을 재조명하며, 기존 모델들이 균일성을 지나치게 강조함으로써 정렬을 희생시키는 경향이 있음을 밝혔습니다. 우리의 가설은 균일성 손실을 통한 아이템의 동등한 처리를 전제로 한 기존의 관례에 도전하며, 유사한 다중모드 속성을 가진 아이템들이 초구 매니폴드 내에서 근접한 표현으로 수렴하도록 하는 보다 세밀한 접근 방식을 제안합니다. 특히, 아이템의 다중모드 데이터 간의 내재적 유사성을 활용하여 균일성 분포를 조정함으로써, 임베딩 공간 내에서 서로 다른 개체들 간의 반발력을 더욱 강화합니다. 이론적 분석을 통해 이 조정된 균일성 손실과 기존 균일성 함수 간의 관계를 명확히 합니다. 또한, 다중모드 특징의 융합을 강화하기 위해, 임의의 수의 모드를 통합하면서도 결과적으로 융합된 특징이 동일한 초구 매니폴드에 제약되도록 설계된 구형 베지어(Spherical Bézier) 방법을 도입합니다. 5개의 실제 데이터셋에서 수행된 실험적 평가는 우리의 접근 방식이 경쟁 모델들보다 우수함을 입증합니다. 또한, 제안된 방법들이 MLLM(Multimodal Large Language Model)에서 추출된 특징을 통합함으로써 NDCG@20 성능을 최대 5.4%까지 향상시킬 수 있음을 보여줍니다. 소스 코드는 https://github.com/enoche/CM3에서 확인할 수 있습니다.
비정형 텍스트에서 개인 식별 정보(PII)를 편집하는 것은 규제된 분야에서 데이터 프라이버시를 보장하기 위해 매우 중요합니다. 초기 접근 방식은 규칙 기반 시스템과 도메인 특화된 명명된 개체 인식(NER) 모델에 의존해 왔으나, 이러한 방법들은 다양한 형식과 맥락에 걸쳐 일반화되지 못하는 한계가 있습니다. 최근 대형 언어 모델(LLMs)의 발전은 유망한 대안을 제공하지만, 아키텍처와 학습 선택이 편집 성능에 미치는 영향은 아직 충분히 탐구되지 않았습니다. LLMs는 자유 형식 텍스트에서 PII를 편집하는 것을 포함하여 맥락적 언어 이해가 필요한 작업에서 강력한 성능을 보여 왔습니다. 선행 연구는 적절한 적응을 통해 LLMs가 효과적인 맥락적 프라이버시 학습자가 될 수 있음을 시사합니다. 그러나 PII 편집을 위한 아키텍처와 학습 선택의 결과는 아직 충분히 탐구되지 않았습니다. 본 연구에서는 프라이버시 보호 PII 편집 시스템으로서의 LLMs에 대한 포괄적인 분석을 제시합니다. 우리는 다양한 LLM 아키텍처와 학습 전략이 PII 편집에서의 효과성을 평가합니다. 우리의 분석은 편집 성능, 의미 보존, PII 누출을 측정하고, 이러한 결과를 지연 시간과 계산 비용과 비교합니다. 결과는 정확하고 효율적이며 프라이버시를 고려한 LLM 기반 편집기를 구성하기 위한 실용적인 지침을 제공합니다. 재현성과 실제 배포를 지원하기 위해, 우리는 일반 목적 PII 편집을 위한 미세 조정된 모델과 평가 도구의 오픈소스 제품군인 PRvL을 공개합니다. PRvL은 전적으로 오픈소스 LLMs를 기반으로 구축되었으며 유연성과 규정 준수를 위해 여러 추론 설정을 지원합니다. 이는 다양한 도메인에 맞게 쉽게 사용자 정의할 수 있도록 설계되었으며, 안전한 자체 관리 환경 내에서 완전히 운영 가능합니다. 이를 통해 데이터 소유자는 제3자 서비스에 의존하거나 자신의 인프라를 넘어 민감한 콘텐츠를 노출하지 않고도 편집 작업을 수행할 수 있습니다.
동시 음성 번역(SimulST) 시스템은 오디오를 스트리밍하면서 동시에 번역된 텍스트나 음성을 출력한다. 이러한 시스템은 번역 품질과 지연 시간 간의 균형을 맞추는 중요한 과제에 직면해 있다. 본 연구에서는 이러한 균형을 최적화하기 위한 전략을 제안한다: 추가 입력을 통해 정보를 얻을 수 있는 경우에만 더 많은 입력을 기다리는 것이다. 이 전략을 바탕으로, 기존의 비스트리밍 번역 모델을 사용하여 적응형 정책을 학습하기 위한 새로운 손실 함수인 정규화 엔트로피 정보 적응(REINA)을 제안한다. REINA은 정보 이론 원칙에서 도출되었으며, REINA이 기존 연구들보다 지연 시간/품질 간의 파레토 최적 경계를 개선하는 데 도움을 준다는 것을 보여준다. REINA을 활용하여, 프랑스어, 스페인어, 독일어와 영어 간의 양방향 SimulST 모델을 학습시켰다. 오픈 소스 또는 합성 데이터만을 사용하여 학습한 결과, 비슷한 규모의 모델들 중에서 최첨단 스트리밍 성능을 달성했다. 또한, 스트리밍 효율성을 측정하기 위한 새로운 지표를 도입하여, REINA이 기존 접근법에 비해 지연 시간/품질 간의 균형을 최대 21%까지 개선함을 정량적으로 보여주었다. 이는 비스트리밍 기준 BLEU 점수에 대해 정규화된 결과이다.
추론 모델의 등장과 이를 실용적인 AI 챗봇에 통합한 것은 복잡하고 다단계의 사고 과정이 필요한 고급 수학, 심층 탐색, 추출형 질문 응답 문제 해결에서의 돌파구를 마련했습니다. 그러나 이러한 모델들이 일반 목적 언어 모델보다 더 자주 환각(hallucinate)을 일으키는 이유에 대한 완전한 이해는 아직 부족합니다. 본 탐구 연구에서는 다중 홉(multi-hop) 질문 응답 작업에서 현대 언어 모델들의 추론 실패를 체계적으로 탐구합니다. 우리는 세 가지 중요한 차원에서의 실패를 조사하는 새로운, 세밀한 오류 분류 프레임워크를 소개합니다: 관련 소스 문서의 다양성과 독창성("홉"), 관련 정보 포착의 완전성("커버리지"), 그리고 인지적 비효율성("오버씽킹"). 엄격한 인간 주석과 보완적인 자동화 지표를 통해, 우리의 탐구는 정확도 중심 평가로 인해 종종 숨겨져 있던 복잡한 오류 패턴을 밝혀냅니다. 이 탐구적 접근은 현재 모델들의 인지적 한계에 대한 더 깊은 통찰을 제공하며, 향후 언어 모델링 노력에서 추론의 정확성, 투명성, 견고성을 향상시키기 위한 실행 가능한 지침을 제시합니다.
강건한 주성분 분석(RPCA)은 관측 행렬을 저랭크 배경 성분과 희소 객체 성분으로 분해합니다. 이러한 능력 덕분에 RPCA는 이미지 복원부터 분할에 이르기까지 다양한 작업에 적용되어 왔습니다. 그러나 전통적인 RPCA 모델은 행렬 연산으로 인한 계산 부담, 미세 조정된 하이퍼파라미터에 대한 의존성, 그리고 동적 시나리오에서의 적응성을 제한하는 경직된 사전 정보 등의 문제를 안고 있습니다. 이러한 한계를 해결하기 위해, 우리는 RPCA의 해석 가능성과 효율적인 딥 아키텍처를 융합한 희소 객체 분할 프레임워크인 RPCANet++를 제안합니다. 우리의 접근 방식은 완화된 RPCA 모델을 배경 근사 모듈(BAM), 객체 추출 모듈(OEM), 이미지 복원 모듈(IRM)로 구성된 구조화된 네트워크로 전개합니다. BAM에서의 단계 간 전송 손실을 완화하기 위해, 우리는 배경 특징 보존을 강화하는 메모리 증강 모듈(MAM)을 도입했으며, 깊은 대비 사전 모듈(DCPM)은 두드러짐 단서를 활용하여 객체 추출을 가속화합니다. 다양한 데이터셋에서의 광범위한 실험을 통해 RPCANet++가 다양한 이미징 시나리오에서 최첨단 성능을 달성함을 입증했습니다. 또한, 우리는 시각적 및 수치적 저랭크성과 희소성 측정을 통해 해석 가능성을 더욱 개선했습니다. RPCA의 이론적 강점과 딥 네트워크의 효율성을 결합함으로써, 우리의 접근 방식은 신뢰할 수 있고 해석 가능한 희소 객체 분할을 위한 새로운 기준을 제시합니다. 코드는 프로젝트 웹페이지 https://fengyiwu98.github.io/rpcanetx에서 확인할 수 있습니다.
다중모달 언어 모델(MLMs)은 임상 의사결정 지원 및 진단 추론에 있어 유망한 가능성을 보여주며, 종단 간 자동화된 의료 영상 해석의 전망을 제시합니다. 그러나 임상의들은 AI 도구를 채택하는 데 있어 매우 선택적입니다. 이미지 방향을 결정하거나 CT 스캔이 조영증강되었는지 여부를 식별하는 것과 같이 겉보기에는 단순한 인지 작업에서 오류를 내는 모델은 임상 작업에 채택되기 어렵습니다. 우리는 이러한 모델들의 인지 능력을 탐구하기 위해 설계된 벤치마크인 Medblink를 소개합니다. Medblink는 여러 영상 방식과 해부학적 영역에 걸친 8가지 임상적으로 의미 있는 작업을 포함하며, 총 1,605개의 이미지에 대해 1,429개의 객관식 질문으로 구성됩니다. 우리는 GPT4o, Claude 3.5 Sonnet과 같은 일반 목적 모델과 Med Flamingo, LLaVA Med, RadFM과 같은 도메인 특화 모델을 포함한 19개의 최첨단 MLMs를 평가했습니다. 인간 주석자는 96.4%의 정확도를 달성한 반면, 최고 성능 모델은 단 65%에 그쳤습니다. 이러한 결과는 현재의 MLMs가 일상적인 인지 검사에서 자주 실패함을 보여주며, 임상 채택을 지원하기 위해 시각적 기반을 강화할 필요가 있음을 시사합니다. 데이터는 프로젝트 페이지에서 확인할 수 있습니다.