번역이 포함된 일일 선별된 AI 연구 논문
최근 등장한 재귀적 또는 순환 언어 모델은 잠재 상태에 대해 동일한 모델 계산을 반복적으로 개선하여 추론 깊이를 확장하는 새로운 스케일링 축으로 주목받고 있다. 본 연구에서는 이러한 스케일링 원리를 단일 모델에서 다중 에이전트 시스템으로 확장하여, 에이전트 협업 자체를 재귀를 통해 확장할 수 있는지 탐구한다. 이를 위해 전체 시스템을 통합된 잠재 공간 재귀 계산으로 구성하는 재귀적 다중 에이전트 프레임워크 RecursiveMAS를 제안한다. RecursiveMAS는 경량의 RecursiveLink 모듈을 통해 이기종 에이전트들을 협업 순환구조로 연결하여, 분포 내 잠재 사고 생성과 에이전트 간 잠재 상태 전달을 가능하게 한다. 프레임워크 최적화를 위해 재귀 단계 간 공유 그래디언트 기반 신용 할당을 통한 반복적 전체 시스템 공동 최적화를 위한 내부-외부 루프 학습 알고리즘을 개발한다. 실행 시간 복잡도와 학습 동역학에 대한 이론적 분석을 통해 RecursiveMAS가 기존 텍스트 기반 다중 에이전트 시스템보다 효율적이며 재귀 학습 동안 안정적인 그래디언트를 유지함을 입증한다. 실험적으로 4가지 대표적 에이전트 협업 패턴 하에서 RecursiveMAS를 구현하고, 수학, 과학, 의학, 검색, 코드 생성 분야의 9개 벤치마크에서 평가한다. 고급 단일/다중 에이전트 및 재귀 계산 베이스라인 대비 RecursiveMAS는 평균 8.3% 정확도 향상, 1.2배~2.4배의 종단 간 추론 가속화, 34.6%~75.6%의 토큰 사용량 감소를 지속적으로 달성한다. 코드와 데이터는 https://recursivemas.github.io에서 제공된다.
전문적인 인간 지식을 텍스트로부터 대규모 언어 모델로 신뢰성 있게 전달하는 것은 인공 지능의 근본적인 과제로 남아 있습니다. 도메인 코퍼스에 대한 미세 조정은 상당한 능력 향상을 가능하게 했지만, 이 과정은 피드백 없이 진행됩니다: 모델이 도메인 작업에 실패할 때, 학습 데이터의 어떤 부분이 부족한지 진단할 방법이 없으며, 유일한 해결책은 무분별하게 더 많은 데이터를 추가하는 것뿐입니다. 본 연구에서는 원본 코퍼스에서 추출된 구조화된 지식 표현이 학습 데이터와 평가의 공통 기반으로 활용될 때, 완전한 데이터 엔지니어링 생명주기가 소프트웨어 개발 생명주기에 정확하고 실질적인 방식으로 대응됨을 보여줍니다: 학습 데이터는 모델이 학습해야 할 내용을 명시하는 소스 코드가 되고, 모델 학습은 컴파일이 되며, 벤치마킹은 단위 테스트가 되고, 실패 기반 데이터 수정은 디버깅이 됩니다. 이 대응 관계 아래에서 모델 실패는 개념 수준의 격차와 추론 체인 단절로 분해되어 데이터의 특정 결함으로 추적될 수 있으며, 표적 패치를 통해 수정될 수 있습니다. 각 수정 주기는 일반적인 능력을 저하시키지 않으면서 모델 규모와 아키텍처에 걸쳐 일관된 개선을 생산합니다. 우리는 이 원리를 '데이터를 이용한 프로그래밍(Programming with Data)'으로 공식화하고, 자연과학, 공학, 생명의학, 사회과학에 이르는 16개 분야 전반에 걸쳐 이를 구현하며, 구조화된 지식 베이스, 벤치마크 모음, 학습 코퍼스를 공개 자원으로 출시합니다. 학습 데이터와 모델 행동 간의 관계가 구조적으로 추적 가능하고 체계적으로 수정 가능함을 입증함으로써, 이 연구는 인간 전문 지식을 언어 모델에 신뢰성 있게 구현하기 위한 원칙적인 기초를 마련합니다.
실세계 데이터 시각화(DV)는 현지 환경 기반 구축, 크로스 플랫폼 진화, 능동적 의도 정렬을 필요로 합니다. 그러나 기존 벤치마크는 코드 샌드박스 제약, 단일 언어 생성 중심 작업, 완벽한 의도 가정 등의 한계를 지닙니다. 이러한 격차를 해소하기 위해 우리는 실제 전문 업무 생애주기 전반에 걸쳐 DV 에이전트를 평가하도록 설계된 260개 작업으로 구성된 벤치마크인 DV-World를 소개합니다. DV-World는 세 가지 영역으로 구성됩니다: 차트 및 대시보드 생성과 진단 수리를 포함한 기본 스프레드시트 조작을 위한 DV-Sheet; 다양한 프로그래밍 패러다임에서 새로운 데이터에 맞게 참조 시각적 아티팩트를 적용 및 재구성하는 DV-Evolution; 실제 모호한 요구사항을 모방하는 사용자 시뮬레이터와의 능동적 의도 정렬을 위한 DV-Interact. 우리의 하이브리드 평가 프레임워크는 수치 정확도를 위한 테이블 값 정렬(Table-value Alignment)과 의미론적-시각적 평가를 위한 평가 기준(rubrics)을 활용한 MLLM-as-a-Judge를 통합합니다. 실험 결과, 최첨단 모델들의 전체 성능이 50% 미만에 그쳐 실세계 데이터 시각화의 복잡한 과제를 처리하는 데 있어 심각한 결함이 있음이 드러났습니다. DV-World는 기업 업무 흐름에 필요한 다재다능한 전문성을 갖춘 개발로 이끌 수 있는 현실적인 테스트베드를 제공합니다. 우리의 데이터와 코드는 https://github.com/DA-Open/DV-World{이 프로젝트 페이지}에서 이용 가능합니다.
자율 과학 연구는 AI 에이전트의 발전 덕분에 크게 진전되었습니다. 이 과정의 핵심 단계 중 하나는 연구 문제에 대한 기존 지식을 탐색하거나 가정 검증 및 주장 지지를 위한 증거를 확보하기 위해 적절한 과학 문헌을 찾는 것입니다. AI 에이전트가 이 과정을 주도하는 능력을 평가하기 위해 우리는 자율 과학 문헌 발견을 위한 전용 벤치마크인 AutoResearchBench를 제시합니다. AutoResearchBench는 상호 보완적인 두 가지 작업 유형으로 구성됩니다: (1) 점진적인 다단계 탐색 과정을 통해 특정 대상 논문을 추적해야 하는 심층 연구(Deep Research)와 (2) 주어진 조건을 만족하는 논문 집합을 포괄적으로 수집해야 하는 광범위 연구(Wide Research). 기존의 에이전트 웹 브라우징 벤치마크와 비교했을 때 AutoResearchBench는 세 가지 차원에서 차별화됩니다: 과학적 개념에 대한 깊은 이해를 요구하는 연구 지향성, 상세 정보의 정교한 활용을 요구하는 문헌 중심성, 그리고 적격 논문의 수가 미리 정해져 있지 않아 전 과정에 걸친 신중한 추론과 탐색을 필요로 하는 개방성입니다. 이러한 특성들은 AutoResearchBench를 자율 연구 능력 평가에 특히 적합하게 만들며 동시에 매우 도전적인 과제로 만듭니다. BrowseComp와 같은 일반적인 에이전트 웹 브라우징 벤치마크를 크게 정복한 가장 강력한 대형 언어 모델조차도 심층 연구에서 9.39%의 정확도, 광범위 연구에서 9.31%의 IoU만을 달성하는 반면, 다른 많은 강력한 베이스라인 모델들은 5% 미만의 성능에 머물고 있습니다. 우리는 이 방향의 향후 연구를 촉진하기 위해 데이터셋과 평가 파이프라인을 공개합니다. 데이터셋, 평가 파이프라인 및 코드는 https://github.com/CherYou/AutoResearchBench에서 공개됩니다.
통합된 다중 모드 이해/생성 모델은 Chain-of-Thought(CoT) 과정에 세밀한 이해를 도입함으로써 이미지 편집 성능을 향상시켜 왔습니다. 그러나 중요한 질문인, 어떤 형태의 CoT와 학습 전략이 이해의 세분성과 일반화 능력을 동시에 향상시킬 수 있는지에 대해서는 충분히 탐구되지 않았습니다. 이를 해결하기 위해 우리는 두 가지 핵심 속성을 가진, 단일 이미지 편집 연산을 두 수준으로 분해하는 패러다임인 Meta-CoT를 제안합니다. (1) 분해 가능성. 우리는 모든 편집 의도가 (작업, 대상, 필요한 이해 능력)이라는 삼중항으로 표현될 수 있음을 관찰했습니다. 이에 착안하여 Meta-CoT는 편집 작업과 대상을 모두 분해하여 작업별 CoT를 생성하고 모든 대상에 대한 편집 연산을 순회합니다. 이 분해는 모델의 편집 연산에 대한 이해 세분성을 높이고, 학습 과정에서 삼중항의 각 요소를 학습하도록 유도하여 편집 능력을 크게 향상시킵니다. (2) 일반화 가능성. 두 번째 분해 수준에서는 편집 작업을 다섯 가지 기본 메타 작업으로 추가로 분해합니다. 우리는 이 다섯 가지 메타 작업과 삼중항의 나머지 두 요소를 함께 학습하는 것만으로도 다양한 보지 못한(unseen) 편집 작업에 대해 강력한 일반화 성능을 달성할 수 있음을 발견했습니다. 모델의 편집 행동과 CoT 추론을 더 잘 일치시키기 위해, 우리는 CoT-편집 일관성 보상을 도입했습니다. 이는 편집 과정에서 CoT 정보를 더 정확하고 효과적으로 활용하도록 장려합니다. 실험 결과, 우리의 방법이 21개 편집 작업 전반에 걸쳐 평균 15.8%의 성능 향상을 달성했으며, 소규모의 메타 작업 집합만으로 학습했을 때도 보지 못한 편집 작업에 효과적으로 일반화함을 입증했습니다. 우리의 코드, 벤치마크 및 모델은 https://shiyi-zh0408.github.io/projectpages/Meta-CoT/에서 공개되었습니다.
통합 멀티모달 모델(UMM)은 시각적 이해와 생성을 단일 프레임워크 내에 통합합니다. 텍스트-이미지(T2I) 작업에서 이러한 통합 능력은 UMM이 초기 생성 후 출력을 정제하여 성능 상한선을 확장할 수 있게 합니다. 현재 UMM 기반 정제 방법은 주로 정제-편집(RvE) 패러다임을 따르며, UMM이 정렬된 콘텐츠를 보존하면서 잘못 정렬된 영역을 수정하기 위한 편집 지침을 생성합니다. 그러나 편집 지침은 프롬프트-이미지 불일치를 대체로 개략적으로만 설명하여 불완전한 정제로 이어지는 경우가 많습니다. 또한 픽셀 수준의 보존은 편집에 필요하지만 정제를 위한 효과적인 수정 공간을 불필요하게 제한합니다. 이러한 한계를 해결하기 위해 우리는 정제를 편집이 아닌 조건부 이미지 재생성으로 재정의하는 새로운 프레임워크인 재생성을 통한 정제(RvR)를 제안합니다. RvR은 편집 지침에 의존하거나 엄격한 콘텐츠 보존을 강제하는 대신, 대상 프롬프트와 초기 이미지의 의미론적 토큰을 조건으로 이미지를 재생성하여 더 넓은 수정 공간에서 더 완전한 의미론적 정렬을 가능하게 합니다. 대규모 실험을 통해 RvR의 효과를 입증하였으며, Geneval을 0.78에서 0.91로, DPGBench을 84.02에서 87.21로, UniGenBench++을 61.53에서 77.41로 향상시켰습니다.
본 연구에서는 장기간 오디오-비디오 동기화를 위한 고속 자회귀 오디오-비디오 생성 프레임워크인 Mutual Forcing을 제안한다. 우리의 접근법은 두 가지 핵심 과제, 즉 오디오-비디오 결합 모델링과 고속 자회귀 생성 문제를 해결한다. 오디오-비디오 결합 최적화를 용이하게 하기 위해 2단계 학습 전략을 채택한다: 먼저 단일 모달리티 생성기를 학습시킨 후, 이를 결합하여 짝을 이룬 데이터에 대한 공동 학습을 수행하는 통합 오디오-비디오 모델로 발전시킨다. 스트리밍 생성을 위해 기존의 양방향 모델을 먼저 학습시킨 후 여러 증류 단계를 거쳐 인과적 생성기로 변환하는 일반적인 스트리밍 증류 파이프라인을 따르는 대신, 기본적인 고속 인과적 오디오-비디오 모델을 직접 학습시킬 수 있는지 질문한다. 우리의 해답은 Mutual Forcing으로, 이는 기본 자회귀 모델에 직접 기반을 두며 소수 단계 생성과 다수 단계 생성을 단일 가중치 공유 모델 내에 통합하여 자기 증류와 향상된 학습-추론 일관성을 가능하게 한다. 다수 단계 모드는 자기 증류를 통해 소수 단계 모드를 개선하는 반면, 소수 단계 모드는 학습 중 역사적 문맥을 생성하여 학습-추론 일관성을 향상시킨다. 두 모드가 매개변수를 공유하기 때문에 이러한 두 효과는 단일 모델 내에서 상호 강화된다. Self-Forcing과 같은 기존 접근법과 비교했을 때, Mutual Forcing은 추가적인 양방향 교사 모델의 필요성을 제거하고, 더 유연한 학습 시퀀스 길이를 지원하며, 학습 오버헤드를 줄이고, 모델이 고정된 교사가 아닌 실제 짝을 이룬 데이터로부터 직접 개선될 수 있도록 한다. 실험 결과, Mutual Forcing은 약 50개의 샘플링 단계가 필요한 강력한 기준 모델들을 단 4~8단계만 사용하여 성능을 맞추거나 능가하는 것으로 나타나, 효율성과 품질 모두에서 상당한 이점을 입증했다. 프로젝트 페이지는 https://mutualforcing.github.io에서 확인할 수 있다.
대규모 오디오 언어 모델의 최근 발전은 사고 연쇄(Chain-of-Thought, CoT) 추론을 청각 영역으로 확장하여 모델이 점점 더 복잡한 음향 및 음성 작업을 처리할 수 있게 했습니다. 이러한 확장된 추론 사슬을 이끌어내고 유지하기 위한 주류 패러다임은 텍스트 기반 추론 모델의 성공에 힘입어 검증된 보상 강화 학습(Reinforcement Learning with Verified Rewards, RLVR)에 압도적으로 의존하고 있습니다. 그러나 모델이 풍부하고 연속적인 청각 컨텍스트를 고립되고 검증 가능한 텍스트 라벨로 정제하도록 엄격하게 최적화됨에 따라 근본적인 의문이 제기됩니다. 우리가 진정한 오디오 지능을培育하고 있는 것인지, 아니면 연속적인 감각 매체를 이산적인 퍼즐로 단순 축소하고 있는 것인지 말입니다. 우리는 이를 "검증 가능한 보상 함정(verifiable reward trap)"으로 규정합니다. RLVR은 표준화된 객관적 벤치마크에서 놀라운 점수를 내지만, 오디오 모델의 실제 대화 감각을 체계적으로 저하시킵니다. RLVR은 음향적 뉘앙스보다 고립된 정확성을 우선시함으로써 역동적인 상호작용을 기계적인 "응답 기계"로 전락시키고, 특히 장문 대화에서 운율 자연스러움, 정서적 연속성, 사용자 몰입감을 심각하게 훼손합니다. 기계적인 객관적 검증과 진정한 감각적 공감 간의 격차를 해소하기 위해 우리는 Step-Audio-R1.5를 소개하며, 오디오 추론에 있어 인간 피드백 강화 학습(Reinforcement Learning from Human Feedback, RLHF)으로의 패러다임 전환을 표합니다. 포괄적인 평가 결과, Step-Audio-R1.5는 강력한 분석적 추론 능력을 유지할 뿐만 아니라 상호작용 경험을 근본적으로 변혁하여 깊이 몰입되는 장문 음성 대화의 경계를 재정의함을 보여줍니다.
확산 모델이 고품질 비디오 클립을 생성하는 반면, 이를 일관된 스토리텔링 엔진으로 전환하는 것은 여전히 과제로 남아 있습니다. 기존 에이전트 파이프라인은 체인 방식의 모듈을 통해 이 과정을 자동화하지만, 독립적으로 설계된 수동 프롬프팅으로 인한 의미론적 편차와 연쇄적 오류가 발생합니다. 본 연구에서는 비디오 스토리텔링을 전역 최적화 문제로 공식화하는 계층적 다중 에이전트 프레임워크인 Co-Director를 제안합니다. 의미론적 일관성을 보장하기 위해 계층적 매개변수화를 도입하였습니다: 다중 팔 밴딧이 전역적으로 유망한 창의적 방향을 식별하는 동시에, 지역적 다중 모드 자기 정제 루프가 identity drift를 완화하고 시퀀스 수준의 일관성을 보장합니다. 이는 새로운 서사 전략의 탐색과 효과적인 창의적 구성의 활용 사이의 균형을 맞춥니다. 평가를 위해 개인화된 광고를 위한 가상 제품 400개 시나리오 데이터셋인 GenAD-Bench를 도입하였습니다. 실험 결과 Co-Director가 최첨단 기준선을 크게 능가하며, 더 넓은 영화적 서사로 원활하게 일반화되는 원칙적인 접근법을 제공함을 입증했습니다. 프로젝트 페이지: https://co-director-agent.github.io/
맞춤형 정책을 위한 가드레일 배치는 여전히 어려운 과제로 남아 있습니다. 범용 안전성 모델은 작업별 요구사항을 포착하지 못하는 반면, LLM 프롬프팅은 경계 사례에서 일관되지 않은 성능과 높은 추론 비용 문제를 겪기 때문입니다. 맞춤형 분류기를 학습시키면 정확도와 효율성을 모두 달성할 수 있지만, 확보 비용이 큰 상당한 양의 레이블 데이터가 필요합니다. 본 논문에서는 작업 설명과 소량의 비레이블 예시만을 사용하여 충실하고 다양한 합성 학습 데이터를 생성하는 프레임워크인 BARRED(Boundary Alignment Refinement through REflection and Debate)를 제시합니다. 우리의 접근 방식은 포괄적인 커버리지를 보장하기 위해 도메인 공간을 차원으로 분해하고, 레이블 정확성을 검증하기 위해 다중 에이전트 토론을 활용하여 높은 정확도의 훈련 코퍼스를 생성합니다. 다양한 맞춤형 정책에 대한 실험 결과, 우리의 합성 데이터로 미세 조정된 소형 언어 모델이 최첨단 상용 LLM(추론 모델 포함) 및 전용 가드레일 모델을 지속적으로 능가하는 것으로 나타났습니다. ablation 연구를 통해 효과적인 미세 조정에 필요한 다양성과 레이블 충실도 보장에 차원 분해와 토론 기반 검증이 모두 중요함이 확인되었습니다. BARRED 프레임워크는 대규모 인간 주석에 대한 의존성을 제거하여 정확한 맞춤형 가드레일을 위한 확장 가능한 솔루션을 제공합니다.
온정책 지식 증류(OPD)는 최첨단 또는 도메인 특화 모델의 추론 능력을 더 작은 학생 모델로 전이하는 데 강력한 잠재력을 보여주고 있습니다. 정적인 단일 턴 과제에서는 효과적이지만, 다중 턴 에이전트 환경에서의 동작은 아직 충분히 연구되지 않았습니다. 본 연구에서는 이러한 환경에서 기본 OPD의 주요 한계를 확인하며, 이를 '궤적 수준 KL 불안정성'으로 명명합니다. 구체적으로, KL 발산이 성공률 하락과 함께 증가하며, 수렴 후에도 KL이 높게 유지되어 훈련이 불안정해지는 현상을 관찰합니다. 이러한 불안정성은 턴 간 오류 누적에서 비롯됩니다: 오류가 누적됨에 따라 학생 모델은 교사 모델의 효과적 지원 범위를 벗어나게 되어 지도 신호의 신뢰성이 떨어집니다. 이를 해결하기 위해, 우리는 학생 모델에 노출되는 궤적 깊이를 제어하고 커리큘럼 일정에 따라 짧은 것에서 긴 것으로 점진적으로 확장하는 간단하면서 효과적인 프레임워크인 TCOD(시간적 커리큘럼 온정책 지식 증류)를 제안합니다. 3개의 다중 턴 에이전트 벤치마크(ALFWorld, WebShop, ScienceWorld)에서 4개의 학생-교사 모델 쌍에 대한 실험 결과는 TCOD가 훈련 전반에 걸쳐 KL 급증을 완화하고 KL 안정성을 향상시켜, 기본 OPD 대비 에이전트 성능을 최대 18점까지 향상시킴을 보여줍니다. 추가 평가를 통해 TCOD가 교사 모델의 성능을 능가할 수 있으며, 교사 모델이 실패하는 과제로도 일반화될 수 있음이 입증되었습니다.
터미널 에이전트는 자율적인 명령줄 실행에서 강력한 잠재력을 보여주었으나, 고품질이고 다양한 실행 궤적의 부족으로 인해 훈련에는 여전히 제약이 따릅니다. 기존 접근법은 궤적 샘플링을 위해 대규모 터미널 작업 인스턴스를 합성하여 이 병목 현상을 완화합니다. 그러나 이러한 방법들은 주로 작업 수의 확장에 초점을 맞추며, 에이전트가 훈련 중 실제로 경험하는 실행 궤적의 다양성에 대한 통제는 제한적으로 제공합니다. 본 논문에서는 시나리오 기반 스킬 그래프 위에 구축된 자동화된 터미널 작업 합성 프레임워크인 SkillSynth를 제안합니다. SkillSynth는 먼저 시나리오를 다양한 명령줄 스킬을 연결하는 중간 전이 노드로 활용하는 대규모 스킬 그래프를 구성합니다. 그런 다음 이 그래프에서 경로를 샘플링하여 실제 워크플로의 추상화로 사용하고, 다중 에이전트 시스템을 통해 이를 실행 가능한 작업 인스턴스로 구현합니다. 그래프에서 샘플링된 워크플로 경로에 작업 합성을 기반으로 함으로써, SkillSynth는 합성된 작업을 해결하는 데 필요한 최소 실행 궤적의 다양성을 명시적으로 제어합니다. Terminal-Bench에서의 실험을 통해 SkillSynth의 효과성을 입증했습니다. 더 나아가, SkillSynth로 합성된 작업 인스턴스는 Hy3 Preview의 훈련에 채택되어 터미널 기반 환경에서의 향상된 에이전트 능력에 기여했습니다.
기존의 인터랙티브 STEM 코스웨어 제작에는 HTML/CSS/JavaScript 전문 지식이 필요하여 교육자들에게 진입 장벽으로 작용해왔습니다. 생성형 AI가 HTML 코드를 생성할 수는 있지만, 기존 도구들은 인터랙티브 시뮬레이션 대신 정적 프레젠테이션을 생성하고, 장문 문서 처리에 어려움을 겪으며, 교육학적 정확성 검증 메커니즘이 부족합니다. 또한 수정 시 전체 재생성에 200~600초가 소요되어 창의적 흐름이 단절되는 문제가 있습니다. 본 논문에서는 교육자가 교과서, PPT, PDF로부터 인터랙티브 코스웨어를 제작하고 신속하게 편집할 수 있는 제로코드 저작 시스템인 MAIC-UI를 제안합니다. MAIC-UI는 다음 세 가지 핵심 기술을 적용합니다: (1) 교육학적 엄밀성을 보장하기 위한 다중 모드 이해 기반 구조화된 지식 분석, (2) 내용 정렬과 시각적 정제를 분리하는 2단계 생성-검증-최적화 파이프라인, (3) 통합 Diff 기반 증분 생성으로 10초 미만 반복 주기를 구현하는 Click-to-Locate 편집. 40명의 참가자를 대상으로 한 실험실 연구 결과, MAIC-UI가 직접적인 Text-to-HTML 생성 방식에 비해 편집 반복 횟수를 줄이고(4.9회 대 7.0회) 학습성과 제어력을 크게 향상시킨 것으로 나타났습니다. 53명의 고등학생을 대상으로 3개월간 진행된 교실 현장 적용 결과, MAIC-UI가 학습 주도성을 향상시키고 성과 격차를 줄이는 효과가 입증되었습니다. 실험반은 STEM 과목에서 9.21점의 성적 향상을 보인 반면, 대조반은 -2.32점의 변화를 보였습니다. 본 연구의 코드는 https://github.com/THU-MAIC/MAIC-UI에서 확인할 수 있습니다.
잡음 제거 생성 모델을 인간의 선호도나 검증 가능한 보상과 정렬하는 것은 여전히 중요한 과제로 남아 있습니다. 정책 경사 기반 온라인 강화학습(RL)은 원칙적으로 훈련 후 조정을 위한 체계적인 프레임워크를 제공하지만, 이러한 모델의 다루기 힘든 가능도로 인해 직접 적용에는 어려움이 있습니다. 따라서 기존 연구는 샘플링 경로에 대해 유도된 마르코프 결정 과정(MDP)을 최적화하는(안정적이지만 비효율적) 방법, 또는 확산 증거 하한(ELBO)에 기반한 가능도 대용 함수를 사용하는(시각적 생성 작업에서 아직까지 성능이 낮은) 방법으로 나뉘어 왔습니다. 우리의 핵심 통찰은 ELBO 기반 접근법이 사실상 안정성과 효율성을 모두 갖출 수 있다는 점입니다. 대용 함수의 분산을 줄이고 경사 단계를 제어함으로써, 이 접근법이 MDP 기반 방법을 능가할 수 있음을 보여줍니다. 이를 위해 우리는 Variational GRPO(V-GRPO)를 소개합니다. 이 방법은 ELBO 기반 대용 함수를 Group Relative Policy Optimization(GRPO) 알고리즘과 통합하며, 간단하지만 필수적인 기술 세트를 함께 사용합니다. 우리의 방법은 구현이 쉽고, 사전 훈련 목표와 조화를 이루며, MDP 기반 방법의 한계를 피합니다. V-GRPO는 텍스트-이미지 합성 분야에서 최첨단 성능을 달성하는 동시에 MixGRPO 대비 2배, DiffusionNFT 대비 3배의 속도 향상을 제공합니다.
대규모 비디오 확산 모델이 고해상도 및 의미론적으로 풍부한 콘텐츠 생성에서 인상적인 능력을 보여주었지만, 프롬프트 민감도, 시간적 불일치, 과도한 추론 비용과 같은 중요한 문제들로 인해 사전 학습 성능과 실제 배포 요구사항 사이에는 상당한 격차가 존재합니다. 이러한 격차를 해소하기 위해, 우리는 사전 학습된 모델을 사용자 의도에 체계적으로 정렬시키는 포괄적인 사후 학습 프레임워크를 제안합니다. 이 프레임워크는 상호 보완적인 네 단계로 구성됩니다: 먼저 지도 미세 조정(SFT)을 사용하여 기본 모델을 안정적인 지시 따르기 정책으로 변환한 다음, 비디오 확산에 맞춰 인지적 품질과 시간적 일관성을 향상시키기 위해 새로 개발된 그룹 상대 정책 최적화(GRPO) 방법을 활용하는 인간 피드백 강화 학습(RLHF) 단계를 거칩니다. 이후에는 특화된 언어 모델을 통한 프롬프트 향상을 통해 사용자 입력을 정제하고, 마지막으로 추론 최적화를 통해 시스템 효율성을 해결합니다. 이러한 구성 요소들이 함께 작동하여 시각적 품질, 시간적 일관성, 지시 따르기 능력을 향상시키는 체계적인 접근법을 제공함과 동시에 사전 학습期間 습득된 제어 가능성을 보존합니다. 그 결과는 안정적이고 적응적이며 실제 배포에 효과적인 확장 가능한 사후 학습 파이프라인을 구축하기 위한 실용적인 청사진입니다. 광범위한 실험을 통해 이 통합 파이프라인이 일반적인 아티팩트를 효과적으로 완화하고, 엄격한 샘플링 비용 제약을 준수하면서 제어 가능성과 시각적 미학을 크게 개선함을 입증했습니다.
크라우드소싱 기반 쌍별 평가는 파운데이션 모델 평가를 위한 확장 가능한 접근법으로 부상했다. 그러나 이를 텍스트 음성 변환(TTS)에 적용할 경우 언어적 다양성과 음성 인지의 다차원적 특성으로 인해 높은 변동성이 발생한다. 본 논문은 언어적 통제를 지각 기반 주석과 결합한 다국어 TTS용 통제 다차원 쌍별 평가 프레임워크를 제시한다. 10개 인도 언어의 5,000개 이상의 모국어 및 코드 혼합 문장을 활용하여 7개의 최신 TTS 시스템을 평가하고, 1,900명 이상의 모국어 평가자로부터 12만 건 이상의 쌍별 비교 데이터를 수집했다. 평가자는 전반적 선호도 외에도 명료성, 표현력, 음질, 생동감, 노이즈, 환각 등 6가지 지각 차원에 대한 판단을 제공했다. 브래들리-테리 모델링을 통해 다국어 리더보드를 구축하고, SHAP 분석을 이용한 인간 선호도 해석을 수행하며, 지각 차원별 모델 강점과 트레이드오프 분석과 함께 리더보드 신뢰도를 분석한다.
대규모 시각-언어 모델(VLM)은 시각 질의응답과 같은 이미지-텍스트(I2T) 작업 및 텍스트-이미지(T2I) 생성 작업에서 다른 모델의 출력을 평가하는 데 점점 더 많이 활용되고 있습니다. 이러한 의존도가 증가함에도 불구하고, 평가자 VLM의 신뢰성에 대한 연구는 아직 미흡한 실정입니다. 본 연구에서는 I2T 및 T2I 작업 전반에 걸쳐 평가자 VLM의 신뢰성을 체계적으로 평가합니다. 우리는 객체 환각, 공간 추론, 사실적 근거, 시각적 정확도 등 주요 오류 차원을 따라 출력 품질을 저하시키는 표적 교란을 도입합니다. 이러한 교란은 평가자 VLM이 평가 과정에서 이러한 품질 저하 오류를 신뢰성 있게 반영하는지 테스트합니다. 40개의 교란 차원에 걸친 4,000개 이상의 교란된 인스턴스로 구성된 포괄적인 벤치마크를 사용하여, 단일 답변 점수화, 쌍별 비교, 참조 지향 패러다임을 활용하여 4개의 주요 VLM을 평가합니다. 우리의 연구 결과는 현재의 VLM 평가자들이 상당한 맹점을 보인다는 것을 밝혀냈습니다: 그들은 종종 교란된 출력을 감지하지 못하며(일부 경우 50%를 초과), 특히 세분화된 구성적 및 공간적 오류에서 어려움을 겪고, 입력 이미지와 모순되는 환각 콘텐츠에 둔감한 경우가 많습니다. 쌍별 비교가 더 신뢰할만한 것으로 입증되었으나, 여전히 실패율이 지속됩니다. 이러한 결과는 현재 평가자 VLM의 신뢰할 수 없는 본질을 강조하며, 벤치마킹 및 개발 결정에 이를 배포할 때 주의를 촉구합니다. 코드와 데이터는 공개되었습니다.
텍스트 기반 인간 모션 생성의 최근 발전으로 모델이 자연어 설명에서 사실적인 모션 시퀀스를 합성할 수 있게 되었습니다. 그러나 대부분의 기존 접근법은 정체성 중립적 모션을 가정하고 표준화된 신체 표현을 사용하여 동작을 생성함으로써 신체 형태가 모션 역학에 미치는 강한 영향을 무시합니다. 실제로 신체 비율, 질량 분포, 나이와 같은 속성들은 동작 수행 방식에 상당한 영향을 미치며, 이러한 결합을 간과하면 물리적으로 일관성 없는 모션이 발생하는 경우가 많습니다. 우리는 신체 형태와 모션 역학 간의 관계를 명시적으로 모델링하는 정체성 인식 모션 생성 프레임워크를 제안합니다. 명시적인 기하학적 측정에 의존하는 대신, 자연어 설명과 시각적 단서를 포함한 다중 모드 신호를 사용하여 정체성을 표현합니다. 더 나아가 모션 시퀀스와 신체 형상 매개변수를 동시에 합성하는 결합된 모션-형상 생성 패러다임을 도입하여 정체성 단서가 모션 역학을 직접 조절할 수 있도록 합니다. 모션 캡처 데이터셋과 대규모 실제 영상에 대한 광범위한 실험을 통해 높은 모션 품질을 유지하면서 향상된 모션 현실감과 모션-정체성 일관성을 입증합니다. 프로젝트 페이지: https://vjwq.github.io/IAM
AI 에이전트는 점점 더 복잡하고 도메인 특화적인 워크플로우에 배포되고 있습니다. 수십 번의 클릭과 폼 입력이 필요한 기업용 웹 애플리케이션을 탐색하고, 검색, 추출, 종합을 아우르는 다단계 연구 파이프라인을 조율하며, 익숙하지 않은 저장소에 걸친 코드 리뷰를 자동화하고, 세분화된 도메인 지식을 요구하는 고객 에스컬레이션을 처리하는 등의 작업이 그것입니다. 각각의 새로운 작업 도메인은 전문가가 주도하는 정교한 하네스 엔지니어링, 즉 파운데이션 모델을 효과적으로 만드는 프롬프트, 도구, 조율 로직, 평가 기준을 설계하는 과정을 필요로 합니다. 본 논문은 이러한 과정을 자동화하는 두 단계의 프레임워크를 제시합니다. 첫 번째 단계인 '하네스 진화 루프'는 단일 작업에 대해 작업자 에이전트의 하네스 H를 최적화합니다. 작업자 에이전트 W_{H}가 작업을 실행하고, 평가자 에이전트 V가 실패를 적대적으로 진단하고 성능을 점수화하며, 진화 에이전트 E가 이전 시도의 전체 기록을 바탕으로 하네스를 수정합니다. 두 번째 단계인 '메타 진화 루프'는 다양한 작업에 걸쳐 진화 프로토콜 Λ = (W_{H}, H^{(0)}, V, E) 자체를 최적화합니다. 이를 통해 어떤 새로운 작업에도 하네스가 빠르게 수렴되도록 하는 최적의 프로토콜 Λ^{(text{best)}를 학습함으로써, 새로운 도메인에 에이전트를 적응시키는 데 전혀 인간의 하네스 엔지니어링이 필요하지 않게 합니다. 우리는 메타러닝과의 연관성을 공식화하고 두 알고리즘을 제시합니다. 이 프레임워크는 수동 하네스 엔지니어링을 자동화된 하네스 엔지니어링으로 전환하고, 한 걸음 더 나아가 자동화 자체의 설계까지 자동화합니다.
그래픽 사용자 인터페이스(GUI)를 탐색할 수 있는 자율 에이전트는 디지털 생산성을 혁신할 잠재력을 지닙니다. 그러나 진정한 디지털 자율성을 달성하는 것은 반응형 요소 매칭을 넘어, 인터페이스 역학에 대한 예측적 멘탈 모델과 상호작용 결과로서의 "디지털 세계 상태"를 예측하는 능력을 필요로 합니다. 현대 시각-언어 모델(VLM)의 인지 능력에도 불구하고, 기존 벤치마크는 블랙박스 작업 완료 또는 정적이고 피상적인 그라운딩에만 집중하는 이분화된 상태로 남아 있어, 에이전트가 GUI의 암묵적 기능과 전환 논리를 진정으로 이해하는지 평가하지 못하고 있습니다. 이러한 격차를 해소하기 위해, 우리는 심층 GUI 기능 이해와 상호작용 결과 예측을 평가하기 위한 포괄적인 벤치마크인 AutoGUI-v2를 소개합니다. 우리는 다중 플랫폼 스크린샷을 계층적 기능 영역으로 재귀적으로 파싱하여 다양한 평가 과제를 생성하는 새로운 VLM-인간 협업 파이프라인을 사용하여 벤치마크를 구축했습니다. 6가지 운영 체제에 걸쳐 2,753개의 과제를 제공하는 AutoGUI-v2는 영역 및 요소 수준의 의미론, 그라운딩, 동적 상태 예측에 대해 에이전트를 엄격하게 테스트합니다. 우리의 평가는 VLM에서 놀라운 이분법을 드러냅니다: 에이전트 데이터로 미세 조정된 오픈소스 모델(예: Qwen3-VL)은 기능 그라운딩에서 뛰어난 반면, 상용 모델(예: Gemini-2.5-Pro-Thinking)은 기능 캡션 작성에서 압도적입니다. 결정적으로, 모든 모델은 흔하지 않은 동작의 복잡한 상호작용 논리에서 어려움을 겪으며, 심층 기능 이해가 여전히 큰 장벽임을 강조합니다. 이러한 기초 능력을 체계적으로 측정함으로써, AutoGUI-v2는 차세대 GUI 에이전트 발전을 위한 새로운 렌즈를 제공합니다.
그래픽 사용자 인터페이스(GUI) 요소 기반화(자연어 지시에 따라 스크린샷 내 요소를 정확히 위치 지정)는 GUI와 상호작용하는 에이전트의 기초 기능입니다. 낮은 지연 시간을 요구하는 GUI 에이전트의 경우, 모바일 폰과 같은 자원이 제한된 기기에서 이 기능을 직접 구동하는 것은 점점 더 중요해지고 있습니다. 그러나 현재 시각 기반화 방법들은 일반적으로 대규모 시각-언어 모델(VLM)(25억 개 이상의 매개변수)을 사용하므로, 메모리 및 계산 자원 제약으로 인해 기기 내 실행이 사실상 불가능해 중요한 과제에 직면해 있습니다. 이를 해결하기 위해 본 논문은 2억 3천만 개의 매개변수만을 가진 경량 GUI 요소 기반화 VLM인 GoClick을 소개합니다. GoClick은 훨씬 더 큰 모델들과 견줄 만한 우수한 시각 기반화 정확도를 달성합니다. 기존 디코더 전용 VLM을 단순히 축소하는 것은 경량 모델을 설계하는 직관적인 방법이지만, 우리의 실험 결과 이 접근 방식은 최적의 결과를 내지 못합니다. 대신 우리는 인코더-디코더 아키텍처를 선택했으며, 이는 GUI 기반화 작업에서 작은 매개변수 규모에서 디코더 전용 대안들을 능가하는 성능을 보입니다. 또한, 소규모 VLM의 제한된 용량은 과제 유형 필터링과 데이터 비율 조정을 활용하여 1,080만 개의 원시 데이터셋에서 38만 개 샘플의 고품질 코어 세트를 추출하는 점진적 데이터 정제 파이프라인을 개발하도록 장려했습니다. 이 코어 세트를 사용하여 GoClick을 학습시키면 뚜렷한 기반화 정확도 향상을 가져옵니다. 우리의 실험 결과, GoClick은 작은 크기와 높은 추론 속도를 유지하면서 여러 GUI 요소 기반화 벤치마크에서 뛰어난 성능을 발휘함을 보여줍니다. GoClick은 또한 기기-클라우드 협업 프레임워크에 통합될 때 GUI 에이전트 성능을 향상시킵니다. 이 프레임워크에서 GoClick은 클라우드 기반 작업 플래너가 정확한 요소 위치 지정을 수행하고 더 높은 성공률을 달성하도록 돕습니다. 우리의 방법이 GUI 에이전트 커뮤니티 내에서 의미 있는 탐구 사례로 활용되기를 바랍니다.
추천 시스템 공정성 평가는 최근 공정하고 책임 있는 인공지능 개발을 강조하는 법적 조치가 늘어나면서 그 중요성이 더욱 부각되고 있습니다. 이에 따라 다양한 공정성 평가 척도들이 등장했으며, 각기 다른 정의에 기반하여 공정성을 수치화하고 있습니다. 그러나 이러한 척도들 중 상당수는 단순히 제안된 후 그 견고성에 대한 추가 분석 없이 사용되고 있습니다. 그 결과, 척도들의 한계에 대한 이해와 인식이 충분히 이루어지지 않고 있습니다. 특히, 어떤 종류의 모델 출력이 가장 (비)공정한 점수를 산출하는지, 척도 점수의 경험적 분포는 어떠한지, 그리고 척도를 계산할 수 없는 경우(예: 0으로 나누기 오류)가 있는지 등에 대한 정보가 부족합니다. 이러한 문제들은 척도 점수 해석을 어렵게 하고, 특정 경우에 어떤 척도를 사용해야 하는지에 대한 혼란을 초래합니다. 본 논문은 기존 추천 시스템 공정성 평가 척도들이 지닌 다양한 이론적, 경험적, 개념적 한계를 평가하고 극복한 일련의 연구들을 제시합니다. 우리는 평가 대상(사용자와 아이템)과 평가 세분성 수준(대상 그룹과 개별 대상)에 따라 구분된 다양한 공정성 개념에 대한 광범위한 오프라인 평가 척드들을 조사합니다. 첫째, 해당 척드들에 대한 이론적 및 경험적 분석을 수행하여 해석 가능성, 표현력 또는 적용 가능성을 제한하는 결함을 밝혀냅니다. 둘째, 이러한 한계를 극복하는 새로운 평가 접근법과 척도들을 제안합니다. 마지막으로, 척도들의 한계를 고려하여 적절한 척도 사용을 위한 가이드라인을 제안함으로써 실무 환경에서 공정성 평가 척도를 보다 정확하게 선택할 수 있도록 합니다. 전체적으로, 본 논문은 추천 시스템 공정성에 대한 최신 오프라인 평가 기술의 발전에 기여합니다.