번역이 포함된 일일 선별된 AI 연구 논문
GLM-5V-Turbo는 멀티모달 에이전트를 위한 네이티브 파운데이션 모델로 나아가는 중요한 단계를 제시합니다. 파운데이션 모델이 실제 환경에 점차 배포됨에 따라, 에이전트 능력은 언어 추론 능력뿐만 아니라 이미지, 비디오, 웹페이지, 문서, GUI와 같은 이질적인 콘텍스트를 인지하고 해석하며 작동하는 능력에도 좌우됩니다. GLM-5V-Turbo는 이러한 목표를 중심으로 구축되었습니다. 즉, 멀티모달 인지가 언어 모델에 대한 보조 인터페이스가 아닌 추론, 계획, 도구 사용 및 실행의 핵심 구성 요소로 통합되었습니다. 본 보고서는 모델 설계, 멀티모달 학습, 강화 학습, 툴체인 확장 및 에이전트 프레임워크 통합에 이르는 GLM-5V-Turbo의 주요 개선 사항을 요약합니다. 이러한 발전은 경쟁력 있는 텍스트 전용 코딩 능력을 유지하면서 멀티모달 코딩, 시각적 도구 사용 및 프레임워크 기반 에이전트 작업에서 강력한 성능으로 이어집니다. 더욱 중요한 것은, 저희의 개발 과정이 멀티모달 에이전트 구축을 위한 실질적인 통찰을 제공하며, 멀티모달 인지의 중심 역할, 계층적 최적화, 그리고 신뢰할 수 있는 엔드투엔드 검증의 중요성을 부각시킨다는 점입니다.
대규모 언어 모델(LLM)의 테스트 시 확장을 위해 다양한 응답을 생성하는 것은 중요하지만, 표준 확률적 샘플링은 주로 표층적인 어휘적 변이만을 생성하여 의미론적 탐색을 제한합니다. 본 논문에서는 생성 과정에서 의미론적 다양성을 명시적으로 장려하는 디코딩 접근법인 탐색적 샘플링(ESamp)을 제안합니다. ESamp는 신경망이 이전에 접한 입력과 유사한 경우 예측 오류가 낮고, 새로운 입력에서는 예측 오류가 높아지는 잘 알려진 현상에 기반합니다. 이 특성을 바탕으로, 우리는 테스트 시간에 경량 Distiller를 학습시켜 LLM의 얕은 층 표현으로부터 깊은 층 은닉 표현을 예측하여 LLM의 깊이별 표현 전이를 모델링합니다. 디코딩 과정에서 Distiller는 현재 생성 컨텍스트에 의해 유도된 매핑에 지속적으로 적응합니다. ESamp는 이 예측 오류를 새로움 신호로 사용하여 현재 접두사에 조건부인 후보 토큰 확장의 가중치를 재조정함으로써, 덜 탐색된 의미 패턴으로 디코딩을 편향시킵니다. ESamp는 비동기적 학습-추론 파이프라인으로 구현되며, 최악의 경우 5% 미만(최적화 버전 기준 1.2%)의 오버헤드만을 발생시킵니다. 실험 결과는 ESamp가 추론 모델의 Pass@k 효율을 크게 향상시키며, 강력한 확률적 및 휴리스틱 베이스라인 대비 우수하거나 비슷한 성능을 보임을 입증합니다. 특히 ESamp는 수학, 과학, 코드 생성 벤치마크 전반에 걸쳐 견고한 일반화 성능을 달성하고 창의적 글쓰기에서 다양성과 일관성 간의 트레이드오프를 깨뜨립니다. 우리의 코드는 https://github.com/LinesHogan/tLLM 에 공개되었습니다.
RADIO-ViPE(Reduce All Domains Into One -- Video Pose Engine)를 소개한다. 이는 온라인 의미론적 SLAM 시스템으로, 기하학 인식 개방형 어휘 기반 연결(open-vocabulary grounding)을 가능하게 하여 동적 환경에서 임의의 자연어 질의를 지역화된 3D 영역 및 객체와 연관시킨다. 캘리브레이션되고 포즈 추정된 RGB-D 입력을 필요로 하는 기존 접근법과 달리, RADIO-ViPE는 사전에 카메라 내부 파라미터, 깊이 센서 또는 포즈 초기화 없이도 원시 단안 RGB 비디오 스트림에서 직접 작동한다. 본 시스템은 통합 기초 모델(예: RADIO)에서 도출된 시각 및 언어를 아우르는 다중 모드 임베딩을 기하학적 장면 정보와 긴밀하게 결합한다. 이러한 결합은 초기화, 최적화 및 팩터 그래프 연결 과정에서 이루어져 다중 모달리티로부터 맵의 일관성을 향상시킨다. 최적화 과정은 능동적으로 움직이는 객체와 에이전트에 의해 이동된 장면 요소(예: 자기 중심적 세션 동안 재배치된 가구)를 모두 처리하도록 설계된 적응형 강건 커널로 감싸진다. 실험 결과, RADIO-ViPE는 동적 TUM-RGBD 벤치마크에서 최첨단 성능을 달성하는 동시에, 캘리브레이션된 데이터와 정적 장면 가정에 의존하는 오프라인 개방형 어휘 방법들과 비교해 경쟁력 있는 성능을 유지함을 보여준다. RADIO-ViPE는 실제 현장 배포에서의 중요한 간극을 메워, 자율 로봇공학과 제약 없는 실제 환경 비디오 스트림을 위한 강건한 개방형 어휘 의미론적 기반 연결을 가능하게 한다. 프로젝트 페이지: https://be2rlab.github.io/radio_vipe
Claw 스타일 환경은 로컬 파일, 도구, 지속적 작업 공간 상태에 대한 다단계 워크플로우를 지원합니다. 그러나 이러한 환경을 통한 확장 가능한 개발은 특히 검증 가능한 훈련 데이터 합성 및 에이전트 훈련, 진단 평가와의 통합을 위한 체계적인 프레임워크가 부족하여 여전히 제약을 받고 있습니다. 이러한 문제를 해결하기 위해 우리는 Claw 스타일 개인 에이전트 개발의 전체 라이프사이클을 지원하는 확장 가능한 프레임워크인 ClawGym을 제시합니다. 구체적으로 우리는 페르소나 기반 의도와 기술 기반 작업에서 합성된 13.5K개의 필터링된 다양한 태스크 데이터셋인 ClawGym-SynData를 구축하였으며, 이는 현실적인 모의 작업 공간과 하이브리드 검증 메커니즘과 쌍을 이룹니다. 이후 우리는 블랙박스 롤아웟 궤적에 대한 지도 미세 조정을 통해 ClawGym-Agents라고 명명된 능력 있는 Claw 스타일 모델 군을 훈련시키고, 태스크별 샌드박스에서 롤아웟을 병렬화하는 경량 파이프라인을 통해 강화 학습을 추가로 탐구합니다. 신뢰할 수 있는 평가를 지원하기 위해 우리는 자동화된 필터링과 인간-LLM 검토를 통해 보정된 200개 인스턴스의 벤치마크인 ClawGym-Bench를 추가로 구축합니다. 관련 자료는 https://github.com/ClawGym에서 곧 공개될 예정입니다.
확산 대규모 언어 모델(dLLM)은 병렬 디코딩과 양방향 컨텍스트를 제공하지만, 최첨단 dLLM은 경쟁력 있는 성능을 위해 수십억 개의 매개변수가 필요합니다. 기존 dLLM 지식 증류 방법은 단일 아키텍처 내에서 추론 단계를 줄이지만, 교사 모델과 학생 모델의 아키텍처, 어텐션 메커니즘, 토크나이저가 다른 교차 아키텍처 지식 전달을 다루지 않습니다. 본 논문에서는 교차 아키텍처 dLLM 지식 증류를 위한 최초의 프레임워크인 TIDE를 제시하며, 이는 세 가지 모듈식 구성 요소로 구성됩니다: (1) 교사 모델의 노이즈 의존적 신뢰도를 고려하여 훈련 진행도와 확산 타임스텝에 걸쳐 증류 강도를 공동으로 조절하는 TIDAL; (2) 상보적 마스크 분할을 통해 교사 모델의 컨텍스트를 풍부하게 하여 심각한 마스킹 조건에서의 예측을 개선하는 CompDemo; (3) 청크 수준 우도 매칭을 역전시켜 유계 기울기와 양단 노이즈 필터링을 제공하는 교차 토크나이저 목적 함수인 Reverse CALM. 8B Dense 및 16B MoE 교사 모델을 두 개의 이기종 파이프라인을 통해 0.6B 학생 모델로 증류한 결과, 8개 벤치마크에서 평균 1.53점으로 기준선을 능가하며, 코드 생성 분야에서 특히 큰 향상을 보여 HumanEval 점수가 AR 기준선의 32.3에 비해 48.78에 도달했습니다.
제어 가능한 확산 방법은 확산 모델의 실용성을 크게 확장시켰지만, 일반적으로 고립된 백본 특화 시스템으로 개발되어 호환되지 않는 학습 파이프라인, 매개변수 형식 및 런타임 훅을 사용합니다. 이러한 분열은 인프라를 작업 간에 재사용하거나, 백본 간에 기능을 전이하거나, 단일 생성 파이프라인 내에서 여러 제어를 구성하는 것을 어렵게 만듭니다. 본 논문에서는 기본 모델 추론과 제어 기능 주입을 분리하는 통합된 오픈 소스 플러그인 프레임워크인 Diffusion Templates를 제시합니다. 이 프레임워크는 세 가지 구성 요소를 중심으로 구성됩니다: 임의의 작업별 입력을 중간 기능 표현에 매핑하는 Template 모델, 기능 주입을 위한 표준화된 인터페이스 역할을 하는 Template 캐시, 그리고 하나 이상의 Template 캐시를 기본 확산 런타임에 로드, 병합 및 주입하는 Template 파이프라인입니다. 인터페이스가 특정 제어 아키텍처에 얽매이지 않고 시스템 수준에서 정의되기 때문에 KV-Cache와 LoRA와 같은 이종 기능 운반체들이 동일한 추상화 아래에서 지원될 수 있습니다. 이 설계를 바탕으로 구조 제어, 밝기 조정, 색상 조정, 이미지 편집, 초해상도, 선명도 향상, 미적 정렬, 콘텐츠 참조, 지역 인페인팅 및 연령 제어에 이르는 다양한 모델 zoo를 구축합니다. 이러한 사례 연구는 Diffusion Templates가 빠르게 진화하는 확산 백본 전반에 걸쳐 모듈성, 구성 가능성 및 실용적인 확장성을 유지하면서 광범위한 제어 가능 생성 작업을 통합할 수 있음을 보여줍니다. 코드, 모델 및 데이터셋을 포함한 모든 자원은 오픈 소스로 공개될 예정입니다.
대규모 언어 모델은 외부 환경에 변화를 일으킬 수 있는 자율 에이전트의 의사결정 핵심으로 점차 더 많이 배포되고 있습니다. 그러나 현실 세계의 고객 중심 문제 해결 시나리오를 모방한 대화형 벤치마크에서 이러한 에이전트들은 잘못된 의사결정의 연쇄 효과로 인해 종종 실패합니다. 이러한 과제는 매개변수 규모가 작고, 컨텍스트 창이 제한적이며, 추론 예산이 제약된 오픈소스 LLM에서 특히 두드러집니다. 이러한 요소들은 에이전트 환경에서 오류 누적을 증가시키는 원인이 됩니다. 이러한 과제를 해결하기 위해 우리는 실패 인식 메타 에이전트(FAMA) 프레임워크를 제시합니다. FAMA는 두 단계로 운영됩니다. 첫째, 기준 에이전트들의 실패 궤적을 분석하여 가장 빈번한 오류를 식별합니다. 둘째, 오케스트레이션 메커니즘을 통해 이러한 실패를 해결하도록 특화된 전문 에이전트들의 최소 집합을 활성화하며, 이는 의사결정 단계 이전에 도구 사용 에이전트를 위해 표적화된 컨텍스트를 주입하는 방식입니다. 다양한 오픈소스 LLM을 대상으로 한 실험 결과, 표준 기준선 대비 최대 27%의 성능 향상을 모든 평가 모드에서 확인했습니다. 이러한 결과는 일반적인 실패를 해결하기 위해 특화된 에이전트를 통해 컨텍스트를 표적적으로 선별하는 것이 현실 세계 대화 시나리오를 모방한 신뢰할 수 있는 다중 턴 도구 사용 LLM 에이전트를 구축하는 데 있어 가치 있는 설계 원칙임을 보여줍니다.
본 논문에서는 단일 프레임워크 내에서 실시간 로봇 행동 실행과 고품질 4D 세계 합성(비디오 + 3D 재구성)을 통합한 X-WAM(Unified 4D World Model)을 제안한다. 이는 2D 픽셀 공간만을 모델링하고 행동 효율성과 세계 모델링 품질의 균형에 실패한 기존 통합 세계 모델(예: UWM)의 한계를 해결한다. 사전 학습된 비디오 확산 모델의 강력한 시각적 사전 지식을 활용하기 위해, X-WAM은 다중 시점 RGB-D 비디오를 예측하여 미래 세계를 예측하고, 경량 구조적 적응 방식을 통해 공간 정보를 효율적으로 획득한다. 이 방식은 사전 학습된 Diffusion Transformer의 최종 블록 몇 개를 전용 깊이 예측 분기로 복제하여 미래 공간 정보를 재구성한다. 더 나아가 생성 품질과 행동 디코딩 효율성을 공동으로 최적화하기 위해 ANS(Asynchronous Noise Sampling)를 제안한다. ANS는 추론 과정에서 특화된 비동기 노이즈 제거 스케줄을 적용하여, 더 적은 단계로 행동을 빠르게 디코딩하여 실시간 효율적 실행을 가능하게 하면서도 모든 단계를 전담하여 고품질 비디오를 생성한다. ANS는 학습 중 타임스텝을 완전히 분리하기보다 이들의 결합 분포에서 샘플링하여 추론 분포와 정렬한다. 5,800시간 이상의 로봇 데이터로 사전 학습된 X-WAM은 RoboCasa와 RoboTwin 2.0 벤치마크에서 각각 79.2%, 90.7%의 평균 성공률을 달성했으며, 시각적 및 기하학적 측정 지표 모두에서 기존 방법을 능가하는 고품질 4D 재구성 및 생성을 수행한다.
프론티어 언어 모델의 RL 사후 학습은 점차 자기회귀적 롤아웃 생성에 의해 병목 현상이 발생하며, 이로 인해 롤아웃 가속화는 핵심적인 시스템 과제로 대두되고 있습니다. 많은 기존 효율성 방법들은 오프-폴리시 실행, 재생, 낮은 정밀도 생성 등을 통해 롤아웃 또는 최적화 체계를 변경하여 처리량을 향상시킵니다. 우리는 RL 롤아웃을 위한 무손실 가속화 기본 요소로서 스페큘레이티브 디코딩을 연구하며, 이는 타겟 모델의 출력 분포를 보존합니다. 우리는 vLLM 백엔드를 갖춘 NeMo-RL에 스페큘레이티브 디코딩을 구현하여 동기 및 비동기 파이프라인을 모두 지원하고 RL 롤아웃 중 스페큘레이션을 가능하게 합니다. 이 이점은 사전 학습된 MTP 헤드, 소형 외부 드래프트 모델 또는 RL 단계 이후에 전통적으로 적용되던 Eagle3와 같은 기술과 같은 다양한 스페큘레이션 메커니즘에 걸쳐 실현 가능합니다. 이를 통해 RL 훈련 내에서 최첨단 스페큘레이티브 디코딩을 위한 배포 경로가 마련됩니다. 동기식 RL 하에서 8B 규모의 추론 사후 학습 워크로드에서 스페큘레이티브 디코딩은 롤아웃 처리량을 1.8배 향상시킵니다. 높은 정확도의 성능 시뮬레이터를 사용하여, 스페큘레이티브 디코딩과 비동기식 RL을 결합하면 235B 규모에서 최대 2.5배의 종단간 훈련 속도 향상을 기대할 수 있음을 예측합니다.
우리는 실제 자본이 걸린 환경에서 사용자 지시를 검증된 도구 행동으로 변환하는 자율 언어 모델 에이전트의 신뢰성을 연구한다. 실험 환경은 DX Terminal Pro로, 3,505개의 사용자 자금 지원 에이전트가 21일간 제한된 온체인 시장에서 실제 ETH를 거래한 배포 사례이다. 사용자는 구조화된 제어와 자연어 전략으로 금고를 구성했지만, 일반 매수/매도 거래 선택은 오직 에이전트만이 할 수 있었다.该系统은 750만 건의 에이전트 호출, 약 30만 건의 온체인 행동, 약 2천만 달러의 거래량, 5,000 ETH 이상의 배포 자본, 약 700억 개의 추론 토큰, 그리고 정책 검증을 통과한 제출 트랜잭션의 99.9% 결제 성공률을 기록했다. 장기 운영 에이전트는 수천 번의 연속적 결정을 누적했으며, 지속적으로 활성화된 에이전트의 경우 6,000회 이상의 프롬프트-상태-행동 주기를 생성하여 사용자 지시부터 렌더링된 프롬프트, 추론, 검증, 포트폴리오 상태, 결제에 이르는 대규모 트레이스 데이터를 산출했다. 신뢰성은 기본 모델만으로는 달성되지 않았으며, 모델을 둘러싼 운영 계층—프롬프트 컴파일, 타입 기반 제어, 정책 검증, 실행 가드, 메모리 설계, 트레이스 수준 가시성—에서 비롯되었다. 출시 전 테스트는 텍스트 기반 벤치마크가 거의 측정하지 않는 실패 유형을 드러냈는데, 조작된 거래 규칙, 수수료 마비, 숫자 고정, 정기적 거래, 토크노믹스 오독 등이 포함된다. 대상 테스트 집단에서 특수 설계된 하네스 변경으로 조작된 매도 규칙이 57%에서 3%로 감소했고, 수수료 주도 관측이 32.5%에서 10% 미만으로 줄었으며, 자본 배포율이 42.9%에서 78.0%로 증가했다. 우리는 자본 관리 에이전트가 사용자 지시부터 프롬프트, 검증된 행동, 결제에 이르는 전체 경로에 걸쳐 평가되어야 함을 보여준다.
사용자 시뮬레이션은 다양한 응용 분야를 지원할 수 있는 잠재력으로 인해 오랫동안 컴퓨터 과학 분야에서 중요한 역할을 해왔습니다. 인간 의사소통의 주요 매체인 언어는 사회적 상호작용과 행동의 기초를 형성합니다. 이에 따라 대화 행동 시뮬레이션은 핵심 연구 분야로 부상했습니다. 대규모 언어 모델(LLM)의 최근 발전은 합성 사용자 대화의 높은 정확도 생성을 가능하게 함으로써 이 분야의 진전을 크게 촉진하였습니다. 본 논문에서는 LLM 기반 대화형 사용자 시뮬레이션의 최근 발전을 조사합니다. 우리는 사용자 세분성과 시뮬레이션 목적을 포괄하는 새로운 분류 체계를 소개합니다. 또한 핵심 기술과 평가 방법론을 체계적으로 분석합니다. 우리는 연구 커뮤니티가 대화형 사용자 시뮬레이션의 최신 동향을 파악할 수 있도록 하고, 해결 과제를 제시하며 기존 연구를 통합된 프레임워크 아래 체계화함으로써 향후 연구를 촉진하는 것을 목표로 합니다.
표준 텍스트-음성 변환(TTS) 평가는 명료도(WER, CER)와 전반적 자연스러움(MOS, UTMOS)을 측정하지만 액센트는 정량화하지 않습니다. 합성기가 네 가지 지표 모두에서 우수한 점수를 받더라도 목표 언어에서 음소론적으로 중요한 특징에서 비원어민처럼 들릴 수 있습니다. 인도 언어의 경우, 이러한 특징에는 권설음, 유기음, 모음 길이, 타밀어 권설 접근음(문자 'zha')이 포함됩니다. 본 논문은 인도 TTS를 위한 해석 가능한 음운론적 차원별 액센트 벤치마크인 PSP(Phoneme Substitution Profile)를 제안합니다. PSP는 액센트를 여섯 가지 상호 보완적 차원으로 분해합니다: 권설음 붕괴율(RR), 유기음 정확도(AF), 모음 길이 정확도(LF), 타밀어-zha 정확도(ZF), 프레셰 오디오 거리(FAD), 운율 특성 발산(PSD). 처음 네 가지는 Wav2Vec2-XLS-R 9번째 레이어 임베딩에 대해 강제 정렬 및 원어민 중심 음향 프로빙을 통해 측정되며, 나머지 두 가지는 코퍼스 수준 분포 거리입니다. 이 v1에서는 4개의 상용 및 오픈소스 시스템(ElevenLabs v3, Cartesia Sonic-3, Sarvam Bulbul, Indic Parler-TTS)을 힌디어, 텔루구어, 타밀어 파일럿 세트로 벤치마크하고, 다섯 번째 시스템(Praxy Voice)은 세 언어 모두에 포함하며, 텔루구어 R5->R6 사례 연구를 추가했습니다. 세 가지 주요 결과: (i) 권설음 붕괴율은 음운론적 난이도(힌디어 < 텔루구어 < 타밀어)에 따라 단조 증가함(~1%, ~40%, ~68%); (ii) PSP 순위는 WER 순위와 다름 – 상용 WER 선두 시스템이 권설음 또는 운율 정확도에서 일관되게领先하지 않음; (iii) 단일 시스템이 여섯 차원 모두에서 파레토 최적이 아님. 본 논문은 원어민 기준 중심점(언어당 500 클립), FAD용 1000 클립 임베딩, PSD용 500 클립 운율 특성 행렬, 언어당 300 발화 골든 세트, MIT 라이선스 채점 코드, CC-BY 라이선스 중심점을 공개합니다. 공식 MOS 상관관계 분석은 v2로 연기되며, v1은 5가지 내적 일관성 신호와 원어민 오디오 정성 검증 결과를 보고합니다.
상용 TTS 시스템은 인도어 계열 언어에서 거의 원어민 수준의 오디오를 생성하지만, 최고의 오픈소스 기반 모델(Chatterbox, Indic Parler-TTS, IndicF5)은 측정된 음운론적 차원에서 이들에 미치지 못하며, 가장 널리 채택된 다국어 기반 모델(Chatterbox, 23개 언어)은 텔루구어나 타밀어도 토큰화하지 않는다. 우리는 다음과 같은 질문을 던진다: 새로운 음향 디코더를 훈련시키지 않고, 상용 TTS 훈련 데이터를 전혀 사용하지 않으면서, 이러한 비(非)인도어 원어민 기반 모델이 텔루구어, 타밀어, 힌디어에서 상용 수준의 결과를 내도록 하는 최소한의 개입은 무엇인가? 우리는 세 가지 요소를 결합했다: (1) BUPS(Brahmic Unified Phoneme Space) - 7가지 인도어 스크립트를 ISO-15919로 결정론적으로 로마자화하여 Chatterbox의 라틴어 토크나이저가 처리할 수 있게 함. (2) 오직 텍스트 토큰 예측기(Chatterbox의 t3)에만 적용된 LoRA 어댑터 - 힌디어 프록시 언어 ID를 사용하여 약 1,220시간의 라이선스된 인도어 오디오로 훈련됨. (3) 음성 프롬프트 복원 방법론 - 8-11초 동일 언어 참조 클립과 세 가지 샘플링 오버라이드(과장 0.7, 온도 0.6, min_p 0.1; "Config B")로 구성되며, 음향 디코더 훈련 없이 상용 수준의 음향 출력을 복원함. 힌디어의 경우 LoRA는 정확도를 저하시켜 대신 기본 Chatterbox + Config B를 사용하여 2가지 브랜치 배포를 구현했다. 동반 PSP 벤치마크를 이용한 10개 발화 파일럿 세트에서 평가한 결과, Praxy Voice는 상용 기준선과 동등하거나 약간 앞선 성능을 보였다: 텔루구어 설측음 붕괴 26.7%(대비 Sarvam Bulbul 33.3%), 타밀어 'zha' 붕괴 71%(대비 상용 3사 86%), 힌디어 LLM-WER 0.025(Cartesia Sonic-3와 동률). 문장 내 코드 혼용의 경우 세 번째 브랜치(IndicF5 + 원본 스크립트 음역)를 추가하여 힌디어/텔루구어/타밀어 전체에서 코드 혼용 LLM-WER을 0.80-0.85에서 0.14-0.27로 낮췄다. 우리는 R6 LoRA 가중치(Apache-2.0), 추론 코드 및 라우터(MIT), Gradio 데모를 공개한다.
패션 AI 시스템은 특정 브랜드, 편집자, 역사적 순간의 미학적 논리를 공개하지 않은 채 일상적으로 인코딩합니다. 우리는 이러한 문화적 논리를 검사 가능하게 만드는 FASH-iCNN을 제안합니다. 이 멀티모달 시스템은 1991년부터 2024년까지 15개 패션 하우스의 87,547개 Vogue 런웨이 이미지로 학습되었습니다. 의류 사진이 입력되면 시스템은 해당 의류를 생산한 브랜드, 속한 시대, 반영하는 컬러 전통을 복원합니다. 의류 이미지만 사용한 모델은 14개 브랜드에 대해 78.2%의 Top-1 정확도로 브랜드를, 88.6%의 Top-1 정확도로 시대(10년 단위)를, 34년에 걸쳐 평균 오차가 2.2년에 불과한 58.3%의 Top-1 정확도로 특정 연도를 식별합니다. 어떤 시각적 채널이 이 신호를 전달하는지 분석한 결과 급격한 분리가 확인되었습니다: 색상을 제거하면 브랜드 정체성 정확도가 10.6%p만 하락한 반면, 텍스처를 제거하면 37.6%p가 하락하여 텍스처와 명도가 편집적 정체성의 주요 전달체임을 입증했습니다. FASH-iCNN은 편집 문화를 배경 노이즈가 아닌 신호로 취급하여 각 출력 결과를 형성한 브랜드, 시대, 컬러 전통을 식별함으로써 사용자가 시스템이 예측한 내용뿐만 아니라 해당 예측에 인코딩된 브랜드, 편집자, 역사적 순간을 확인할 수 있게 합니다.
시각적 계획은 인간 지능의 중요한 측면을 나타내며, 특히 복잡한 공간 추론과 탐색이 필요한 과제에서 두드러집니다. 그러나 기계 학습에서는 본질적으로 시각적인 이 문제가 종종 언어 중심의 시각으로 접근됩니다. 최근 연구가 완전히 시각적인 접근법의 가능성을 보여주지만, 단계별 생성에 의한 계획 패러다임으로 인해 심각한 계산 비효율성을 겪고 있습니다. 본 연구에서는 시각적 계획을 단일 단계 이미지 변환으로 재정립하는 추론으로서의 편집(editing-as-reasoning) 패러다임인 EAR를 제시합니다. 본질적인 추론을 시각 인식으로부터 분리하기 위해 추상적인 퍼즐을 탐색 과제로 활용하고, 고유하고 상호 보완적인 형태의 시각적 계획을 포괄하는 고전적인 미로와 퀸 문제를 특징으로 하는 절차적 생성 데이터셋인 AMAZE를 소개합니다. AMAZE의 추상적 특성은 또한 픽셀 단위 정확도와 논리적 타당성 측면에서 자기회귀 및 확산 기반 모델의 자동 평가를 용이하게 합니다. 우리는 주요 독점 및 오픈소스 편집 모델을 평가했습니다. 결과는 모든 모델이 제로샷 환경에서 어려움을 겪지만, 기본 규모에 대한 미세 조정이 더 큰 도메인 내 규모와 도메인 외 규모 및 기하학으로의 놀라운 일반화를 가능하게 함을 보여줍니다. 그러나 고사양 하드웨어에서 실행되는 우리의 최고 성능 모델도 인간 해결사의 제로샷 효율성을 따라가지 못하며, 이는 신경망 시각 추론의 지속적인 격차를 강조합니다.
연합 학습(FL)은 중앙 서버의 관리 하에 여러 장치가 기반 데이터를 공유하지 않고 협력적으로 모델을 학습하는 분산 기계 학습 방법이다. FL의 주요 과제 중 하나는 장치 간 연결 속도와 대역폭 차이로 인한 통신 병목 현상이다. 따라서 학습 과정에서 전송 데이터의 크기를 줄이는 것이 필수적이다. 또한 학습 중 모델 또는 기울기 분석을 통해 민감 정보가 노출될 위험도 존재한다. 본 연구는 프라이버시와 통신 효율성이라는 두 가지 문제를 동시에 해결하기 위해 차등 프라이버시(DP)와 적응적 양자화 방법을 결합한다. 프라이버시 보호를 위해 Laplacian 기반 DP를 사용하며, 이는 FL 연구에서 상대적으로 덜 탐구된 분야이면서 Gaussian 기반 DP보다 엄격한 프라이버시 보장을 제공한다. 라운드 기반 코사인 어닐링을 사용한 간단하고 효율적인 전역 비트 길이 스케줄러와, 데이터셋 엔트로피 분석을 통해 추정된 클라이언트 기여도에 기반하여 동적으로 적응하는 클라이언트 기반 스케줄러를 제안한다. CIFAR10, MNIST 및 의료 영상 데이터셋에 대해 다양한 클라이언트 수, 비트 길이 스케줄러, 프라이버시 예산을 적용한 비동일독립분포 데이터 환경에서 폭넓은 실험을 통해 방법을 평가한다. 결과는 제안한 적응적 양자화 방법이 32비트 부동소수점 학습 대비 MNIST에서 최대 52.64%, CIFAR10에서 45.06%, 의료 영상 데이터셋에서 31%에서 37%까지 총 통신 데이터량을 감소시키면서도 경쟁력 있는 모델 정확도를 유지하고 차등 프라이버시를 통해 강력한 프라이버시를 보장함을 보여준다.
연합 학습은 중앙 서버의 감독 하에 여러 장치가 데이터 프라이버시를 보장하면서 협력적으로 모델을 학습하는 머신러닝 패러다임이다. 그러나 성능은 종종 중복, 악성 또는 이상 샘플로 인해 저하되어 모델 성능 저하와 비효율성을 초래한다. 이러한 문제를 극복하기 위해 본 연구에서는 이미지 분류를 위한 새로운 샘플 선택 방법을 제안하며, 다중 작업 오토인코더를 활용하여 손실 및 특징 분석을 통해 샘플 기여도를 추정한다. 우리의 접근법은 비지도 이상치 탐지를 통합하여, 중앙 서버가 관리하는 1-클래스 지원 벡터 머신(OCSVM), 아이솔레이션 포레스트(IF) 및 적응형 손실 임계값(AT) 방법을 사용하여 클라이언트의 잡음 샘플을 필터링한다. 또한 특징 기반 샘플 선택을 강화하기 위해 중앙 서버가 제어하는 다중 클래스 심층 지원 벡터 데이터 기술(SVDD) 손실을 제안한다. 우리는 다양한 클라이언트 수, 비동일독립분포(non-IID) 설정 및 최대 40%의 잡음 수준에서 CIFAR10 및 MNIST 데이터셋으로 방법을 검증한다. 결과는 손실 기반 샘플 선택으로 유의미한 정확도 향상을 보여주며, CIFAR10에서 OCSVM을 사용하여 최대 7.02%, MNIST에서 AT를 사용하여 최대 1.83%의 성능 향상을 달성했다. 또한 우리의 연합 SVDD 손실은 특징 기반 샘플 선택을 추가로 개선하여 CIFAR10에서 OCSVM을 사용하여 최대 0.99%의 정확도 향상을 보였다. 이러한 결과는 다양한 클라이언트 수와 잡음 조건에서 모델 정확도를 향상시키는 우리 방법의 효과를 입증한다.