번역이 포함된 일일 선별된 AI 연구 논문
강화 미세조정(RFT)은 지도 미세조정(SFT)과 강화 학습(RL)으로 구성된 2단계 프레임워크로, 대규모 언어 모델(LLM)의 추론 능력 향상에 유망한 결과를 보여왔습니다. 그러나 RFT를 대규모 비디오 언어 모델(LVLM)로 확장하는 것은 여전히 어려운 과제로 남아 있습니다. 본 논문에서는 인지와 추론을 별개의 과정으로 모델링하여 비디오 추론을 향상시키는 새로운 과정 인식 비디오 RFT 프레임워크인 VideoP2R을 제안합니다. SFT 단계에서는 인지와 추론을 위한 고품질의 과정 인식 사고 연쇄(CoT) 데이터셋인 VideoP2R-CoT-162K를 생성하는 3단계 파이프라인을 개발했습니다. RL 단계에서는 인지와 추론에 대해 별도의 보상을 제공하는 새로운 과정 인식 그룹 상대 정책 최적화(PA-GRPO) 알고리즘을 도입했습니다. 광범위한 실험을 통해 VideoP2R이 7개의 비디오 추론 및 이해 벤치마크 중 6개에서 최첨단(SotA) 성능을 달성함을 확인했습니다. 추가로 진행한 제어 실험(ablation study)을 통해 우리의 과정 인식 모델링과 PA-GRPO의 효과성이 검증되었으며, 모델의 인지 출력이 하류 추론(downstream reasoning)에 필요한 정보를 충분히 제공함을 입증했습니다.
대규모 언어 모델(LLM)의 추론 능력 향상, 특히 매개변수 제약 조건에서의 향상은 실용적 응용에 있어 중요합니다. 기존 연구에서는 생성 품질을 높이기 위해 토큰당 고정된 추가 반복 횟수를 할당하는 순환 트랜스포머(recurrent transformer)를 제안했습니다. 첫 번째 정방향 전달(standard forward pass) 이후 언어화(verbalization) 대신, 최종 계층 은닉 상태를 입력으로 다시 공급하여 추가 반복을 통해 토큰 예측을 개선합니다. 그러나 우리는 잠재적 과도사고(latent overthinking) 현상을 확인했습니다: 첫 번째 전달에서 이미 정확하게 예측된 쉬운 토큰들이 추가 반복에서 오류로 수정되는 경우가 있습니다. 이를 해결하기 위해 우리는 어려운 토큰(hard tokens)에서만 더 깊이 반복하는 동적 잠재 사고 방법인 Think-at-Hard(TaH)를 제안합니다. TaH는 정방향 전달 후 올바르지 않을 가능성이 높은 토큰에서만 잠재 반복(latent iteration)을 트리거하는 경량 신경망 결정 장치(decider)를 사용합니다. 잠재 반복 동안 LoRA(Low-Rank Adaptation) 모듈은 LLM의 목적을 일반적인 다음 토큰 예측에서 집중적인 어려운 토큰 정제(focused hard-token refinement)로 전환합니다. 또한 우리는 토큰 시퀀스 차원에서 반복 깊이(iteration depth) 차원으로 어텐션(attention)을 확장하는 이중 인과 어텐션(duo-causal attention) 메커니즘을 도입했습니다. 이는 완전한 순차적 병렬성(sequential parallelism)을 유지하면서 교차 반복 정보 흐름(cross-iteration information flow)을 가능하게 합니다. 실험 결과, TaH는 동일한 매개변수 수를 유지하면서 다섯 가지 어려운 벤치마크에서 LLM 추론 성능을 향상시켰습니다. 모든 출력 토큰에 대해 두 번 반복하는 베이스라인과 비교했을 때, TaH는 출력 토큰의 94%를 두 번째 반복에서 제외하면서 8.1-11.3%의 정확도 향상을 달성했습니다. 동일한 데이터로 미세 조정된 강력한 단일 반복(single-iteration) Qwen3 모델과 비교해서도 4.0-5.0%의 정확도 향상을 보였습니다. LoRA 및 반복 결정 장치(iteration decider)로부터 3% 미만의 추가 매개변수만 허용하는 경우, 이 향상률은 각각 8.5-12.6% 및 5.3-5.4%로 증가했습니다. 우리의 코드는 https://github.com/thu-nics/TaH에서 확인할 수 있습니다.
혁신적인 시각적 스타일화는 예술 창작의 초석이지만, 새롭고 일관된 시각 스타일을 생성하는 것은 여전히 큰 과제로 남아 있습니다. 기존 생성 방법들은 일반적으로 장문의 텍스트 프롬프트, 참조 이미지, 또는 매개변수 효율적 미세 조정에 의존하여 스타일 인식 이미지 생성을 유도하지만, 스타일 일관성, 제한된 창의성, 복잡한 스타일 표현에 어려움을 겪는 경우가 많습니다. 본 논문에서는 수치적 스타일 코드만을 조건으로 하여 새롭고 일관된 시각 스타일의 이미지를 생성하는 새로운 과제인 코드-투-스타일 이미지 생성(code-to-style image generation)을 소개함으로써 하나의 스타일이 하나의 수치 코드에 해당함을 주장합니다. 현재까지 이 분야는 주로 산업계(예: Midjourney)에서만 탐구되었으며, 학계의 오픈소스 연구는 존재하지 않습니다. 이러한 공백을 메우기 위해, 우리는 본 과제를 위한 최초의 오픈소스 방법론인 CoTyle을 제안합니다. 구체적으로, 우리는 먼저 이미지 컬렉션으로부터 이산 스타일 코드북을 학습하여 스타일 임베딩을 추출합니다. 이러한 임베딩은 텍스트-투-이미지 확산 모델(T2I-DM)이 스타일적 이미지를 생성하도록 하는 조건으로 작용합니다. 이후, 우리는 이산 스타일 임베딩에 대해 자기회귀 스타일 생성기를 학습하여 그 분포를 모델링함으로써 새로운 스타일 임베딩의 합성을 가능하게 합니다. 추론 단계에서는 수치적 스타일 코드가 스타일 생성기에 의해 고유한 스타일 임베딩으로 매핑되며, 이 임베딩이 T2I-DM을 안내하여 해당 스타일의 이미지를 생성합니다. 기존 방법과 달리, 우리의 방법은 비할 나위 없는 단순성과 다양성을 제공하며, 최소한의 입력으로부터 재현 가능한 방대한 스타일 공간을 개방합니다. 폭넓은 실험을 통해 CoTyle이 수치 코드를 효과적으로 스타일 제어기로 전환하며, 하나의 스타일이 하나의 코드에 해당함을 입증합니다.
우리는 대규모 언어 모델(LLM)의 아랍어 언어 능력을 평가하기 위한 완전히 인간이 주석을 단 벤치마크인 AraLingBench를 소개한다. 이 벤치마크는 문법, 형태론, 철자, 독해, 구문 등 다섯 가지 핵심 범주를 아우르며, 구조적 언어 이해를 직접 평가하는 150개의 전문가 설계 다중 선택 문제로 구성되어 있다. 35개의 아랍어 및 이중 언어 LLM을 평가한 결과, 현재 모델들은 표면적 수준에서는 강한 숙련도를 보이지만 더 깊은 문법적 및 구문적 추론에서는 어려움을 겪는 것으로 나타났다. AraLingBench는 지식 기반 벤치마크에서의 높은 점수와 진정한 언어 숙달 사이의 지속적인 격차를 강조하며, 많은 모델들이 진정한 이해보다는 암기나 패턴 인식을 통해 성공하고 있음을 보여준다. 기본적인 언어 능력을 분리하고 측정함으로써, AraLingBench는 아랍어 LLM 개발을 위한 진단 프레임워크를 제공한다. 전체 평가 코드는 GitHub에 공개되어 있다.
파운데이션 모델은 다양한 분야에서 인공지능을 혁신적으로 발전시켰으나, 극다중라벨분류(XMC) 영역에서는 그 잠재력이 아직 충분히 활용되지 않고 있습니다. XMC에서의 질의는 극도로 큰 라벨 공간에서 관련 라벨들과 연관되며, 효율성과 성능 간의 균형을 맞추는 것이 매우 중요합니다. 이에 따라 최근 많은 접근법들은 소규모의 인코더 전용 트랜스포머 구조에서 학습된 임베딩 간의 최대 내적 탐색으로 XMC를 효율적으로 구성하고 있습니다. 본 논문에서는 XMC의 두 가지 중요한 측면, 즉 더 큰 디코더 전용 모델의 효과적 활용 방법과 계산 효율성을 유지하면서 시각 정보를 활용하는 방법을 다룹니다. 우리는 이 두 요소가 각각 XMC에서 중요한 역할을 하며 성능 향상을 위해 결합될 수 있음을 입증합니다. 수십억 개의 매개변수를 가진 디코더라도 계산 오버헤드를 관리 가능한 수준으로 유지하면서 상당한 성능 향상을 제공할 수 있음을 보여줍니다. 더 나아가, 우리가 제안하는 시각 정보 강화 극다중라벨 학습 프레임워크(ViXML)는 이미지당 단일 임베딩을 풀링하여 파운데이션 비전 모델을 효율적으로 통합합니다. 이는 계산 비용의 증가를 제한하면서 다중 모드 능력을 확보합니다. 주목할 만하게도, 소규모 인코더를 사용하는 ViXML은 대부분의 경우 텍스트 전용 디코더를 능가하며, 이는 하나의 이미지가 수십억 개의 매개변수에 버금가는 가치가 있음을 시사합니다. 마지막으로, 우리는 기존 텍스트 전용 데이터셋을 시각 메타데이터를 활용하도록 확장한 버전을 공개하여 향후 벤치마킹에 활용할 수 있도록 합니다. 4개의 공개 텍스트 전용 데이터셋과 해당 이미지 강화 버전에 대한 포괄적인 실험을 통해 우리의 제안이 효과적임을 입증하며, 가장 큰 데이터셋에서 P@1 기준 최대 +8.21%까지 기존 최첨단 기술을 능가함을 확인합니다. ViXML의 코드는 https://github.com/DiegoOrtego/vixml에서 이용 가능합니다.
체인 오브 쏘트(CoT) 프롬프팅이 대규모 언어 모델(LLM)에서 정교한 기호 추론을 가능하게 하지만, 이는 여전히 이산적인 텍스트에 국한되어 실제 세계의 연속적이고 물리 법칙에 따른 역학을 시뮬레이션할 수 없습니다. 최근 등장한 비디오 생성 모델들은 체인 오브 프레임(CoF) 추론을 통해 잠재적 세계 시뮬레이터로 부상하고 있습니다. 이는 사고를 프레임별 시각적 시퀀스로 구체화하며, 각 프레임은 물리적 근거를 가진 추론 단계를 나타냅니다. 설득력 있는 데모에도 불구하고 지속적인 과제가 있습니다: 충실도나 정렬에 초점을 맞춘 기존 벤치마크는 CoF 추론을 평가하지 않아 다단계 계획, 알고리즘적 논리, 추상적 패턴 외삽과 같은 핵심 인지 능력을 측정할 수 없습니다. 이러한 평가 공백은 모델 능력에 대한 체계적 이해와 개선을 위한 원칙적 지침을 방해합니다. 우리는 인지 과학과 실제 AI 응용 분야에 기반을 둔 Gen-ViRe(Generative Visual Reasoning Benchmark) 프레임워크를 소개합니다. 이는 CoF 추론을 지각 논리에서 추상적 계획에 이르는 6개의 인지 차원과 24개의 하위 작업으로 분해합니다. 다중 소스 데이터 큐레이션, 최소한의 프롬프팅 프로토콜, 상세한 기준을 갖춘 VLM 지원 하이브리드 평가를 통해 Gen-ViRe는 비디오 모델을 추론자로서 최초의 정량적 평가를 제공합니다. 최첨단 시스템에 대한 우리의 실험은 인상적인 시각적 품질과 실제 추론 깊이 사이의 상당한 차이를 드러내며, 진정한 세계 시뮬레이터 발전을 위한 기준선과 진단 도구를 확립합니다.
순수 텍스트 기반 재고(rethinking) 과정에 의존하는 자기 성찰(self-reflection) 메커니즘은 대부분의 멀티모달 작업에서 우수한 성능을 보입니다. 그러나 장편 영상 이해(long-form video understanding) 시나리오에 직접 적용할 경우, 이러한 메커니즘은 명확한 한계를 드러냅니다. 그 근본적인 이유는 두 가지에 기인합니다: (1) 장편 영상 이해는 더 풍부하고 동적인 시각적 입력을 수반하므로, 텍스트 정보만 재고하는 것으로는 부족하며 시각 정보를 특별히 대상으로 하는 추가적인 재고 과정이 필수적입니다. (2) 순수 텍스트 기반 성찰 메커니즘은 크로스모달 상호작용 능력이 부족하여 성찰 과정에서 시각 정보를 완전히 통합하는 것을 방해합니다. 이러한 통찰을 바탕으로, 우리는 도구 증강(tool-augmented) 멀티모달 성찰을 위한 새로운 프레임워크인 REVISOR(REflective VIsual Segment Oriented Reasoning)를 제안합니다. REVISOR는 MLLM(Multimodal Large Language Model)이 텍스트와 시각 양식(modality)에 걸쳐 협력적으로 내성적 성찰(introspective reflection) 과정을 구축할 수 있게 하여, 장편 영상 이해에 대한 추론 능력을 크게 향상시킵니다. REVISOR가 강화 학습 과정에서 질문과 높은 관련성을 지닌 영상 세그먼트를 정확히 검토하는 방법을 학습할 수 있도록 하기 위해, 우리는 이중 귀속 분리 보상(Dual Attribution Decoupled Reward, DADR) 메커니즘을 설계했습니다. GRPO(Group Relative Policy Optimization) 훈련 전략에 통합된 이 메커니즘은 모델의 추론과 선택된 영상 증거 사이의 인과적 정렬(causal alignment)을 강제합니다. 주목할 점은, REVISOR 프레임워크가 추가적인 지도 미세 조정(supervised fine-tuning)이나 외부 모델을 필요로 하지 않으면서도 MLLM의 장편 영상 이해 능력을 크게 향상시켜 VideoMME, LongVideoBench, MLVU, LVBench 등 4개의 벤치마크에서 인상적인 결과를 달성했다는 것입니다.
대규모 시각-언어 모델(LVLM)의 견고성을 평가하는 것은 실제 애플리케이션에서의 지속적인 발전과 책임 있는 배포에 필수적입니다. 그러나 기존의 견고성 벤치마크는 일반적으로 환각(hallucination)이나 오도하는 텍스트 입력에 초점을 맞추는 반면, 시각적 이해 평가에서 동등하게 중요한 과제인 오도하는 시각 입력에 의한 문제는 크게 간과되어 왔습니다. 이러한 중요한 공백을 메우기 위해, 우리는 오도하는 시각 입력(Misleading Visual Inputs)이 LVLM의 견고성을 어떻게 훼손하는지 평가하기 위해 특별히 설계된 첫 번째 포괄적인 벤치마크인 MVI-Bench를 소개합니다. 기본적인 시각 요소(visual primitives)에 기반을 둔 MVI-Bench의 설계는 오도하는 시각 입력의 세 가지 계층적 수준, 즉 시각 개념(Visual Concept), 시각 속성(Visual Attribute), 시각 관계(Visual Relationship)를 중심으로 구성됩니다. 이 분류 체계를 사용하여 우리는 여섯 가지 대표적인 범주를 선정하고 1,248개의 전문적으로 주석이 달린 VQA(Visual Question Answering) 인스턴스를 구성했습니다. 세분화된 견고성 평가를 용이하게 하기 위해, 우리는 LVLM의 견고성을 세부 수준에서 특징짓는 새로운 평가 지표인 MVI-민감도(MVI-Sensitivity)를 추가로 도입했습니다. 18개의 최신 LVLM에 대한 실험 결과는 오도하는 시각 입력에 대한 현저한 취약성을 드러냈으며, MVI-Bench에 대한 심층 분석은 보다 신뢰할 수 있고 견고한 LVLM 개발을 안내할 수 있는 실행 가능한 통찰력을 제공합니다. 벤치마크와 코드베이스는 https://github.com/chenyil6/MVI-Bench 에서 확인할 수 있습니다.
우리는 어떤 형태의 입력도 받아들이고 어떤 형태의 출력도 생성할 수 있는 시각 에이전트 프레임워크인 Orion을 소개합니다. 다중 도구 호출 기능을 갖춘 에이전트 프레임워크를 활용하는 Orion은 시각 AI 작업을 위해 설계되었으며 최첨단 성능을 달성합니다. 기술적인 출력을 생성하는 기존의 시각-언어 모델과 달리, Orion은 객체 감지, 키포인트 위치 추정, 파노픽 분할, 광학 문자 인식, 기하학적 분석 등 전문 컴퓨터 비전 도구들을 조율하여 복잡한 다단계 시각 워크플로를 실행합니다. 본 시스템은 MMMU, MMBench, DocVQA, MMLongBench에서 경쟁력 있는 성능을 보이는 동시에 단일 구조의 시각-언어 모델을 프로덕션 급 시각 인텔리전스로 확장합니다. 신경망 기반 인지와 기호적 실행을 결합함으로써 Orion은 자율적인 시각 추론을 가능하게 하며, 수동적인 시각 이해에서 능동적이고 도구 주도적인 시각 인텔리전스로의 전환을 이끕니다.
대규모 언어 모델(LLM)은 복잡한 문제 해결을 위해 능동적인 환경 상호작용(예: 도구 활용)이 가능한 에이전트 구축을 위해 점차 더 많이 연구되고 있다. 강화 학습(RL)은 이러한 에이전트 훈련에 상당한 잠재력을 지닌 핵심 기술로 간주되지만, LLM 에이전트에 대한 RL의 효과적 적용은 아직 초기 단계이며 상당한 과제에 직면해 있다. 현재 이 신생 분야는 LLM 에이전트 맥락에 특화된 RL 접근법에 대한 심층적인 탐구가 부족할 뿐만 아니라, 이를 위해 설계된 유연하고 확장이 쉬운 훈련 프레임워크도 드물다. 본 논문은 이 분야의 발전을 돕고자, 먼저 마르코프 결정 과정(MDP) 프레임워크를 체계적으로 확장하여 LLM 에이전트의 핵심 구성 요소를 포괄적으로 정의함으로써 LLM 에이전트를 위한 강화 학습 방법론을 재검토하고 명확히 한다. 둘째, 다양한 작업 시나리오와 상호작용 환경에서 직관적으로 적용할 수 있도록 설계된, RL 기반 LLM 에이전트를 위한 모듈식이고 유연하며 사용자 친화적인 훈련 프레임워크인 Agent-R1을 소개한다. Multihop QA 벤치마크 작업에 대한 실험을 수행하여 제안한 방법론과 프레임워크의 효과에 대한 기초적인 검증을 제공한다.
최근 오디오-비디오 통합 이해를 목표로 하는 올니모달 대규모 언어 모델(OmniLLMs)의 연구 관심이 증가하고 있으나, 오디오-비디오 토큰 시퀀스 처리 과정에서 상당한 계산 병목 현상이 발생합니다. 기존 토큰 압축 방법은 이처럼 다중 모달 토큰을 공동으로 압축해야 하는 새로운 요구를 아직 수용하지 못하고 있습니다. 이러한 격차를 해결하기 위해 본 논문은 훈련 없이도 다중 모달 토큰 표현을 최적화하고 추론 속도를 가속화하는 오디오 주도 오디오-비디오 토큰 압축 프레임워크인 OmniZip을 제안합니다. 구체적으로 OmniZip은 먼저 주요 오디오 토큰을 식별한 후, 각 시간 그룹별 오디오 보존 점수를 계산하여 정보 밀도를 파악함으로써 교차 모달 유사성으로 강화된 오디오 앵커 단서를 보존하면서 동적으로 비디오 토큰 가지치기를 안내합니다. 각 시간 창에서 OmniZip은 인터리빙된 시공간 방식으로 비디오 토큰을 압축합니다. 폭넓은 실험 결과는 OmniZip의 장점을 입증하며, 훈련 없이도 성능을 유지하면서 기타 최고 수준의 방법 대비 3.42배의 추론 가속화와 1.4배의 메모리 감소를 달성했습니다.
대규모 언어 모델(LLM)의 급속한 발전으로 인해 많은 기존 벤치마크에서 성능 포화 현상이 나타나며, 첨단 모델을 변별하는 능력에 대한 의문이 제기되고 있습니다. 동시에 기존 고난이도 벤치마크는 종종 협소한 학문적 범위, 지나치게 단순화된 답변 형식, 데이터 오염에 대한 취약성 등의 문제를 지녀 실제 과학적 탐구 과정과 충실도 격차를 보입니다. 이러한 문제를 해결하기 위해 우리는 약 800개의 독창적인 문제로 구성된 대규모 고난이도 융합 학제 평가 패키지인 ATLAS(AGI-Oriented Testbed for Logical Application in Science)를 소개합니다. 해당 분야 전문가(박사 수준 이상)들이 개발한 ATLAS는 수학, 물리학, 화학, 생물학, 컴퓨터 과학, 지구 과학, 재료 과학 등 7개 핵심 과학 분야를 아우릅니다. 주요 특징은 다음과 같습니다: (1) 높은 독창성과 오염 저항성: 모든 문제가 새롭게 생성되거나 테스트 데이터 누출을 방지하기 위해 실질적으로 개선됨; (2) 융합 학제적 초점: 다양한 과학 분야 간 지식 통합 및 추론 능력 평가를 위해 설계됨; (3) 높은 충실도의 답변: 단순한 객관식 문항보다 다단계 추론과 LaTeX 형식의 표현을 포함하는 복잡하고 개방형 답변을 우선시함; (4) 엄격한 품질 관리: 전문가 동료 검토와 적대적 테스트의 다단계 과정을 통해 문제 난이도, 과학적 가치 및 정확성을 보장. 또한 우리는 복잡한 답변을 자동적이고 세밀하게 평가하기 위해 LLM 평가자 패널을 활용한 강력한 평가 패러다임을 제안합니다. 선도적인 모델에 대한 예비 결과는 ATLAS가 고급 과학적 추론 능력을 변별하는 데 효과적임을 보여줍니다. 우리는 ATLAS를 장기적이고 개방적이며 커뮤니티 주도형 플랫폼으로 발전시켜 인공 일반 지능(AGI)으로의 진전을 위한 신뢰할 수 있는 '척도'를 제공할 계획입니다.
파운데이션 모델은 많은 비전 과제에서 효과적인 백본으로 부상하고 있습니다. 그러나 현재의 자기 지도 특성은 높은 수준의 의미 정보를 기하학 및 조명과 같은 낮은 수준의 물리적 요소와 얽히게 하여, 명시적인 물리적 추론을 필요로 하는 과제에서의 활용을 저해하고 있습니다. 본 논문에서는 재료 식별(반사 신호 및 기하학적 메조구조 포함)에 민감한 표현을 유도하는 새로운 물리 기반 시각 백본인 Φeat를 소개합니다. 우리의 핵심 아이디어는 다양한 형태와 조명 조건 하에서 동일한 재료의 공간 크롭과 물리적 증강을 대조하는 사전 훈련 전략을 채택하는 것입니다. 유사한 데이터가 내재 분해나 재료 추정과 같은 고급 지도 과제에서 사용되어 왔지만, 우리는 명시적 레이블 없이 순수 자기 지도 훈련 전략만으로도 외부 물리적 요소에 불변하는 강건한 특성을 요구하는 과제에 강력한 사전 지식을 제공함을 입증합니다. 우리는 학습된 표현을 특성 유사도 분석과 재료 선택을 통해 평가하며, Φeat가 의미적 그룹화를 넘어 물리적으로 근거 있는 구조를 포착함을 보여줍니다. 이러한 결과는 비전 및 그래픽 분야에서 물리 인지 인식을 위한 기초로 무인도 물리 특성 학습의 가능성을 강조합니다.
대규모 언어 모델(LLM)은 강력한 제로샷 및 퓨샷 학습 능력을 지닙니다. 그러나 후보 옵션 집합에 대한 예측 시 LLM은 레이블 편향에 취약하며, 기존 보정 방법은 다중 토큰 클래스 레이블에서 발생하는 편향을 간과합니다. 본 연구는 표준 길이 정규화 후에도 서로 다른 길이의 레이블이 일관되지 않게 처리되는 '레이블 길이 편향' 문제를 다룹니다. 이를 완화하기 위해 전체 레이블 수준에서 예측을 정규화하고 보정하는 효과적인 방법인 정규화된 문맥 보정(NCC)을 제안합니다. NCC는 여러 데이터셋과 모델에서 기존 접근법 대비 통계적으로 유의미한 성능 향상을 달성하며, 최대 10%p의 F1 점수 상승을 보입니다. 더 나아가 NCC는 다중 선택 질의응답과 같은 보다 광범위한 작업으로 편향 완화를 확장합니다. 분석 결과, 문맥 학습과 결합된 NCC는 퓨샷 예시 선택에 덜 민감하며, 경쟁력 있는 성능을 위해 더 적은 예시를 요구하고, 더 신뢰할 수 있는 신뢰도 추정치를 생성합니다. 이러한 결과는 클래스 레이블이 자연스럽게 다중 토큰으로 구성된 실제 애플리케이션에서 특히 LLM 기반 방법의 성능과 강건성을 향상시키기 위해 전체 레이블 편향을 완화하는 중요성을 강조합니다.
사용자의 명시적 지시 없이도 대화 상대를 자동으로 식별 및 분리하는 능동형 청각 지원 시스템을 소개합니다. 우리 시스템은 자기 중심적 바이노럴 오디오를 기반으로 작동하며, 사용자의 자기 발화를 기준점으로 삼아 발화 교대 행동과 대화 역학을 활용하여 대화 상대를 추론하고 다른 사람의 음성을 억제합니다. 실시간 기기 내 운영을 위해 이중 모델 아키텍처를 제안합니다: 경량 스트리밍 모델은 12.5ms마다 실행되어 대화 상대를 저지연으로 추출하고, 더 느린 모델은 덜 빈번하게 실행되어 장기간의 대화 역학을 포착합니다. 11명의 참가자로부터 총 6.8시간의 바이노럴 자기 중심 하드웨어로 수집된 실제 2인 및 3인 대화 테스트셋에서, 다중 대화 환경에서 대화 상대를 식별 및 격리하는 일반화 성능을 확인했습니다. 본 연구는 대화 역학과 참여도에 능동적으로 적응하는 청각 지원 시스템으로 나아가는 단계를 나타냅니다. 자세한 내용은 우리 웹사이트(https://proactivehearing.cs.washington.edu/)에서 확인할 수 있습니다.
에이전트형 코딩 도구는 자연어로 작성된 목표를 입력받아 구체적인 작업으로 분해하고, 최소한의 인간 개입으로 실제 코드를 작성하거나 실행합니다. 이 과정의 핵심은 프로젝트 수준의 지속적인 지침을 제공하는 에이전트 컨텍스트 파일("에이전트를 위한 README")입니다. 본 논문에서는 1,925개 저장소의 2,303개 에이전트 컨텍스트 파일을 대상으로 첫 대규모 실증 연구를 수행하여 그 구조, 유지 관리, 내용의 특성을 분석합니다. 우리는 이러한 파일이 정적 문서가 아니라 구성 코드처럼 진화하며, 빈번하고 소규모의 추가를 통해 유지되는 복잡하고 가독성이 낮은 결과물임을 발견했습니다. 16가지 지침 유형에 대한 내용 분석 결과, 개발자들은 빌드 및 실행 명령(62.3%), 구현 세부 사항(69.9%), 아키텍처(67.7%) 등의 기능적 컨텍스트를 우선적으로 명시하는 것으로 나타났습니다. 또한 보안(14.5%) 및 성능(14.5%)과 같은 비기능적 요구사항이 거의 명시되지 않는 중요한 격차를 확인했습니다. 이러한 결과는 개발자들이 컨텍스트 파일을 사용해 에이전트를 기능적으로 만드는 반면, 에이전트가 작성한 코드의 보안이나 성능을 보장하기 위한 안전장치(Safety Guardrail)는 거의 제공하지 않음을 시사하며, 개선된 도구와 관행의 필요성을 강조합니다.
3D-LLM의 최근 발전에도 불구하고, 3D 환경에서 언어를 시각적 및 공간적 요소에 정확하게 연결하는(그라운딩) 데에는 여전히 한계가 있습니다. 이러한 한계는 부분적으로 부족한 3D 자원으로 인해 공간적 이해보다는 언어 추론에 중점을 둔 훈련 데이터에서 비롯되며, 이로 인해 내재된 그라운딩 편향이 해결되지 않고 있습니다. 이를 해결하기 위해 우리는 정교한 공간 조작을 통해 이러한 편향을 완화하는 정확한 시각적 반사실을 생성하는 핵심 메커니즘으로 3D 장면 편집을 제안합니다. 이 방법은 값비싼 장면 재구성이나 대규모 3D 데이터 수집이 필요하지 않습니다. 나아가, 이러한 편집을 표적화하고 모델의 특정 약점을 직접적으로 해결하기 위해 우리는 DEER-3D를 소개합니다. 이는 기존 접근법처럼 데이터를 광범위하거나 무작위로 증강하는 대신, "분해, 진단적 평가, 편집, 재훈련"이라는 구조화된 워크플로우를 따르는 오류 주도형 프레임워크입니다. 구체적으로, 3D-LLM의 그라운딩 실패를 식별하면, 우리의 프레임워크는 먼저 (예: 속성 또는 공간 관계와 같은) 정확한 술어 수준의 오류를 진단합니다. 그런 다음 재색칠이나 위치 변경과 같은 최소한의, 술어에 맞춘 3D 장면 편집을 실행하여 반복적인 모델 미세 조정을 위한 표적 반사실 감독을 생성함으로써 그라운딩 정확도를 크게 향상시킵니다. 우리는 3D 그라운딩 및 장면 이해 작업을 위한 여러 벤치마크에서 이 편집 파이프라인을 평가하며, 반복적 정제를 통해 모든 평가 데이터셋에서 일관되게 향상된 성능을 입증합니다. DEER-3D는 표적화된 오류 주도형 장면 편집이 3D LLM의 언어 추론 능력과 공간 그라운딩을 연결하는 데 효과적임을 강조합니다.
인간의 감정은 언어로 전달하기 어려우며 과정에서 종종 추상화되지만, 뇌전도(EEG) 신호는 감정적 뇌 활동을 더 직접적으로 들여다볼 수 있는 창을 제공한다. 최근 연구에 따르면 딥러닝 모델이 이러한 신호를 처리하여 높은 정확도로 감정 인식을 수행할 수 있는 것으로 나타났다. 그러나 기존의 많은 접근법은 서로 다른 뇌 영역 간의 역동적 상호작용을 간과하는데, 이는 감정이 시간에 따라 어떻게 전개되고 변화하는지 이해하는 데 핵심적일 수 있으며, 더 정확한 감정 인식에 도움을 줄 수 있다. 이를 해결하기 위해 우리는 잠재 공간에서 뇌의 피질 간 신경 역학을 모델링하여 효과적인 EEG 기반 감정 인식을 위한 구조화된 신경 상호작용을 더 잘 포착하는 Transformer 기반 신경망 아키텍처인 RBTransformer를 제안한다. 먼저 EEG 신호를 Band Differential Entropy(BDE) 토큰으로 변환한 후, Electrode Identity 임베딩을 통해 공간적 출처 정보를 보존한다. 이러한 토큰은 연속적인 피질 간 다중 헤드 어텐션 블록을 통해 처리되어 전극 x 전극 어텐션 행렬을 구성함으로써 모델이 피질 간 신경 의존성을 학습할 수 있도록 한다. 그 결과로 나온 특징은 분류 헤드를 통과하여 최종 예측값을 얻는다. 우리는 SEED, DEAP, DREAMER 데이터셋에 대해 주체 종속 설정 하에서 특히 모든 세 차원(Valence, Arousal, Dominance - DEAP 및 DREAMER의 경우)에 걸쳐 이진 분류 및 다중 클래스 분류 설정 모두에서 광범위한 실험을 수행했다. 결과는 제안된 RBTransformer가 세 데이터셋 모두에서, 모든 세 차원에 대해 두 분류 설정 하에서 기존의 모든 최첨단 방법들을 능가함을 보여준다. 소스 코드는 https://github.com/nnilayy/RBTransformer에서 확인할 수 있다.
카오스 엔지니어링(CE)은 분산 시스템의 복원력을 향상시키기 위한 엔지니어링 기법입니다. 이는 시스템에 의도적으로 결함을 주입하여 그 복원력을 테스트하고, 약점을 발견하며, 프로덕션 환경에서 장애를 일으키기 전에 이를 해결하는 것을 포함합니다. 최근의 CE 도구들은 미리 정의된 CE 실험의 실행을 자동화합니다. 그러나 이러한 실험을 계획하고 실험 결과를 바탕으로 시스템을 개선하는 작업은 여전히 수동으로 이루어집니다. 이러한 과정은 노동 집약적이며 여러 분야의 전문 지식을 요구합니다. 이러한 문제를 해결하고 누구나 낮은 비용으로 복원력 있는 시스템을 구축할 수 있도록 하기 위해, 본 논문은 대규모 언어 모델(LLM)을 활용하여 CE 전체 주기를 자동화하는 시스템인 ChaosEater를 제안합니다. 이는 체계적인 CE 주기에 따라 에이전트 기반 워크플로를 미리 정의하고, 워크플로 내 세분화된 프로세스를 LLM에 할당합니다. ChaosEater는 Kubernetes 위에 구축된 소프트웨어 시스템에 대한 CE를 대상으로 합니다. 따라서 ChaosEater의 LLM은 요구사항 정의, 코드 생성, 테스트, 디버깅을 포함한 소프트웨어 엔지니어링 작업을 통해 CE 주기를 완료합니다. 우리는 소규모 및 대규모 Kubernetes 시스템에 대한 사례 연구를 통해 ChaosEater를 평가합니다. 결과는 이 시스템이 매우 낮은 시간과 금전적 비용으로 합리적인 CE 주기를 지속적으로 완료함을 보여줍니다. 또한 그 주기는 인간 엔지니어와 LLM에 의해 정성적으로 검증됩니다.
대규모 시각-언어 모델(LVLM)은 일반적으로 인코더에서 추출한 시각적 특성을 사전 훈련된 대규모 언어 모델(LLM)과 정렬합니다. 그러나 이로 인해 시각 인식 모듈이 병목 현상이 되어 LVLM의 전반적 능력을 제한하게 됩니다. 기존 평가 벤치마크는 시각적 의미론이 풍부하지만, 모델의 인식 능력을 과대평가할 수 있는 불가피한 지역적 단축 경로를 종종 포함합니다. 본 연구에서는 위상적 특성을 활용하여 다양한 세분화 수준에서 LVLM의 전역 시각 인식 능력을 엄격하게 평가하는 벤치마크인 TopoPerception을 소개합니다. 위상학은 이미지의 전역 구조에 의존하며 지역적 특성에 불변하기 때문에, TopoPerception은 단축 경로가 없는 전역 인식 평가를 가능하게 하여 의미론적으로 풍부한 작업과 근본적으로 차별화됩니다. 우리는 TopoPerception을 통해 최첨단 모델들을 평가했으며, 가장 낮은 인식 세분화 수준에서도 모든 모델이 무작위 추론 수준을 넘지 못해 전역 시각 특성을 인식하는 능력이 심각하게 부족함을 확인했습니다. 특히, 모델 계열 내에서 일관된 경향이 관찰되었습니다: 더 강력한 추론 능력을 가진 모델일수록 정확도가 더 낮았습니다. 이는 단순히 모델 규모를 확장하는 것만으로는 이 결함을 해결하기에 부족하며 오히려 악화시킬 수 있음을 시사합니다. 진전을 위해서는 새로운 훈련 패러다임이나 아키텍처가 필요할 수 있습니다. TopoPerception은 현재 LVLM의 치명적인 병목 현상을 드러낼 뿐만 아니라, 그들의 전역 시각 인식 능력을 개선하기 위한 관점과 방향을 제시합니다. 데이터와 코드는 https://github.com/Wenhao-Zhou/TopoPerception 에 공개되어 있습니다.