번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLM)은 유창하고 복잡한 출력을 생성하지만, 종종 자신의 실수와 환각을 인식하지 못합니다. 기존 접근법은 일반적으로 외부 평가자, 다중 샘플 일관성, 또는 텍스트 기반 자기 비판에 의존하는데, 이는 추가적인 계산을 필요로 하거나 실제 정확성과의 상관관계가 약합니다. 우리는 다음과 같은 질문을 제기합니다: LLM이 추론 과정 중 내부 상태를 검사하여 자신의 실패를 예측할 수 있을까? 우리는 숨겨진 상태(hidden states)와 어텐션 패턴에서 신호를 디코딩하여 고정된(frozen) LLM이 내재적 자기 검증(intrinsic self-verification)을 수행할 수 있도록 하는 경량 자기 인식 메커니즘인 Gnosis를 소개합니다. Gnosis는 내부 추적을 수동적으로 관찰하고, 이를 고정 예산 디스크립터(fixed-budget descriptors)로 압축하며, 추론 비용을 무시할 수 있을 정도로만 증가시키면서(~5M 개의 매개변수만 추가, 시퀀스 길이와 독립적으로 운영) 정확성을 예측합니다. 수학적 추론, 개방형 질의응답, 학술 지식 벤치마크에 걸쳐, 1.7B부터 20B 매개변수 크기의 고정 백본 모델들을 대상으로 한 실험에서 Gnosis는 강력한 내부 기준선과 대형 외부 평가자들을 정확도와 보정(calibration) 모두에서 일관되게 능가했습니다. 더 나아가, 이 방법은 부분적 생성물에 대해 제로샷으로 일반화되어, 실패 궤적의 조기 탐지와 계산 인식 제어(compute-aware control)를 가능하게 합니다. 이러한 결과는 신뢰할 수 있는 정확성 신호가 생성 과정本身에 내재되어 있으며 외부 감독 없이도 효율적으로 추출될 수 있음을 보여줍니다.
우리는 6조 개의 인터리브 텍스트-이미지 이산 토큰으로 학습된 통합 디코더 전용 자회귀 트랜스포머인 NextFlow를 제안한다. 통합 자회귀 아키텍처 내에서 통합된 시각 표현을 활용함으로써 NextFlow는 멀티모달 이해 및 생성 능력을 기본적으로 활성화하여 이미지 편집, 인터리브 콘텐츠 및 비디오 생성 능력을 구현한다. 텍스트는 엄격하게 순차적이고 이미지는 본질적으로 계층적이라는 모달리티의 차별적 특성에 착안하여, 우리는 텍스트에 대해서는 다음 토큰 예측을 유지하지만 시각 생성에는 다음 스케일 예측을 채택한다. 이는 기존의 래스터 스캔 방식과 차별화되어 1024x1024 이미지를 단 5초 만에 생성할 수 있으며, 이는 유사한 AR 모델 대비 획기적인 속도 향상이다. 우리는 강건한 학습 레시피를 통해 다중 스케일 생성의 불안정성을 해결한다. 또한 강화 학습을 위한 프리픽스 튜닝 전략을 도입한다. 실험 결과, NextFlow는 통합 모델 중 최첨단 성능을 달성하며 시각적 품질에 있어 전문적인 디퓨전 베이스라인과 대등한 성과를 보인다.
본 기술 보고서는 LG AI 연구원에서 개발한 대규모 다국어 언어 모델인 K-EXAONE을 소개한다. K-EXAONE은 총 2,360억 개의 매개변수를 가지며 추론 시 230억 개의 매개변수를 활성화하는 Mixture-of-Experts 아키텍처 기반으로 구축되었다. 256K 토큰 컨텍스트 윈도우를 지원하며 한국어, 영어, 스페인어, 독일어, 일본어, 베트남어 등 6개 언어를 포괄한다. 우리는 K-EXAONE을 추론, 에이전트, 일반 능력 및 한국어/다국어 능력을 아우르는 포괄적인 벤치마크 스위트를 통해 평가하였다. 이러한 평가 전반에서 K-EXAONE은 유사한 규모의 오픈 웨이트 모델 대비 견줄 만한 성능을 입증했다. 더 나은 삶을 위한 AI 발전을 위해 설계된 K-EXAONE은 다양한 산업 및 연구 응용 분야를 위한 강력한 자체 개발 AI 파운데이션 모델로 자리매김하였다.
비디오 얼굴 교체(VFS)는 원본의 포즈, 표정, 조명, 배경 및 동적 정보를 세심하게 보존하면서 소스 신원을 대상 비디오에 자연스럽게 주입하는 것을 요구합니다. 기존 방법들은 시간적 일관성을 유지하면서도 신원 유사성과 속성 보존을 동시에 달성하는 데 어려움을 겪습니다. 이러한 문제를 해결하기 위해, 우리는 이미지 얼굴 교체(IFS)의 우수성을 비디오 영역으로 원활하게 전이하는 포괄적인 프레임워크를 제안합니다. 먼저, Identity-Anchored Video Synthesizer를 사전 학습하고 IFS 모델과 결합하여 명시적 supervision을 위한 양방향 ID 쿼드러플릿을 구성하는 새로운 데이터 파이프라인 SyncID-Pipe를 소개합니다. 이렇게 쌍을 이룬 데이터를 기반으로, 우리는 핵심 Modality-Aware Conditioning 모듈을 사용하여 다중 모델 조건을 구별적으로 주입하는 최초의 Diffusion Transformer 기반 프레임워크인 DreamID-V를 제안합니다. 동시에, 까다로운 시나리오에서 시각적 현실감과 신원 일관성을 향상시키기 위해 Synthetic-to-Real Curriculum 메커니즘과 Identity-Coherence Reinforcement Learning 전략을 제안합니다. 제한된 벤치마크 문제를 해결하기 위해, 다양한 장면을 포괄하는 종합 벤치마크인 IDBench-V를 도입합니다. 광범위한 실험을 통해 DreamID-V가 최첨단 방법들을 능가하며, 더 나아가 다양한 교체 관련 작업에 원활하게 적용될 수 있는 탁월한 다용성을 보여줍니다.
시각 생성 분야는 자기회귀(AR), 확산, 시각 자기회귀(VAR) 모델이라는 세 가지 패러다임이 주류를 이루고 있습니다. AR 및 확산 모델과 달리, VAR은 생성 단계마다 이질적인 입력 구조로 동작하므로 심각한 비동기적 정책 충돌이 발생합니다. 이러한 문제는 특히 강화학습(RL) 시나리오에서 더욱 첨예해져 학습 불안정과 차선의 정렬 결과를 초래합니다. 이를 해결하기 위해 본 연구에서는 이러한 충돌을 명시적으로 관리하여 그룹 상대 정책 최적화(GRPO)를 향상시키는 새로운 프레임워크를 제안합니다. 우리의 방법은 상호 시너지적인 세 가지 구성 요소를 통합합니다: 1) 초기 생성 단계를 안내하는 안정화 중간 보상, 2) 정확한 크레딧 할당을 위한 동적 시간 단계 재가중 방안, 3) 공간적 및 시간적으로 최적화 효과를 분리하도록 설계된 보상 피드백 학습(ReFL) 원리에서 도출된 새로운 마스크 전파 알고리즘. 우리의 접근 방식은 기본 GRPO 기준선 대비 샘플 품질과 목표 정렬에서 현저한 향상을 보여주며, VAR 모델을 위한 강력하고 효과적인 최적화를 가능하게 합니다.
온라인 강화학습(RL)을 통한 확산 모델의 미세 조정은 텍스트-이미지 정렬 향상에 큰 가능성을 보여주고 있습니다. 그러나 시각적 작업에 대한 정확한 실측 목표를 명시하는 것은 여전히 어려운 과제이기 때문에, 모델은 종종 실제 목표를 부분적으로만 반영하는 프록시 보상으로 최적화됩니다. 이러한 불일치는 종종 프록시 점수는 상승하는 반면 실제 이미지 품질이 저하되고 생성 다양성이 붕괴되는 보상 해킹으로 이어집니다. 보상 해킹을 방지하기 위한 일반적인 해결책은 참조 정책에 대한 정규화를 추가하지만, 참조 정책이 일반적으로 차선책이기 때문에 샘플 효율성을 저해하고 새로운 고보상 영역의 탐색을 방해합니다. 샘플 효율성, 효과적 탐색, 보상 해킹 완화라는 상충되는 요구를 해결하기 위해 우리는 다양한 RL 알고리즘과 호환되는 다목적 프레임워크인 GARDO(Gated and Adaptive Regularization with Diversity-aware Optimization)를 제안합니다. 우리의 핵심 통찰은 정규화를 반드시 보편적으로 적용할 필요가 없으며, 높은 불확실성을 보이는 샘플의 일부를 선택적으로 패널티 부여하는 것이 매우 효과적이라는 점입니다. 탐색 과제를 해결하기 위해 GARDO는 참조 모델을 온라인 정책의 능력에 맞춰 주기적으로 업데이트하여 관련성 있는 정규화 목표를 보장하는 적응형 정규화 메커니즘을 도입합니다. RL의 모드 붕괴 문제를 해결하기 위해 GARDO는 높은 다양성을 보이는 고품질 샘플에 대한 보상을 증폭하여 최적화 과정을 불안정하게 만들지 않으면서 모드 커버리지를 촉진합니다. 다양한 프록시 보상과 보유(unseen) 평가 지표에 걸친 광범위한 실험을 통해 GARDO가 샘플 효율성이나 탐색을 희생하지 않으면서 보상 해킹을 완화하고 생성 다양성을 향상시킨다는 것을 일관되게 입증하며, 그 효과성과 강건성을 부각합니다.
우리는 단일 프레임워크 내에서 이미지 및 비디오 생성과 편집을 수행하는 통합 시각 생성기 VINO를 제안한다. 각 모달리티별로 과제 전용 모델이나 독립적인 모듈에 의존하는 대신, VINO는 텍스트, 이미지, 비디오를 조건으로 하는 공유 확산 백본을 사용하여 하나의 모델로 광범위한 시각 생성 및 편집 과제를 수행할 수 있다. 구체적으로 VINO는 비전-언어 모델(VLM)과 Multimodal Diffusion Transformer(MMDiT)를 결합하며, 여기서 다중모달 입력은 교차된 조건 토큰으로 인코딩된 후 확산 과정을 안내하는 데 사용된다. 이러한 설계는 정적 및 동적 콘텐츠에 걸쳐 다중 참조 기반, 긴 형식의 지시 따르기, 일관된 정체성 보존을 지원하면서 모달리티 특화 아키텍처 구성 요소를 피한다. 이러한 통합 시스템을 학습시키기 위해, 우리는 비디오 생성 기본 모델을 점진적으로 이미지와 비디오 입력 및 출력이 모두 가능한 통합 다중 과제 생성기로 확장하는 다단계 학습 파이프라인을 도입한다. 다양한 생성 및 편집 벤치마크에서 VINO는 강력한 시각적 품질, 충실한 지시 수행, 개선된 참조 및 속성 보존, 더 제어 가능한 다중 정체성 편집을 보여준다. 우리의 결과는 확장 가능한 통합 시각 생성으로 가는 실용적인 경로와 범용 시각 생성의 기반으로서 교차된 맥락 내 계산의 가능성을 강조한다.
지속적이고 대규모의 3D 시각 기하학 이해라는 위대한 비전은 확장성과 장기적 안정성이라는 상충되는 요구에 의해 족쇄가 채워져 왔습니다. VGGT와 같은 오프라인 모델은 뛰어난 기하학적 능력을 달성했지만, 배치 기반의 특성으로 인해 실시간 시스템에는 적용하기 어렵습니다. 실시간 운영을 위한 의도된 해결책인 스트리밍 아키텍처 역시 불충분한 것으로 입증되었습니다. 기존 방법들은 진정한 무한 구간 입력을 지원하지 못하거나 긴 시퀀스에서 치명적인 드리프트 현상을 겪습니다. 우리는 이러한 오랜 딜레마를 InfiniteVGGT로 해결합니다. InfiniteVGGT는 유한하지만 적응적이며 지속적으로 표현력 있는 KV 캐시를 통해 롤링 메모리 개념을 구현한 인과적 시각 기하학 트랜스포머입니다. 이를 바탕으로 우리는 훈련이 필요 없고 어텐션에 구애받지 않는 프루닝 전략을 고안하여, 시대에 뒤처진 정보를 지능적으로 제거하고 각 새 프레임마다 메모리를 효과적으로 '구름'처럼 앞으로 전진시킵니다. FlashAttention과 완벽하게 호환되는 InfiniteVGGT는 마침내 이러한 절충점을 해소하며, 무한 구간 스트리밍을 가능하게 하고 장기적 안정성에서 기존 스트리밍 방법들을 능가합니다. 이러한 시스템에 대한 궁극적인 검증은 진정한 무한 구간에서의 성능이며, 극도로 장기간의 연속 벤치마크 부재로 인해 엄격하게 검증하는 것이 불가능했던 능력입니다. 이 중요한 격차를 해결하기 위해 우리는 Long3D 벤치마크를 소개합니다. 이는 약 10,000프레임에 달하는 시퀀스에 대한 연속 3D 기하학 추정의 엄격한 평가를 최초로 가능하게 합니다. 이는 장기 3D 기하학 이해에 대한 향후 연구를 위한 결정적인 평가 플랫폼을 제공합니다. 코드는 다음에서 이용 가능합니다: https://github.com/AutoLab-SAI-SJTU/InfiniteVGGT
우리는 추론 시간 스케일링 관점에서 대규모 언어 모델(LLM)이 임의의 길이를 가진 프롬프트를 처리할 수 있도록 하는 방법을 연구합니다. 우리는 긴 프롬프트를 외부 환경의 일부로 간주하고, LLM이 프롬프트의 일부를 프로그래밍 방식으로 검사, 분해 및 재귀적으로 호출할 수 있게 하는 일반적인 추론 전략인 재귀 언어 모델(RLM)을 제안합니다. RLM은 모델 컨텍스트 윈도우를 두 배 이상 초과하는 긴 입력을 성공적으로 처리하며, 더 짧은 프롬프트의 경우에도 네 가지 다양한 장문 컨텍스트 작업에서 기본 LLM과 일반적인 장문 컨텍스트 스캐폴드의 품질을 크게 능가하는 동시에 쿼리당 비용이 유사하거나 더 저렴한 것으로 나타났습니다.
본 연구는 소형 언어 모델(SLM)로도 경쟁력 있는 추론 성능을 달성할 수 있음을 입증하는 7B 파라미터 규모의 추론 최적화 모델인 Falcon-H1R을 소개한다. Falcon-H1R은 파라미터 효율성 측면에서 두각을 나타내며, 다양한 추론 집약 벤치마크에서 2배에서 7배 더 큰 규모의 SOTA 추론 모델들을 꾸준히 따라잡거나 능가하는 성능을 보인다. 이러한 결과는 모델 규모를 증가시키지 않으면서도 상당한 성능 향상을 이루기 위해 신중한 데이터 큐레이션과 표적 훈련 전략(효율적인 SFT와 RL 스케일링을 통해)이 중요함을 강조한다. 나아가 Falcon-H1R은 더 빠른 추론(하이브리드 병렬 아키텍처 설계를 통해), 토큰 효율성, 더 높은 정확도의 결합을 통해 추론 효율성의 3차원적 한계를 발전시켰다. 이러한 독특한 조합은 Falcon-H1R-7B을 확장형 고급 추론 시스템, 특히 광범위한 사고 연쇄 생성과 병렬 테스트 타임 스케일링이 필요한 시나리오를 위한 실용적인 백본으로 만든다. 최근 도입된 DeepConf 접근법을 활용하여 Falcon-H1R은 SOTA 테스트 타임 스케일링 효율성을 달성하며, 정확도와 계산 비용 모두에서 상당한 개선을 제공한다. 그 결과 Falcon-H1R은 표적 모델 훈련과 아키텍처 선택을 통해 컴팩트한 모델이 견고하고 확장 가능한 추론 성능을 제공할 수 있음을 입증한다.
본 논문에서는 장면 내 객체의 텍스트 지시 기반 공간 변형을 위한 강화 학습(RL) 기반 확산 프레임워크인 Talk2Move를 소개한다. 자연어를 통해 장면 속 객체를 공간적으로 조작하는 것은 멀티모달 생성 시스템에게 어려운 과제다. 기존 텍스트 기반 조작 방법은 외관이나 스타일을 조정할 수 있지만, 충분한 지도 학습 데이터의 부족과 픽셀 수준 최적화의 한계로 인해 객체 수준의 기하학적 변환(이동, 회전, 크기 조절 등)을 수행하는 데 어려움을 겪는다. Talk2Move는 Group Relative Policy Optimization(GRPO)을 활용하여 입력 이미지와 경량의 텍스트 변형으로부터 생성된 다양한 롤아웃을 통해 기하학적 액션을 탐색함으로써, 비용이 많이 드는 지도 데이터 쌍의 필요성을 제거한다. 공간 보상 유도 모델은 기하학적 변환을 언어적 설명과 정렬시키며, 오프-폴리시 단계 평가와 능동적 단계 샘플링은 정보성이 높은 변환 단계에 집중하여 학습 효율을 향상시킨다. 더 나아가, 변위, 회전, 크기 조절 행위를 직접 평가하는 객체 중심 공간 보상을 설계하여 해석 가능하고 일관된 변환을 가능하게 한다. 정제된 벤치마크에서의 실험 결과, Talk2Move는 기존 텍스트 지도 편집 접근법보다 공간 정확도와 장면 일관성 모두에서 뛰어나며, 정밀하고 일관적이며 의미론적으로 충실한 객체 변환을 달성함을 보여준다.
신뢰도 추정은 대규모 언어 모델(LLM)의 환각 현상을 완화하기 위한 유망한 방향이지만, 현재 연구는 단일 턴 설정에 주로 집중되고 있습니다. 맥락이 누적되고 모호성이 점차 해소되는 다중 턴 대화에서 모델 신뢰도의 역동성은 대부분 탐구되지 않은 상태입니다. 다중 턴 설정에서의 신뢰할 수 있는 신뢰도 추정은 자율 에이전트 및 인간 참여형 시스템과 같은 많은 다운스트림 애플리케이션에 매우 중요합니다. 본 연구는 다중 턴 상호작용에서의 신뢰도 추정에 대한 첫 체계적인 연구로서, 턴별 보정(per-turn calibration)과 정보가 추가됨에 따른 신뢰도의 단조성(monotonicity)이라는 두 가지 핵심 요구 사항에 기반한 공식 평가 프레임워크를 정립합니다. 이를 위해 길이 정규화 기대 보정 오차(InfoECE)와 같은 새로운 메트릭과 통제된 평가 데이터셋 생성을 위한 새로운 "힌터-게서(Hinter-Guesser)" 패러다임을 도입합니다. 우리의 실험 결과, 널리 사용되는 신뢰도 기법들이 다중 턴 대화에서 보정 및 단조성에 어려움을 겪는 것으로 나타났습니다. 우리는 비교적 더 나은 성능을 달성하는 로짓 기반 프로브인 P(Sufficient)를 제안하지만, 이 과제는 여전히 해결되지 않은 상태입니다. 본 연구는 더 신뢰할 수 있고 신뢰성 있는 대화형 에이전트 개발을 위한 기초 방법론을 제공합니다.
LLM은 강력한 임베딩 백본이지만, 학습 없이 적용하는 환경에서는 두 가지 구조적 한계에 직면합니다: 인과적 어텐션(causal attention)은 초기 토큰이 후속 문맥에 접근하는 것을 제한하며, 다음 토큰 예측 목표는 생성(generation)에 치우쳐 표현이 의미론적 압축에서 벗어나게 만듭니다. 이러한 한계를 해결하기 위해 우리는 고정된(frozen) LLM의 잠재적 표현 능력을 활성화하는 KV-임베딩 프레임워크를 제안합니다. 우리의 방법은 각 계층에서 최종 토큰의 키-값(KV) 상태가 시퀀스의 압축된 관점을 인코딩한다는 관찰에 기반합니다. 이러한 상태를 프리픽스로 재배치하여 단일 순전파만으로 모든 토큰이 시퀀스 수준 문맥에 접근할 수 있도록 합니다. 모델에 구애받지 않는 적용성을 보장하기 위해 본질적 차원(intrinsic dimensionality)에 기반한 자동화된 계층 선택 전략을 도입했습니다. Qwen, Mistral, Llama 백본을 활용한 MTEB 평가에서 KV-임베딩은 기존의 학습 없는 베이스라인을 최대 10%까지 능가하는 동시에 4,096 토큰 길이의 시퀀스에서도 견고한 성능을 유지함을 확인했습니다. 이러한 결과는 내부 상태 조작이 입력 변형에 대한 효율적인 대안이 될 수 있음을 보여주며, 본 연구가 표현 학습을 위한 LLM 내부 구조에 대한 추가 탐구를 촉진하기를 기대합니다.
본 논문에서는 시각-언어 모델(VLM) 미세 조정을 위한 대조적 인지 정책 최적화(CPPO) 방법을 소개한다. 강화 학습(RL)이 언어 모델의 추론 능력을 발전시켜 왔으나, 이를 다중 모달 추론으로 확장하기 위해서는 인지와 추론 두 측면을 모두 개선해야 한다. 기존 연구들은 주로 명시적인 인지 보상을 통해 이 문제를 해결하려 했으나, 인지 토큰과 추론 토큰을 분리하는 것은 어려워 추가적인 대형 언어 모델(LLM)이나 정답 데이터가 필요하거나, 정책 모델이 인지와 추론을 강제로 분리하게 하거나, 모든 출력 토큰에 무분별하게 보상을 적용해야 하는 한계가 있었다. CPPO는 왜곡된 입력 이미지에서 모델 출력의 엔트로피 변화를 통해 인지 토큰을 탐지함으로써 이 문제를 해결한다. CPPO는 RL 목적 함수를 대조적 인지 손실(CPL)로 확장하여, 정보 보존 왜곡 하에서는 일관성을 유지하고 정보 제거 왜곡 하에서는 민감하게 반응하도록 한다. 실험 결과 CPPO는 추가 모델 없이도 기존 인지 보상 방법들을 능가하며, 더 효율적이고 확장성 있는 학습이 가능함을 보여준다.
다중 뷰 이미지로부터의 인간 메쉬 복원은 근본적인 과제에 직면해 있습니다: 실제 세계 데이터셋은 모델 학습에 편향을 일으키는 불완전한 실측 정답 주석을 포함하는 반면, 정밀한 감독이 제공되는 합성 데이터는 도메인 간 차이 문제를 안고 있습니다. 본 논문에서는 메쉬 복원을 위한 다중 뷰 일관성 인간 프록시를 생성하는 새로운 프레임워크인 DiffProxy를 제안합니다. DiffProxy의 핵심은 확산 기반 생성 사전 지식을 활용하여 합성 데이터 학습과 실제 세계 일반화를 연결하는 데 있습니다. 주요 혁신 사항은 다음과 같습니다: (1) 다중 뷰 일관적이며 픽셀 정렬된 인간 프록시 생성을 위한 다중 조건 메커니즘; (2) 유연한 시각적 프롬프트를 통합하여 국부적 세부 사항을 향상시키는 손 세부화 모듈; (3) 최적화 과정에서 어려운 사례에 대한 강건성을 높이는 불확실성 인지 테스트 타임 스케일링 방법. 이러한 설계는 메쉬 복원 과정이 확산 기반 파이프라인의 정밀한 합성 실측 정답과 생성적 이점으로부터 효과적으로 이점을 얻도록 보장합니다. 오직 합성 데이터로만 학습된 DiffProxy는 5개의 실제 세계 벤치마크에서 최첨단 성능을 달성하며, 특히 폐색 및 부분 뷰가 있는 어려운 시나리오에서 강력한 제로샷 일반화 능력을 입증했습니다. 프로젝트 페이지: https://wrk226.github.io/DiffProxy.html
대규모 언어 모델이 의료부터 금융에 이르기까지 높은 위험이 수반되는 기업 애플리케이션에 배포됨에 따라, 조직별 정책 준수 여부를 보장하는 것이 필수적으로 중요해졌습니다. 그러나 기존의 안전성 평가는 보편적 해악에만 초점을 맞추고 있습니다. 본 논문에서는 LLM이 조직의 허용 목록(allowlist) 및 거부 목록(denylist) 정책을 준수하는지 평가하는 최초의 체계적 프레임워크인 COMPASS(Company/Organization Policy Alignment Assessment)를 제시합니다. 우리는 COMPASS를 8가지 다양한 산업 시나리오에 적용하여, 전략적으로 설계된 엣지 케이스를 통해 일상적 준수와 적대적 견고성을 모두 테스트하는 5,920개의 질의를 생성하고 검증했습니다. 7개의 최첨단 모델을 평가한 결과, 근본적인 비대칭성을 발견했습니다: 모델은 합법적인 요청은 안정적으로 처리하지만(>95% 정확도), 금지 사항을 적용하는 데에는 치명적으로 실패하여 적대적 거부 목록 위반 요청의 단 13-40%만 거부했습니다. 이러한 결과는 현재의 LLM이 정책적으로 중요한 배포에 필요한 견고성을 결여하고 있음을 보여주며, COMPASS를 조직적 AI 안전을 위한 핵심 평가 프레임워크로 확립합니다.
준지도 원격 탐사(RS) 영상 의미 분할은 방대한 주석 작업의 부담을 완화할 수 있는 유망한 솔루션을 제공하지만, 훈련 과정에서 확인 편향으로 인해 오류가 누적되는 현상인 의사 레이블 드리프트(pseudo-label drift) 문제를 근본적으로 겪고 있습니다. 본 연구에서는 시각-언어 모델과 자기 지도 모델의 사전 지식을 상호 보완적으로 융합하여 안정적인 준지도 RS 분할을 가능하게 하는 Co2S 프레임워크를 제안합니다. 구체적으로, 오류 누적과 의사 레이블 드리프트를 완화하기 위해 사전 훈련된 CLIP과 DINOv3로 초기화된 두 가지 다른 ViT 기반 시각 기초 모델로 구성된 이종 이중 학생(heterogeneous dual-student) 아키텍처를 구축합니다. 이러한 상이한 사전 지식을 효과적으로 통합하기 위해 텍스트 임베딩과 학습 가능한 쿼리를 각각 명시적 및 암묵적 클래스 수준 지침으로 활용하는 명시적-암묵적 의미 공동 안내(explicit-implicit semantic co-guidance) 메커니즘을 도입하여 의미 일관성을 공동으로 향상시킵니다. 더 나아가, CLIP이 포착한 전역 맥락 정보와 DINOv3가 생성한 지역적 세부 정보를 효과적으로 융합하기 위한 전역-지역 특징 협력 융합(global-local feature collaborative fusion) 전략을 개발하여 매우 정밀한 분할 결과를 생성할 수 있도록 합니다. 6개 인기 데이터셋에 대한 광범위한 실험을 통해 제안 방법의 우수성을 입증하였으며, 다양한 분할 프로토콜과 다양한 시나리오에서 일관되게 선도적인 성능을 달성하였습니다. 프로젝트 페이지는 https://xavierjiezou.github.io/Co2S/에서 확인할 수 있습니다.
본 논문에서는 소프트웨어 엔지니어링(SWE) 이슈 해결에서 최첨단 성능을 달성하기 위해 설계된 지도 미세 조정(SFT) 방법론인 SWE-Lego를 제안한다. 복잡한 훈련 패러다임(예: 중간 훈련, SFT, 강화 학습 및 이들의 조합)에 의존하는 기존 방법론과 대조적으로, 본 연구는 SWE 작업에 대해 경량의 SFT-Only 접근법의 한계를 극복하는 방법을 탐구한다. SWE-Lego는 세 가지 핵심 구성 요소로 이루어지며, 주요 결과는 다음과 같이 요약된다. 1) SWE-Lego 데이터셋: 32k개의 고품질 작업 인스턴스와 18k개의 검증된 실행 궤적을 포함하며, 실제 데이터와 합성 데이터를 결합하여 질적, 양적 측면을 상호 보완한다. 2) 오류 마스킹 및 난이도 기반 커리큘럼을 적용한 개선된 SFT 절차: 이는 행동의 질과 전반적 성능을 현저히 향상시킨다. 실험 결과, 이 두 구성 요소만으로도 SFT는 SWE-Lego 모델이 유사 규모의 오픈소스 모델 중 SWE-bench Verified에서 최첨단 성능에 도달하게 함을 보여준다. SWE-Lego-Qwen3-8B는 42.2%, SWE-Lego-Qwen3-32B는 52.6%를 기록했다. 3) SFT 기반 위에 구축된 테스트 타임 스케일링(TTS)을 추가로 평가 및 개선한다: 잘 훈련된 검증기를 기반으로 SWE-Lego 모델의 성능은 크게 향상될 수 있으며, 예를 들어 8B 및 32B 모델에 대해 TTS@16 설정 시 각각 42.2% → 49.6%, 52.6% → 58.8%로 성능이 향상된다.
동료 평가에서 참신성 평가는 중요하지만 어려운 과제이며, 심사자들은 방대하고 빠르게 진화하는 문헌에 비춰 제출된 논문을 평가해야 합니다. 본 보고서는 투명하고 증거 기반의 참신성 분석을 위한 LLM 기반 에이전트 시스템인 OpenNovelty를 소개합니다. 이 시스템은 네 단계로 운영됩니다: (1) 핵심 과제와 기여 주장을 추출하여 검색 질의를 생성하고; (2) 추출된 질의를 바탕으로 의미론적 검색 엔진을 통해 관련 기존 연구를 검색하며; (3) 핵심 과제와 관련된 연구의 계층적 분류 체계를 구성하고 각 기여 사항에 대해 기여 수준의 전문 비교를 수행하며; (4) 모든 분석을 명시적 인용과 증거 발췌문을 포함한 구조화된 참신성 보고서로 종합합니다. 단순한 LLM 기반 접근법과 달리, OpenNovelty는 모든 평가를 검색된 실제 논문에 기반하여 검증 가능한 판단을 보장합니다. 우리는 본 시스템을 500편 이상의 ICLR 2026 제출 논문에 적용했으며, 모든 보고서는 웹사이트에서 공개되어 있습니다. 예비 분석 결과, 본 시스템은 저자가 간과할 수 있는 밀접한 관련 논문을 포함하여 관련 기존 연구를 식별할 수 있는 것으로 나타났습니다. OpenNovelty는 공정하고 일관적이며 증거에 기반한 동료 평가를 촉진하는 확장 가능한 도구로 연구 커뮤니티에 기여하는 것을 목표로 합니다.
우리는 물질의 위계적 구조와 음악의 작곡 논리를 연결하는 생성적 프레임워크로서 '매터리오뮤직(materiomusic)'을 소개한다. 단백질, 거미줄, 화염 역학에 이르기까지, 진동 및 구조적 원리는 음향 위계, 화성 진행, 장거리 음악 형식으로 반복적으로 나타난다. 분자 스펙트럼에서 음조로, 3차원 네트워크에서 연주 가능한 악기로의 가역적 매핑을 통해, 우리는 소리가 어떻게 과학적 탐사 도구로 기능하는지 보여준다. 이것은 청각이 시각의 방식이 되고 음악 작곡이 물질의 청사진이 되는 인식론적 전환이다. 이러한 매핑은 심층 시간을 발굴한다. 펨토초 분자 진동이나 수십억 년에 걸친 진화 역사에서 비롯된 패턴이 가청화된다. 우리는 과학과 예술에서의 참신함이 기존 자유도 내에서 제약 조건을 충족시킬 수 없어 실행 가능한 구성 공간의 확장을 강제할 때 발생한다고 가정한다. 선택적 불완전성은 응집성과 적응성 사이의 균형을 회복하는 메커니즘을 제공한다. 양적 지원은 2^12개의 모든 음계를 완전히 열거한 결과에서 비롯되며, 문화적으로 중요한 시스템이 중간 엔트로피 및 중간 결함 영역에 집중되는 현상이 나타난다. 이는 중간 정도의 결함 밀도가 재료 강도를 극대화하는 홀-페치 최적점과 직접적으로 평행을 이룬다. 이러한 매핑을 반복하면 인간의 창의성과 물리학 간의 생산적 충돌이 생성되며, 음악 구조가 진화적 제약과 만나 새로운 정보를 생성한다. 우리는 군집 기반 AI 모델이 소세계 연결성, 모듈식 통합, 장거리 응집성과 같은 인간 유사 구조적 특징을 보이는 음악을 어떻게 작곡하는지 보여준다. 이는 보간을 넘어 발명으로 나아가는 길을 제시한다. 우리는 과학과 예술이 제약 하에서 진동을 공유 문법으로 삼아 다양한 규모에 걸쳐 구조를 조직화하는 세계 구축의 생성적 행위임을 보여준다.
다중 주석자 의료 영상 분할은 중요한 연구 문제이지만, 수집 비용이 많이 드는 주석 데이터셋이 필요합니다. 피부경피부 병변 영상은 인간 전문가와 AI 시스템이 일반 임상 사진에서는 식별할 수 없는 형태학적 구조를 관찰할 수 있게 합니다. 그러나 현재 피부경 피부 병변 분할(SLS)을 위한 대규모 공개 다중 주석자 데이터셋은 주석자 레이블과 함께 공개된 것이 없습니다. 본 논문은 ISIC 아카이브의 이미지를 위한 대규모 공개 다중 주석자 피부 병변 분할 데이터셋인 ISIC MultiAnnot++를 소개합니다. 최종 데이터셋은 14,967개의 피부경 이미지에 걸쳐 17,684개의 분할 마스크를 포함하며, 이 중 2,394개의 피부경 이미지는 이미지당 2-5개의 분할 데이터를 보유하여 현재 공개된 가장 큰 SLS 데이터셋입니다. 더 나아가 주석자의 숙련도 및 분할 도구를 포함한 분할에 대한 메타데이터가 제공되어, 분할에 대한 주석자별 선호도 모델링 및 주석자 메타데이터 분석과 같은 주제 연구가 가능합니다. 본 논문은 이 데이터셋의 특성, 정제된 데이터 분할 및 합의 분할 마스크에 대한 분석을 제공합니다.
지오 파운데이션 모델(GFM)은 의미 분할, 분류, 회귀 작업 등 다양한 다운스트림 애플리케이션에서 효과적인 것으로 입증되었습니다. 그러나 Sen1Flood11 데이터셋을 활용한 홍수 범람 지도 작성이라는 다운스트림 작업의 경우, GFM은 기준이 되는 U-Net을 능가하는 데 어려움을 보이며 중요한 지역적 뉘앙스를 포착하는 모델의 한계를 드러냈습니다. 이를 해결하기 위해 우리는 프리트비 GFM 사전 학습 인코더와 Convolutional Attention Module(CAM)으로 강화된 병렬 CNN 잔차 브랜치를 통합한 프리트비-상호보완적 적응형 융합 인코더(Prithvi-CAFE)를 제시합니다. 프리트비-CAFE는 어댑터를 통해 프리트비의 빠르고 효율적인 미세 조정을 가능하게 하며, CNN 특징과의 다중 규모, 다중 수준 융합을 수행하여 장거리 의존성을 보존하면서도 중요한 지역적 세부 사항을 포착합니다. 우리는 Sen1Flood11과 FloodPlanet이라는 두 가지 포괄적인 홍수 범람 지도 데이터셋에서 최첨단 결과를 달성했습니다. Sen1Flood11 테스트 데이터에서 프리트비-CAFE(IoU 83.41)는 원본 프리트비(IoU 82.50) 및 다른 주요 GFM들(TerraMind 82.90, DOFA 81.54, spectralGPT: 81.02)을 능가했습니다. 이러한 개선 효과는 홀드아웃 테스트 사이트에서 더욱 두드러졌는데, 프리트비-CAFE는 기준 U-Net(70.57) 및 원본 프리트비(72.42)에 비해 81.37의 IoU를 달성했습니다. FloodPlanet에서도 프리트비-CAFE는 기준 U-Net 및 다른 GFM들을 능가하며, U-Net(60.14), Terramind(62.33), DOFA(59.15), 프리트비 2.0(61.91)에 비해 64.70의 IoU를 기록했습니다. 우리가 제안하는 간단하면서도 효과적인 프리트비-CAFE는 다중 채널 및 다중 모달 데이터가 상호보완적 정보를 제공하고 지역적 세부 사항이 중요한 분할 작업의 성능 향상에 강력한 잠재력을 보여줍니다. 코드는 https://github.com/Sk-2103/Prithvi-CAFE{Prithvi-CAFE Github}에 공개되어 있습니다.
대규모 언어 모델(LLM) 에이전트가 고위험 자율 의사결임 임무를 점점 더 많이 수행함에 따라, 그들의 추론 과정에 대한 투명성은 중요한 안전 문제로 대두되고 있습니다. 사고 연쇄(Chain-of-Thought, CoT) 프롬프팅은 에이전트가 인간이 읽을 수 있는 추론 흔적을 생성하게 하지만, 이러한 흔적이 모델 출력의 충실한 생성 동인인지 아니면 단순히 사후 합리화에 불과한지는 여전히 불분명합니다. 본 연구는 구조적 인과 모델(Structural Causal Models, SCMs)과 반사실적 논리를 활용하여 에이전트 추론의 인과적 무결성을 감사하는 새로운 XAI 프레임워크인 프로젝트 아리아드네(Project Ariadne)를 소개합니다. 표면적 텍스트 유사성에 의존하는 기존의 해석 가능성 방법론과 달리, 프로젝트 아리아드네는 중간 추론 노드에 대한 경성 개입(do-calculus)을 수행합니다. 즉, 논리를 체계적으로 반전시키고, 전제를 부정하며, 사실 주장을 뒤집어 최종 답변의 인과적 민감도(Causal Sensitivity, φ)를 측정합니다. 최첨단 모델에 대한 우리의 실증적 평가는 지속적인 충실도 격차(Faithfulness Gap)를 보여줍니다. 우리는 인과적 분리(Causal Decoupling)라고 명명한 광범위한 오류 모드를 정의하고 탐지했으며, 에이전트는 사실 및 과학 영역에서 최대 0.77의 위반 밀도(violation density, ρ)를 나타냈습니다. 이러한 경우 에이전트는 상반된 내부 논리에도 불구하고 동일한 결론에 도달하는데, 이는 그들의 추론 흔적이 "추론 쇼(Reasoning Theater)"로 기능하는 반면 의사결정은 잠재적인 매개변수 사전 분포(latent parametric priors)에 의해 지배된다는 것을 증명합니다. 우리의 연구 결과는 현재의 에이전트 아키텍처가 본질적으로 불충실한 설명에 취약함을 시사하며, 우리는 명시된 논리와 모델 행동을 일치시키기 위한 새로운 벤치마크로 아리아드네 점수(Ariadne Score)를 제안합니다.
텍스트-이미지 확산 모델이 유해하거나 저작권이 있는 콘텐츠를 생성할 수 있어 개념 삭제에 대한 연구가 활발히 진행되고 있습니다. 그러나 기존 접근법은 주로 텍스트 프롬프트에서 개념을 삭제하는 데 집중하여, 이미지 편집 및 개인화 생성과 같은 실제 애플리케이션에서 점점 더 중요해지고 있는 다른 입력 양식을 간과해 왔습니다. 이러한 양식은 방어 장치가 있음에도 삭제된 개념이 재발현될 수 있는 공격 표면이 될 수 있습니다. 이러한 격차를 해소하기 위해 본 연구에서는 세 가지 입력 양식(텍스트 프롬프트, 학습된 임베딩, 역전된 잠재 벡터)에 걸쳐 개념 삭제 방법을 체계적으로 벤치마킹하는 새로운 다중 양식 평가 프레임워크인 M-ErasureBench를 소개합니다. 후자 두 가지에 대해서는 화이트박스 및 블랙박스 접근 권한을 모두 평가하여 총 다섯 가지 평가 시나리오를 구성했습니다. 분석 결과, 기존 방법들은 텍스트 프롬프트에 대해서는 강력한 삭제 성능을 달성하지만, 학습된 임베딩과 역전된 잠재 벡터 상황에서는 대부분 실패하며, 화이트박스 설정에서 개념 재현률(CRR)이 90%를 초과하는 것으로 나타났습니다. 이러한 취약점을 해결하기 위해 우리는 추론 시점 개념 삭제 강건성 향상(IRECE) 모듈을 제안합니다. 이는 플러그 앤 플레이 모듈로, 크로스 어텐션을 통해 타겟 개념을 지역화하고 디노이징 과정에서 관련 잠재 벡터를 교란시킵니다. 실험 결과, IRECE는 가장 어려운 화이트박스 잠재 벡터 역전 시나리오에서 CRR을 최대 40%까지 감소시키며 시각적 품질을 유지하는 동시에 일관되게 강건성을 회복시키는 것으로 입증되었습니다. 우리가 알고 있는 바에 따르면, M-ErasureBench는 텍스트 프롬프트를 넘어선 개념 삭제에 대한 최초의 포괄적인 벤치마크를 제공합니다. IRECE와 함께, 우리의 벤치마크는 더 안정적인 보호 생성 모델 구축을 위한 실용적인 안전장치를 제시합니다.