번역이 포함된 일일 선별된 AI 연구 논문
증류된 자기회귀(AR) 비디오 모델은 효율적인 스트리밍 생성을 가능하게 하지만 인간의 시각적 선호도와 자주 불일치합니다. 기존 강화학습(RL) 프레임워크는 이러한 아키텍처에 자연스럽게 적합하지 않으며, 일반적으로 비용이 많이 드는 재증류 또는 상당한 메모리 및 계산 오버헤드를 유발하는 솔버-결합 역과정 최적화를 필요로 합니다. 우리는 증류된 AR 모델에 맞춰 설계된 효율적인 온라인 RL 프레임워크인 Astrolabe를 제시합니다. 기존 병목 현상을 극복하기 위해, 우리는 부정 인식 미세 조정에 기반한 순과정 RL 공식을 도입합니다. 추론 종단점에서 긍정 및 부정 샘플을 직접 대조함으로써, 이 접근법은 역과정 전개를 필요로 하지 않으면서 암묵적인 정책 개선 방향을 설정합니다. 이러한 정렬을 긴 비디오로 확장하기 위해, 우리는 롤링 KV 캐시를 통해 시퀀스를 점진적으로 생성하고, 장거리 일관성을 보장하기 위해 이전 컨텍스트에 조건을 부여하면서 RL 업데이트를 로컬 클립 윈도우에만 적용하는 스트리밍 훈련 기법을 제안합니다. 마지막으로, 보장 해킹을 완화하기 위해 불확실성 인식 선택적 정규화와 동적 참조 업데이트로 안정화된 다중 보상 목표를 통합합니다. 광범위한 실험을 통해 우리의 방법이 여러 증류된 AR 비디오 모델에서 생성 품질을 지속적으로 향상시키며, 강력하고 확장 가능한 정렬 솔루션으로 기능함을 입증합니다.
VLM은 강력한 다중모달 능력을 보여주지만, 여전히 세밀한 수준의 시각-언어 추론에는 어려움을 겪습니다. 우리는 긴 CoT 추론이 지각, 추론, 지식, 환각 오류를 포함한 다양한 실패 모드를 드러내며, 이러한 오류들이 중간 단계에서 누적될 수 있음을 발견했습니다. 그러나 RLVR에 사용되는 대부분의 기존 시각-언어 데이터는 시각적 증거에 전반적으로 의존하는 복잡한 추론 체인을 포함하지 않아 이러한 약점이 크게 노출되지 않습니다. 따라서 우리는 VLM의 RLVR 훈련을 위해 특화된 다중 홉 시각-언어 추론 데이터를 합성하는 확장 가능한 프레임워크인 HopChain을 제안합니다. 합성된 각 다중 홉 쿼리는 인스턴스에 기반한 논리적으로 종속적인 홉 체인을 형성하며, 초기 홉은 후속 홉에 필요한 인스턴스, 집합 또는 조건을 설정하고 최종 답변은 검증 가능한 보상에 적합한 구체적이고 명확한 숫자로 유지됩니다. 우리는 HopChain으로 합성된 다중 홉 데이터를 Qwen3.5-35B-A3B 및 Qwen3.5-397B-A17B 훈련에 사용된 원본 RLVR 데이터에 추가하고, STEM 및 퍼즐, 일반 VQA, 텍스트 인식 및 문서 이해, 비디오 이해를 아우르는 24개 벤치마크에서 원본 RLVR 데이터만 사용한 RLVR 대비 성능을 비교합니다. 이 다중 홉 데이터는 특정 벤치마크를 대상으로 합성된 것이 아님에도 불구하고, 추가 시 두 모델 모두 24개 벤치마크 중 20개에서 성능 향상을 보여 넓고 일반화 가능한 이점을 확인했습니다. 완전한 체인 쿼리의 중요성을 입증하기 위해 이를 반-다중 홉 또는 단일 홉 변형으로 대체했을 때, 24개 벤치마크 평균 정확도가 각각 5.3점, 7.0점 하락했습니다. 다중 홉 훈련은 긴 CoT 시각-언어 추론도 강화하며, 특히 초장형 CoT 영역에서 50% 포인트 이상의 정확도 향상 정점을 보였습니다. 이러한 실험들은 HopChain이 일반화 가능한 시각-언어 추론을 개선하는 다중 홉 데이터를 합성하는 효과적이고 확장 가능한 프레임워크임을 입증합니다.
비전-언어 모델(VLM)은 지구 관측(EO) 분야에서 유망한 성능을 보여왔지만, 복잡한 공간 추론을 정확한 픽셀 수준의 시각적 표현에 기반하여 수행해야 하는 과제에서는 어려움을 겪고 있습니다. 이러한 문제를 해결하기 위해 우리는 픽셀 기반 지리공간 추론을 제공하는 통합 VLM인 TerraScope를 소개합니다. TerraScope는 두 가지 핵심 능력을 지닙니다: (1) 모달리티 유연 추론: 단일 모달리티 입력(광학 또는 SAR)을 처리하고, 두 모달리티가 모두 사용 가능한 경우 이를 추론 과정에 적응적으로 융합합니다; (2) 다중 시점 추론: 여러 시점에 걸친 변화 분석을 위해 시간序列 데이터를 통합합니다. 또한 우리는 다양한 출처의 추론 체인에 픽셀 수준 마스크가 포함된 100만 개의 샘플로 구성된 대규모 데이터셋 Terra-CoT를 구축했습니다. 더불어 답변 정확도와 마스크 품질을 모두 평가하여 진정한 픽셀 기반 추론을 보장하는 6개의 하위 과제로 구성된 최초의 픽셀 기반 지리공간 추론 벤치마크인 TerraScope-Bench를 제안합니다. 실험 결과, TerraScope는 해석 가능한 시각적 증거를 제공하면서 픽셀 기반 지리공간 추론에서 기존 VLM을 크게 능가하는 성능을 보여줍니다.
자기개선 AI 시스템은 자체 학습 및 문제 해결 과정을 개선하는 방법을 학습함으로써 인간 공학에 대한 의존도를 줄이는 것을 목표로 합니다. 기존 자기개선 접근법은 고정된 수작업 메타 수준 메커니즘에 의존하여, 이러한 시스템의 개선 속도를 근본적으로 제한합니다. 다윈 괴델 머신(DGM)은 자체 수정된 변형을 반복적으로 생성하고 평가함으로써 코딩 분야에서 개방형 자기개선을 보여줍니다. 평가와 자체 수정이 모두 코딩 작업이기 때문에, 코딩 능력의 향상이 자기개선 능력의 향상으로 이어질 수 있습니다. 그러나 이러한 정렬은 일반적으로 코딩 도메인을 벗어나서는 성립하지 않습니다. 우리는 하이퍼에이전트(hyperagent)를 소개합니다. 하이퍼에이전트는 작업 에이전트(목표 작업 해결)와 메타 에이전트(자기 자신과 작업 에이전트 수정)를 단일 편집 가능 프로그램으로 통합하는 자기 참조 에이전트입니다. 중요한 것은 메타 수준 수정 절차 자체가 편집 가능하여 인지적 자기 수정(metacognitive self-modification)이 가능해지며, 이는 작업 해결 행동뿐만 아니라 향후 개선을 생성하는 메커니즘까지 개선합니다. 우리는 DGM을 확장하여 DGM-하이퍼에이전트(DGM-H)를 생성함으로써 이 프레임워크를 구현하며, 작업 성능과 자기 수정 기술 간의 도메인 특화적 정렬에 대한 가정을 제거하여 모든 계산 가능한 작업에서 자기 가속적 진전을 잠재적으로 지원할 수 있도록 합니다. 다양한 도메인에서 DGM-H는 시간이 지남에 따라 성능을 개선하며, 자기개선이나 개방형 탐색이 없는 베이스라인과 기존 자기개선 시스템을 능가합니다. 더 나아가, DGM-H는 새로운 에이전트를 생성하는 과정(예: 지속적 메모리, 성능 추적)을 개선하며, 이러한 메타 수준 개선은 도메인 간에 전이되고 실행에 걸쳐 누적됩니다. DGM-하이퍼에이전트는 단순히 더 나은 해결책을 탐색하는 것을 넘어, 개선 방법을 탐색하는 과정 자체를 지속적으로 개선하는 개방형 AI 시스템의 가능성을 엿보게 합니다.
효과적인 협력은 언제 도움을 요청해야 하는지를 아는 데서 시작됩니다. 예를 들어, 가려진 물체를 식별하려 할 때 인간은 누군가에게 장애물을 제거해 달라고 요청할 것입니다. MLLM이 간단한 사용자 개입을 요청하는 유사한 "능동적" 행동을 보일 수 있을까요? 이를 조사하기 위해 우리는 다양한 작업(가려진 물체 인식, 이미지 품질 향상,粗略한 스케치 해석 등)에서 능동성을 테스트하는 7개의 재구성된 데이터셋으로 구축된 벤치마크인 ProactiveBench를 소개합니다. 우리는 ProactiveBench에서 22개의 MLLM을 평가하여 다음과 같은 결과를 보여줍니다: (i) MLLM은 일반적으로 능동성이 부족함, (ii) 능동성은 모델 역량과 상관관계가 없음, (iii) 능동성을 "암시"해도 개선 효과는 미미함. 놀랍게도, 대화 기록과 컨텍스트 내 학습은 오히려 부정적인 편향을 도입하여 성능을 저하시키는 것으로 나타났습니다. 마지막으로, 강화 학습 기반의 간단한 미세 조정 전략을 탐구한 결과, 능동성이 학습 가능하며 보지 않은 시나리오로도 일반화될 수 있음을 시사합니다. 우리는 능동적인 멀티모달 모델 구축을 위한 첫걸음으로 ProactiveBench를 공개합니다.
LLM(대규모 언어 모델)은 범용 추론기로 점점 더 많이 사용되고 있지만, 긴 입력은 고정된 컨텍스트 윈도우로 인해 병목 현상이 발생합니다. 재귀 언어 모델(RLM)은 프롬프트를 외부화하고 하위 문제를 재귀적으로 해결함으로써 이 문제를 해결합니다. 그러나 기존 RLM은 모델이 임의의 제어 코드를 생성하는 개방형 읽기-평가-출력 루프(REPL)에 의존하여 실행의 검증, 예측, 분석이 어렵습니다. 본 논문에서는 자유 형식의 재귀 코드 생성 대신 λ-계산에 기반한 타입 기능형 런타임을 사용하는 장문맥 추론 프레임워크인 λ-RLM을 소개합니다. λ-RLM은 사전 검증된 컴비네이터로 구성된 간결한 라이브러리를 실행하고, 유계 리프 하위 문제에 대해서만 신경망 추론을 사용하여 재귀 추론을 명시적 제어 흐름을 가진 구조화된 기능형 프로그램으로 전환합니다. 우리는 λ-RLM이 표준 RLM에는 없는 공식적 보장을 제공함을 보입니다. 이는 종료성, 닫힌 형태의 비용 한계, 재귀 깊이에 따른 정확도 제어 확장, 그리고 단순 비용 모델 하의 최적 분할 규칙을 포함합니다. 실험적으로, 4개의 장문맥 추론 과제와 9개의 기본 모델에 걸쳐, λ-RLM은 36개 모델-과제 비교 중 29개에서 표준 RLM을 능가하며, 모델 계층 전반에 걸쳐 평균 정확도를 최대 +21.9점까지 향상시키고 지연 시간을 최대 4.1배까지 줄였습니다. 이러한 결과는 타입 기호적 제어가 개방형 재귀 코드 생성보다 장문맥 추론을 위한 더 안정적이고 효율적인 기반을 제공함을 보여줍니다. λ-RLM의 완전한 구현은 커뮤니티를 위해 https://github.com/lambda-calculus-LLM/lambda-RLM에서 공개되어 있습니다.
장면 생성은 높은 사실감과 함께 기하학적 구조 및 외관에 대한 정밀한 제어를 요구하는 광범위한 산업적 적용 분야를 가지고 있습니다. 언어 기반 검색 방법은 대규모 객체 데이터베이스에서 그럴듯한 장면을 구성하지만, 객체 수준 제어를 간과하고 장면 수준 스타일 일관성을 종종 확보하지 못합니다. 그래프 기반 공식화는 관계를 명시적으로 모델링함으로써 객체에 대한 높은 제어성과 전체적 일관성을 제공하나, 기존 방법들은 고품질 텍스처 결과물을 생성하는 데 어려움을 겪어 실용성을 제한하고 있습니다. 본 연구에서는 다중 모드 그래프를 조건으로 하는 3-분기(tri-branch) 장면 생성 모델인 FlowScene을 제안합니다. 이 모델은 장면 레이아웃, 객체 형태, 객체 텍스처를 협력적으로 생성합니다. 그 핵심에는 생성 과정에서 객체 정보를 교환하는 긴밀하게 결합된 정규화 흐름(rectified flow) 모델이 자리하며, 이를 통해 그래프 전체에 걸친 협력적 추론이 가능해집니다. 이는 구조와 외관 전반에 걸쳐 장면 수준의 스타일 일관성을 확보하면서도 객체의 형태, 텍스처, 관계에 대한 세밀한 제어를 가능하게 합니다. 폭넓은 실험을 통해 FlowScene이 생성 사실감, 스타일 일관성, 인간 선호도 정렬 측면에서 언어 조건 기반 및 그래프 조건 기반 기준 모델들을 능가함을 입증했습니다.
디퓨전 모델의 최근 발전은 텍스트-비디오 생성 기술을 크게 향상시켜 전경 및 배경 요소에 대한 세밀한 제어를 통한 개인화된 콘텐츠 제작을 가능하게 했습니다. 그러나 기존 방법론은 명시적인 메커니즘 부재로 인해 여러 대상에 걸친 정확한 얼굴 속성 정렬은 여전히 어려운 과제로 남아 있습니다. 이러한 격차를 해결하기 위해서는 명시적 모델링 전략과 얼굴 속성 인지 데이터 자원이 모두 필요합니다. 이에 우리는 데이터와 모델 설계를 모두 발전시키는 LumosX 프레임워크를 제안합니다. 데이터 측면에서는 독립적인 비디오들로부터 캡션과 시각적 단서를 체계적으로 구성하는 맞춤형 수집 파이프라인과 다중 모드 대형 언어 모델(MLLM)을 통한 대상별 의존성 추론 및 할당을 수행합니다. 이렇게 추출된 관계적 사전 정보는 더 세분화된 구조를 적용하여 개인화된 비디오 생성의 표현적 제어력을 향상시키고 포괄적인 벤치마크 구축을 가능하게 합니다. 모델링 측면에서는 관계적 자기 주의력과 관계적 교차 주의력이 위치 인지 임베딩과 정제된 주의력 역학을 결합하여 명시적인 대상-속성 의존성을 부여함으로써, 그룹 내 일관성을 엄격하게 유지하고 서로 다른 대상 군집 간 분리를 증대시킵니다. 우리의 벤치마크에 대한 포괄적 평가 결과, LumosX가 세밀한 제어, 정체성 일관성, 의미론적 정렬이 요구되는 개인화된 다중 대상 비디오 생성 분야에서 최첨단 성능을 달성함을 입증합니다. 코드와 모델은 https://jiazheng-xing.github.io/lumosx-home/에서 확인할 수 있습니다.
사고 연쇄(CoT) 프롬프팅은 복잡한 작업에서 LLM의 정확도를 향상시키지만, 종종 토큰 사용량과 추론 비용을 증가시킵니다. 기존의 '예산 강제(Budget Forcing)' 방법은 휴리스틱 길이 패널티를 적용한 미세 조정을 통해 비용을 절감하지만, 필수적인 추론 과정과 불필요한 내용을 동시에 억제합니다. 우리는 효율적 추론을 정보 병목(IB) 원칙 하의 손실 압축 문제로 재정의하고, 순진한 IB를 트랜스포머에 적용할 때 발생하는 주요 이론적 격차를 확인했습니다: 어텐션 메커니즘이 프롬프트, 추론 흔적, 응답 간의 마르코프 속성을 위반하는 문제입니다. 이를 해결하기 위해 조건부 정보 병목(CIB) 원칙 하에서 CoT 생성을 모델링하며, 여기서 추론 흔적 Z는 프롬프트 X로부터 직접 획득할 수 없는 응답 Y 관련 정보만을 포함하는 계산적 다리 역할을 합니다. 이로부터 보편적인 강화 학습 목표를 도출합니다: 추론 흔적에 대한 사전 분포 하에서 완성문을 압축하면서 작업 보상을 극대화하는 것으로, 일반적인 휴리스틱(예: 길이 패널티)을 균일 사전 분포 같은 특수 사례로 포괄합니다. 단순 토큰 계수 기반 접근법과 대조적으로, 우리는 언어 모델 사전 분포 하의 놀람도(surprisal)로 토큰 비용을 측정하는 의미론적 사전 분포를 도입합니다. 실험적으로 우리의 CIB 목표는 유창성과 논리를 유지하면서 인지적 잡음을 제거하여, 중간 수준 압축에서 정확도를 향상시키고 최소한의 정확도 하락으로 공격적 압축을 가능하게 합니다.
대규모 언어 모델(LLM) 기반 에이전트는 모바일 인터페이스, 운영 체제, 웹 브라우저 등 디지털 환경을 위한 강력한 자율 제어기로 부상하고 있습니다. 예를 들어 웹 탐색은 동적 콘텐츠 처리와 긴 행동 순차열을 요구하기에 특히 어려운 과제입니다. 기존 LLM 기반 에이전트는 장기 계획 수립에 두 가지 주요 방식으로 어려움을 겪습니다. 온라인 실행 중에는 새로운 정보가 도착함에 따라 최종 목표를 향한 명확하고 적응적인 경로가 부족하여 종종 추적을 잃습니다. 이 문제는 강화 학습(RL) 미세 조정 시 더욱 악화되는데, 희소하고 지연된 보상으로 인해 에이전트가 어떤 행동이 성공을 이끄는지 식별하기 어려워 장기 과제에 걸쳐 일관된 추론을 유지하지 못합니다. 이러한 문제를 해결하기 위해 우리는 두 가지 기여를 제안합니다. 첫째, 하위 목표 분해를 통한 온라인 계획 수립을 위해 전용 모델을 활용하는 에이전트 프레임워크를 소개합니다. 둘째, 조밀한 마일스톤 기반 보상 신호를 사용하는 RL 훈련 프레임워크인 MiRA(Milestoning your Reinforcement Learning Enhanced Agent)를 제시합니다. 실시간 계획 수립 메커니즘은 WebArena-Lite 벤치마크에서 Gemini와 같은 전용 모델의 성공률(SR)을 약 10% 절대적으로 향상시킵니다. 한편, 오픈 모델인 Gemma3-12B에 MiRA를 적용하면 성공률이 6.4%에서 43.0%로 증가합니다. 이 성능은 GPT-4-Turbo(17.6%) 및 GPT-4o(13.9%)와 같은 전용 시스템과 기존 오픈 모델 최고 성능이었던 WebRL(38.4%)을 모두 능가합니다. 전반적으로, 우리의 연구 결과는 명시적 추론 시점 계획 수립과 마일스톤 기반 보상을 결합하면 에이전트의 장기 계획 능력이 크게 향상되어 더욱 강력하고 범용적인 자율 시스템으로 가는 길을 열어줌을 보여줍니다.
최근 들어 제어 가능한 비디오 생성 기술은 급격한 발전을 이루었습니다. 그러나 실제 영상에서 동작 및 동적 사건을 편집하거나 다른 객체의 행동에 영향을 미쳐야 할 콘텐츠를 삽입하는 작업은 여전히 큰 과제로 남아 있습니다. 기존 훈련된 모델들은 복잡한 편집 작업에 어려움을 겪는데, 이는 관련 훈련 데이터 수집의 어려움에서 기인한 것으로 보입니다. 마찬가지로, 기존의 훈련 불필요 방법론들은 구조 및 동작 보존 편집에 본질적으로 제한되어 있으며, 동작이나 상호작용 수정을 지원하지 않습니다. 본 연구에서는 사전 훈련된 텍스트-비디오 흐름 모델을 통해 다양한 비디오 편집 기능을 구현하는 훈련 불필요 편집 방법인 DynaEdit을 소개합니다. 우리의 방법은 모델 내부에 개입하지 않는 최근 도입된 인버전-프리 접근법에 기반하여, 모델에 구애받지 않습니다. 우리는 이 접근법을 일반적인 비제약 편집에 적용하려는 단순한 시도가 심각한 저주파수 정렬 오류와 고주파수 지터를 초래함을 보여줍니다. 우리는 이러한 현상의 원인을 설명하고 이를 극복하기 위한 새로운 메커니즘을 제시합니다. 광범위한 실험을 통해 DynaEdit이 동작 수정, 장면과 상호작용하는 객체 삽입, 전역 효과 도입 등을 포함한 복잡한 텍스트 기반 비디오 편집 작업에서 최첨단 성능을 달성함을 입증합니다.
루프 언어 모델(LoopLM)은 내부 표현을 정제하기 위해 반복적 잠재 계산을 수행함으로써 명시적 사고 연쇄(CoT) 추론에 대한 유망한 대안을 제공합니다. 그러나 기존 강화학습(RL) 패러다임은 주로 출력 토큰을 대상으로 하여, 추론이 암묵적으로 전개되는 루프 아키텍처와 구조적 불일치를 초래합니다. 본 연구에서는 LoopLM에 특화된 강화 사전 학습 프레임워크인 LoopRPT를 제안합니다. 다음 토큰 예측을 다음 토큰 추론 과제로 재구성함으로써, LoopRPT는 EMA 교사 참조 모델과 노이즈가 추가된 잠재 롤아웃을 사용하여 강화 신호를 잠재 단계에 직접 할당합니다. 이 공식화를 통해 RL이 중간 표현을 직접 형성하여 효과적인 추론을 더 적은 반복으로 압축할 수 있습니다. 우리는 다양한 모델 규모의 Ouro 아키텍처에서 LoopRPT를 구현합니다. 결과는 LoopRPT가 단계별 표현 품질을 꾸준히 향상시키며 정확도-계산량 트레이드오프에서 파레토 우위를 달성함을 보여줍니다. 특히, 어려운 토큰에서의 상당한 성능 향상은 LoopRPT가 조기 종료를 촉진하는 것이 아니라 초기 단계 추론을 향상시킨다는 것을 나타냅니다. 우리의 연구 결과는 LoopLM에서 효율적인 잠재 추론을 학습하기 위한 원칙적인 패러다임으로서 강화 사전 학습의 중요성을 부각합니다.
대규모 언어 모델은 일반적으로 계층적 및 양방향 헤더와 비표준 레이아웃을 특징으로 하는 비정형 테이블에 대한 복잡한 장기 분석 작업에 어려움을 겪습니다. 우리는 이러한 과제를 딥 테이블 분석(Deep Tabular Research, DTR)으로 공식화하며, 이는 상호 의존적인 테이블 영역에 대한 다단계 추론을 요구합니다. DTR을 해결하기 위해 우리는 테이블 추론을 폐쇄형 의사 결정 과정으로 취급하는 새로운 에이전트 기반 프레임워크를 제안합니다. 우리는 경로 결정 및 작업 실행을 위해 결합된 질의 및 테이블 이해를 신중하게 설계합니다. 구체적으로, (i) DTR은 먼저 양방향 의미를 포착하기 위해 계층적 메타 그래프를 구성하여 자연어 질의를 작업 수준 탐색 공간으로 매핑합니다; (ii) 이 공간을 탐색하기 위해 높은 효용 실행 경로를 우선시하는 기대 인식 선택 정책을 도입합니다; (iii) 결정적으로, 과거 실행 결과는 샴 구조화 메모리(매개변수화된 업데이트 및 추상화된 텍스트)로 통합되어 지속적인 정제를 가능하게 합니다. 까다로운 비정형 테이블 벤치마크에 대한 광범위한 실험을 통해 효과성이 검증되었으며, 장기 테이블 추론을 위해 전략적 계획과 하위 수준 실행을 분리하는 필요성이 강조되었습니다.
2D 파운데이션 이미지 모델이 높은 정확도로 결과물을 생성하는 놀라운 능력을 고려하여, 우리는 근본적인 질문을 제기한다: 2D 파운데이션 이미지 모델은 본질적으로 3D 세계 모델 능력을 내재하고 있는가? 이를 확인하기 위해, 우리는 3D 세계 합성 과업에 대해 여러 최첨단 이미지 생성 모델과 시각-언어 모델(VLM)을 체계적으로 평가한다. 잠재적 내재 3D 능력을 활용하고 벤치마킹하기 위해, 3D 세계 생성을 용이하게 하는 에이전트 기반 프레임워크를 제안한다. 우리의 접근법은 다중 에이전트 아키텍처를 사용한다: 이미지 합성을 안내하는 프롬프트를 구성하는 VLM 기반 디렉터, 새로운 이미지 뷰를 합성하는 생성기, 그리고 2D 이미지 및 3D 재구성 공간 모두에서 생성된 프레임을 평가하고 선택적으로 큐레이션하는 VLM 기반 2단계 검증기이다. 핵심적으로, 우리의 에이전트 접근법이 일관되고 견고한 3D 재구성을 제공하여 새로운 시점 렌더링을 통해 탐색 가능한 출력 장면을 생성함을 입증한다. 다양한 파운데이션 모델을 통한 광범위한 실험을 통해, 2D 모델이 실제로 3D 세계에 대한 이해를 내포하고 있음을 보여준다. 이 이해를 활용함으로써, 우리의 방법은 확장성 있고 현실적이며 3D 일관성을 가진 세계의 성공적 합성에 성공한다.
LLM의 컨텍스트 윈도우 확장은 장문 문서 이해 능력을 개방했지만, 추론 지연 시간과 정보 활용 측면에서 심각한 병목 현상을 초래했습니다. 기존 압축 방법은 과감한 토큰 제거로 인해 높은 학습 비용이나 의미 단편화 문제를 겪는 경우가 많습니다. 본 논문에서는 압축 방식을 선형적인 토큰 제거에서 구조 인식 계층적 선택으로 전환하는 새로운 학습 불필요 프레임워크인 BEAVER를 제안합니다. BEAVER는 이중 경로 풀링을 통해 가변 길이 컨텍스트를 페이지 수준의 조밀한 텐서로 매핑하여 하드웨어 병렬 처리를 극대화하고, 의미 및 어휘 이중 분기 선택과 문장 평활화를 결합한 하이브리드 플래너를 통해 담화 무결성을 보존합니다. 4가지 장문 컨텍스트 벤치마크에 대한 포괄적 평가 결과, BEAVER는 LongLLMLingua와 같은 최첨단(SOTA) 방법과 유사한 성능을 달성함을 확인했습니다. 특히 RULER 벤치마크에서 BEAVER는 기준 방법들이 성능이 저하되는 다중 니들 검색 상황에서도 높은 정확도를 유지했습니다. 효율성 측면에서 BEAVER는 128k 컨텍스트 기준으로 지연 시간을 26.4배 감소시켜 높은 처리량이 필요한 응용 프로그램에 확장 가능한 솔루션을 제공합니다. 구현 코드는 https://cslikai.cn/BEAVER/에서 확인할 수 있습니다.
생성 추천(Generative Recommendation, GR) 모델이 기존의 항목 ID 기반 모델을 능가하는 이유에 대한 널리 받아들여지는 가설은 이들이 일반화를 더 잘 수행하기 때문이라는 것이다. 그러나 전반적 성능을 피상적으로 비교하는 것을 넘어 이 가설을 검증할 체계적인 방법은 거의 없다. 이러한 격차를 해결하기 위해 우리는 각 데이터 인스턴스를 정확한 예측에 필요한 구체적 능력에 따라 분류한다: 기억화(훈련 중 관찰된 항목 전이 패턴 재사용) 또는 일반화(알려진 패턴을 조합하여 보지 못한 항목 전이 예측). 광범위한 실험 결과, GR 모델은 일반화가 필요한 인스턴스에서 더 잘 수행되는 반면, 항목 ID 기반 모델은 기억화가 더 중요할 때 더 나은 성능을 보인다. 이러한 차이를 설명하기 위해 우리는 분석 수준을 항목 수준에서 토큰 수준으로 전환하고, GR 모델의 경우 항목 수준 일반화로 보이는 현상이 종종 토큰 수준 기억화로 귀결됨을 보인다. 마지막으로, 두 패러다임이 상호 보완적임을 확인한다. 우리는 인스턴스별로 두 방식을 적응적으로 결합하는 간단한 기억화 인지 지표를 제안하며, 이는 전반적 추천 성능 향상으로 이어진다.
생성적 세계 모델은 동적 환경 시뮬레이션에서 가능성을 보여왔으나, 자기 중심적(egocentric) 영상은 급격한 시점 변화, 빈번한 손-객체 상호작용, 그리고 잠재적 인간 의도에 따라 진행되는 목표 지향적 절차로 인해 여전히 어려운 과제로 남아 있습니다. 기존 접근법들은 제한된 장면 변화를 수반하는 손 중심의 절차적 합성에 집중하거나, 동작 역학을 모델링하지 않은 정적 시점 변환을 수행하거나, 카메라 궤적, 긴 영상 접두사, 동기화된 다중 카메라 촬영 등과 같은 밀집 감독(dense supervision)에 의존합니다. 본 연구에서는 최소한의 정적 입력(단일 자기 중심 이미지, 고수준 지시사항, 선택적 보조 타인 중심(exocentric) 시야)으로부터 일관된 1인칭 영상 롤아웃(video rollout)을 생성하는 자기 중심 목표 지향 세계 시뮬레이터인 EgoForge를 소개합니다. 의도 정렬과 시간적 일관성을 향상시키기 위해, 확산 샘플링 과정에서 목표 달성, 시간적 인과관계, 장면 일관성 및 지각적 충실도를 최적화하는 궤적 수준 보안 가이드 정밀화(VideoDiffusionNFT)를 제안합니다. 광범위한 실험을 통해 EgoForge가 강력한 베이스라인 대비 의미론적 정렬, 기하학적 안정성 및 운동 충실도 측면에서 꾸준한 성능 향상을 달성하며, 실제 스마트 글래스 실험에서도 견고한 성능을 보여줌을 확인했습니다.
장편 비디오 질의응답은 장기간의 시간적 맥락에 대한 추론을 필요로 하며, 이는 제한된 컨텍스트 윈도우를 가진 대규모 시각-언어 모델(LVLM)에게 프레임 선택을 매우 중요하게 만듭니다. 기존 방법들은 날카로운 트레이드오프에 직면해 있습니다: 유사도 기반 선택자는 빠르지만 구성적 질의를 단일한 밀집 벡터로 축소하여 하위 이벤트 순서와 교차 모드 결합을 잃어버립니다. 에이전트 기반 방법은 반복적인 LVLM 추론을 통해 이 구조를 회복하지만, 엄청난 비용이 듭니다. 우리는 이러한 격차를 해소하는 학습이 필요 없는 프레임워크인 HiMu를 소개합니다. 단일 텍스트 전용 LLM 호출로 질의를 계층적 논리 트리로 분해하며, 이 트리의 리프 노드는 원자적 술어로 구성되고 각각은 시각(CLIP, 개방형 어휘 검출, OCR) 및 오디오(ASR, CLAP) 영역을 아우르는 경량 전문가 모듈로 라우팅됩니다. 생성된 신호는 정규화되고, 서로 다른 모드alities를 정렬하기 위해 시간적으로 평활화되며, 시간적 순서와 인접성을 강제하는 퍼지 논리 연산자를 통해 상향식으로 구성되어 연속적인 만족도 곡선을 생성합니다. Video-MME, LongVideoBench 및 HERBench-Lite에 대한 평가 결과, HiMu가 효율성-정확도 파레토 프론트를 발전시킴을 보여줍니다: Qwen3-VL 8B 모델에 16프레임을 사용할 때 모든 경쟁 선택자들을 능가하며, GPT-4o를 사용할 때는 32-512프레임으로 동작하는 에이전트 시스템들을 능가하는 동시에 약 10배 적은 FLOPs를 요구합니다.
현재 이산 확산 모델의 증류는 어려운 과제입니다. 이와 대조적으로 연속 확산 분야에는 샘플링 단계를 극소수로 줄일 수 있는 다양한 증류 기법이 존재합니다. 우리의 방법인 Discrete Moment Matching Distillation(D-MMD)은 연속 영역에서 높은 성공을 거둔 아이디어를 활용합니다. 기존 이산 증류 방법들이 성능이 저하되는 반면, D-MMD는 (충분한 샘플링 단계가 주어졌을 때) 높은 품질과 다양성을 유지합니다. 이는 텍스트와 이미지 데이터셋 모두에서 입증되었습니다. 더 나아가 새롭게 증류된 생성기는 교사 모델을 능가하는 성능을 보여줍니다.
강화학습(RL)은 대규모 언어 모델(LLM)의 사후 훈련 및 정렬을 위한 표준 패러다임으로 자리 잡았으나, 최근 연구에 따르면 지속적인 "능력 한계"에 직면해 있습니다: 새로운 전략을 발견하는 고전적 강화학습 시스템과 달리, LLM을 위한 강화학습은 사전 훈련된 가중치에 이미 잠재되어 있는 패턴을 단순히 세부 조정하는 역할에 그치는 경우가 많습니다. 본 연구에서는 근본적인 구조적 병목 현상을 규명합니다: 고전적 강화학습이 간결하고 유의미한 마르코프 상태에 의존하는 반면, 현재의 LLM 사후 훈련 방식은 계속해서 확장되는 행동 이력에 얽매여 있습니다. 우리는 오랫동안 강화학습의 핵심 원칙이었으나 LLM 사후 훈련에서는 적용되지 않았던 한 가지, 즉 명시적 마르코프 상태를 재조명합니다. 이론적으로는, 추정된 마르코프 상태를 활용함으로써 표본 복잡도를 크게 줄일 수 있음을 엄밀하게 증명합니다. 실증적으로는, 복잡한 논리 퍼즐 모음에 걸쳐 마르코프 상태를 도입하면 표준 강화학습 기반 사후 훈련의 성능 한계를 지속적으로 극복할 수 있음을 보여줍니다. 우리의 연구 결과는 "이력을 상태로 사용"하는 모델링을 넘어 구조화된 마르코프적 표현을 채택하는 것이 생성형 AI에서 개방형 발견과 진정한 새로운 추론 능력을 구현하는 데 필수적임을 시사합니다.
데이터 과학은 다양한 분야에서 복잡한 데이터를 실행 가능한 통찰력으로 전환하는 데 중요한 역할을 합니다. 대규모 언어 모델(LLM)과 인공지능(AI) 에이전트의 최근 발전은 데이터 과학 워크플로우를 크게 자동화했습니다. 그러나 AI 에이전트가 특정 분야 데이터 과학 과제에서 인간 전문가의 성과를 어느 정도 따라잡을 수 있는지, 그리고 어떤 측면에서 인간 전문성이 여전히 우위를 제공하는지는 불분명합니다. 본 연구는 특정 분야 데이터 과학에서 AI 에이전트와 인간-AI 협업 성과를 모두 평가하기 위해 설계된 벤치마크이자 경쟁인 AgentDS를 소개합니다. AgentDS는 상업, 식품 생산, 의료, 보험, 제조, 소매 금융 등 6개 산업 분야에 걸친 17개의 과제로 구성됩니다. 우리는 29개 팀과 80명의 참가자가 참여한 공개 경쟁을 진행하여 인간-AI 협업 접근법과 AI 단독 기준선을 체계적으로 비교했습니다. 연구 결과에 따르면, 현재의 AI 에이전트는 특정 분야 추론에 어려움을 겪는 것으로 나타났습니다. AI 단독 기준선은 경쟁 참가자들의 중간값에 근접하거나 그 이하의 성능을 보인 반면, 가장 강력한 솔루션은 인간-AI 협업에서 발생했습니다. 이러한 결과는 AI에 의한 완전한 자동화 담론에 의문을 제기하며 데이터 과학에서 인간 전문성의 지속적인 중요성을 강조하고, 다음 세대 AI를 위한 방향을 제시합니다. AgentDS 웹사이트(https://agentds.org/) 및 오픈 소스 데이터 세트(https://huggingface.co/datasets/lainmn/AgentDS)를 방문해 주시기 바랍니다.
우리는 LLM 정책 합성: 대규모 언어 모델을 사용하여 다중 에이전트 환경을 위한 프로그램형 에이전트 정책을 반복적으로 생성하는 방법을 연구합니다. 강화 학습을 통해 신경망 정책을 훈련시키는 대신, 우리의 프레임워크는 LLM에 Python 정책 함수를 생성하도록 프롬프트하고, 자기 대전에서 이를 평가하며, 반복에 걸친 성능 피드백을 사용하여 정책을 개선합니다. 우리는 피드백 엔지니어링(개선 과정에서 LLM에 어떤 평가 정보를 보여줄지의 설계)을 조사하며, 희소 피드백(스칼라 보상만)과 농밀 피드백(보상에 효율성, 평등, 지속가능성, 평화와 같은 사회적 지표를 추가)을 비교합니다. 두 가지 전형적인 순차 사회 딜레마(Gathering 및 Cleanup)와 두 가지 최신 LLM(Claude Sonnet 4.6, Gemini 3.1 Pro)을 대상으로 한 실험에서, 농밀 피드백은 모든 지표에서 희소 피드백과 동등하거나 이를 능가하는 성능을 일관되게 보였습니다. 이 장점은 공공재 게임인 Cleanup에서 가장 두드러졌는데, 여기서 사회적 지표를 제공하는 것이 LLM이 비용이 많이 드는 청소-수확 절충을 조정하는 데 도움을 주었습니다. 사회적 지표는 공정성의 과도한 최적화를 유발하기보다는, 영역 분할, 적응형 역할 할당, 낭비적인 공격 회피 등 보다 효과적인 협력 전략으로 LLM을 이끄는 조정 신호 역할을 했습니다. 우리는 추가적으로 LLM이 이러한 환경에서 보상 해킹을 할 수 있는지 확인하기 위한 적대적 실험을 수행했습니다. 우리는 5가지 공격 유형을 규명하고 완화 방안을 논의하며, LLM 정책 합성에서 표현력과 안전성 사이에 내재된 긴장 관계를 부각합니다. 코드: https://github.com/vicgalle/llm-policies-social-dilemmas.
우리는 벡터 스케치를 한 번에 한 부분씩 생성하는 방법을 개발한다. 이를 위해 감독 미세 조정 후 새로운 다중 턴 과정-보상 강화 학습을 사용하여 다중 모달 언어 모델 기반 에이전트를 훈련한다. 우리의 접근법은 ControlSketch-Part라고 명명한 새로운 데이터셋을 통해 가능해졌으며, 이 데이터셋은 구조화된 다단계 라벨링 과정으로 벡터 스케치를 의미론적 부분으로 분할하고 경로를 부분에 할당하는 새로운 일반적 자동 주석 파이프라인을 통해 얻은 풍부한 부분 수준 주석을 포함한다. 우리의 결과는 구조화된 부분 수준 데이터를 통합하고 과정 중 시각적 피드백을 에이전트에 제공하는 것이 해석 가능하고 제어 가능하며 지역적으로 편집 가능한 텍스트-벡터 스케치 생성을 가능하게 함을 보여준다.
대규모 시각-언어 모델(VLM)은 종종 고정된 시각 백본을 사용하며, 해당 이미지 특징은 경량 연결자를 통해 대규모 언어 모델에 매핑됩니다. 트랜스포머 기반 인코더가 표준 시각 백본이지만, 본 연구에서는 상태 공간 모델(SSM) 시각 백본이 강력한 대안이 될 수 있는지 질문합니다. 우리는 통제된 환경에서 VLM용 SSM 시각 백본을 체계적으로 평가합니다. 일치하는 ImageNet-1K 초기화 조건에서 SSM 백본은 VQA와 Grounding/지역화 모두에서 가장 강력한 전반적 성능을 달성했습니다. 우리는 SSM 및 ViT 계열 백본을 검출 또는 분할 학습으로 추가 적응시킨 결과, 밀집 작업 미세 조정이 일반적으로 두 계열 모두에서 성능을 향상시키는 것을 확인했습니다. 이러한 적응 후에도 SSM 백본은 상당히 작은 모델 규모로 운영되면서도 경쟁력을 유지했습니다. 또한 우리는 (i) 더 높은 ImageNet 정확도나 더 큰 백본이 더 나은 VLM 성능으로 안정적으로 이어지지 않으며, (ii) 일부 시각 백본이 지역화에서 불안정하다는 점을 관찰했습니다. 이러한 발견을 바탕으로, 우리는 두 백본 계열의 견고성을 향상시키는 안정화 전략을 제안하고, VLM에서 트랜스포머 기반 시각 인코더에 대한 강력한 대안으로서 SSM 백본을 강조합니다.
기존 SLAM 방법론은 대개 정적 환경을 가정하므로 동적 요소가 존재할 때 추적 실패가 발생한다. 최근의 동적 SLAM 접근법은 사전 정의된 동적 사전 정보나 불확실성 인지 매핑을 통해 이러한 문제를 해결하려 시도하지만, 알려지지 않은 동적 객체나 기하학적 매핑이 신뢰하기 어려운 복잡한 환경에서는 한계를 보인다. 이에 반해 본 연구에서는 다중 시점 시각 특징 간 불일치성을 활용하여 픽셀 단위 불확실성을 추정함으로써 실제 환경에서도 견고한 추적 및 재구성이 가능한 시스템을 제안한다. 제안 시스템은 복잡한 동적 시나리오에서 최첨단 수준의 카메라 포즈 및 장면 기하구조를 실시간(약 10 FPS)으로 구현한다. 코드와 데이터셋은 https://github.com/MoyangLi00/DROID-W.git에서 확인할 수 있다.
대규모 언어 모델(LLM)은 강력한 일반 지능을 보여주지만, 다국어 성능은 여전히 심각한 불균형을 보입니다. LLM이 통합 의미 공간에 상당한 양의 교차 언어 지식을 인코딩하지만, 이 지식을 저자원 언어나 학습되지 않은 언어와 안정적으로 연계하는 데는 종종 어려움을 겪습니다. 다행히 사전 학습된 인코더-디코더 번역 모델은 이미 균형 잡힌 다국어 능력을 보유하고 있어 LLM에 자연스러운 보완재가 될 수 있습니다. 본 연구에서는 다국어 이해와 생성을 외부의 사전 학습된 번역 모델에 위임하면서, 일반 지식 처리를 위한 영어 중심 코어로서 LLM의 기능을 보존하는 구성적 인코더-LLM-디코더 아키텍처인 XBridge를 제안합니다. 이로 인해 발생하는 모델 간 표현 불일치 문제를 해결하기 위해 경량의 교차 모델 매핑 레이어와 최적 수송 기반 정렬 목표를 도입하여 다국어 생성 시 세밀한 의미 일관성을 확보합니다. 다국어 이해, 추론, 요약, 생성 작업에 대해 4가지 LLM으로 진행한 실험 결과, XBridge가 LLM 재학습 없이도 강력한 기준 모델들을 능가하며, 특히 저자원 언어와 학습되지 않은 언어에서 우수한 성능을 보여주었습니다.
코드 리뷰는 코드 품질을 보장하고 결함을 탐지하며 유지보수성을 향상시키기 위해 개발자들이 통합 전 코드 변경 사항을 검토하는 중요한 소프트웨어 엔지니어링 실무입니다. 최근 몇 년 동안 코드 문맥을 이해하고, 리뷰 작업을 계획하며, 개발 환경과 상호작용할 수 있는 AI 에이전트가 코드 리뷰 프로세스에 점점 더 통합되고 있습니다. 그러나 협업 워크플로에서 AI 에이전트와 인간 리뷰어의 효과성을 비교하는 실증적 근거는 제한적입니다. 이러한 격차를 해소하기 위해 우리는 GitHub의 300개 오픈소스 프로젝트에서 278,790건의 코드 리뷰 대화를 대상으로 대규모 실증 분석을 수행합니다. 본 연구에서는 인간 리뷰어와 AI 에이전트가 제공하는 피드백의 차이점을 비교하는 것을 목표로 합니다. 리뷰 대화에서의 인간-AI 협업 패턴을 조사하여 상호작용이 리뷰 결과를 어떻게 형성하는지 이해하고자 합니다. 더 나아가, 인간 리뷰어와 AI 에이전트가 제안한 코드 수정 제안이 코드베이스에 실제로 채택되는 비율과 채택된 제안이 코드 품질을 어떻게 변화시키는지 분석합니다. 우리의 분석 결과, 인간 리뷰어는 AI 에이전트보다 이해도, 테스트, 지식 전달 등 추가적인 피드백을 제공하는 것으로 나타났습니다. 인간 리뷰어는 AI가 생성한 코드를 리뷰할 때 인간이 작성한 코드를 리뷰할 때보다 11.8% 더 많은 라운드의 대화를 교환합니다. 또한 AI 에이전트가 제안한 코드 수정 사항은 인간 리뷰어가 제안한 사항에 비해 코드베이스에 채택되는 비율이 현저히 낮습니다. AI 에이전트로부터 채택되지 않은 제안의 절반 이상이 잘못되었거나 개발자에 의해 대체 수정 방식으로 해결되었습니다. 채택된 경우에도 AI 에이전트가 제공한 제안은 인간 리뷰어가 제공한 제안보다 코드 복잡성과 코드 크기를 훨씬 더 크게 증가시키는 것으로 나타났습니다. 우리의 연구 결과는 AI 에이전트가 결함 탐지의 규모를 확장할 수는 있지만, 제안의 질을 보장하고 AI 에이전트가 부족한 문맥 기반 피드백을 제공하기 위해서는 인간의 감독이 여전히 중요함을 시사합니다.
정책 경직성(policy staleness) 및 훈련-추론 불일치(training-inference mismatch)와 같은 오프-폴리시(off-policy) 문제들은 LLM 강화학습의 훈련 안정성과 추가적인 탐색을 위한 주요 병목 현상으로 대두되고 있습니다. 추론 효율성을 높이기 위해 추론 정책과 업데이트된 정책 간의 분포 차이가 커지면, 이는 중요도 비율의 무거운 꼬리(heavy-tailed) 현상을 초래합니다. 무거운 꼬리 비율은 정책이 지역적으로 급격하게 변화할 때 발생하며, 이는 급격한 기울기를 더욱 부풀려 업데이트가 신뢰 영역(trust region)을 벗어나게 할 수 있습니다. 이를 해결하기 위해 본 논문에서는 Adaptive Layerwise Perturbation(ALP)을 제안합니다. ALP은 업데이트 동안 각 계층의 입력 은닉 상태에 작은 학습 가능한 섭동(perturbation)을 주입하며, 이는 목적 함수 내에서 변경되지 않은 추론 정책에 대한 중요도 비율의 분자(numerator)로 사용됩니다. 직관적으로, 중간 표현에 제어된 노이즈를 추가함으로써 ALP는 업데이트된 정책이 추론 정책으로부터 지나치게 급격하게 벗어나는 것을 방지하고, 불일치 노이즈를 포함하는 추론 정책 패밀리를 포괄할 수 있도록 정책 패밀리를 확장합니다. 따라서 평탄화된 분포는 업데이트된 정책과 추론 정책 간의 차이를 자연스럽게 좁히고 중요도 비율의 꼬리를 감소시켜 훈련 안정성을 유지합니다. 이는 실증적으로도 추가로 검증되었습니다. 단일 턴 수학 문제 및 다중 턴 도구 통합 추론 작업에 대한 실험 결과, ALP는 최종 성능을 향상시킬 뿐만 아니라 반복적 훈련 과정에서 중요도 비율 꼬리와 KL 발산(KL spikes)의 급증을 방지하며 탐색 능력도 향상시켰습니다. 애블레이션(ablation) 연구를 통해 모든 계층에 걸친 표현 수준(representation-level)의 섭동이 가장 효과적이며, 부분 계층 적용 변형이나 로짓(logits)만 적용한 변형보다 성능이 현저히 뛰어남을 확인했습니다.
대규모 언어 모델(LLM)이 사회적 영향을 미치는 애플리케이션에 점점 더 많이 배포됨에 따라, 이들이 내재하는 문화적 편향에 대한 우려가 제기되고 있다. 본 연구는 LLM이 제로샷 설정에서 곡 가사를 통해 가수의 성별과 민족성을 작업별 미세 조정 없이 추론하는 저자 프로파일링 작업을 수행할 수 있는지 평가하여 이러한 표현을 탐구한다. 10,000개 이상의 가사에 대해 여러 오픈소스 모델을 평가한 결과, LLM은 상당한 프로파일링 성능을 달성하지만 체계적인 문화적 정렬을 보인다는 것을 발견했다. 대부분의 모델은 북미 민족성을 기본값으로 하는 반면, DeepSeek-1.5B는 아시아 민족성과 더 강하게 정렬되었다. 이러한 결과는 모델의 예측 분포와 생성된 근거에 대한 분석을 통해 도출되었다. 이러한 편차를 정량화하기 위해 두 가지 공정성 지표인 양식 정확도 분기(MAD)와 재현율 분기(RD)를 도입하였으며, Ministral-8B가 평가된 모델 중 가장 강한 민족성 편향을 보인 반면 Gemma-12B가 가장 균형 잡힌 행동을 보임을 확인했다. 우리의 코드는 GitHub(https://github.com/ValentinLafargue/CulturalProbingLLM)에서 확인할 수 있다.
대규모 언어 모델(LLM)과 형식적 방법을 결합한 신경-기호 접근법이 최근 수학 중심 정리 증명 벤치마크에서 강력한 성과를 보여주고 있습니다. 그러나 경쟁형 수학 문제에서의 성공만으로는 실제 구현에 대한 증명을 구성할 능력이 있다고 입증하기는 어렵습니다. 우리는 이러한 격차를 해소하기 위해 HOL Light에서 이미 검증된 어셈블리 루틴을 보유한 산업용 암호화 라이브러리에서 유래한 벤치마크를 제시합니다. s2n-bignum은 AWS에서 암호화를 위한 고속 어셈블리 루틴을 제공하는 데 사용되는 라이브러리이며, 그 정확성은 형식적 검증을 통해 입증되었습니다. 이 라이브러리의 형식적 검증 작업은 자동 추론 그룹에게 중요한 성과였습니다. 여기에는 두 가지 작업이 포함되었습니다: (1) 프로그램의 올바른 동작을 수학적 명제로 정밀하게 규격화하는 것, (2) 해당 명제가 옳다는 것을 증명하는 것. s2n-bignum의 경우, 두 작업 모두 인간 전문가에 의해 수행되었습니다. s2n-bignum-bench에서는 형식적 규격을 제공하고 LLM이 고정된 증명 검사 타임아웃 내에 HOL Light에서 승인되는 증명 스크립트를 생성하도록 요구합니다. 우리가 알기로, s2n-bignum-bench는 HOL Light에서 산업용 저수준 암호화 어셈블리 루틴에 대해 기계 검증 가능한 증명 합성에 초점을 맞춘 최초의 공개 벤치마크입니다. 이 벤치마크는 경쟁 수학을 넘어선 LLM 기반 정리 증명 평가를 위한 도전적이고 실질적으로 관련성 높은 테스트베드를 제공합니다. 벤치마크 설정 및 사용을 위한 코드는 다음에서 확인할 수 있습니다: https://github.com/kings-crown/s2n-bignum-bench{s2n-bignum-bench}.
이미지로부터 3D 자산을 재구성하는 작업은 오랫동안 형상 재구성, 재질 추정, 조명 복원을 위한 별도의 파이프라인이 필요했으며, 각각 고유한 한계와 계산 부담이 있었습니다. 본 논문에서는 희소 다중 뷰 이미지로부터 완전한 3D 형상, 물리 기반 공간 변이 재질, 환경 조명을 1초 미만으로 동시에 재구성하는 최초의 통합 end-to-end 파이프라인인 ReLi3D를 제시합니다. 우리의 핵심 통찰은 다중 뷰 제약이 단일 이미지 방법에서는 근본적으로 ill-posed 문제로 남아 있는 재질과 조명의 분리 문제를 극적으로 개선할 수 있다는 점입니다. 우리 접근법의 핵심은 트랜스포머 크로스 컨디셔닝 아키텍처를 통한 다중 뷰 입력의 융합과, 이어지는 새로운 통합 이중 경로 예측 전략입니다. 첫 번째 경로는 객체의 구조와 외관을 예측하는 반면, 두 번째 경로는 이미지 배경이나 객체 반사로부터 환경 조명을 예측합니다. 이는 미분 가능한 몬테카를로 다중 중요도 샘플링 렌더러와 결합되어 최적의 조명 분리 학습 파이프라인을 구성합니다. 또한, 합성 PBR 데이터셋과 실제 RGB 캡처를 결합한 혼합 도메인 학습 프로토콜을 통해 형상, 재질 정확도, 조명 품질에서 일반화 가능한 결과를 달성합니다. 기존에 분리되었던 재구성 작업들을 단일 순전파 과정으로 통합함으로써 완전한 재조명 가능 3D 자산의 거의 즉시 생성이 가능해집니다. 프로젝트 페이지: https://reli3d.jdihlmann.com/
멀티모달 대규모 언어 모델은 오프라인 비디오 이해에서 상당한 성공을 거두었으나, 스트리밍 비디오에의 적용은 시각 토큰의 선형적 폭증으로 인해 메모리 부족(OOM) 오류나 치명적 망각을 초래하며 심각하게 제한되고 있습니다. 기존의 시각 정보 보존 및 메모리 관리 방법은 일반적으로 균일 샘플링, 저수준 물리적 메트릭 또는 수동적 캐시 제거에 의존합니다. 그러나 이러한 전략은 본질적인 의미 인식이 부족하여 맥락적 일관성을 해치고 일시적이지만 중요한 의미 전환을 흐릿하게 만들 가능성이 있습니다. 이러한 한계를 해결하기 위해 우리는 훈련이 필요 없는 곡률 인식 계층적 시각 메모리 관리 프레임워크인 CurveStream을 제안합니다. 우리의 접근법은 연속적인 특징 궤적을 따른 높은 곡률 영역이 중요한 전역 의미 전환과 밀접하게 일치한다는 핵심 관찰에 동기를 부여받았습니다. 이러한 기하학적 통찰을 바탕으로 CurveStream은 곡률 점수를 통해 실시간 의미 강도를 평가하고, 온라인 K-시그마 동적 임계값을 통합하여 엄격한 토큰 예산 내에서 프레임을 명확 메모리 상태와 퍼지 메모리 상태로 적응적으로 라우팅합니다. 다양한 시간 규모에 걸친 평가 결과, 이 경량 프레임워크인 CurveStream이 각각의 기준선 대비 10% 이상(예: StreamingBench에서 10.69%, OVOBench에서 13.58%)의 절대적 성능 향상을 지속적으로 달성하여 스트리밍 비디오 인식을 위한 새로운 최첨단 결과를 수립함을 확인했습니다. 코드는 https://github.com/streamingvideos/CurveStream 에 공개될 예정입니다.
대규모 언어 모델의 급속한 확산은 인간이 작성한 텍스트와 AI 생성 텍스트를 구분하는 작업의 난이도를 크게 높여 학술, 편집, 사회적 영역 전반에 걸쳐 중요한 문제를 제기하고 있다. 본 논문은 여러 머신러닝 기반 탐지기를 설계, 구현, 비교 평가함으로써 AI 생성 텍스트 탐지 문제를 연구한다. 다층 퍼셉트론, 1차원 합성곱 신경망, MobileNet 기반 CNN, Transformer 모델 등 총 4가지 신경망 아키텍처를 개발하고 분석하였다. 제안된 모델들은 ZeroGPT, GPTZero, QuillBot, Originality.AI, Sapling, IsGen, Rephrase, Writer 등 널리 사용되는 온라인 탐지기들과 성능을 비교 평가하였다. COLING 다국어 데이터셋의 영어 및 이탈리아어 설정과 예술 및 정신 건강에 초점을 맞춘 독자적인 주제 데이터셋을 대상으로 실험을 진행하였다. 결과에 따르면 지도 학습 기반 탐지기는 상용 도구들보다 다양한 언어와 도메인에서 더 안정적이고 강력한 성능을 달성하여, 현재 탐지 전략의 주요 강점과 한계를 부각시켰다.
의료 초음파 영상 분할은 레이블이 지정된 데이터의 한계와 스페클 노이즈, 낮은 대비의 경계 등 특유의 영상 아티팩트로 인해 상당한 어려움에 직면해 있습니다. 레이블 없는 데이터를 활용한 준지도 학습 방법이 데이터 부족 문제를 해결하기 위해 등장했지만, 기존 방법들은 레이블 없는 데이터 활용이 최적화되지 않았고 강력한 특징 표현 메커니즘을 갖추지 못했습니다. 본 논문에서는 두 가지 핵심 혁신을 통해 이러한 문제를 해결하는 새로운 준지도 학습 프레임워크인 Switch를 제안합니다: (1) 계층적 패치 혼합을 통해 균일한 공간 커버리지를 달성하는 Multiscale Switch(MSS) 전략, (2) 푸리에 공간에서 진폭 전환을 수행하여 강력한 특징 표현을 학습하는 Frequency Domain Switch(FDS)와 대조 학습. 본 프레임워크는 이러한 구성 요소를 교사-학생 구조 내에 통합하여 레이블이 지정된 데이터와 레이블 없는 데이터를 효과적으로 활용합니다. 림프절, 유방 병변, 갑상선 결절, 전립선 등 6가지 다양한 초음파 데이터셋에 대한 포괄적 평가를 통해 최신 방법 대비 일관된 우수성을 입증했습니다. 5% 레이블링 비율에서 Switch는 LN-INT 데이터셋에서 80.04% Dice, DDTI에서 85.52% Dice, 전립선 데이터셋에서 83.48% Dice라는 주목할 만한 성능 향상을 달성했으며, 본 준지도 학습 접근법은 완전 지도 학습 기준선을 능가하기도 했습니다. 본 방법은 매개변수 효율성(180만 개 매개변수)을 유지하면서도 우수한 성능을 제공하여 자원이 제한된 의료 영상 응용 분야에서의 효과성을 입증했습니다. 소스 코드는 https://github.com/jinggqu/Switch에서 공개되어 있습니다.
텍스처가 없는 3D 모델에 대해 사실적이고 자기 일관된 외관을 자동으로 생성하는 것은 디지털 콘텐츠 제작에서 중요한 과제입니다. 대규모 비디오 생성 모델의 발전은 자연스러운 접근법을 제공합니다: 360도 턴테이블 비디오(TTV)를 직접 합성하는 것으로, 이는 고품질의 동적 미리보기 역할을 할 뿐만 아니라 텍스처 합성 및 신경망 렌더링을 구동하는 중간 표현으로도 사용될 수 있습니다. 그러나 기존의 범용 비디오 확산 모델은 모든 뷰에 걸쳐 엄격한 기하학적 일관성과 외관 안정성을 유지하는 데 어려움을 겪어, 그 출력이 고품질 3D 재구성에는 부적합합니다. 이를 위해 우리는 명시적 3D 형상을 조건으로 고품질 TTV를 생성하는 프레임워크인 TAPESTRY를 소개합니다. 우리는 3D 외관 생성 작업을 형상 조건화 비디오 확산 문제로 재구성합니다: 3D 메시가 주어지면, 먼저 다중 모드 기하학적 특징을 렌더링 및 인코딩하여 픽셀 수준의 정밀도로 비디오 생성 과정을 제한함으로써 고품질이고 일관된 TTV의 생성을 가능하게 합니다. 이를 기반으로 TTV 입력으로부터의 다운스트림 재구성 작업을 위한 방법도 설계하였으며, 여기에는 3D 인페인팅을 포함한 다단계 파이프라인이 특징입니다. 모델을 회전시키고 컨텍스트 인식 이차 생성을 수행함으로써, 이 파이프라인은 자체 가려진 영역을 효과적으로 완성하여 전체 표면 커버리지를 달성합니다. TAPESTRY로 생성된 비디오는 고품질의 동적 미리보기일 뿐만 아니라, UV 텍스처로 원활하게 역투영되거나 3DGS와 같은 신경망 렌더링 방법을 지도하는 데 사용될 수 있는 신뢰할 수 있는 3D 인식 중간 표현 역할을 합니다. 이는 텍스처 없는 메시로부터 프로덕션 준비가 완료된 전체 3D 에셋의 자동화된 생성을 가능하게 합니다. 실험 결과는 우리의 방법이 비디오 일관성과 최종 재구성 품질 모두에서 기존 접근법을 능가함을 보여줍니다.
기존의 변조 탐지 벤치마크는 대부분 객체 마스크에 의존하고 있으며, 이는 실제 편집 신호와 심각하게 불일치합니다: 마스크 내부의 많은 픽셀은 변경되지 않았거나 사소하게 수정된 반면, 마스크 외부의 미세하지만 중요한 편집은 자연스러운 것으로 처리됩니다. 우리는 VLM 이미지 변조 탐지를 거친 영역 라벨링에서 픽셀 기반의 의미 및 언어 인식 작업으로 재정의합니다. 첫째, 편집 기본 요소(대체/제거/결합/인페인팅/속성/색상화 등)와 변조된 객체의 의미론적 클래스를 아우르는 분류 체계를 도입하여 저수준 변경 사항을 고수준 이해와 연결합니다. 둘째, 통합된 프로토콜 내에서 탐지 및 분류를 평가하기 위해 픽셀 단위 변조 맵과 짝을 이룬 범주 지도를 포함한 새로운 벤치마크를 공개합니다. 셋째, 실제 편집 강도에 대한 신뢰도 또는 예측을 평가하기 위해 위치 정보를 고려한 픽셀 수준 정확도를 정량화하는 훈련 프레임워크와 평가 지표를 제안하고, 예측된 영역에 대한 의미 인식 분류 및 자연어 설명을 통해 변조 의미 이해도를 추가적으로 측정합니다. 또한 최신 강력한 변조 탐지기 기반의 기존 강력한 분할/위치 파악 베이스라인을 재평가하고, 마스크 전용 지표를 사용할 때 발생하는 상당한 점수 과대 및 과소 평가를 밝히며, 미세 편집 및 마스크 외부 변경 사항에서의 실패 모드를 드러냅니다. 우리의 프레임워크는 마스크에서 픽셀, 의미, 언어 설명으로의 전환을 통해 변조 위치 파악, 의미론적 분류 및 설명을 위한 엄격한 표준을 확립합니다. 코드 및 벤치마크 데이터는 https://github.com/VILA-Lab/PIXAR에서 확인할 수 있습니다.
지연 시간과 에너지 소비를 줄이는 것은 현대 컴퓨팅에서 메모리 시스템의 효율성을 향상시키는 데 중요합니다. 본 연구에서는 보상 분해를 통해 메모리 컨트롤러 매개변수를 동적으로 최적화하는 설명 가능한 다중 에이전트 온라인 강화 학습 프레임워크인 ReLMXEL(Reinforcement Learning for Memory Controller with Explainable Energy and Latency Optimization)을 소개합니다. ReLMXEL은 메모리 컨트롤러 내에서 작동하며 상세한 메모리 동작 메트릭을 활용하여 의사 결정을 안내합니다. 다양한 워크로드에 대한 실험 평가를 통해 기준 구성 대비 일관된 성능 향상을 확인했으며, 이 개선은 워크로드별 메모리 접근 동작에 의해 주도되었습니다. ReLMXEL은 학습 과정에 설명 가능성을 통합함으로써 성능을 향상시킬 뿐만 아니라 제어 결정의 투명성을 높여, 더욱 책임 있고 적응적인 메모리 시스템 설계의 길을 열어줍니다.