번역이 포함된 일일 선별된 AI 연구 논문
LLM 에이전트는 점점 더 대규모 도구 생태계에서 작동하며, 현실 세계의 작업은 관련 도구를 발견하고, 암시적 하위 목표를 추론하며, 장기적 시간 범위에 걸쳐 동적 환경에 적응해야 합니다. 그러나 기존 벤치마크는 검색이 제한된 도구 가시성 하에서의 계획을 거의 평가하지 않습니다. 이러한 격차를 해소하기 위해, 우리는 1,665개의 도구에 걸친 327개의 소매 작업으로 구성된 대화형 벤치마크인 PlanBench-XL을 소개합니다. 이는 에이전트가 사용 가능한 도구를 반복적으로 검색하고, 이를 호출하여 최종 목표를 향한 후속 호출을 위한 중간 증거를 발견할 수 있는지 테스트합니다. PlanBench-XL은 또한 선택적 차단 메커니즘을 특징으로 하며, 누락되거나 실패하거나 방해가 되는 도구 기능을 통해 현실 세계의 예측 불가능성을 시뮬레이션하여 에이전트가 중단된 경로를 감지하고 런타임에 적응하도록 강제합니다. 10개의 주요 LLM에 대한 실험은 대규모 도구 계획이 여전히 어려운 과제임을 보여줍니다. GPT-5.4는 차단이 없는 환경에서 51.90%의 정확도를 달성하지만, 가장 심각한 차단 조건에서는 11.36%로 급락합니다. 추가 분석에 따르면, 실패 시 명시적 오류 신호가 없거나 복구에 더 긴 대체 도구 사용 경로가 필요한 경우 에이전트는 특히 취약합니다. 이러한 결과는 PlanBench-XL을 에이전트 계획 실패 진단을 위한 테스트베드로 확립하며, 크고 불완전한 도구 환경에서 장기적 과제를 위한 강건한 적응형 계획의 필요성을 강조합니다.
현대 에이전트 시스템은 종종 단편화된 런타임 상태 문제를 겪는다. 대화 기록, 도구 효과, 메모리 이벤트, 작업 공간 배치, 분기 계보, 재생 증거가 각각 분리되어 기록되므로 검사나 재현이 어렵다. OpenRath는 이러한 문제를 다중 에이전트, 다중 세션 시스템을 위한 PyTorch 유형의 프로그래밍 모델로 해결한다. 이 비유는 텐서 연산이 아닌 중앙 일급 런타임 추상화의 역할에 관한 것이다. 핵심 추상화는 Session이며, 이는 에이전트와 워크플로우 사이에서 전달되는 런타임 값이다. Session은 분기 가능하고, 검사 가능하며, 재생 가능하고, 백엔드를 인식하며, 합성 가능하다. 또한 대화 청크, 샌드박스 배치, 계보 메타데이터, 토큰 사용량, 대기 작업, 도구 증거를 기록하며, 메모리 상호작용이 런타임 기록에 진입하는 지점을 정의한다. 이 상태는 프로그램 실행에 사용되는 동일한 값에 의해 전달되므로, 포크, 병합, 재생은 외부 추적으로부터 재구성된 상태가 아닌 명시적 런타임 연산이 된다. OpenRath는 추가로 Sandbox, Tool, Agent, Memory, Workflow, Selector를 정의하며, Selector는 제어 흐름을 런타임에서 라우팅되는 결정으로 전환한다. 본 보고서는 프로그래밍 모델, 아키텍처, 감사된 마일스톤, 증거 프로토콜을 제시한다. 주장은 통제된 런타임 속성으로 제한되며, 광범위한 정량적 비교, 실시간 제공자 품질, 선택적 백엔드 가용성, 메모리 품질은 후속 평가로 미룬다. 핵심 논지는 Session이 에이전트 시스템에 감사 가능한 구성을 위한 일급 런타임 값을 제공한다는 것이다.
대규모 비정형 멀티모달 스트림은 높은 '데이터 엔트로피'를 수반하여 효율적인 인간의 지식 습득과 고품질 AI 사후 학습(Post-Training)을 모두 저해합니다. 기존의 수동적 주석 패러다임은 휴리스틱 규칙이나 일반적인 VLM에 크게 의존하며, 비용이 많이 들고 단조로우며, 원시 데이터에 내재된 심층적 절차적 논리를 활용하는 데 실패합니다. 우리는 데이터 처리를 학습 가능한 능력으로 격상시키며, 적극적으로 데이터를 정제하고 구조화하여 다양한 사용자 및 다운스트림 의도에 부합하도록 하는 에이전틱 데이터 테일러링(Agentic Data Tailoring)으로의 패러다임 전환을 제안합니다. 이러한 고차원 능력 훈련에 있어 데이터 희소성 병목을 극복하기 위해, 우리는 결정론적 사실적 앵커(Factual Anchors)에 생성적 의미 합성을 기반으로 하는 2단계 파이프라인을 설계하여, 다섯 가지 핵심 물리 및 디지털 영역을 포괄하는 대규모 데이터셋을 생성합니다. 이를 바탕으로 DataClaw_0-9B 모델은 지도 미세 조정(Supervised Fine-Tuning, SFT)과 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)를 시너지 효과를 내도록 결합하여, 복잡한 정제 및 테일러링 의도와의 강건한 정렬을 달성합니다. 이 능력을 체계적으로 정량화하기 위해, 우리는 데이터 정제 전용 최초의 벤치마크인 DataClaw_0-val을 구축합니다. 결정적으로, 우리는 다운스트림 사후 학습을 최종 검증의 시금석으로 채택합니다. 비디오 생성, 실제 세계 VQA, GUI 탐색에 대한 평가는 DataClaw_0이 고정보밀도의 맞춤형 데이터를 제공하여, 제한된 훈련 데이터 환경에서 새로운 작업에 대한 효율적인 모델 적응을 촉진함을 확인합니다. 프로젝트 페이지: https://czjdsg.github.io/MakeAnyData
기업 에이전트는 점점 더 작업 공간 내에서 운영된다: 이종 파일을 읽고, 도구를 호출하며, 비즈니스 결과물을 전달한다. 우리는 독점적인 실제 에이전트 세션으로부터 구축된 기업 에이전트 벤치마크인 EnterpriseClawBench를 소개한다. 방대한 작업 공간 세션 아카이브를 기반으로, EnterpriseClawBench는 852개의 재현 가능한 작업을 생성하며, 각 작업에는 복구된 픽스처, 재작성된 프롬프트, 역할 클래스, 기술 서브클래스, 하드 규칙 및 의미론적 루브릭이 쌍으로 제공된다. 세션에 내부 기업 콘텐츠가 포함되어 있으므로 벤치마크 데이터를 공개하지 않는다. 대신, 우리의 재사용 가능한 기여는 구축 및 평가 프로토콜이다. EnterpriseClawBench에서 최고 설정은 0.663(Codex with GPT-5.5)에 불과하다. 이러한 결과는 기업 에이전트 평가가 단일 점수로 성능을 축소하는 것이 아니라, 하네스-모델 조합, 결과물 전달, 시각적 품질, 비용, 런타임 및 기술 전이 행동을 보고해야 함을 보여준다. 코드: https://github.com/FrontisAI/EnterpriseClawBench
자가 주의(self-attention)는 트랜스포머(Transformer) 성능의 핵심이며, 긴 컨텍스트 길이에서 쌍별 토큰 상호작용이 시퀀스 길이에 대해 이차적으로 확장되기 때문에 종종 트랜스포머에서 가장 비용이 많이 드는 부분이다. 표준 밀집 attention은 또한 토큰의 난이도나 정보량과 관계없이 모든 토큰에 동일한 attention 헤드 세트를 적용한다. 이러한 균일한 활성화는 연산을 낭비할 수 있으며, 특히 시퀀스가 길어지고 attention 비용이 급격히 증가할수록 더욱 그러하다. 우리는 그룹화된 쿼리 전문가(GQE, Grouped Query Experts)를 제안하는데, 이는 그룹화된 쿼리 attention(GQA, grouped-query attention) 위에 전문가 혼합(mixture-of-experts) 계층을 추가한 것이다. 각 GQA 그룹 내에서 라우터는 토큰별로 k개의 쿼리 헤드 전문가를 선택하는 반면, 모든 키-값(KV) 헤드는 밀집 상태를 유지하며 변경되지 않는다. 따라서 GQE는 GQA의 KV 캐시 이점을 유지하면서 활성 쿼리 헤드 계산만 줄인다. 250M 파라미터 규모에서 고정된 30B 토큰 예산 하에, GQE는 토큰당 절반의 쿼리 헤드만 활성화하면서도 모든 쿼리 헤드를 활성화하는 GQA 기준선과 하위 작업 정확도에서 동등한 성능을 보인다.
검색 시스템이 확장됨에 따라, 고품질 재순위화의 중요성이 증가하고 있습니다. 그러나 기존의 대부분의 재순위화 모델(인코더 기반 또는 디코더 기반)은 질의와 문서를 함께 인코딩하여 계산을 긴밀하게 결합함으로써 배포 효율성과 유연성을 제한합니다. 본 논문에서는 질의와 문서 계산을 분리하면서도 표현적인 관련성 모델링을 유지하는, 빠르지만 지연 상호작용은 아닌(FBNL) 재순위화 모델인 KaLM-Reranker-V1을 제시합니다. KaLM-Reranker-V1은 인코더-디코더 아키텍처를 기반으로 구축되었으며, 인코더는 마트료시카 임베딩 풀링을 사용하여 문서를 사전 인코딩하고, 디코더는 시스템 명령어, 사용자 명령어 및 질의 의도를 모델링합니다. 그런 다음 교차 어텐션을 통해 질의 컨텍스트와 문서 표현 간의 관련성을 포착합니다. 이 설계는 분리된 문서 인코딩을 통해 KaLM-Reranker-V1을 효율적으로 만드는 동시에, 교차 어텐션을 통해 풍부한 관련성 모델링을 보존함으로써 지연 상호작용이 아니도록 합니다. 본 연구에서는 KaLM-Reranker-V1을 Nano, Small, Large의 세 가지 크기로 구현하였으며, 각각 0.27B, 1B, 4B의 활성화 파라미터를 가집니다. BEIR, MIRACL 및 LMEB에 대한 광범위한 실험을 통해 KaLM-Reranker-V1이 우수한 효율성으로 강력한 재순위화 성능을 달성함을 입증합니다. BEIR에서 KaLM-Reranker-V1은 Qwen3-Reranker 시리즈와 같은 강력한 산업용 모델과 동등한 수준의 최첨단 성능을 달성합니다. MIRACL에서는 다국어 데이터에 대해 광범위하게 훈련되지 않았음에도 불구하고 뛰어난 재순위화 성능을 보여줍니다. 또한 LMEB에서 재순위화 모델은 명확한 이점을 보여주며, 0.27B Nano 모델조차도 7-12B 임베딩 모델과 경쟁력을 유지합니다.
세계 행동 모델(World Action Models, WAMs)은 미래 예측을 행동에 제공하는 체화된 예측-행동 모델이다. 최근 WAM은 대규모 비디오 생성 모델을 재활용하며, 이와 병행한 연구 계열은 비디오 생성 코어 없이 언어 또는 시각-언어 백본에 의존한다. 이러한 급속한 확장은 광범위한 세계 모델, 비디오 생성 모델, 행동 기반 비디오 세계 모델, 시각-언어-행동 정책, 그리고 WAM 간의 경계를 모호하게 만들었다. 본 서베이는 이 분야에 공통된 설명을 제공한다. 먼저 이러한 경계를 명확히 한 뒤, 두 가지 상호 보완적 관점을 통해 기존 연구를 정리한다. 첫 번째 관점은 각 방법이 무엇을 생성해야 하는지에 대한 질문으로, 렌더링된 미래, 잠재적 미래, 그리고 비디오 생성 없는 행동 추론을 아우른다. 두 번째 관점은 각 방법을 예측 기반, 백본, 행동 결합, 배치 체제로 분해한다. 이러한 해부학적 구조는 상호작용 가능성, 인과성, 지속성, 물리적 타당성, 일반화에 대한 통일된 논의를 지원하며, 이어서 데이터, 평가 및 공개 과제를 다룬다. 이러한 축을 통해 일관된 설계 패턴이 드러난다. WAM은 단순히 행동 헤드를 갖춘 비디오 생성기가 아니라, 설계 선택이 표현적 풍부성과 계산, 메모리, 지연 시간, 행동 레이블 비용 간의 균형을 이루는 예측-행동 방법이다. 이 분야는 제어에 필요한 것을 유지하면서 미래를 덜 생성하는 방법으로 나아가고 있다. 서베이 홈페이지는 https://world-action-models.github.io/에서 확인할 수 있다.
최근 LLM 기반 터미널 에이전트가 유망한 성능을 보여주고 있지만, 고품질의 실행 가능한 훈련 데이터의 부족은 여전히 심각한 병목 현상으로 남아 있다. 기존의 합성 파이프라인은 일반적으로 표면적인 인공물을 태스크에 적용하여 확장하며, 이로 인해 모호한 명령어, 얕은 실행 경로, 약한 학습 신호를 제공하는 취약한 테스트가 자주 발생한다. 이를 극복하기 위해, 우리는 CLI-Universe를 도입한다. 이는 터미널 에이전트 태스크를 구성하는 원리 기반의 합성 엔진이다. CLI-Universe는 다차원 능력 분류체계(도메인, 기술 유형, 능력, 엔지니어링 기둥) 전반에 걸쳐 조합을 샘플링하여 후보 태스크를 생성한 후, 실제 기술 자료에 대한 증거 기반의 심층 조사를 통해 각 후보를 구체화한다. 엄격한 감독을 보장하기 위해, 검증된 청사진은 도커화된 환경으로 인스턴스화되고, 루브릭 기반 테스트 구성, 힌트 조건부 필터링, 엄격한 실패-통과 검사를 특징으로 하는 다단계 실행 가능 검증 파이프라인을 거친다. 후보 생성부터 검증까지 전체 파이프라인에서 약 3분의 2의 후보가 폐기되며, 진정성 있고 검증 가능하며 사소하지 않은 난이도를 가진 것만 남게 된다. 프레임워크를 검증하기 위해, 우리는 CLI-Universe-6K라고 하는 6,000개의 궤적으로 구성된 고도로 정제된 데이터셋을 인스턴스화했다. 놀랍게도, CLI-Universe-6K로 Qwen3-32B를 미세 조정하여 Terminal-Bench 2.0에서 33.4%를 달성했다. 이는 오픈소스 데이터로 훈련된 32B 파라미터 이하 모델 중 새로운 최고 성능을 기록하며, 한 자릿수 이상 큰 여러 모델을 능가함으로써 구조화되고 충실도 높은 합성의 놀라운 데이터 효율성을 입증한다.
기존 임베딩 모델은 본질적으로 정적입니다. 텍스트 세그먼트를 고립적으로 인코딩하여 주변 맥락과 시간적 순서를 무시합니다. 본 논문은 검색을 위해 진화 가능한 표현을 생성하는 새로운 임베딩 모델인 EvoEmbedding을 소개합니다. 이 모델은 정보가 동적이고 순차적이며 지속적인 상태 추적을 필요로 하는 장문 맥락 시나리오에 맞춰 설계되었습니다. 우리의 설계는 간단합니다. EvoEmbedding은 입력을 순차적으로 처리하면서 지속적으로 업데이트되는 잠재 메모리를 유지하고, 이를 원본 콘텐츠와 함께 사용하여 진화 가능한 임베딩을 공동으로 생성합니다. 결과적으로 동일한 질의에 대해 우리 모델은 진화하는 맥락에 따라 표현을 적응시켜 정적 의미 검색을 넘어 서로 다른 대상을 검색합니다. 이러한 기능을 모델에 부여하기 위해, 우리는 잠재 메모리와 검색의 공동 최적화를 위한 다양한 데이터셋인 EvoTrain-180K를 구축했습니다. 또한, 반복 인코딩 중 표현 붕괴를 방지하기 위해 메모리 큐를 도입하고, 상당한 길이 변동을 해결하고 훈련을 3.8배 가속화하는 세그먼트 배칭 기법을 함께 제시합니다. 광범위한 실험 결과, 우리 모델이 다양한 장문 맥락 검색 벤치마크에서 대규모 전문 모델(예: Qwen3-Embedding-8B 및 KaLM-Embedding-Gemma3-12B)을 능가할 뿐만 아니라, 훈련 윈도우보다 10배 긴 맥락을 가진 하위 작업(예: 개인화)에도 잘 일반화됨을 보여줍니다. 특히, EvoEmbedding은 에이전트 워크플로우에 원활하게 통합되어 성능을 향상시킵니다. 예를 들어, 우리 모델을 장착한 기본 RAG 파이프라인은 전용 에이전트 메모리 시스템을 능가합니다. 프로젝트 페이지: https://clare-nie.github.io/EvoEmbedding.
우리는 생체 분자와 단백질에 대한 서열, 구조 및 자연어를 단일 디코더 전용 아키텍처 내에서 본질적으로 통합하는 최초의 멀티모달 기반 모델인 BioMatrix를 제시합니다. 기존의 생물학적 기반 모델들은 네이티브 멀티모달(native multimodality)과 광범위한 개체 커버리지를 개별적으로 추구해 왔습니다. 공유된 목표 하에 여러 양식을 융합하는 모델들은 단일 개체 유형에 국한된 반면, 여러 개체 유형을 포괄하는 모델들은 명시적인 구조 모델링을 생략하거나, 모델이 읽을 수 있는 양식 자체를 네이티브로 생성할 수 없는 어댑터 기반 설계에 의존합니다. BioMatrix는 분자 서열(SMILES 및 SELFIES 표기법 모두 지원), 분자 구조, 단백질 서열, 단백질 구조 및 자연어를 통합된 토큰화 방식을 통해 공유된 이산 토큰 공간으로 매핑함으로써 이러한 격차를 해소합니다. 이에 따라 모든 양식은 외부 인코더, 투영 어댑터 또는 양식별 출력 헤드 없이 단일의 다음 토큰 예측 목표 하에서 균일하게 소비되고 생성됩니다. Qwen3 언어 모델(1.7B 및 4B)을 기반으로 구축된 BioMatrix는 일반 및 도메인 특화 텍스트, 분자와 단백질의 서열 및 구조 관점, 그리고 생체 분자 개체를 과학 텍스트와 교차시키고 분자-단백질 및 단백질-단백질 상호작용 데이터를 통해 개별 개체를 연결하는 교차 양식 말뭉치에 걸쳐 3,044억 개의 토큰으로 지속적인 사전 학습을 수행합니다. 단일 개체 및 다중 개체 이해와 생성 작업을 양식 간 및 양식 내에서 포괄하는 6개 범주에 걸친 80개 작업을 포함하는 포괄적인 하위 응용 작업 세트에서 조정된 후, BioMatrix는 80개 작업 중 77개에서 최고 수준 또는 경쟁력 있는 성능을 달성합니다. 이는 단일한 네이티브 멀티모달 일반주의 모델이 광범위한 생물학적 작업에서 전문적인 접근 방식과 효과적으로 대등하거나 이를 능가할 수 있음을 보여줍니다.
어텐션의 2차 복잡도는 장문맥 처리에 중요한 병목 현상을 야기하며, 하이브리드 어텐션 설계에 대한 관심을 불러일으키고 있다. 대부분의 오픈소스 하이브리드 모델은 계층별 전략을 채택한다. 그러나 선행 연구에서는 선형 어텐션(LA)과 완전 어텐션(FA)을 통합하는 데 본질적인 어려움이 있음을 지적하며, 어텐션 혼성화의 설계 공간이 아직 충분히 탐구되지 않았음을 시사한다. 이 공간을 탐구하기 위해 우리는 해석 가능성 분석을 수행하였고, 계층들이 블록 단위 기능적 유사성을 보이는 반면, 동일 계층 내의 개별 헤드는 입력 특성을 공유함에도 불구하고 뚜렷한 기능적 전문화를 나타냄을 관찰하였다. 이러한 헤드 수준의 이질성은 헤드 차원이 이질적인 어텐션 신호를 융합하기 위한 자연스럽고 원칙적인 세분성(granularity)을 제공함을 시사한다. 이 통찰을 바탕으로, 우리는 FA와 LA를 헤드 축을 따라 혼성화하는 새로운 아키텍처인 HydraHead를 소개한다. HydraHead는 두 가지 핵심 혁신을 특징으로 한다: (1) 검색에 중요한 헤드를 식별하고 이들에 대해서만 FA를 유지하는 해석 가능성 기반 선택 전략, 그리고 (2) FA와 LA 헤드 출력 간의 분포 차이를 조정하는 스케일 정규화 융합 모듈이다. 매개변수 재사용과 증류를 활용한 3단계 전이 파이프라인을 통해 최소한의 훈련 오버헤드로 고성능 하이브리드 모델을 달성한다. 통합된 훈련 설정에서 HydraHead는 강력한 일반 추론 능력을 유지하면서 장문맥 작업에서 다른 하이브리드 설계를 능가한다. 해석 가능성 기반 헤드 선택을 통해 7:1의 LA 대 FA 비율에서 3:1 계층별 하이브리드의 장문맥 성능과 일치한다. 중요한 점은 150억 토큰만으로 훈련된 HydraHead가 512K 문맥 길이에서 기준 대비 69% 이상의 개선을 달성하며, 기본 문맥 길이가 256K인 동급 규모의 선도 모델 Qwen3.5에 근접한다는 것이다. 이는 헤드 수준 혼성화의 상당한 확장 가능성을 강조한다.
컴퓨터 사용 에이전트(Computer-Use Agents, CUAs)는 동적인 상호작용 환경에 점점 더 많이 배치되면서, 상호작용 중 지속적인 스킬 학습의 필요성이 증가하고 있다. 최근 접근법은 성공적인 궤적으로부터 재사용 가능한 스킬을 학습함으로써 이러한 과제를 해결한다. 그러나 이러한 스킬 학습 방법은 대부분 정적이고 안전한 환경을 가정하며, 적대적 상호작용(예: 프롬프트 주입) 및 환경 동적 변화(예: 팝업)로 인한 위험을 간과한다. 동적 환경에서는 이러한 가정이 위험한 스킬 학습과 취약한 실행을 초래하여 CUA의 신뢰성을 저하시킨다. 이는 다음과 같은 질문을 제기한다: CUA가 동적 환경에서 어떻게 안전하게 스킬을 학습하고 사용할 수 있는가? 이 문제를 해결하기 위해 우리는 동적 환경에서의 안전한 스킬 활용을 위한 프레임워크인 SkillHarness를 제안한다. SkillHarness는 정적 스킬 추상화에서 벗어나, 스킬 학습과 활용을 안전성 제약이 있는 상호작용 과정으로 모델링한다. 구체적으로, 우리는 다중 소스 감독 신호를 활용하여 상호작용 궤적으로부터 안전한 스킬을 식별하고, 스킬 수명 주기 전반에 걸쳐 자기 개선형 안전성 제약을 구축하는 스킬 경계(skill boundary)를 도입한다. 또한 SkillHarness는 선택적 스킬 재사용을 도입하여, 작업이 맥락에 따라 분해되고 스킬 부분 집합의 선택적 활성화를 통해 완료되도록 유도한다. 실험 결과, SkillHarness는 학습된 스킬의 안전하지 않은 비율을 57.1% 크게 감소시키고, 동적 환경 변화 하에서 실행 안정성을 일관되게 향상시켜 기존 기준선을 능가함을 보여준다.
대규모 언어 모델(LLM)에서의 자기회귀적 생성은 일반적으로 최종 계층에서 디코딩하는데, 이는 더 깊은 표현이 더 신뢰할 수 있는 다음 토큰 예측을 제공한다는 가정에 기반한다. 우리는 반복되는 추측-정제-교란(Guess-Refine-Perturb) 동역학을 밝혀냄으로써 이 가정을 재검토한다. 초기 계층은 대략적인 추측을 형성하고, 중간 계층은 추론 관련 의미를 정제하며, 최종 계층은 이러한 정제된 예측을 일반적이거나 정렬 선호 토큰 쪽으로 교란할 수 있다. 우리는 엔트로피 기반 보수적 역방향 검색을 통해 가장 신뢰할 수 있는 최종 근처 계층을 동적으로 선택하는 훈련 없는 디코딩 전략인 Confident Decoding을 소개한다. 또한 계층 선택을 최적 정지 문제로 이론적으로 정식화하여, 제한된 투영 잡음과 지배적인 후기 단계 정렬 교란 하에서 우리의 검색 규칙이 오라클 정제 계층 대비 손실을 제한하면서 교란을 필터링함을 보인다. 밀집 및 혼합 전문가(Mixture-of-Experts) LLM에 걸친 실험은 GPQA-Diamond, Omni-MATH, HLE를 포함한 도전적인 추론 벤치마크에서 일관된 성능 향상을 보여주며, 메모리 오버헤드는 전혀 없고 지연 시간 증가는 2% 미만이다. 이러한 결과는 최종 계층 교란을 동적으로 우회함으로써 정렬된 LLM에서 더 강력한 추론 동작을 이끌어낼 수 있음을 시사한다.
자기 증류(self-distillation)는 대규모 언어 모델의 추론 능력을 향상시키기 위해 모델 자체의 롤아웃(rollout)을 훈련 신호로 활용하며, 일반적으로 특권 분포(privileged target distribution)에 대한 KL 발산을 최소화하는 암시적 로짓 수준 정렬을 통해 이루어진다. 그러나 이러한 감독은 통제되지 않은 샘플링을 통해 생성되므로, 모델의 특정 오류에 대한 진단적 통찰이나 개별 실패 패턴에 대한 교정적 지침을 제공하지 않는다. 결과적으로 모델은 추론이 실패하는 위치와 원인을 정밀하게 교정받기보다는, 특권 분포를 모방하는 학습을 수행한다. 본 논문에서는 자기 증류를 암시적 분포 정렬에서 명시적 궤적 구성으로 발전시키는 TAPO(Trajectory-Augmented Policy Optimization)를 제안한다. 강화학습(RL) 훈련 중 모델은 동일한 질의에 대해 정답과 오답 롤아웃을 모두 생성하며, TAPO는 이러한 대조적 구조를 활용하여 미시 반영 교정(micro-reflective corrections)을 구성한다. 즉, 실패 지점까지 모델의 오류 추론을 유지한 후, 동일한 샘플링 그룹의 정답 참조를 기반으로 자연어 진단과 교정된 추론을 삽입한 새로운 훈련 궤적을 생성한다. 각 궤도가 학습자 자신의 접두사와 해에 기반하므로, 교정 신호는 KL 기반 방법이 부과하는 위치별 정렬보다 모델의 온폴리시 분포를 더 잘 유지한다. 이러한 궤적을 통합하기 위해 TAPO는 모델의 능력 경계에서 난이도를 고려한 후보 선택(difficulty-aware candidate selection)과 그래디언트 오염을 방지하는 분리된 이점 추정(decoupled advantage estimation)을 도입한다. AIME 2024, AIME 2025 및 HMMT 2025에 대한 실험 결과, TAPO는 동일한 훈련 단계 수에서 GRPO보다 일관된 성능 향상을 달성한다. 추가 분석은 TAPO가 첫 번째 통과 추론(first-pass reasoning)과 오류 수정 효과성(error-correction effectiveness)을 모두 강화함을 보여준다.
최근 DeepSeek OCR로 대표되는 종단간(end-to-end) OCR 모델들이 OCR을 다시 한번 주목받게 하였다. 널리 퍼진 견해는 디코더(decoder)로 대규모 언어 모델(LLM)을 사용하면 언어의 사전 분포를 활용하여 OCR 성능이 향상된다는 것이다. 그러나 단점도 명확하다. 출력 시퀀스가 길어짐에 따라 누적된 KV 캐시로 인해 메모리 소비가 증가하고 생성 속도가 점차 느려진다. 이는 장기 복사 작업에서 효율 저하를 보이지 않는 인간과 대조적이다. 본 기술 보고서에서 우리는 인간의 구문 분석 작업 기억(parsing working memory)을 모방하도록 설계된 Unlimited OCR 모델을 제안한다. DeepSeek OCR을 기준 모델로 삼아, 디코더의 모든 어텐션 레이어를 우리가 제안하는 참조 슬라이딩 윈도 어텐션(Reference Sliding Window Attention, R-SWA)으로 대체함으로써 어텐션 계산 비용을 줄이고 전체 디코딩 과정에서 KV 캐시를 일정하게 유지한다. DeepSeek OCR 인코더의 높은 압축률과 일정한 KV 캐시 설계를 결합하여, Unlimited OCR은 표준 최대 길이 32K에서 단일 순방향 패스(forward pass)로 수십 페이지 분량의 문서를 전사(transcribe)할 수 있다. 더 중요한 점은, R-SWA는 범용 구문 분석 어텐션 메커니즘으로, OCR 외에도 ASR, 번역 등 다양한 작업에 동일하게 적용 가능하다는 것이다. 코드와 모델 가중치는 http://github.com/baidu/Unlimited-OCR에서 공개적으로 이용 가능하다.
심층 연구 에이전트는 대규모 언어 모델(LLM) 기반 시스템으로, 자율적이고 다단계의 과학적 추론을 위해 설계되었으며 물리 과학 분야의 연구 가속화에 큰 잠재력을 지닌다. 그러나 이 도메인 내에서 해당 시스템의 역량에 대한 포괄적이고 심층적인 평가는 여전히 부족한 실정이다. 이러한 격차를 해소하기 위해, 우리는 PhySciBench를 소개한다. 이는 물리 과학 연구에 매우 밀접한 벤치마크로, 물리학과 화학 간에 균형을 이루며 실제 과학 워크플로를 반영하는 여섯 가지 과제 범주에 걸친 200개의 전문가 선별 질문으로 구성된다. PhySciBench에서 최첨단 모델과 에이전트 시스템을 평가한 결과, 가장 강력한 기준 모델인 Gemini Deep Research조차 33.5%의 정확도에 그치는 제한된 성능을 보였다. 오류 사례 분석을 통해 세 가지 반복적 결함, 즉 확장된 추론 체인의 취약성, 단계 간 제한된 지식 전이, 물리 기반 자체 검증의 부재가 확인되었다. 이러한 발견에 착안하여 우리는 적응형 계획 루프, 이중 세분화 메모리, 계층적 물리 기반 반성 메커니즘을 갖춘 모듈형 다중 에이전트 프레임워크인 DelveAgent를 개발하였다. 네 가지 과학 벤치마크에서 DelveAgent는 정확도를 최대 7.5%포인트 향상시키는 동시에 추론 비용을 가장 강력한 기준 모델의 약 3분의 1 수준으로 절감하였다. 이러한 결과는 PhySciBench가 물리 과학 분야의 AI 시스템을 평가하는 중요한 벤치마크로서의 의의를 입증하며, 구조적 전문화가 자율적 과학 연구의 신뢰성을 효과적으로 향상시킬 수 있음을 보여준다.
장기 지평 작업은 실제 로봇 배치에서 흔히 발생하지만, 이러한 작업에 대한 실패 감지는 여전히 충분히 연구되지 않았다. 장기 지평 로봇 작업에서의 실패 감지는 실패 시작점이 종종 모호하고, 시간적 밀집 주석이 일반적으로 제공되지 않기 때문에 특히 어렵다. 본 논문에서는 행동 조건부 세계 모델의 잠재 표현을 사용하여 조작 궤적을 모니터링하는 실패 감지 프레임워크인 Foresight를 제시한다. Foresight는 최종 작업 수준의 성공 또는 실패 레이블만을 사용하여 훈련된다. 예측적 세계 모델 임베딩을 활용함으로써, 본 방법은 다양한 정책에 걸친 실패 감지를 위한 통합 프레임워크를 제공한다. 또한 함수적 등각 예측(FCP)을 사용하여 감지 임계값을 적응적으로 보정한다. 우리는 Foresight를 LIBERO-Long, ManiSkill-Long, BEHAVIOR-1K 시뮬레이션에서 최첨단 시각-언어-행동 정책과 함께 평가하고, 최신 실패 감지 방법과 비교하며, ReactorX-200 팔을 사용한 세 가지 장기 지평 작업과 Franka 팔을 사용한 한 가지 작업으로 실제 로봇에서 검증한다. 결과는 행동 조건부 세계 모델 임베딩이 장기 지평 조작에서 신뢰할 수 있는 실패 모니터링을 위한 확장 가능한 표현을 제공함을 시사한다.
긴 에이전트 추적(trace)은 사고 사슬과 도구 호출로 구성되며, 시간이 지남에 따라 오래된 내용이 축적되어 이후 생성 과정을 고정시키고 결국 문맥 창(context window)을 초과하게 된다. 기존 스캐폴드(scaffold)는 토큰 임계값에서 촉발되는 고정 간격 압축(compaction)으로 이를 완화한다. 이러한 촉발 방식은 궤적 구조를 고려하지 않아 도출 중간이나 검색 중간에 있는 부분 결과가 폐기될 위험이 있다. 본 논문에서는 모델 스스로가 언제, 어떻게 압축할지를 결정할 수 있는 스캐폴드인 SelfCompact를 제안한다. 구체적으로, 이는 추론 시점의 두 요소를 결합한다: (i) 모델이 누적된 문맥을 요약하기 위해 호출하는 압축 도구, 그리고 (ii) 언제 발동할지(하위 작업이 해결되었거나 궤적이 수렴 중일 때)와 언제 억제할지(도출 중간이거나 막혔을 때)를 지정하는 경량의 루브릭(rubric)이다. 이 두 요소는 모두 필요하다. 도구만 단독으로 사용하면 오픈 가중치 모델에서 활용도가 고르지 않아 도움이 되지 않는 순간에 호출되거나 전혀 호출되지 않는 경우가 많다. 루브릭만으로는 행동을 취할 수 없다. 이 둘을 함께 사용할 경우, 미세 조정이나 외부 감독 없이도 효과적인 적응형 압축을 이끌어낼 수 있다. 우리는 6개 벤치마크(경쟁 수학 및 에이전트 검색)와 7개 모델에 대한 실증적 결과를 제시한다. 실험 결과, SelfCompact는 고정 간격 요약과 동등하거나 더 나은 성능을 훨씬 적은 토큰 비용으로 달성하며, 요약이 없는 기준선 대비 수학에서 최대 18.1포인트, 에이전트 검색에서 5~9포인트 향상되었고, 질문당 비용은 30~70% 절감되었다. 또한 우리의 결과는 메타인지 격차를 드러낸다: 프롬프트 없이 작동하는 모델은 자신의 문맥이 언제 부실해지고 있는지 신뢰성 있게 판단할 수 없지만, 경량의 루브릭이 이 격차를 해소하여 압축 시점 결정을 훈련 없이 스캐폴드가 제공할 수 있는 역량으로 재정의한다.
휴대폰은 범용 에이전트의 중요한 실행 표면이 되고 있지만, 배포 시 실제 환경(실제 앱이 실행되는 실제 기기)은 느리고, 상태를 가지며, 부작용이 있고, 리셋이나 검증이 어려운 반면, 확장 가능한 모의 환경은 실제 동작을 근사할 뿐이므로, 안정적인 휴대폰 사용을 위한 공개 모델을 훈련하는 것은 여전히 어렵다. 본 논문에서는 실제 앱 환경과 모의 앱 환경(PhoneWorld)을 결합한, 에이전트 휴대폰 사용을 위한 훈련 레시피이자 공개 모델 라인인 PhoneBuddy를 제시한다. PhoneWorld는 실제 GUI 사용 구조에서 실행 가능한 모의 앱을 재구성한다. PhoneBuddy는 먼저 두 환경에서 수집된 궤적으로부터 공유된 지도 미세 조정 단계를 구축한 후, 실제 앱 강화 학습(RL)과 두 환경에 걸친 혼합 RL을 비교한다. 실제 휴대폰에서 앱, 미니 앱, 교차 앱 워크플로를 포괄하는 150개 작업에 대한 인간 평가에서, 작업 성공률은 지도 미세 조정 후 36.67%에서 실제 앱 RL 후 40.67%, 혼합 RL 후 45.33%로 향상되었다. AndroidWorld에서는 동일한 진행이 60.3%에서 77.2%로, 다시 83.2%로 상승했다. 이러한 결과는 모의 앱 훈련이 실제 앱 RL을 대체하는 것이 아니라, 확장 가능하고 리셋 가능하며 자동으로 검증 가능한 상호작용을 제공하는 보완적 원천임을 보여준다. 성능 향상은 앱 및 미니 앱 작업에서 가장 두드러졌으며, 장기적인 교차 앱 워크플로는 여전히 중요한 미해결 과제로 남아 있다.
과학적 발견 워크플로는 일반적으로 연구자가 관찰 결과를 기록하고, 불확실한 결과를 해석하며, 후속 실험을 계획하는 실험실 노트를 포함하고 이에 크게 의존한다. 이러한 정보를 담은 실험실 노트는 출판물에 제시되는 다듬어진 최종 결과보다는 진화하는 과학적 추론과 저자의 불확실성을 보존하여, AI가 보다 포괄적이고 심층적인 수준에서 과학적 탐구에 참여할 수 있는 귀중한 기회를 제공한다. 그러나 과학 텍스트에 대한 대부분의 이전 연구는 논문, 프로토콜 또는 구조화된 데이터베이스에 초점을 맞추어, 비공식적인 실험실 노트는 과학을 위한 AI 에이전트의 입력으로 충분히 탐구되지 않은 상태로 남아 있다. 이러한 격차가 중요한 이유는 실험실 노트가 동일한 구절 내에서 검증된 관찰, 잠정적 판단, 그리고 가능한 실험적 다음 단계를 혼합하는 경우가 많기 때문이다. 이러한 신호들이 혼동되면 AI 에이전트는 불확실한 과학적 판단을 확정된 결론이나 실행 가능한 행동으로 오인할 수 있다. 이를 위해 우리는 저자의 확실성을 보존하면서 실험실 노트북을 과학적 AI 에이전트를 위한 검증 가능한 스킬로 전환하는 2단계 프레임워크인 Notes2Skills를 제시한다. 7가지 조건과 3번의 습식 실험실 세션에 걸쳐, Notes2Skills는 불확실한 노트를 확실한 지시로 오인하지도 않고 확실한 노트를 폐기하지도 않는 유일한 구성이다. 우리는 확실성 보존이 실험실 노트북과 신뢰할 수 있는 에이전트 스킬 사이의 빠진 조각임을 보여주며, 더 안전한 AI 공동 과학자 시스템으로 가는 길을 연다.
검색 에이전트(Search Agents, SAs)는 일반적으로 대규모 언어 모델(LLMs)을 활용하여 웹 소스를 자율적으로 탐색하고 정보를 종합하여 포괄적인 응답을 제공함으로써 복잡한 정보 탐색 작업을 지원합니다. SA 평가를 위해 기존 벤치마크는 주로 실제 사용자 시나리오에서 발생하기 어려운 특수 작업에 초점을 맞추고 있습니다. 또한, 거친 작업 수준의 루브릭에 의존하기 때문에 평가의 해석 가능성이 제한되는 경우가 많습니다. 이러한 격차를 해소하기 위해, 우리는 일상적인 검색 작업에 대한 SA 성능을 평가하기 위한 개방형 벤치마크인 DailyReport를 소개합니다. 이는 150개의 개방형 작업과 관련된 3,546개의 루브릭을 포함하며, 실제 사용자들의 널리 논의되고 시의적절한 정보 요구를 포착합니다. 각 작업은 하위 작업으로 분해되고, 분리된 차원에 걸쳐 계단식 루브릭(cascade rubrics)으로 평가됩니다. 계단식 성능 귀인(cascade performance attribution)과 사용자 중심 집계를 통해 각 차원에 대한 높은 해석 가능성의 점수와 함께 사용자 선호도 점수를 도출합니다. 17개의 에이전트 시스템에 대한 실험 결과는 현재 시스템이 사용자의 기대에 미치지 못함을 보여줍니다. 후속 연구를 지원하기 위해, 우리의 데이터셋과 코드는 https://github.com/AGI-Eval-Official/DailyReport에서 공개적으로 이용 가능합니다.
터미널 사용 에이전트는 언어 모델(LM)의 가장 인기 있는 다운스트림 애플리케이션으로 빠르게 자리 잡았다. 이러한 보편성에도 불구하고, 이 모델들의 강화학습(RL) 기반 훈련에 대한 학술 연구는 상대적으로 드문데, 이는 아마도 까다로운 벤치마크, 데이터 부족, 그리고 간단한 기준 레시피의 부재 때문일 것이다. 본 논문에서는 현재까지 공개된 최고 수준의 터미널 에이전트용 오픈 RL 레시피인 Tmax를 제시하며, 이를 통해 오픈 데이터 레시피를 프런티어에 더 가깝게 끌어올린다. 간단한 구조이지만, 본 레시피는 9B 파라미터만으로 Terminal-Bench 2.0에서 27%의 성능을 달성하여, 이전 연구의 훨씬 더 큰 모델들을 능가한다. 구체적으로, 난이도 제어, 페르소나, 그리고 검증기 다양화를 결합한 새로운 분류 체계를 사용하여 데이터를 생성함으로써, RL 및 SFT 훈련을 위한 대량의 터미널 환경을 저렴하게 생성할 수 있었다. 본 연구에서는 이전에 공개된 터미널 에이전트 데이터셋보다 2.5배 이상 큰 터미널 데이터셋을 오픈소스로 공개한다. 그런 다음, 단순한 결과 기반(outcome-only) 레시피를 사용하여, 생성한 데이터로 공개 가중치 모델을 RL을 통해 훈련한다. 향후 터미널 에이전트에 대한 공개 학술 연구의 강력한 기준선으로서 데이터, 모델, 코드를 https://github.com/hamishivi/tmax에서 공개한다.
텍스트-이미지 흐름 매칭 모델을 인간 선호도에 맞게 정렬하기 위해 직접 보상 역전파를 사용하는 방법은 샘플 효율적이지만, 두 가지 잘 알려진 병리 현상에 의해 방해를 받는다: 현대 모델 규모에서 전체 샘플링 궤적에 걸쳐 활성화를 저장할 수 없으며, 단계 간 연결된 야코비안 곱이 보상 기울기를 초기 인덱스로 역전파할 때 팽창시킨다. LeapAlign과 같은 커넥터 기반 방법은 전체 역방향 궤적을 짧은 고정 경로로 대체함으로써 이러한 문제를 해결하며, 샘플링과 최적화 사이의 유용한 분리를 강조한다. 그러나 결과 기울기의 품질은 이 짧은 경로가 특히 긴 구간에서 전체 롤아웃을 얼마나 정확하게 근사하는지에 달려 있다. 우리는 FlowBP를 제안한다. 이는 역방향 궤적 자체를 설계 대상으로 취급하는 통합 대체 궤적 프레임워크이다. FlowBP는 샘플링을 위해 기울기 없이 캐시된 롤아웃을 유지한 후, 캐시된 속도와 선택적으로 재순방향 전달된 속도로부터 경량의 역방향 대체 모델을 구축한다. 이러한 관점은 보상 모델 입력, 활성 집합, 적분 가중치, 브리지 결합의 네 가지 선택을 분리하며, 기존의 직접 기울기 방법을 특정 설정으로 복원한다. 이 프레임워크 내에서 우리는 세 가지 변형을 구체화한다: FlowBP-Sparse는 희소 오일러 재구성을 사용하고, FlowBP-Bridge는 제어된 브리지 결합을 추가하며, FlowBP-Lagrange는 도약 구적법의 차수를 높인다. 세 변형 모두 메모리를 활성 집합 크기로 제한하고 기울기 체이닝을 최대 하나의 야코비안 인자로 제한한다. SD3.5-M, FLUX.1-dev, FLUX.2-Klein-base에 대해 선호도, 품질, 구성적 지표에서 세 변형은 대부분의 지표에서 직접 기울기 기준선보다 개선된다.
최근 흐름 매칭(Flow matching)은 최첨단 텍스트-이미지(T2I) 생성 패러다임으로 부상하여, 적은 수의 샘플링 단계로 고품질 생성을 가능하게 한다. 이러한 모델이 실제 응용 프로그램에 점점 더 통합됨에 따라 안전하고 민감하지 않은 콘텐츠 생성을 보장하는 것이 중요한 요구사항이 되었다. 그러나 이러한 새로운 생성 프레임워크에 안전성 및 개념 제거 방법을 적용하는 것은 여전히 미해결 과제로 남아 있다. 구체적으로, 기존 방법들은 다수의 잡음 제거 단계에 걸친 반복적인 궤적 조정 또는 CLIP 중심의 프롬프트 임베딩 조작에 크게 의존한다. 이러한 설계 가정은 흐름 매칭 기반 T2I 생성에서 안전성에 대한 근본적인 병목 현상을 초래하는데, 제한된 샘플링 단계는 반복적 수정을 제약하고, 현대의 맥락 인식 텍스트 인코더는 임베딩 수준의 개입 효과를 감소시키기 때문이다. 본 논문에서는 극도로 적은 샘플링 단계를 가진 흐름 매칭에 특화된 학습 없는 안전 방법인 VESFlow를 제안한다. 흐름 매칭 모델이 한계 속도(marginal velocity)를 학습한다는 사실을 활용하여, 안전 조건부 사후확률(safe-conditional posterior)을 통해 속도장(velocity field)을 직접 편집한다. VESFlow는 조건 프롬프트는 변경하지 않은 채 궤적을 안전한 출력으로 유도한다. VESFlow가 무해한 프롬프트 하에서는 출력을 변경하지 않는다는 관찰을 바탕으로, 위험 점수 기반 필터링을 추가로 도입하여 속도 편집을 생략함으로써 계산 비용을 줄이면서도 무해한 프롬프트 생성을 유지한다. 이 필터링을 기반으로, VESFlow의 강력한 변형인 VESFlow+를 제안하는데, 이는 속도를 안전 방향으로 편집할 뿐만 아니라 불안전 방향에서 멀어지도록 밀어낸다. 실험 결과, VESFlow+는 4단계 MeanFlow 모델에서 Ring-A-Bell 및 MMA-Diffusion에 대해 NudeNet 기준 공격 성공률을 각각 6.3% 및 6.8%로 감소시키며 대상 개념을 제거하면서도, 무해한 프롬프트에 대한 충실도는 유지함을 보여준다.
오픈웨이트 대규모 언어 모델(LLM)은 과학적 진보와 광범위한 배포를 가능하게 한다. 그러나 민감한 기능에 대한 접근 통제를 어렵게 만든다. 현재의 관행은 출시 전에 위험한 기능을 억제하거나, 특수 모델 변형, 입력/출력 모니터 및 API 권한을 사용하는 폐쇄 서비스를 통해 접근을 중재한다. 전자는 소수의 사용자가 제기하는 위험을 완화하기 위해 모든 사용자의 기능을 희생하면서 탈옥(jailbreak)에 취약하며, 후자는 근본적으로 오픈웨이트 출시와 양립할 수 없다. 본 논문에서는 단일 가중치 집합이 여러 기능 수준을 지원하는 계층적 언어 모델(TLM)을 제안한다. 기본 공개 구성에서 TLM은 기존 LLM처럼 동작한다. 컴팩트한 비밀 키는 작은 매개변수 부분집합에 대한 순열을 지정하여, 동일한 가중치 위에 추가 기능을 노출하는 대안적 계산 그래프를 유도한다. 우리는 두 구성을 처음부터 공동 사전학습한 후, 공개 모델의 행동을 보존하기 위해 정규화를 적용하여 비공개 데이터로 키가 있는 구성(keyed configuration)을 미세조정하는 학습 프로토콜을 개발한다. 우리는 1억 8천만 개 및 6억 5천만 개의 매개변수를 가진 TLM을 사전학습하고, 키가 있는 구성이 새로운 언어를 습득하고, 명령 수행 능력을 획득하며, 비공개 사실 지식을 기억할 수 있음을 입증하는 반면, 공개 구성은 이러한 능력을 전혀 나타내지 않음을 보여준다. 또한, 우리의 접근 방식이 여러 계층적 단계로 자연스럽게 확장된다는 것을 보여준다. 권한 부여가 입력 공간이 아닌 모델의 가중치 구조에서 작동하기 때문에, 이 메커니즘은 미세조정 기반 추출 및 부분 키 손상에 저항한다. 일반적으로 TLM은 오픈웨이트 출시와 선택적 기능 제어를 조화시키는 한 걸음을 내딛는다.
잠재 행동 사전 학습은 관찰 쌍으로부터 시각적 변화의 표현을 학습하지만, 기존 방법들은 일반적으로 각 전환을 전환 정도와 전환 모드를 혼합하는 단일 비구조적 표현으로 인코딩한다. 본 연구는 방사 구조를 갖는 극좌표 잠재 행동(PoLAR)을 도입하여 잠재 행동에 방사 방향 구조를 부과함으로써, 반지름이 전환 정도를, 방향이 전환 모드를 인코딩하도록 유도한다. PoLAR는 두 관찰 간 시간적 차이를 전환 정도에 대한 약한 대리 변수로 사용하여, 더 큰 시간 간격으로 분리된 관찰 쌍의 잠재 행동이 더 큰 반지름을 차지하도록 장려한다. 이러한 구조를 쌍곡 공간에서 구현하는데, 이 공간은 반지름에 따라 부피가 팽창하는 특성을 가지므로 더 큰 전환 정도에서 더 다양한 전환 모드를 수용하는 데 자연스럽게 적합하다. PoLAR는 작업 내 사전 학습 및 대규모 사전 학습 설정 모두에서 시뮬레이션 및 실제 로봇 실험의 하위 정책 성능을 개선하며, 잠재 행동 기준 모델 및 강력한 사전 학습된 VLA보다 우수한 성능을 보인다. 이러한 결과는 잠재 행동 공간의 기하학적 구조가 시각적 사전 학습을 하위 로봇 정책 학습으로 전이하는 데 중요한 설계 선택임을 시사한다.
본 연구는 장기 수명 주기 에이전트(long-lifecycle agents)에 필요한 메타 능력(meta-capability)인 LLM(Large Language Model) 기반 AI 에이전트가 환경에 배치된 후, 긴 작업 시퀀스를 해결하면서 환경을 지속적으로 탐색하고, 자신의 경험에서 학습하며, 환경에 대한 컨텍스트를 반복적으로 자기 갱신(self-update)하여 업데이트된 컨텍스트를 바탕으로 향후 작업에서 점진적으로 더 나은 성능을 달성할 수 있도록 하는 '단서들을 연결하기(Connect the Dots, CoD)'를 위해 대규모 언어 모델을 훈련하는 일반적인 프레임워크를 제시한다. CoD 프레임워크의 주요 구성 요소는 다음과 같다: (1) 과제 해결(solve-task) 및 컨텍스트 업데이트(update-context) 에피소드가 교차되는 긴 롤아웃(rollout) 시퀀스를 사용한 종단 간 강화 학습(end-to-end reinforcement learning, RL)을 위한 알고리즘 설계 및 인프라; (2) 훈련 중 LLM의 표적 메타 능력을 장려하고 유도하며, 평가 중 진행 상황을 충실히 측정하기 위한 작업 및 환경. 우리는 세분화된 신용 할당(fine-grained credit assignment)을 갖춘 GRPO 스타일 강화 학습 알고리즘과 표적 메타 능력(도메인 특정 LLM 능력이나 표준 작업별 RL이 아닌)에 맞춘 작업 및 환경을 포함한 CoD 프레임워크의 개념 증명(proof-of-concept) 구현을 제시한다. 실증 결과는 CoD 설정에서 종단 간 강화 학습 훈련의 효용성을 검증하며, 훈련 도메인 내, 다양한 도메인 간, 그리고 CoD에서 Ralph-루프 설정으로의 분포 외 일반화(out-of-distribution generalization) 가능성을 보여준다. CoD에 대한 우리의 연구는 여러 이전 연구들을 연결하며, LLM과 AI 에이전트 발전을 위한 새로운 기회를 열어준다. 추가 연구 및 응용을 촉진하기 위해, 우리의 구현을 https://github.com/agentscope-ai/Trinity-RFT/tree/research/cod/examples/research_cod 에서 공개한다.
최근 대규모 언어 모델(LLM)과 인과 발견을 결합하려는 시도들은 모델이 쌍별 방향성을 추론하거나, 그래프 구조를 제안하거나, 언어 모델 출력을 사전 정보 및 제약 조건으로 주입하도록 요구한다. 이러한 접근법은 더 빠른 분석을 약속하지만, 인과적 증거가 데이터와 가정에 의해 뒷받침되는 것인지, 아니면 텍스트 연관성, 프롬프트 인공물 및 환각 메커니즘에 의한 것인지 모호하게 만든다. 우리는 인과 발견에서 에이전트의 역할을 달리 주장한다. 에이전트는 데이터를 검사하고, 맥락을 검색하며, 방법론의 가정을 설명하고, 그래프 출력을 명확히 해야 하지만, 엣지, 방향성, 사전 정보, 제약 조건 또는 인과 결론을 제공해서는 안 된다. 우리는 에이전트가 워크플로를 보조하는 반면, 인과적 주장은 데이터, 명시적 가정, 공식 알고리즘, 진단 및 사용자나 도메인 전문가의 결정에 근거해야 한다는 원칙을 제안한다. 우리는 이 원칙을 causal-learn+라는 온라인 플랫폼에 구현하였으며, 이 플랫폼은 데이터 분석, 전처리, 방법 추천, 전문 지식 통합, 공식 발견 및 해석을 causal-learn의 알고리즘 생태계를 중심으로 조정한다. Big Five 성격 데이터에 대한 사례 연구는 언어 모델의 신뢰성 부족을 인과적 증거로 전환하지 않으면서 에이전트가 지원하는 인과 발견 파이프라인을 보여준다. 플랫폼은 causallearn.com에서 이용 가능하다.
최신 언어 모델—트랜스포머, 순환 신경망, 메모리 기반 변형을 포함하여—은 깊이에 걸쳐 파라미터가 균일하게 할당된 동일한 층의 스택이라는 공통된 기본 구조를 공유한다. 이는 원래 트랜스포머로부터 계승된 기본값으로, 이후 거의 변경되지 않았으나, 점점 더 많은 증거는 층이 최종 출력에 비균일하게 기여하며, 후반 층이 잔차 스트림을 변환하기보다 정제한다는 것을 시사한다. 본 연구는 파라미터 용량이 이러한 비대칭성을 반영해야 하는지 묻는다. 통제된 실험 결과, 고정된 예산 하에서 초기 층에 더 많은 용량을 할당하고 후기 층에 더 적게 할당하는 것이 균일한 너비 기준선에 비해 혼란도를 개선하는 반면, 반대 할당은 성능을 저하시킨다. 이 결과를 바탕으로, 본 연구는 테이퍼드 언어 모델(Tapered Language Models, TLMs)을 도입한다. 이는 고정된 총 예산 하에서 파라미터를 포함하는 구성 요소가 깊이에 따라 단조롭게 점감되는 아키텍처 원리이다. MLP는 이러한 구현에 자연스러운 대상이다. MLP는 모든 최신 언어 모델 계열에서 파라미터 수를 지배하며, 너비를 단일하고 깔끔한 변동 축으로 제공한다. 세 가지 모델 규모와 네 가지 아키텍처(트랜스포머, 게이티드 어텐션, 호프 어텐션, 타이탄스)에 걸쳐, 부드러운 코사인 스케줄을 통해 MLP 너비를 점감하면 추가적인 파라미터나 계산 비용 없이 균일한 기준선에 비해 일관되게 혼란도와 하류 벤치마크 성능이 개선된다. 이러한 발견은 깊이를 고려한 용량 할당이 아키텍처에 구애받지 않는 단순한 언어 모델 설계 축임을 입증하며, 이는 눈에 띄지 않는 자유 레버가 숨겨져 있음을 보여준다.
에이전트 시스템이 점점 더 복잡한 다단계 작업을 처리함에 따라, 그 실행 경로를 평가하는 것은 주요 병목 현상이 되고 있습니다. 널리 사용되는 에이전트 벤치마크에서 단일 경로에 대한 인간 주석은 몇 시간이 소요될 수 있기 때문에, 성능 측정이나 훈련 데이터 큐레이션을 위한 평가를 확장하기 어렵게 만듭니다. 이로 인해 LLM-as-a-judge(LLMJ)와 같은 자동화된 접근 방식에 대한 광범위한 의존이 발생하여, 규모에 맞게 에이전트를 프로세스 및 결과 수준에서 비판적으로 평가하게 되었습니다. 그러나 LLMJ 비판의 타당성은 종종 측정되지 않습니다. 여기서 우리는 에이전트 작업에 대한 메타 평가의 최초 공개 데이터셋인 Counsel을 소개합니다. Counsel은 두 가지 에이전트 벤치마크(고객 지원 에이전트용 tau-bench와 코딩 에이전트용 DA-Code)에서 오픈 가중치 LLMJ가 제공한 프로세스 수준 비판과, 이러한 비판에 대한 인간의 메타 평가로 구성됩니다. 인간 주석자는 플래그가 지정된 각 오류에 대한 비판을 '정확함(spot on)', '위치는 맞지만 추론이 부족함(correct location but poor reasoning)', 또는 '플래그를 지정해서는 안 됨(should not have flagged)'으로 레이블링하여 신뢰할 수 있는 주석자 간 일치도(Krippendorff의 알파 0.78)를 달성했습니다. 결과 데이터셋은 LLMJ 비판을 궤적 내 오류 위치와 추론 품질 모두에 걸친 인간 정렬에 따라 계층화하여, 에이전트용 LLMJ를 보정, 개선 또는 훈련하는 데 유용한 데이터를 제공합니다. 오픈 가중치 평가자를 비교한 결과, 더 우수한 평가 모델과 더 많은 추론 노력 모두 인간 일치도를 향상시켰으며, 가장 강력한 평가자는 위치에 대해 약 88%, 추론에 대해 약 65%의 일치도를 달성했습니다. Counsel은 오픈 가중치 모델을 사용하여 생성되었으며, 광범위한 커뮤니티 사용을 위해 허용적 라이선스로 제공됩니다. 이를 통해 에이전트 시스템을 위한 LLM 기반 평가자의 엄격한 연구와 정렬 개선이 가능해지기를 기대합니다.
다중 시점 3D 시각 질의응답(MV3D-VQA)은 부분 관측을 일관된 3D 장면 표현으로 통합하고 다단계 공간 추론을 위해 정보가 풍부한 시점을 선택해야 한다. 그러나 현재의 다중 모달 대형 언어 모델(LLM)은 일반적으로 희소한 답변 수준의 지도 학습으로 훈련되어, 시점 간 추론의 일관성과 취약한 시점 선택을 초래하는 경우가 많다. 본 논문에서는 추론 과정을 감독하기 위해 조밀하고 검증 가능한 보상을 제공하는 지도 기반 학습 프레임워크인 DR-MV3D(Dense Reward for MV3D-VQA)를 제시한다. 우리의 접근 방식은 MV3D-VQA를 (i) 이심적 전역 지도 구축, (ii) 질문 조건부 시점-궤적 계획, (iii) 답변 예측을 위한 자아중심적 근거화로 분해한다. 수동 주석 없이 중간 단계를 학습 가능하게 만들기 위해, 예측된 지도를 고정된 3D 비전 기반 모델(예: VGGT + SAM3)의 기하학적으로 일관된 의사 목표와 정렬하는 전역 일관성 보상과 순서가 있는 시점 선택을 감독하는 국소 궤적 보상이라는 두 가지 보상을 도입한다. 전체 파이프라인을 궤적 수준 정책 최적화(GRPO)로 최적화한다. MindCube, VSI-Bench 및 BLINK(MV)에 대한 실험은 DR-MV3D가 강력한 다중 이미지 기준선보다 일관되게 성능을 향상시켜 다중 시점 3D 추론을 위한 과정 수준의 조밀한 지도 학습의 효과를 뒷받침함을 보여준다.
시각-언어-행동(VLA) 모델은 로봇 조작을 위한 통합 패러다임을 제공하지만, 실제 환경에서의 배포는 종종 실행 효율성에 의해 병목 현상이 발생한다. 기존 연구들은 주로 연산 중심 효율성에 초점을 맞춰 단계별 추론 지연 시간을 줄이는 데 집중했지만, 이러한 모델의 내재적 정책 효율성은 여전히 거의 탐구되지 않았다. 정책 효율성은 예측된 행동 청크의 효과적인 실행 가능 길이와 작업 완료에 필요한 총 물리적 단계 수라는 두 가지 요인에 의해 근본적으로 영향을 받는다. 이 두 요인은 실행 중 순방향 추론 호출의 총 횟수를 함께 결정한다. 우리는 현재 VLA 정책이 계획의 불안정성과 행동 중복으로 어려움을 겪고 있으며, 행동 청크의 끝부분에서 심각한 예측 성능 저하를 보이고 불필요하게 중복된 물리적 단계를 생성하는 경향이 있음을 관찰했다. 이 문제를 해결하기 위해, 우리는 신뢰할 수 있는 행동 청크 길이를 확장하고 중복된 물리적 단계를 줄이는 강화 학습 기반 사후 훈련 프레임워크인 PolicyTrim을 제안한다. 신뢰할 수 있는 청크 확장을 위해, 우리는 더 긴 실행 가능 길이의 성공적인 완료를 명시적으로 보상하는 동적 탐색 전략을 사용하여 신뢰 가능한 예측 지평을 경험적 한계까지 점진적으로 확장한다. 단계 효율성을 위해, 우리는 더 적은 단계로 성공적인 작업 완료를 직접적으로 선호하고 재현 불가능한 지름길을 패널티로 주는 중복 인식 보상을 설계하여 중복된 물리적 행동을 효과적으로 제거한다. 세 가지 벤치마크와 세 가지 VLA 모델에 걸친 광범위한 실험 결과, PolicyTrim은 행동 청크 활용도를 3배 향상시키고 물리적 실행 단계를 51.4% 감소시켰다. 궁극적으로, 우리의 프레임워크는 작업 성공률을 저하시키지 않으면서 최대 5.83배의 종단 간 배포 속도 향상을 제공한다.
짧은 프로그램으로 해결 가능한 모든 작업이 모델의 사고 사슬(chain-of-thought)로 가르쳐질 수 있다고 가정하기 쉽다. 즉, 단계를 작성하고 미세 조정하면 모델이 따라 한다. 본 논문은 식별 가능한 절차 클래스에 대해 이 가정이 실패함을 보여준다. 테스트베드는 각각 결정론적 생성기(deterministic generator)에서 비롯된 9가지 추론 작업이다. 공개 분할과 비공개 분할은 생성기를 공유하므로, 보류된 데이터는 테스트 정확도를 대리한다. 생성기를 파이썬 솔버로 역설계하고, 이를 사고 사슬로 렌더링한 후, 30B(3.5B 활성) Nemotron 모델에 대해 순위 ≤ 32인 LoRA로 증류한다. 전방 계산 가능한 작업(forward-computable tasks)은 쉽게 설치된다. 조회/산술 및 8비트 부울 작업은 각각 0.99 및 0.68의 전이(transfer)를 보인다. 그러나 암호산술(cryptarithm)은 그렇지 않다. 역추적 검색(backtracking search)을 증류하는 것은 11가지 사고 사슬 설계, 검증 가능한 보상(verifiable rewards)을 통한 강화 학습, 자기 학습(self-training) 전반에 걸쳐 0.01–0.07에 머무르며, 검색 솔버는 인스턴스의 71%를 답하는데도 그러하다. 이는 능력 격차(capability gap)가 아니다. 모델은 97–100%의 라인에서 산술을 수행하고 71%에서 올바른 암호를 상위 8위 안에 순위 매긴다. 하지만 모델은 검색을 좌에서 우로의 유도(derivation)로 전달할 수 없다. 미세 조정은 검증 가능한 제거 단계(verifiable elimination step)의 형태를 학습하지만, 그 판정은 무조건적인 템플릿이 되어 16–57%의 경우만 정확하다("판정-토큰", verdict-as-token). 이러한 한계는 3B에서 671B까지의 백본(backbone)과 미세 조정 및 프롬프팅(prompting) 전반에 걸쳐 유지된다. 통제된 개입(controlled intervention)이 원인을 분리한다. 암호 키를 드러내어 유도를 전방으로 전환하면 동일한 인스턴스가 0.03에서 0.57로 상승한다. 절차의 유일한 해결책이 정보가 없는 구조(information-free structure)에 대한 검색일 때, 모방할 충실한 전방 사고 사슬은 존재하지 않는다. 작업은 검색을 제거하고, 그 조합적 핵심을 카탈로그로 사전 계산하며, 추적(trace)을 회상(recall)과 검증(verification)으로 축소해야만 학습 가능해진다. 1위 솔루션은 이러한 방식으로 Private LB 0.92에 도달한다. 증류되는 것은 검색이 아니라 암기(memorization)와 검증이다.
비디오 확산 모델은 비디오 생성 및 편집 분야에서 놀라운 진전을 가능하게 했습니다. 그러나 콘텐츠 보존은 여전히 핵심 과제로 남아 있습니다. 기존 방법은 모든 픽셀을 재생성하며, 캐릭터나 배경 장면처럼 변경되지 않아야 할 요소를 종종 변경합니다. 본 연구에서는 콘텐츠 보존 비디오 편집을 위한 계층적 확산 프레임워크인 Vera를 소개합니다. Vera는 전체 비디오를 재생성하는 대신, 편집 레이어와 함께 소스 비디오와 합성하기 위한 알파 매트를 생성하여, 설계적으로 창의적 편집과 콘텐츠 보존을 분리합니다. 소스 비디오와의 일관된 합성을 촉진하기 위해, 텍스트-투-비디오 DiT를 Mixture-of-Transformers(MoT) 아키텍처로 확장하였으며, 각 레이어에 대해 별도의 DiT가 공동 자기 주의 메커니즘을 통해 상호작용하도록 구성했습니다. Vera의 훈련을 지원하기 위해, 정확한 알파 매트, 다양한 장면과 역동성, 시각적 효과를 포함한 고품질의 계층적 데이터셋을 추가로 구축했습니다. 정량적 벤치마크와 인간 선호도 연구에서 Vera는 486K 프레임의 계층적 훈련 데이터를 사용하여, 콘텐츠 보존 측면에서 선도적인 오픈소스 비디오 편집 모델을 능가하면서도 편집 품질에서 경쟁력을 유지합니다.
강화 학습(RL)은 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 핵심 접근법으로, 훈련 효율성은 최적화 과정에서 문제를 어떻게 샘플링하는지에 크게 좌우된다. 기존의 적응형 커리큘럼 학습 방법들은 일반적으로 중간 난이도의 프롬프트를 우선시하며, 문제 선택을 독립적인 팔(arm)을 가진 표준 밴딧 문제로 취급하여 작업 공간의 구조화되고 이질적인 특성을 간과한다. 본 연구에서는 문제 샘플링을 내생적 비정상성(endogenous non-stationarity)을 갖는 다양체 구조의 밴딧 문제로 구성한다. 즉, 문제들은 모델의 잠재 표현 공간을 통해 서로 연결되며, 샘플링 결정은 학습 신호가 해당 공간에서 어떻게 진화하는지를 조정할 수 있다. 이 관점을 구현하기 위해, 우리는 베이지안 다양체 커리큘럼(BMC)을 도입한다. 이는 문제들을 계층적 작업 트리로 조직하고 베이지안 학습을 적용하여 샘플링을 안내하는 구조 인식 프레임워크이다. 경험적으로, 우리는 서로 다른 샘플링 전략이 생산성(학습 신호), 다양성(작업 다양체의 범위), 유용성(평가 관련성) 사이에 사소하지 않은 균형을 유도함을 발견한다. 이러한 결과는 난이도만을 우선시하는 것만으로는 강력한 하위 성과를 얻기에 불충분함을 보여주며, 문제 샘플링에 구조와 유형 인식을 통합하는 것의 중요성을 강조한다.
선형 프로브는 해석 가능성 연구에서 널리 사용되며, 종종 코사인 유사도로 비교된다. 두 방향 간의 마할라노비스 코사인 유사도(MCS)는 테스트 데이터 공분산으로 내적을 재가중하며, 이는 자연스러운 작업 인식 개선 방법이다. Ying et al. (2026)은 분포 외(OOD) 데이터에서 훈련된 참조 프로브에 대한 프로브의 MCS가 해당 프로브의 OOD AUROC를 거의 완벽하게 선형적으로 예측한다고 보고하였다(R² = 0.98). 본 연구에서는 이 경험적 발견을 모델, 계층 및 개념 도메인에 걸쳐 확장하고, 이 일반적 현상을 폐쇄형으로 증명한다: 투영이 가우시안인 균형 클래스의 경우, OOD AUROC와 참조 프로브에 대한 MCS는 선형 관계를 가지는데, 이는 둘 다 테스트 데이터에서 프로브의 신호 대 잡음비(SNR)에 대한 시그모이드 형태 함수이기 때문이다. 또한 이론은 이러한 선형성이 언제 실패하는지도 예측하며, 이를 경험적으로 검증한다. MCS는 선형 프로브 비교를 위해 유클리드 코사인 유사도에 대한 이론적 근거가 확립되고 경험적으로 효과적인 대안을 제공한다.
대규모 데이터셋은 최근 대규모 모델의 발전을 이끌었지만, 사전 학습 및 후속 학습을 위한 최적의 데이터 혼합 비율을 식별하는 것은 여전히 중요한 미해결 문제로 남아 있다. 본 연구에서는 단일 프록시 모델만 학습하면서 데이터 혼합 발견을 자동화하는 새로운 프레임워크인 FASTMIX를 제안한다. FASTMIX는 사전 정의된 휴리스틱이나 자원 집약적 시뮬레이션에 의존하는 대신, 혼합 계수와 모델 파라미터를 공동으로 최적화하여 기존 방법 대비 효율성과 확장성을 크게 개선한다. FASTMIX의 핵심은 혼합 선택 문제를 이중 수준 최적화 문제로 재구성하는 데 있다. 이러한 재구성 하에서, 혼합 비율을 최적화하는 것은 균일한 소스 샘플링 하에서 소스별 손실 가중치를 할당하는 것과 수학적으로 동등함을 보인다. 이는 혼합 계수를 미분 가능한 반복 최적화 목표에 직접 내장하여, 혼합과 모델 모두에 대한 효율적인 그래디언트 기반 최적화를 가능하게 한다. 최적화 문제를 해결하기 위해 FASTMIX는 근사 반복 최적화 절차를 구현하며, (i) 현재 혼합 비율에 따라 샘플링된 데이터에 대해 모델 파라미터를 업데이트(내부 루프)하고, (ii) 검증 피드백에 기반하여 혼합 비율을 업데이트(외부 루프)하는 과정을 번갈아 수행한다. 사전 학습 및 후속 학습 전반에 걸쳐, FASTMIX는 검색 비용을 대폭 절감하면서도 기준 방법보다 우수한 성능을 보인다. 코드(https://github.com/hrtan/fastmix)는 공개되어 있다.
비전 트랜스포머(ViT)는 컴퓨터 비전 분야를 지배하고 있다. 그러나 이들이 고정된 패치 프로젝터에 의존하기 때문에 입력 모달리티, 규모, 해상도가 매우 다양한 지구 관측(EO)으로의 전이가 어렵다. 본 논문에서는 UniverSat을 제안한다. 이는 임의의 공간, 분광, 시간 해상도와 광학 및 비광학 센서 모두에서 얻은 패치를 공유된 가중치 집합을 사용하여 공유 임베딩 공간으로 매핑하는 유니버설 패치 인코더를 중심으로 구축된 ViT 스타일 백본이다. 이를 통해 자기 지도 학습을 통해 이종 멀티모달 코퍼스에서 단일 모델을 학습할 수 있으며, 센서에 구애받지 않는 강건한 공간 특징을 생성한다. 우리는 GeoBench, PANGEABench, SpectralEarth의 표준 EO 벤치마크에서 분류 및 분할 작업에 걸쳐 강력한 결과로 이 접근법을 검증한다. 코드와 모델은 https://github.com/gastruc/UniverSat에서 확인할 수 있다.
AI 연구소들이 연산 능력이 새로운 고품질 텍스트 생성 속도를 초과하는 데이터 한계에 도달함에 따라, 언어 모델 사전 학습은 데이터가 제약적이지만 연산은 풍부한 환경으로 전환되고 있으며, 이는 고정된 말뭉치에 대해 생산적인 다중 에폭 학습을 요구한다. 표준 자기회귀(AR) 사전 학습은 이러한 환경에서 심각한 과적합을 일으켜, 최적점에 조기 도달한 후 지속적으로 성능이 저하된다. 본 연구에서는 훈련 시 데이터 증강을 정규화 기법으로 활용하여 이러한 과적합을 완화하고 동일한 데이터로 수백 에폭의 생산적인 학습을 가능하게 한다. AR 사전 학습을 위한 세 가지 직교 증강 범주를 소개한다: 토큰 수준 노이즈(마스킹, 무작위 대체), 시퀀스 순열(오른쪽에서 왼쪽 예측, 중간 채우기), 목표 오프셋 예측(i > 1인 x_{t+i}). 체계적 제거 실험을 통해 개별 증강 기법이 과적합을 지연시키고 기준선 대비 검증 손실을 낮추며, 특히 무작위 토큰 대체가 개별 방법 중 최상의 최소 손실을 달성함을 발견했다. 증강 범주를 결합하면 최소 검증 손실이 더욱 낮아진다. 본 실험은 데이터 증강이 AR 사전 학습의 데이터 비효율성을 완화하며 데이터 제약적 환경에 대한 유망한 해결책을 제공함을 입증한다~\footnote{모든 코드와 데이터는 https://github.com/michaelchen-lab/data-augmentations-for-pretraining 에서 확인할 수 있다.}
지식 집약적 질문 응답에서 LLM 에이전트는 현재 답변이 불확실한지, 뒷받침되지 않는지, 또는 이미 완전한지에 대한 불완전한 지식 상태에서 검색 및 추론 행동을 수행한다. 이는 두 가지 실패 모드를 초래한다: 확신하지만 뒷받침되지 않는 답변을 고수하여 정확도를 떨어뜨리는 것과, 이미 충분한 증거가 있음에도 과도하게 검색하여 계산 자원을 낭비하는 것이다. 에이전트가 작동 중인 상태 공간을 보다 완전하게 파악할 수 있도록, 우리는 보정된 검증기 원격 측정(CalVerT)을 도입한다. 이는 에이전트의 상태에 추가 원격 측정값인 보정된 자기 확신 점수와 근거 검증 점수를 추가한다. 우리는 CalVerT가 훈련이 필요 없는 환경과 훈련 기반 환경 모두에서 에이전트를 개선할 수 있음을 보여준다. 네 가지 QA 벤치마크에서 CalVerT가 에이전트가 파라미터 지식에 과도하게 의존하는 경우 검색을 촉발하여 F1을 향상시키는 동시에, 답변에 충분한 맥락을 갖춘 경우 중복 검색을 줄이는 것을 발견했다. 우리는 CalVerT가 훈련 없이도 기존 QA 프레임워크를 보강할 수 있음을 보여준다. 또한 CalVerT는 훈련된 시스템도 개선한다: 에이전트의 상태에 원격 측정값을 단순히 추가함으로써, CalVerT 원격 측정값이 없는 동일한 훈련을 받은 에이전트와 비교하여 강화 학습 후에 개선이 관찰된다.
이산 텍스트 트리거 최적화(모델이 특정 텍스트 시퀀스를 입력받아 지정된 목표를 향하도록 유도하는 검색)는 모델 레드팀(예: LLM 제일브레이킹)과 감사(監査) 및 해석 가능성의 기반이 된다. 그러나 현재 이산 최적화 도구의 상태는 그 채택과 발전을 저해한다. 첫째, 기존 최적화 도구는 오픈소스화된 경우에도 특정 모델, 목표, 문제 영역에 묶인 연구 코드베이스에 흩어져 있다. 둘째, 다양한 변종들이 proliferate하여 각각을 사용하거나 확장하는 데 엔지니어링 오버헤드가 발생하며, 직접 비교하기 어렵다. 이러한 문제들은 기존 영역이나 새 영역에서 최적화 도구를 채택하거나 새로운 전략을 통해 이를 발전시키는 데 장벽을 높인다. 우리는 이러한 격차를 해소하기 위해 TROPT를 제시한다. TROPT는 이산 최적화 도구의 실행을 통합하고 단일 인터페이스 아래에서 개발을 표준화하는 최초의 오픈소스 프레임워크이다. TROPT는 모델, 목표, 최적화 도구 등 구성 요소를 교체하여 종단간 최적화 레시피를 쉽게 사용자 정의할 수 있으므로, 다양한 영역과 새로운 애플리케이션으로 확장이 가능하다. 현재 TROPT는 30개 이상의 최적화 레시피(제일브레이킹 및 모델 내부 탐색과 같은 애플리케이션 포함)를 제공하며, 이는 15개 이상의 최적화 도구(화이트박스에서 블랙박스 접근까지 포괄)와 15개 이상의 손실 함수(기본 기법부터 최신 기법까지)로 구축되었다. 그 유용성을 입증하기 위해 우리는 TROPT를 여러 연구에 활용했다: (i) LLM 제일브레이킹을 위한 최적화 전략을 비교 및 개선하는 통제된 대규모 실험을 통해 강력하지만 덜 채택된 기법을 발견했으며, (ii) 최적화 도구를 한 도메인(예: LLM 제일브레이킹)에서 새 도메인(예: 임베딩 모델에 대한 말뭉치 오염)으로 이식했다. 결론적으로 TROPT는 이산 텍스트 최적화의 채택 및 발전에 대한 장벽을 크게 낮춘다.
장기적 LLM 에이전트는 조용히 실패할 수 있다. 즉, 증거에 대한 한 가지 해석에 조기에 고착된 후, 남은 실행 시간 동안 이를 방어하는 데 집중한다. 이러한 현상을 우리는 조기 몰두(premature commitment)라 부른다. 최종 답변 평가 점수(final-answer scoring)는 답변만을 확인할 뿐, 프로세스가 이미 안정적인 경로로 붕괴되었는지는 알 수 없기 때문에 이러한 실패 모드를 포착하지 못한다. 우리는 표상적 몰두(representational commitment)를 고정된 추론 단계에서의 교차 실행 은닉 상태 수렴으로 정의하고, 이를 궤적 일관성의 조기 진단 지표로 활용한다. Llama-3.1-70B 모델이 HotpotQA 데이터셋에서 ReAct 방식을 실행할 때, 4단계 은닉 상태 유사도는 이후의 행동 일관성을 예측한다(r = -0.35, 부분 상관계수 r = -0.45). 이 신호는 시간적·계층별로 국소화된 특성을 보인다. 이러한 패턴은 Qwen-2.5-72B 및 Phi-3-14B 모델에서도 재현되었으며, StrategyQA 데이터셋에서는 더 강한 상관관계를 보였다(r = -0.83). 그러나 이는 정확성을 추적하지 않는다. 즉, 몰두했으나 틀린 질문과 몰두했으나 맞은 질문은 활성화 유사도 측면에서 구분되지 않는다. 이러한 구분이 본 주장의 핵심이다. 몰두(commitment)는 에이전트가 고착되었는지 여부를 알려줄 뿐, 정답인지 여부는 알려주지 않는다. 런타임 모니터는 은닉 상태로부터 일관성 없는 궤적을 탐지하며, AUROC는 최대 0.97(더 엄격한 분할 조건에서는 0.85-0.88)에 달한다. 프롬프트 중재(prompting intervention)는 토큰 매칭 대조군 대비 행동 분산을 28% 감소시키면서도 정확도에는 통계적으로 유의미한 변화를 주지 않았다. 또한 이 신호가 자기 일관성 계산을 유도할 수 있는지도 테스트했으나, 더 어려운 벤치마크에서는 효과가 미미했으며 더 단순한 출력 기반 기준선과 거의 동등한 성능을 보였다. 결론적으로, 본 연구 결과는 명확한 한계를 지닌 숨은 프로세스 실패의 진단 도구를 제시한 것이지, 일반적인 정확도 향상 수단이 아니다.
컴퓨터 사용 에이전트(CUA)는 이제 사용자를 대신하여 이메일, 캘린더, 할 일 목록 등 개인 애플리케이션 전반에서 작업을 수행합니다. 이러한 교차 애플리케이션 접근은 유용하지만, 지금까지 대부분 간과되어 온 프라이버시 위험을 초래합니다. 즉, 에이전트가 특정 맥락에서 작업할 때, 해당 맥락에 부적절한 다른 맥락의 정보를 끌어올 수 있다는 점입니다. 이에 본 연구에서는 이러한 위험을 실행 가능하고 결정론적으로 채점되는 시나리오로 전환하는 평가 프레임워크인 AgentCIBench를 제안합니다. 우리는 CUA에서 흔히 발생하는 세 가지 실패 유형을 집중적으로 다룹니다. UI에서 작업 대상 바로 옆에 있는 금지 항목을 에이전트가 가져오는 '시각적 공동 배치', 불완전한 프롬프트에 응답하여 에이전트가 과도한 개인 상태 정보를 덤프하는 '작업 모호성 과잉 공유', 그리고 부적절한 수신자에게 콘텐츠를 전송하는 '수신자 불일치'입니다. 15개의 최첨단 에이전트를 평가한 결과, 놀랍게도 높은 실패율을 발견했습니다. 15개 중 11개의 에이전트가 50% 이상의 시나리오에서 정보를 유출했으며, 평균 유출률은 67.9%에 달했습니다. 또한 에이전트가 환경 내에서 작업을 완료하기 위해 종단 간(end-to-end)으로 작동할 때도 동일한 실패가 발생했습니다. 우리는 AgentCIBench를 공개하여 보다 안전한 컴퓨터 사용 에이전트 개발을 장려하고, 맥락적 정보 공개 테스트를 배포 전 안전 점검으로 자리매김하고자 합니다.
텍스트와 이미지 조건부 3D 모델은 이제 설득력 있는 에셋을 생성할 수 있지만, 객체가 차지하거나 회피해야 할 공간에 대한 직접적인 제어는 여전히 부족하다. 제작 과정에서 이러한 공간적 의도는 종종 생성이 시작되기 전에 알려져 있다. 의자는 착석 공간에 맞아야 하고, 소품은 움직임을 위한 여유 공간을 확보해야 하며, 부품은 접촉 표면을 노출해야 한다. 프롬프트와 이미지 뷰는 이러한 제약 조건을 전달하기에 부적합하여 명시적인 제어 인터페이스가 필요하다. 본 논문에서는 텍스트 조건부 잠재 3D 생성을 위한 훈련 가능한 부착 모듈인 Arbor를 제시한다. Arbor는 제약 메시를 네이티브 3D 제어 인터페이스로 도입한다. 이 인터페이스는 형상이 존재해야 하는 헐 영역, 비어 있어야 하는 회피 영역, 객체가 접촉해야 하는 터치 영역을 사용한다. 완성 또는 전체 객체 스캐폴드 제어와 달리, 이러한 메시는 대상 증거가 아니다. 이들은 지역적 유형화된 요구사항이며, 표면이 나타나서는 안 되는 영역을 포함할 수 있다. Arbor는 제약 메시를 토큰으로 변환하고 고정된 디노이저 내부에 라우팅된 부착 모듈을 학습하여 이 신호를 형상으로 유지한다. 따라서 각 잠재 영역은 공간적 위치에 중요한 제약 조건 부분을 수신할 수 있다. 본 논문에서는 헐, 회피 및 터치 제약 조건을 사용하여 자동 및 아티스트 큐레이팅 제어 벤치마크에서 Arbor를 평가하고, 메트릭 추세를 사용자 선호도 연구와 비교한다. 전용 준수 손실이 없더라도 Arbor는 고정된 제약 조건 하에서 객체 품질과 다양성을 유지하면서 제약 조건 준수 성능을 향상시킨다.
메시는 가장 일반적인 3D 장면 표현 중 하나이지만, 표현이 면과 정점의 순열 불변성을 포함한 중요한 대칭성을 지니기 때문에 메시를 직접 생성하는 것은 어렵다. MeshFlow는 삼각형 메시를 삼각형 수프로 직접 생성하도록 학습하여, 메시를 긴 자기회귀 시퀀스로 직렬화할 필요를 없앤다. 우리는 삼각형 수프의 주요 대칭성, 즉 면의 임의 순열과 각 면 내 정점의 순열을 존중하는 동변 최적 수송 흐름 정합 모델을 채택한다. 이 목표를 위해, 우리는 확산 트랜스포머 아키텍처에 간단하면서도 효과적인 수정을 제안하여, 원하는 동변성을 유지하면서 속도장을 모델링할 수 있는 확장 가능한 네트워크를 구현한다. 또한 이러한 대칭성을 위반하는 감독 신호를 제거함으로써 수렴을 개선하는 최적 수송 기반 훈련 목적 함수를 도입한다. MeshFlow는 최신 자기회귀 메시 생성기와 비교할 만한 메시 품질을 달성하면서 추론 시 약 18배의 속도 향상을 제공한다. 프로젝트 페이지는 https://qiisun.github.io/MeshFlow/이다.
검색 증강 생성과 의미 기반 검색이 빠르게 확산됨에 따라 적절한 임베딩 및 검색 구성을 선택하는 것이 점점 더 어려워지고 있다. 대규모 검색 벤치마크는 포괄적이지만 개발 과정에서 재실행하기에는 너무 무겁고, 동일한 조건에서 다양한 모델에 걸쳐 차원 축소, 양자화, 재순위화 같은 프로덕션 설정을 비교할 수 있는 인프라는 거의 없다. 본 논문에서는 기존 검색 스위트를 작은 데이터셋(나노셋)으로 재구성한 경량 벤치마크인 HAKARI-Bench를 제시한다. 이는 35개 벤치마크와 43개 언어에 걸친 551개 태스크를 통일된 형식으로 제공하여, 동일 조건에서 모델에 구애받지 않는 다섯 가지 검색 계열(BM25, 밀집, 희소, 후기 상호작용, 재순위화기)과 그 효율성 변형 간 비교를 가능하게 한다. 55개 모델에 대해 HAKARI-Bench의 전체 순위는 공식 MTEB 검색 v2, MMTEB v2 검색, 영어 BEIR(전체)을 Spearman 상관계수 >0.97로 재현한다. HAKARI-Bench는 전체 평가를 대체하지 않으며, 신속한 모델 선택, 회귀 탐지, 품질-효율 파레토 최적 경계 파악을 가능하게 한다. 코드, 데이터, 리더보드는 MIT 라이선스로 공개된다.
단안 비디오로부터 동적 비강체 객체를 재구성하려면 직접 관찰로부터 얻은 시각적 단서와 형상 및 외관에 대한 데이터 기반 사전 지식을 통합해야 한다. 기존 접근 방식은 시각 입력으로부터 4차원 표현을 직접 예측하도록 학습하거나, 이후 비디오 증거를 기반으로 변형 및 정제되는 3차원 표현을 초기화하는 방식이다. 그러나 전자는 4차원 훈련 데이터의 부족에 의해 제약을 받는 반면, 후자는 초기 재구성에만 사전 지식을 활용하고 이후에는 전적으로 비디오 감독에 의존한다. 두 방식 모두 큰 변형과 폐색이 있는 복잡한 야생 환경을 잘 처리하지 못한다. 본 논문에서는 이러한 두 가지 한계를 모두 해결하는 테스트 시간 최적화 프레임워크인 Lift4D를 제시한다. 먼저, 기존 단일 시점 3차원 재구성 모델을 인과적 잠재 조건화를 통해 시간적으로 일관된 프레임별 예측을 생성하도록 적응시켜, 변형 가능한 3차원 가우시안 스플래팅 표현에 대한 일관된 초기화를 제공한다. 그런 다음 이 표현을 입력 비디오에 일치하도록 "조각"하는데, 가시적 표면 디테일을 충실히 복원하면서 관찰되지 않은 영역을 시점 조건부 확산 사전을 사용하여 보완하는 폐색 인식 최적화를 통해 수행한다. Lift4D가 기존 4차원 재구성 방법, 특히 심각한 폐색과 비강체 운동이 있는 까다로운 야생 환경 시퀀스에서 명확히 개선된 성능을 보임을 입증한다.
생성 음악 시스템은 이제 텍스트 프롬프트로 인상적인 오디오를 생성할 수 있지만, 오디오 출력은 음악 구조로 검사, 편집 및 진단하기 어렵다. 본 논문에서는 기호 음악 생성 및 수정을 위한 에이전트 중심 프레임워크인 Libretto를 소개한다. Libretto는 명시적인 온셋 슬롯, 성부 및 마디 수준 구성이 포함된 LLM 고유 문법을 사용한 후, 각 작품을 리듬, 화성, 선율, 질감, 형식 및 변주에 걸쳐 코퍼스 보정 통계 공간에서 평가한다. 동일한 구조적 축은 검색, 진단, 복사 위험 제어 및 반복적 자가 수정을 지원한다. 간격 채우기, 참조 기반 전체 작품 생성, 점진적 변형 및 교육용 음악 생성을 통해 Libretto는 기호 음악을 원시 토큰 시퀀스에서 언어 모델 에이전트가 측정 및 편집 가능한 객체로 전환한다.
영화 제작에는 정밀한 모션 제어와 참조 이미지 합성 능력이 요구되며, 기존 방법들은 이 둘을 별도로 처리한다. 포인트 트랙 조건화된 이미지-투-비디오(point-track-conditioned image-to-video) 모델은 콘텐츠 삽입을 첫 번째 프레임으로 제한하는 반면, 참조-투-비디오(reference-to-video) 모델은 참조 콘텐츠가 프레임 전체에 걸쳐 통합되는 방식을 세밀하게 공간-시간적으로 제어하지 못한다. 본 논문에서는 Go-with-the-Track을 제안한다. 이 방법은 여러 참조 이미지와 참조 기준 포인트 트랙(reference-anchored point-tracks)을 공동 조건(jointly conditioning)으로 사용하여 두 기능을 통합한다. 이는 기존 포인트 트랙을 확장하여 생성된 프레임과 참조 이미지 간의 대응 관계를 명시적으로 설정함으로써, 비디오 전체에 걸쳐 정밀한 합성과 모션 제어를 가능하게 한다. 이를 달성하기 위해, 좌표별 MLP(coordinate-wise MLP)와 이어지는 시간적 풀링(temporal pooling)을 사용하여 포인트 트랙 좌표의 전체 시퀀스를 인코딩하는 공간 인식 포인트 트랙 임베딩(spatially-aware point-track embeddings)을 도입한다. 이 표현은 각 포인트 트랙의 공간적 특성을 포착하여(고유 식별자 역할을 함), 임베딩 유사도가 공간적 근접성과 직접적으로 상관관계를 가지도록 하여, 모델이 포인트 트랙을 구별하고 연관 짓는 능력을 향상시킨다. 이러한 포인트 트랙 임베딩을 경량 어댑터(lightweight adapter)를 통해 비디오 확산 트랜스포머(video diffusion transformer)에 주입하여, 픽셀과 패치 간 해상도 불일치를 해결함과 동시에 단순한 포인트 트랙 서브샘플링(naive point-track subsampling)에 내재된 상당한 모션 세부 정보 손실을 방지한다. 동적, 정적 및 합성 장면 비디오 데이터셋에 대해 공동으로 학습시키기 위해 하이브리드 학습 전략(hybrid training strategy)을 사용하여 모션 제어성을 향상시킨다. 실험 결과, Go-with-the-Track은 단일 모델에서 우수한 모션 및 참조 제어를 달성하며, 포인트 트랙 기반 합성과 함께 다중 참조 조건화된 비디오 생성, 그리고 정적 및 동적 장면 모두에 대한 카메라 제어와 같은 새로운 기능을 가능하게 함을 보여준다. 프로젝트 페이지: https://eyeline-labs.github.io/Go-with-the-Track/
사전 학습 데이터 구성을 최적화하는 것은 LLM의 일반화 성능에 있어 핵심적이다. 동적 혼합(dynamic mixing)은 변화하는 학습 동학을 포착함으로써 정적 전략보다 우수하지만, 현재의 방법들은 다양한 파이프라인에 대해 계산 효율성과 샘플 효율성 및 구조적 유연성을 조화시키지 못한다. 우리는 강화 학습 관점에서 데이터 혼합에 접근하는 Actor-Critic Online Data Mixing (AC-ODM)을 소개한다. 이 방법은 파라미터화된 정책을 사용하며, 이 정책이 기울기의 상호 보강 간섭(constructive interference)을 극대화하는 동적 선형 대리 모델(dynamic linear surrogate)으로 작동함을 이론적으로 증명한다. 실용적 유연성을 높이기 위해 AC-ODM은 두 가지 작동 모드를 지원한다: (i) 프록시 모드(proxy mode)는 고정된 사전 준비 코퍼스에 대해 작은 모델에서 학습된 정책을 더 큰 대상 모델로 전이하는 방식이고, (ii) 비프록시 모드(non-proxy mode)는 사전 지식 없이 처음부터 직접 종단간 학습(end-to-end training)을 수행하는 방식이다. 실험적으로 AC-ODM은 다양한 아키텍처에서 수렴 속도와 하류 작업 정확도 측면에서 이전 방법들을 크게 능가한다. Pythia-1B 모델에서 AC-ODM은 경쟁력 있는 기준 모델들보다 최대 66% 적은 학습 단계로 최적의 검증 혼란도(validation perplexity)에 도달하며, MMLU 정확도에서 27.5%의 상대적 개선과 HumanEval에서 2.23배 높은 pass@1을 달성한다. 이 모든 성능 향상은 단계당 벽시계 시간(wall-clock time)이 거의 무시할 수준(0.4%)으로 증가하고 메모리 오버헤드가 2%에 불과한 상태에서 이루어진다. 코드는 https://github.com/DANG-ai/AC-ODM에서 확인할 수 있다.
자율주행 차량이 국제적으로 확장되고 VLM과 같은 다중 모달 시스템을 행동 모델의 인지 백본으로 사용함에 따라, 이 시스템들이 새로운 환경, 특히 새로운 지역에서의 분포 외(OOD) 극단적 사례 시나리오에서 얼마나 잘 일반화될 수 있을까? 본 논문에서는 리마 출신 인간 운전자, 뉴욕시 출신 인간 운전자, 그리고 VLM을 대상으로 완전 요인 분석을 수행하고, 이들에게 리마와 뉴욕시에서 수집된 대시캠 영상을 제시한 후 시각 질문 응답(VQA) 패러다임 하에 다양한 질문을 제시함으로써 이 미해결 질문을 연구한다. 특히, 현재 자율주행 차량 업체가 운용되지 않는 매우 까다로운 운전 환경인 이 두 도시를 선정하였으며, 사실적 질문, 평가 질문, 반사실적 질문, 추론 질문의 4가지 범주에 걸쳐 질문을 구성하였다. 그 결과, 인간과 VLM은 응답에서 차이를 보였으며, 이는 질문 유형에 따라 조절되었고, 인간은 출신 지역(리마/뉴욕시)과 관계없이 유사하게 응답하는 것으로 나타났다. 놀랍게도, 지리적 요인에 의해 조절되는 인간 또는 VLM의 응답 측면에서 강한 차이는 발견되지 않았으며, 이는 이들의 높은 분포 외 특성 때문인 것으로 보인다. 본 데이터셋은 https://huggingface.co/datasets/Artificio/robusto-2에서 확인할 수 있다.
본 논문에서는 건설 현장에서의 능동적인 숏크리트 분사 공정과 일반적인 건설 환경을 모두 포착하는 이중 모달(bi-modal) 데이터셋인 ShotcreteDepth를 소개한다. 이 데이터셋은 높은 탁도 및 낮은 조도 등 열악한 실제 환경 조건에서 수집된 스테레오 RGB 영상과 LiDAR 포인트 클라우드로 구성된다. 이러한 조건은 센서 측정에 악영향을 미쳐 불완전하고 노이즈가 많은 관측값을 초래하며, 이는 자율 주행 응용 분야의 인식 시스템에 심각한 도전 과제가 된다. 데이터셋과 함께, LiDAR 포인트 클라우드의 시간 효율적인 라벨링을 위해 설계된 경량화된 주석 도구도 공개한다. ShotcreteDepth는 총 11,252개의 시간적으로 동기화된 데이터 샘플로 구성되며, 이 중 220개는 평가 목적으로 주석이 제공된다. 이 데이터셋은 산업 현장에서 발견되는 운영상의 복잡성을 잘 반영하는 조건에서 스테레오 매칭, 깊이 완성 및 깊이 추정 연구를 지원한다. 프로젝트 저장소: https://github.com/dtu-pas/shotcrete-depth
본 논문은 ICME 2026에서 개최된 ATTM(Academic Text-to-Music) 그랜드 챌린지의 효율성 트랙에 제출한 우리의 접근법을 기술한다. 챌린지 프로토콜에서 요구하는 FAD-CLAP 및 CLAP 점수 외에도, 공개 음악 선호도 데이터셋에서 학습된 쌍체 순위 평가기(Twin Pairwise Ranker)인 TuneJury로부터 얻은 학습된 인간 선호도 보상을 추가로 활용한다. 이 보상은 학습 시 조건화 신호와 샘플 선택 기준이라는 두 가지 역할을 수행한다. 전체 파이프라인은 1억 2천만 개의 파라미터를 가진 FluxAudio-S 백본을 기반으로, 학습 시 4가지, 추론 시 1가지의 총 5가지 엔지니어링 결정을 결합한다: (i) 추론 시 CFG(분류기-자유 가이던스) 축 역할을 겸하는 학습 시 보상 조건화, (ii) 5가지 점수 조건화 아키텍처에 대한 탐색(학습과 추론에 서로 다른 변형 사용), (iii) 상위 10분위 데이터에 대한 전문가 반복(Expert Iteration), (iv) 오디오-텍스트 정렬을 위한 단기 선호도 조정 단계(CRPO), (v) 결합 CFG, 음원 분리 및 음량 정규화를 통한 추론 후처리. 100개의 Song Describer 프롬프트에 대한 단계별 분해 결과, 학습 시 보상 조건화는 기능적 조건화 축으로 작용하며, 전문가 반복이 가장 큰 기여를 하고, 선호도 조정 단계는 잡음 수준의 이득만을 추가하며, 추론 시 점수 스칼라는 체인 종료 시점에서 이미 포화 상태에 도달함을 보여준다.
대규모 언어 모델(LLM)은 소프트웨어 개발을 지원하기 위해 점점 더 많이 사용되고 있지만, 실제 게임 개발 환경에서의 실용적 유용성은 아직 충분히 탐구되지 않았다. 특히 생성된 코드를 기존 게임 소프트웨어 시스템에 통합해야 하는 경우가 그러하다. 본 논문은 맞춤형 Python/Pygame 무한 러너(endless runner) 게임에서 GPT-4o에 대한 탐색적 실증 사례 연구를 제시한다. 이 연구는 6개의 선별된 개발 작업을 검토한다: 3개의 국소적 리팩토링 작업과 3개의 게임플레이 기능 생성 작업이다. 결과 구현물은 소프트웨어 메트릭, 단위 테스트, 그리고 수동 게임플레이 평가를 통해 평가되었다. 이 사례 연구에서, 선별된 세 가지 리팩토링 작업은 모두 기능적으로 성공적으로 완료된 반면, 선별된 세 가지 게임플레이 기능 생성 작업 중 하나만이 올바르게 통합된 기능으로 이어졌다. 연구 결과는 이 환경에서 GPT-4o가 여러 기존 시스템에 걸친 새로운 게임플레이 상호작용을 요구하는 작업보다 국소적 변환을 더 안정적으로 처리했음을 시사한다. 탐색적 단일 사례 설계를 고려할 때, 이러한 결과는 범주 수준의 모델 성능에 대한 일반화 가능한 증거라기보다는 지표적 관찰로 해석하는 것이 가장 적절하다. 전반적으로, 이 논문은 기존 게임 소프트웨어 시스템에서 LLM 지원 리팩토링 및 게임플레이 기능 생성의 기회와 한계에 대한 투명한 사례 기반 설명을 제공한다.
도시 지역이 확장됨에 따라, 효율적이고 지속 가능한 도시를 위해 주차장의 자동 모니터링이 필수적이 되었다. 본 연구는 대상 주차장의 레이블링된 샘플 없이 주차 공간 점유 인식을 수행하는 자기 지도 학습 기반 접근법을 제안한다. 자기 지도 전이 학습 미세 조정 프로토콜을 기반으로, 제안된 훈련 전략은 두 단계의 자기 지도 학습으로 구성된다: 첫 번째는 레이블링되지 않은 일반 데이터에 대해, 두 번째는 레이블링되지 않은 대상 특화 데이터에 대해 수행되며, 이후 일반 주차장 레이블만을 사용한 지도 미세 조정이 이어진다. 우리는 ResNet-50 인코더를 갖춘 SimCLR을 채택하고, PKLot, CNRPark-EXT, PLds의 세 가지 공개 데이터셋에서 교차 환경 일대일(leave-one-out) 프로토콜 하에 방법을 평가한다. 또한, 초기에는 강력한 일반 모델(Strong General Model)을 배포하고, 이후 배포 첫 N일 동안 수집된 레이블링되지 않은 이미지를 자기 지도 방식으로 통합한 특화 모델(Specialized Model)로 이어지는 2단계 배포 전략을 도입한다. 실험 결과, 강력한 일반 모델 단독으로도 지도 학습 및 자기 지도 학습 기준선을 능가하여 평균 정확도 97.2%를 달성하였으며, 제안된 2단계 전략을 통해 97.8%로 추가 향상되었다. 이러한 결과는 자기 지도 학습이 실제 주차장 점유 모니터링을 위한 확장 가능하고 레이블 효율적인 솔루션을 가능하게 함을 보여준다. 훈련된 모델과 소스 코드는 https://github.com/LoanMaikon/Parking-Spot-Occupancy-Recognition에서 공개적으로 제공된다.