HuggingFace Daily Papers

일간 논문

번역이 포함된 일일 선별된 AI 연구 논문

날짜 선택

49 papers found

ArcANE: 롤플레잉 언어 에이전트는 적절한 시기에 캐릭터를 유지하는가?
ArcANE: Do Role-Playing Language Agents Stay in Character at the Right Time?

Jun 4

ByWoojung Song, Nalim Kim, Sangjun Song, Chaewon Heo, Jongwon Lim, Yohan Jo

역할극 언어 에이전트(RPLA)는 고정된 페르소나를 유지하는 것이 아니라, 이야기가 진행됨에 따라 가치관과 행동이 진화하는 캐릭터를 연기해야 한다. 기존 벤치마크는 특정 장에서의 사실 회상 능력을 측정할 뿐, 캐릭터의 심리적 궤적, 특히 원본 텍스트가 탐구하지 않은 시나리오에서 응답이 이와 일치하는지 여부는 평가하지 않는다. 우리는 17편의 소설과 80명의 주요 캐릭터를 포함하는 자동 구축 벤치마크인 ArcANE(Arc-Aware Narrative Evaluation)을 소개한다. 캐릭터 아크(Character Arc)는 서사를 심리적 축을 따라 단계로 분할하며, 각 탐침(probe)은 원본 텍스트 내의 상황과 그 너머의 상황을 모두 포괄하여, 여러 단계에 걸쳐 동일한 시나리오를 제시한다. 여섯 가지 모델과 여섯 가지 맥락 모드에 걸쳐, 캐릭터 아크를 조건으로 주는 방식이 모든 모델에서 다른 모든 맥락 전략보다 우수하며, 그 차이는 검색이 정보를 찾을 수 없는 원본 텍스트 외부 시나리오에서 가장 크게 나타난다. 또한 우리는 동일한 데이터로 오픈 가중치 모델을 미세 조정하여 ArcANE-8B/32B를 얻었으며, 이 모델들은 원본 텍스트 외부 시나리오에서 아크의 이점을 더욱 확장한다.

TIDE: 템플릿 기반 반복을 통한 사전 예방적 다중 문제 발견
TIDE: Proactive Multi-Problem Discovery via Template-Guided Iteration

Jun 3

BySoyeong Jeong, Jinheon Baek, Minki Kang, Sung Ju Hwang

에이전트는 문서, 도구 및 코드에 대한 어시스턴트로 널리 배포되고 있다. 그러나 이들은 일반적으로 사용자가 인지한 문제만을 표면화하는 명시적 사용자 요청에만 반응하는 반면, 더 넓은 사용자 맥락 내에서 눈에 띄게 숨겨져 있는 많은 다른 중요한 문제들이 공존하며, 그 총 개수는 사전에 알려져 있지 않다. 우리는 이를 맥락에서 여러 숨겨진 문제를 발견하는 과제로 구성하며, 여기서 공존하는 문제들은 드러나고, 뒷받침 증거에 근거하며, 구체적인 조치와 연결되어야 한다. 이를 위해 우리는 두 가지 상호 보완적 메커니즘을 갖춘 템플릿 기반 반복 프레임워크인 TIDE를 소개한다. 구체적으로, 단일 패스 예측이 가장 두드러진 사례에 집중하여 일반적인 주장을 생성한다는 관찰에서 동기 부여되어, 우리는 반복적 발견(iterative discovery)을 제안한다. 이는 이미 발견된 내용을 조건으로 하면서 라운드당 소량의 후보군을 표면화하여, 후속 라운드가 범위를 확장하도록 한다. 또한 사고 템플릿(thought templates)은 이전에 해결된 사례에서 추출된 재사용 가능한 스키마로, 어떤 맥락적 신호에 주목하고 이를 어떻게 연결할지 명시하여 각 예측을 인식 가능한 문제 클래스에 고정시킨다. 우리는 TIDE를 개인 작업 공간과 소프트웨어 저장소라는 두 가지 현실적인 환경에서 네 가지 모델 백본에 걸쳐 검증하였으며, 단일 샷 및 병렬 멀티 에이전트 기준선 대비 작업 범위, 식별 및 해결 측면에서 상당한 성능 향상을 보여준다.

AdaPlanBench: 세계 및 사용자 제약 하의 대규모 언어 모델 에이전트 적응형 계획 평가
AdaPlanBench: Evaluating Adaptive Planning in Large Language Model Agents under World and User Constraints

Jun 4

ByJiayu Liu, Cheng Qian, Zhenhailong Wang, Bingxuan Li, Jiateng Liu, Heng Wang, Jeonghwan Kim, Yumeng Wang, Xiusi Chen, Yi R. Fung, Heng Ji

언어 모델이 실제 문제를 계획할 때는 종종 세계 및 사용자 제약이 포함되며, 이러한 제약은 처음부터 완전히 명시되지 않고 상호작용을 통해 점진적으로 공개된다. 그러나 기존의 벤치마크는 점진적으로 공개되는 이러한 이중 제약 하에서의 적응적 계획을 충분히 탐구하지 못하고 있다. 이러한 격차를 해소하기 위해, 우리는 AdaPlanBench를 소개한다. 이는 대규모 언어 모델(LLM) 에이전트가 점진적으로 공개되는 세계 및 사용자 제약 하에서 적응적으로 계획하고 재계획할 수 있는지 평가하는 동적 상호작용 벤치마크이다. AdaPlanBench는 307개의 가사 과제를 기반으로 구축되었으며, 각 과제에 이중 제약을 추가하는 확장 가능한 제약 구성 파이프라인을 갖추고 있다. 런타임에서 에이전트는 다중 턴 프로토콜을 통해 환경과 상호작용하며, 숨겨진 제약은 에이전트가 이를 위반하는 계획을 제안할 때만 공개되어 누적되는 피드백 하에서 반복적인 계획 수정을 요구한다. 이는 에이전트가 효과적으로 재계획하면서 피드백으로부터 제약을 추론하고 추적해야 하므로 계획을 어렵게 만든다. 10개의 주요 LLM에 대한 실험 결과, 이중 제약 하에서의 적응적 계획은 여전히 어려운 과제이며, 최고 모델이 67.75%의 정확도에 그쳤다. 또한 더 많은 제약이 축적됨에 따라 성능이 저하되며, 사용자 제약이 특히 큰 도전 과제를 제기하고, 실패는 종종 약한 물리적 기반과 감소된 효과성에서 비롯된다는 점을 관찰했다. 이러한 결과는 AdaPlanBench를 이중 제약 상호작용 계획을 위한 테스트베드로 확립하며, LLM 에이전트에서 동적으로 공개되는 제약에 대한 신뢰할 수 있는 적응의 어려움을 강조한다.

VideoKR: 지식 및 추론 집약적 비디오 이해를 위하여
VideoKR: Towards Knowledge- and Reasoning-Intensive Video Understanding

Jun 3

ByLin Fu, Zheyuan Yang, Yang Wang, Tingyu Song, Arman Cohan, Yilun Zhao

우리는 VideoKR을 소개한다. 이는 지식 및 추론 집약적 비디오 이해를 강화하기 위해 특별히 설계된 최초의 대규모 훈련 코퍼스이다. 이 코퍼스는 새로 수집된 145,000개의 CC 라이선스 전문 분야 비디오에 대한 315,000개의 비디오 추론 예제로 구성된다. 우리는 인간 참여형 기술 지향적 예제 생성 파이프라인을 개발하여, 점진적으로 더 깊은 수준의 비디오 추론 능력을 목표로 하면서도 예제와 그 CoT 추론 과정의 난이도, 다양성 및 신뢰성을 보장한다. 또한 새로운 전문가 주석 벤치마크인 VideoKR-Eval을 구축하였으며, 여기서 질문은 텍스트적 지름길이 아닌 진정한 비디오 이해와 지식 집약적 추론을 요구한다. 실험 결과, 표준 SFT→GRPO 파이프라인 하에서 VideoKR로 사후 훈련된 모델은 지식 집약적 비디오 추론에서 이전의 사후 훈련 접근법보다 뛰어난 성능을 보였으며, 일반 비디오 추론에서도 경쟁력을 유지하였다. 이는 비디오 추론의 발전에 있어 데이터 설계가 핵심 동인임을 강조한다. 또한 VideoKR의 기여를 분석하기 위해 포괄적인 절제 연구를 수행하여, 향후 연구를 위한 실행 가능한 통찰력을 제공한다.

강화 학습은 미지의 언어 번역에 대한 맥락 학습을 유도한다.
Reinforcement Learning Elicits Contextual Learning of Unseen Language Translation

Jun 4

ByHanxu Hu, Zdeněk Šnajdr, Pinzhen Chen, Jannis Vamvas, Rico Sennrich

이전 연구들은 대규모 언어 모델(LLM)이 지속적 학습을 거치거나 문법책을 문맥에 인코딩하는 방식으로 미경험 언어나 저자원 언어를 번역할 수 있음을 보여주었다. 그러나 두 방법 모두 특정 언어에 과적합되는 경향이 있으며, 테스트 시점에서 제로샷 전이 능력이 제한적이다. 극히 저자원 언어를 대규모로 번역하기 위해, 우리는 LLM이 특정 언어를 암기하기보다는 문맥 내 언어적 지식을 활용하는 메타 기술을 습득해야 한다고 주장한다. 본 논문에서는 풍부한 언어적 문맥이 주어졌을 때 미경험 언어 번역을 위한 강화학습(RL) 접근법을 제안하며, 표면 수준의 번역 평가 지표(chrF)를 보상으로 사용한다. 실험적으로, 가벼운 보상에도 불구하고 RL로 학습된 모델은 제공된 문맥에서 관련 언어 정보를 효과적으로 추출하고 적용하여, 완전히 새로운 언어에 대해 문맥 내 학습이나 지도 미세 조정보다 더 나은 번역을 달성한다. 우리의 분석은 결과 기반 RL이 수학이나 코딩과 같은 전통적인 추론 작업을 넘어, 문맥으로부터 언어를 학습하는 방법론으로 확장될 수 있음을 시사한다.

RobotValues: 인간 가치 충돌 시 가정용 로봇 평가
RobotValues: Evaluating Household Robots When Human Values Conflict

Jun 2

ByJongwook Han, Hyeongjin Kim, Yohan Jo

가정용 로봇은 종종 작업 완수 여부로 평가되지만, 일상적인 가정 환경에서는 인간의 자율성, 효율성 또는 사회적 적절성과 같은 작업 성공보다 다른 가치를 우선시하는 행동을 로봇이 선택해야 하는 가치 충돌 상황이 발생한다. 그러나 이러한 시나리오에서 로봇의 가치 선호도를 평가하기 위한 벤치마크는 존재하지 않는다. 본 논문에서는 10,000개의 가치 충돌 시나리오에서 가정용 로봇 플래너를 평가하기 위한 벤치마크인 RobotValues를 소개한다. 각 인스턴스는 서로 다른 인간 가치를 우선시하는 여러 가지 그럴듯한 로봇 행동과 함께 현실적인 가정용 이미지로 구성된다. RobotValues는 LLM 지원 시나리오 생성, 이해관계자 기반 가치 추출, 이미지 생성 및 자동 품질 관리를 통해 구축된다. RobotValues를 사용하여 로봇공학에 사용되는 VLM(비전-언어 모델)을 평가한 결과, 모델은 안전 및 편의성을 포함한 기본 가치 선호도를 보이는 반면, 개인정보 보호를 우선시하는 행동은 과소 선택함을 발견했다. 모델이 자신의 선호도와 충돌하는 특정 가치를 우선시하도록 지시받았을 때, 기본 행동을 재정의하는 데 종종 실패하여 80%의 확률로 잘못된 행동을 선택했다. 이러한 연구 결과는 가정용 로봇 평가가 작업 완수나 안전 준수뿐만 아니라, 인간의 가치가 충돌할 때 로봇이 그럴듯한 행동들 중에서 선택할 수 있는지 여부도 측정해야 함을 시사한다.

카메라 롤 VQA를 위한 개인 AI 에이전트
Personal AI Agent for Camera Roll VQA

Jun 3

ByThao Nguyen, Krishna Kumar Singh, Donghyun Kim, Yong Jae Lee, Yuheng Li

우리는 개인 카메라 롤 시각 질의응답 설정을 연구한다. 이 설정에서 대화형 AI 어시스턴트는 사용자의 개인 카메라 롤에 접근하여 관련 사진을 검색함으로써 단순한 사실 질문(예: "어제 내가 시식한 음식 이름은?")부터 보다 개방적인 질문(예: "내가 한 번도 먹어본 적 없는 요리를 추천해줘")까지 다양한 질의에 응답할 수 있다. 개인 카메라 롤의 방대한 특성(즉, 수년간 수백에서 수천 장의 사진)을 고려할 때, 성공적인 AI 어시스턴트는 올바르거나 관련된 정보를 탐색하고 찾아내기 위해 장기적이고 고도로 개인화된 시각 콘텐츠 스트림을 이해해야 한다. 이를 지원하기 위해 우리는 실제 사용을 모방한 질문을 수집하고 수동으로 주석을 달았다. 최종 데이터셋인 camroll은 50명의 사용자, 31,476장의 이미지, 2,500개의 QA 쌍을 포함한다. 또한 우리는 계층적 메모리와 대규모 개인화된 시각 기억을 효율적으로 탐색하기 위한 최소한의 도구 세트를 갖춘 대화형 AI 에이전트인 camroll-agent를 설계하였다. 실험 결과는 camroll-agent가 장기 맥락 이해 AI 에이전트 시스템의 수많은 기준선과 방법보다 우수한 성능을 보임을 보여준다. camroll 데이터셋과 camroll-agent는 함께 AI 에이전트의 장기 맥락 추론에서의 격차를 부각시킨다: 개인화된 시각 기억은 표준 장기 맥락 텍스트 기억과 다른 접근 방식을 필요로 하며, 특히 일관성, 시각적 세부 사항 및 사용자 특정 맥락이 존재할 때 더욱 그러하다.

LoomVideo: 멀티모달 입력을 비디오 생성 및 편집으로 통합
LoomVideo: Unifying Multimodal Inputs into Video Generation and Editing

Jun 4

ByJianzong Wu, Hao Lian, Jiongfan Yang, Dachao Hao, Ye Tian, Yunhai Tong, Jingyuan Zhu, Biaolong Chen, Qiaosong Qi, Aixi Zhang, Wanggui He, Mushui Liu, Jinlong Liu, Hao Jiang

통합 비디오 생성 및 편집 모델을 개발하여 인터리브된 다중 모달 입력을 해석하는 것은 유망하면서도 도전적인 최첨단 연구 분야이다. 기존의 통합 프레임워크는 주로 대규모 모델(일반적으로 13B 파라미터 이상)에 의존하며, 소스 비디오 조건을 시퀀스 토큰 연결을 통해 통합하여 편집을 수행한다. 이러한 연결은 시퀀스 길이를 필연적으로 두 배로 늘려 자기 주의 메커니즘의 계산 복잡성을 네 배로 증가시키고 과도한 오버헤드를 초래한다. 이러한 병목 현상을 해결하기 위해, 우리는 LoomVideo를 제안한다. 이는 비디오 생성과 편집을 모두 수행하는 고효율 5B 파라미터 통합 아키텍처이다. LoomVideo는 표준 텍스트 인코더를 다중 모달 대규모 언어 모델(MLLM)로 대체하고, Deepstack 주입 메커니즘을 사용하여 다층 MLLM 특징을 확산 트랜스포머(DiT)와 정렬한다. 핵심적으로, 우리는 비디오 편집을 위해 제로 오버헤드의 Scale-and-Add 조건화 방식을 도입한다. 깨끗한 소스 비디오 잠재 변수를 노이즈가 추가된 대상 잠재 변수에 스케일링하여 직접 더함으로써, 이 우아한 설계는 토큰 연결의 필요성을 제거하여 계산 비용을 획기적으로 줄이면서도 복잡한 비강체 편집에 강력한 성능을 유지한다. 또한, Negative Temporal RoPE 전략을 매끄럽게 통합하여 여러 참조 이미지를 처리한다. 광범위한 실험을 통해, 우리의 소형 5B 모델이 포괄적 벤치마크에서 최첨단 또는 경쟁력 있는 성능을 달성하며, 전자상거래 및 패션 생성 시나리오에서 탁월한 우수성을 보인다. 제로 오버헤드 조건화 메커니즘 덕분에 LoomVideo는 유사한 성능의 모델 대비 추론 속도에서 최소 5.41배 가속을 달성하여, 실용적이고 효율적인 비디오 기반 모델을 위한 길을 열어준다.

복잡도 균형 확산 분할
Complexity-Balanced Diffusion Splitting

Jun 4

ByNoam Issachar, Dani Lischinski, Raanan Fattal

표준 연속 시간 생성 모델은 등방성 노이즈에서 복잡한 데이터 분포에 이르기까지 매우 다른 신호 영역을 탐색해야 하는 모놀리식 구조에 의존합니다. 모델 용량을 확장하면 성능이 향상되지만, 방대한 네트워크를 생성 타임라인 전체에 균일하게 배치하는 것은 본질적으로 비효율적입니다. 본 연구에서는 복잡도 균형 분할(CBS)이라는 원칙적인 프레임워크를 제안합니다. 이는 시간적 용량 할당을 위한 방법으로, 생성 작업 부하를 여러 전문화된 하위 네트워크에 분산시킵니다. 함수 근사 이론과 de Boor의 등분포 원리에 기반한 CBS는 확산 타임라인을 동등한 근사 부담을 갖는 세그먼트로 분할하여, 생성 역학이 더 어렵게 모델링되는 영역에 더 많은 표현 용량을 할당합니다. 이러한 국소 복잡도를 추정하기 위해, 흐름의 디리클레 에너지에 기반한 공간적 측정과 샘플링 궤적의 가속도에 기반한 기하학적 측정이라는 두 가지 상호 보완적이고 다루기 쉬운 모니터 함수를 도입합니다. 경량 보조 모델을 사용하여 이러한 복잡도 프로파일을 추정함으로써, 우리의 접근 방식은 휴리스틱 시간 분할이나 계산 비용이 많이 드는 검색 절차를 필요로 하지 않습니다. 여러 아키텍처(SiT, JiT, UNet)와 데이터셋에 대한 광범위한 평가는 CBS가 단계별 추론 비용을 증가시키지 않으면서 합성 품질을 지속적으로 향상시킴을 보여줍니다. 특히, CBS는 CFG를 사용한 SiT-XL에서 단순 시간 분할 대비 FID를 약 35% 개선합니다. 프로젝트 페이지는 https://noamissachar.github.io/CBS/에서 확인할 수 있습니다.

자기 진화하는 LLM 에이전트를 위한 지속적 경험 내재화 재고찰
Rethinking Continual Experience Internalization for Self-Evolving LLM Agents

Jun 3

ByJingwen Chen, Wenkai Yang, Shengda Fan, Wenbo Nie, Chenxing Sun, Shaodong Zheng, Yangen Hu, Lu Pan, Ke Zeng, Yankai Lin

경험 내재화는 과거 상호작용에서 얻은 맥락적 경험을 재사용 가능한 파라미터 기반 능력으로 전환함으로써, 대규모 언어 모델(LLM)의 지속적 학습을 위한 유망한 경로를 제공한다. 기존 연구가 주로 단일 반복 전이에 초점을 맞춘 반면, 우리는 다중 반복 경험 학습 조건에서 기존 방법들이 누적적 개선이 아닌 점진적 능력 붕괴를 겪는다는 사실을 발견하였다. 우리는 경험 내재화의 세 가지 핵심 차원을 통해 이러한 실패를 체계적으로 분석한다: (1) **경험 세분성**: 사례 수준 경험보다 원칙 수준 경험이 더 지속적임을 확인하였는데, 이는 궤적 특정 세부사항으로부터 전이 가능한 전략을 효과적으로 추상화하기 때문이다. (2) **경험 주입 패턴**: 분석 결과, 단계별 주입이 중간 의사결정 상태에 경험을 정렬함으로써 전역적 주입보다 현저히 우수한 성능을 보이며, 이는 장기적 도구 사용에 중요한 속성임을 밝혀냈다. (3) **내재화 체계**: 고품질 교사 궤적에 대한 오프-폴리시 맥락 증류는 학습자 유발 결함 상태에 대한 국소적 교정에 본질적으로 제한되는 온-폴리시 맥락 증류보다 훨씬 안정적인 학습 신호를 제공함을 입증하였다. 이러한 통찰들은 안정적이고 지속 가능한 경험 내재화를 위한 간단하면서도 강력한 방법론을 제시하며, 자기 진화 및 지속적 학습이 가능한 LLM을 설계하기 위한 구체적인 지침을 제공한다.

자율주행의 미래: KITScenes 멀티모달 데이터셋
The Road Ahead in Autonomous Driving: The KITScenes Multimodal Dataset

Jun 1

ByRichard Schwarzkopf, Fabian Immel, Alexander Blumberg, Jonas Merkert, Nils Rack, Kaiwen Wang, Fabian Konstantinidis, Julian Truetsch, Carlos Fernandez, Annika Bätz, Kevin Rösch, Marlon Steiner, Willi Poh, Yinzhe Shen, Royden Wagner, Felix Hauser, Dominik Strutz, Jaime Villa, Gleb Stepanov, Holger Caesar, Ömer Şahin Taş, Frank Bieder, Jan-Hendrik Pauls, Christoph Stiller

기존의 자율주행 데이터셋은 상당한 발전을 가능하게 했지만, 센서 정밀도, 지도 완전성 또는 지역적 다양성 측면에서 부족한 점이 있습니다. 본 논문에서는 고정밀 센서와 지도를 기반으로 구축된 유럽 데이터셋인 KITScenes Multimodal을 소개합니다. 완전히 동기화된 센서 스위트는 고해상도 글로벌 셔터 카메라, 400m 이상의 장거리 라이다, 4D 이미징 레이더, 그리고 이중화된 GNSS/INS 위치 측위 시스템을 결합합니다. 당사의 HD 지도는, 저희가 아는 한, 모든 센서 데이터셋 중 가장 완전하며, 오픈소스 소프트웨어를 사용한 자율주행 시험을 통해 검증되었습니다. 공개 데이터셋 중 최초로, 신호등과 같은 모든 주행 관련 교통 요소가 완전한 위상 연결성을 갖춘 재투영 정밀도 수준으로 3D 매핑되었습니다. 불규칙한 도로 배치와 혼합 교통 모드를 가진 도시들에서 기록된 당사의 데이터셋은 이용 가능한 지역적 다양성을 확장함으로써 기존 데이터셋을 보완합니다. 또한 구현 인공지능을 위한 공간 학습을 각각 발전시키는 네 가지 벤치마크, 즉 온라인 HD 지도 구축, 장거리 깊이 추정, 새로운 시점 합성, 그리고 종단간 주행을 제시합니다. 프로젝트 페이지: https://kitscenes.com/

Dream.exe: 비디오 생성 모델이 실행 가능한 로봇 조작을 꿈꿀 수 있을까?
Dream.exe: Can Video Generation Models Dream Executable Robot Manipulation?

Jun 4

ByRui Zhao, Kaiming Yang, Jifeng Zhu, Siyang Chen, Ziqi Wang, Weijia Wu, Kevin Qinghong Lin, Heng Wang, Mike Zheng Shou

비디오 생성 모델은 시각적으로 설득력 있는 콘텐츠를 합성하는 데 있어 인상적인 진전을 이루었지만, 그 출력은 여전히 가상 영역에 국한되어 있다. 이에 따라 자연스러운 질문이 제기된다: 생성된 비디오가 화면을 벗어나 현실로 들어갈 때, 이러한 모델들은 물리적 세계를 얼마나 잘 반영하는가? 본 연구는 로봇 조작을 이 질문에 대한 구체적이고 측정 가능한 창(window)으로 제안한다. 즉, 모델이 물리 법칙을 진정으로 내재화했다면, 그것이 묘사하는 움직임은 실행 가능한 로봇 행동으로 변환되어야 한다. 우리는 이러한 기준을 비디오-실행 파이프라인을 통해 실질적으로 구현하는 평가 프레임워크인 Dream.exe를 소개한다. Dream.exe는 장면 이미지와 작업 설명이 주어지면 조작 비디오를 합성하고, 생성된 움직임을 로봇 궤적으로 변환한 후, 물리 시뮬레이터에서 이를 실행함으로써 순수 시각적 지표로는 제공할 수 없는 근거 신호(grounding signal)를 산출한다. 이 파이프라인을 사용하여 우리는 최첨단 폐쇄형 소스 생성기, 오픈소스 생성기, 로봇 특화 모델을 아우르는 8개의 모델을 평가한다. 본 벤치마크는 시각적 품질, 궤적 충실도, 실행 성공률로 측정된 세 가지 수준의 물리적 복잡성을 가진 101개의 수동 선별 조작 작업을 포함한다. 고무적으로, 여러 모델이 측정 가능한 실행 성공을 달성했으며, 이는 인터넷 규모 데이터로부터 학습된 생성적 사전 지식(generative priors)이 이미 의미 있는 물리적 지식을 부호화하고 있음을 시사한다. 그러나 시각적 품질은 실행 가능성의 좋은 예측 변수가 아니라는 사실이 드러나, 표준 시각 평가가 포착하지 못하는 모델 능력의 차원을 노출한다. Dream.exe는 https://github.com/showlab/Dream.exe에서 오픈소스로 공개될 예정이다.

에이전트 데이터 분석을 위한 비지도 스킬 발견
Unsupervised Skill Discovery for Agentic Data Analysis

Jun 4

ByZhisong Qiu, Kangqi Song, Shengwei Tang, Shuofei Qiao, Lei Liang, Huajun Chen, Shumin Deng

추론 시점의 스킬 증강은 모델 파라미터를 업데이트하지 않고 재사용 가능한 절차적 지식을 주입함으로써 데이터 분석 에이전트를 개선하는 경량화된 방법을 제공한다. 그러나 데이터 분석을 위한 효과적인 스킬을 발견하는 것은 여전히 어려운데, 이는 신뢰할 수 있는 지도 신호가 비용이 많이 들고 성공 기준이 분석 형식에 따라 다양하기 때문이다. 이는 레이블이 없는 탐색만으로 재사용 가능한 데이터 분석 스킬을 어떻게 발견할 것인가라는 핵심 질문을 제기한다. 우리는 데이터 분석 에이전트를 위한 비지도 검증기 기반 스킬 발견 프레임워크인 DataCOPE를 제안한다. DataCOPE는 탐색 궤적으로부터 검증기 신호를 도출하고 이를 사용하여 궤적들 간의 상대적 품질이나 일치성을 특성화한다. 궤적 생성을 위한 데이터 분석 에이전트, 신호 추출을 위한 비지도 검증기, 그리고 대조적 스킬 증류를 위한 스킬 관리자를 반복적으로 조정한다. 보고서 스타일 분석을 위해 검증기를 적응형 체크리스트 검증기로 구체화하여 작업별 기준을 도출하고, 검증 가능한 범위로 보고서를 점수화하며, 체크리스트를 반복적으로 개선한다. 추론 스타일 분석을 위해 검증기를 답변 일치 검증기로 구체화하여 답변 일치에 따라 궤적을 그룹화하고 자기 일관성을 보조 신호로 사용한다. 우리는 DataCOPE를 Deep Data Research의 보고서 스타일 분석과 DABStep의 추론 스타일 분석에 대해 평가한다. 두 설정 모두에서 DataCOPE는 기준선 대비 보류된 성능을 일관되게 개선한다. 네 가지 모델 설정에 걸쳐 평균적으로 DataCOPE는 보고서 스타일 작업에서 평균 점수를 9.71%, 추론 스타일 작업에서 32.30% 향상시킨다.

LLM은 학습 데이터를 유출할 수 있지만, 그러려고 할까? LLM의 암기에 대한 성향 인식 평가
LLMs Can Leak Training Data But Do They Want To? A Propensity-Aware Evaluation of Memorization in LLMs

Jun 4

ByGianluca Barmina, Peter Schneider-Kamp, Lukas Galke Poech

대규모 언어 모델은 훈련 데이터를 재현할 수 있지만, 기존의 기억화 평가는 대부분 모델이 강제로 그렇게 하도록 할 수 있는지 여부를 측정할 뿐, 일반적인 사용 상황에서 실제로 그렇게 하는지 여부는 측정하지 않는다. 본 논문에서는 접두사 기반 능력 공격과 비적대적 평가를 대비하는 성향 인지 기억화 평가 프레임워크인 PropMe를 소개한다. 기존 함수에 적용하여 성향 메트릭을 생성할 수 있는 메트릭 변환 방법을 제안한다. 또한, infini-gram 기반의 경량 추적 파이프라인인 SimpleTrace를 도입하여, 대규모 훈련 코퍼스에 대한 모델 생성 결과를 결정론적으로 귀속시키고, 문자 그대로, 거의 문자 그대로, 그리고 성향 변환된 기억화 메트릭을 계산한다. 두 개의 완전 공개 모델(Comma와 DFM Decoder)을 두 개의 데이터셋(Common Pile과 Dynaword)에서 두 언어로 평가한 결과, 능력과 성향 사이에 일관된 차이가 발견되었다. 접두사 공격은 일반적이거나 데이터셋 특화된 프롬프트보다 훨씬 강한 기억화 신호를 유도한 반면, 성향 점수는 전반적으로 낮게 유지되었다. 따라서 모델은 직접 유도될 경우 훈련 데이터를 드러낼 수 있지만, 보다 일반적인 비적대적 환경에서는 그러한 경우가 드물다. 또한, Comma에서 지속적 사전 학습된 DFM Decoder는 Common Pile에 대해 기억화 및 기억화 성향이 감소하여, 이후 학습이 부분적으로 다른 데이터를 강조할 경우 기억화 능력이 감소할 수 있음을 확인하였다. 이러한 결과는 기억화 감사가 현상에 대한 보다 포괄적인 시각을 제공하기 위해 최악의 경우 추출 가능성과 일반적인 누출 성향을 모두 보고해야 함을 시사하며, 이를 권장한다.

OPRD: 온-정책 표현 증류
OPRD: On-Policy Representation Distillation

Jun 4

ByShenzhi Yang, Guangcheng Zhu, Bowen Song, Haobo Wang, Mingxuan Xia, Xing Zheng, Yingfan Ma, Zhongqi Chen, Weiqiang Wang, Gang Chen

온-정책 증류(On-policy distillation, OPD)는 다음 토큰 확률을 일치시킴으로써 출력 공간에서만 학생 모델을 지도한다. 이러한 출력 전용 패러다임에는 두 가지 한계가 있다: (1) 대규모 어휘(예: Qwen의 약 15만 토큰)에 대한 Monte Carlo KL 추정치의 샘플링 분산이 훈련 과정 전반에 걸쳐 지속되며, (2) 교사 모델을 블랙박스로 취급하여 LM 헤드 이후의 모든 중간 은닉 상태를 무시한다. 우리는 온-정책 표현 증류(On-Policy Representation Distillation, OPRD)를 제안한다. 이는 동일한 롤아웃 상의 선택된 층들에서 학생과 교사의 표현을 정렬함으로써 증류를 은닉 상태 공간으로 끌어올려 LM 헤드를 완전히 우회한다. 이론적으로 OPRD는 샘플링 분산을 제거하고 층별로 더 풍부한 구조적 정보를 제공한다. 실험적으로 OPRD는 AIME 2024/2025 및 AIMO에서 학생-교사 간 격차를 해소하는 반면, 출력 공간 OPD 기준선은 교사 이하에서 정체된다. 또한 OPRD는 top-k OPD보다 1.44배 빠르게 훈련되고 54% 적은 메모리를 사용한다. 코드: https://github.com/ShenzhiYang2000/OPRD.

MAOAM: 비전-언어 모델을 활용한 통합 객체 및 재료 선택
MAOAM: Unified Object and Material Selection with Vision-Language Models

Jun 2

ByJaden Park, Valentin Deschaintre, Jason Kuen, Kangning Liu, Iliyan Georgiev, Krishna Kumar Singh, Yong Jae Lee, Michael Fischer

선택(Selection)은 대화형 이미지 편집에서 핵심적인 연산이다. 실용적으로 사용하기 위해서는 사용자가 텍스트 또는 클릭 기반 상호작용을 통해 원하는 선택 영역을 지정하고 명확히 할 수 있어야 하며, 시스템은 객체뿐만 아니라 재질과 같은 다른 기준의 선택도 지원해야 한다. 재질 기반 선택은 표면 재질감 변경이나 특정 재질의 인스턴스 편집과 같은 작업에 유용하다. 그러나 기존의 비전-언어 모델(VLM) 기반 선택 방법은 객체 중심이며 일반적으로 단일 상호작용 양식만을 지원하여 그 적용 가능성에 한계가 있다. 이에 본 연구에서는 텍스트 기반 및 클릭 기반 상호작용 모두에서 정밀한 객체 및 재질 수준 선택을 가능하게 하는 통합 선택 프레임워크인 MAOAM(Mask Any Object And Material)을 제안한다. MAOAM은 분할 헤드를 갖춘 VLM을 활용하여 사용자 프롬프트로부터 픽셀 단위 정확한 마스크를 생성한다. VLM은 사용자의 선택 의도(객체 또는 재질 수준)를 해석하고 시각적 개체, 속성 및 공간 관계를 인코딩하며, 분할 헤드는 출력 토큰을 마스크로 디코딩한다. 주요 과제는 텍스트 주석이 포함된 재질 선택 데이터셋의 부족이다. 우리는 확장 가능한 데이터 생성 파이프라인을 제안한다. 재질 마스크가 있는 실제 및 합성 이미지를 수집하고, VLM을 활용하여 풍부한 시각-의미론을 갖춘 재질 설명을 생성한다. 우리는 MAOAM을 클릭 및 텍스트 기반 선택에 대한 다중 작업 목표와 재질 설명에서 파생된 보조 VQA 작업을 통해 학습시켜 더 깊은 재질 이해를 촉진한다. 단일 양식 프롬프트로 학습되었음에도 불구하고, 우리 모델은 추론 시 텍스트와 클릭을 결합할 때 선택 성능이 발생적으로 개선되어 유연한 이미지 편집 워크플로우를 가능하게 한다. 실험 결과, 다양한 객체, 재질 및 상호작용 시나리오에서 정확하고 일관된 선택을 보여주며 실제 환경에서의 강건성을 입증한다.

추론의 그림자 가격: LLM을 위한 최적 예산 배분에 대한 경제적 관점
The Shadow Price of Reasoning: Economic Perspective on Optimal Budget Allocation for LLMs

Jun 2

ByXu Wan, Speed Zhu, Jianwei Cai, Guang Chen, XiMing Huang, Wiggin Zhou, Mingyang Sun

추론 시간 확장은 대규모 언어 모델의 성능을 향상시키는 중요한 방법으로 부상했지만, 실제 배포는 엄격한 계산 예산에 의해 제약을 받는다. 본 연구에서는 추론 예산 할당을 경제 원리에 기반한 전역 제약 최적화 문제로 정식화한다. 각 질의의 추론 효용을 이동-급증 함수로 모델링함으로써, 자원 부족 상태에서 한계 효용을 균형화하는 전역 그림자 가격에 기반한 최적 할당 정책을 도출한다. 이 이론을 바탕으로, 본 논문은 추론을 위한 제약적 잠재 효용 균형 할당(CLEAR)을 제안한다. 이는 합리적 포기를 수행하고, 자원을 부실 질의에서 발현 임계값 근처에 있는 해결 가능한 질의로 재할당한다. 다양한 트래픽 흐름에서 여러 추론 과제에 대한 광범위한 실험 결과, CLEAR가 총 토큰 비용 대 평균 정확도의 파레토 경계를 유의미하게 개선함을 보여준다. 자원 부족 환경에서는 CLEAR가 균등 할당에 비해 전역 정확도를 최대 3배까지 향상시킨다.

예측하기 전에 상상하라: 비디오 이벤트 예측을 위한 인터리브드 잠재 시각 추론
Imagine Before You Predict: Interleaved Latent Visual Reasoning for Video Event Prediction

Jun 4

ByTianxiang Jiang, Linquan Wu, Sheng Xia, Songze Li, Ziang Yan, Haoyu Yang, Yu Qiao, Yi Wang

비디오 이벤트 예측(VEP)은 부분적인 비디오 증거로부터 관찰되지 않은 미래 상태를 추론하는 모델을 요구한다. 기존의 비디오 MLLM은 일반적으로 텍스트 공간에서 중간 미래 추론을 언어화하는데, 시각적 증거가 언어화되면 세밀한 움직임, 기하학, 상호작용 단서가 손실되어 그럴듯하지만 시각적으로 근거가 없는 환각을 유발할 수 있다. 본 논문에서는 Future-L1을 소개한다. 이는 MLLM이 자기회귀적 디코딩 중에 언어 토큰과 연속적인 잠재 시각적 스팬 사이를 번갈아 가며 사용할 수 있게 하는 인터리브드 잠재 시각적 추론 프레임워크이다. 이 능력을 훈련하기 위해, 미래 시각적 힌트가 예측에 도움이 되고 잠재 상태를 미래 프레임 임베딩에 정렬하는 예제를 선택하여 Future-L1-50K를 구축한 후, 결과-대조 및 시간적-다양성 보상을 포함한 잠재 인식 강화 학습 목표인 LA-DAPO로 샘플링된 잠재 궤적을 추가로 최적화한다. Future-L1은 두 벤치마크 모두에서 새로운 최첨단 결과를 달성한다: FutureBench에서는 Qwen3-VL-8B를 61.0에서 85.4로 개선하고 이전 최고 모델인 Video-CoE를 10.4포인트 초과하며, TwiFF-Bench에서는 평균 점수를 2.44에서 3.04로 개선한다. 이러한 결과는 미래 지향적 비디오 추론이 모든 추론 단계를 텍스트로 변환하는 것보다 중간 시각적 의미론을 잠재 공간에 보존함으로써 이점을 얻는다는 것을 시사한다.

통합 세계 모델링, 언어 추론 및 행동 합성을 위한 세계-언어-행동 모델
World-Language-Action Model for Unified World Modeling, Language Reasoning, and Action Synthesis

Jun 4

ByYi Yang, Zhihong Liu, Siqi Kou, Yiyang Chen, Yanzhe Hu, Jianbo Zhou, Boyuan Zhao, Zhijie Wei, Xiao Xia, Xueqi Li, Pengfei Liu, Zhijie Deng

우리는 세계-언어-행동(WLA; world-language-action) 모델을 새로운 종류의 구현 기반 모델(embodied foundation model)로 제안한다. WLA는 텍스트 명령, 이미지, 로봇 상태를 입력으로 받아 텍스트 하위 작업, 하위 목표 이미지, 로봇 행동을 공동으로 예측함으로써, 세계-행동 모델(WAM)처럼 광범위한 1인칭 시점 비디오로부터 학습하는 세계 모델링 인터페이스와, 시각-언어-행동(VLA) 모델처럼 복잡한 장기 작업을 해결하는 언어 추론 능력을 결합한다. WLA의 핵심에는 양방향 확산 트랜스포머를 사용하는 WAM과 달리, 의미 수준의 텍스트 의도와 이를 보완하는 세부적인 물리적 역학을 포함하는 다음 상태를 예측하기 위한 자기회귀(AR) 트랜스포머 백본이 자리한다. 물리적 역학은 전용 World Expert에 기반한 세계 모델링 목표로 감독되며, Action Expert의 상태-행동 상관관계 특성화를 용이하게 하는 데 활용된다. WLA는 메타 쿼리(meta-query)를 사용하여 세계 예측이 행동 생성에 암묵적으로 영향을 미치도록 함으로써, 추론 시 전자를 비활성화할 수 있다. 세계 예측은 활성화되어 테스트 시 스케일링을 가능하게 하여 로봇 제어 성능을 향상시킬 수도 있다. 우리의 WLA-0 프로토타입은 2B의 활성 파라미터를 가지며, NVIDIA RTX 5090에서 추론당 40ms를 달성한다. 시뮬레이션 및 실제 환경에서의 평가를 통해 WLA-0이 최첨단 다중 작업 및 장기 작업 학습 능력을 달성함을 입증했다. 예를 들어 RoboTwin2.0 Clean에서 92.94%의 성공률, RMBench에서 56.5%의 성공률을 기록했다. 또한 WLA-0은 행동 주석 없이 교차 구현 로봇 비디오로부터 직접 새로운 작업을 학습할 수 있는 가능성을 보여준다.

장기적 LLM 에이전트를 위한 메타인지 메모리 정책 최적화
Meta-Cognitive Memory Policy Optimization for Long-Horizon LLM Agents

May 28

ByZiyan Liu, Zhezheng Hao, Yeqiu Chen, Hong Wang, Jingren Hou, Ruiyi Ding, Yongkang Yang, Wence Ji, Wei Xia, Feng Liu

메모리 증강 LLM 에이전트는 상호작용 궤적을 재귀적으로 요약하여 간결한 메모리로 압축함으로써 복잡한 장기 지평 작업을 처리한다. 그러나 기존 접근법은 일반적으로 결과 기반 강화학습을 사용하여 이러한 메모리 정책을 훈련시키며, 중간 메모리 품질이 저하되는 지점을 파악하지 못한다. 상호작용이 전개됨에 따라, 모호한 재귀 요약은 점진적으로 작업 관련 정보를 폐기하고 의미적 잡음을 도입한다. 이는 신념 편차를 악화시켜 에이전트의 잠재 작업 상태 추정을 불분명하게 하고, 궁극적으로 장기 추론을 실패로 이끈다. 따라서 우리는 메모리 최적화가 단순히 궤적 수준의 성공뿐만 아니라 중간 요약에 의해 유도된 신념의 명확성에 초점을 맞춰야 한다고 주장한다. 이를 위해, 우리는 현재 메모리가 주어졌을 때 모델이 잠재 작업 상태에 대해 얼마나 불확실한지 탐색하는 자기 지도 프록시인 신념 엔트로피(Belief Entropy)를 도입한다. 이 프록시를 기반으로 메타인지 메모리 정책 최적화(MMPO)를 제안한다. MMPO는 드문 결과 기반 신호에만 의존하는 대신, 높은 인식적 불확실성을 유발하는 요약을 명시적으로 패널티로 부과함으로써 세분화된 메모리 특화 감독을 제공한다. 실험 결과, MMPO는 다양한 장기 지평 작업에서 기존 방법을 일관되게 능가하며, 175만 토큰 컨텍스트로 확장되었을 때에도 97.1%의 성능을 유지한다.

일대다 시간적 정박을 향하여
Towards One-to-Many Temporal Grounding

Jun 4

ByQi Xu, Yue Tan, Shihao Chen, Jiahao Meng, Anna Wang, Shunping Ji, Hao Fei, Jason Li

시간적 정박(Temporal Grounding, TG)은 텍스트 질의에 대응하는 비디오 구간을 찾는 것을 목표로 한다. 기존 연구는 주로 단일 구간 검색에 초점을 맞추었다. 그러나 실제 시나리오에서는 단일 질의에 대해 여러 개의 분리된 구간을 찾아야 하는 경우가 빈번하며, 이를 일대다 시간적 정박(One-to-Many Temporal Grounding, OMTG)이라고 정의한다. 기존 최첨단 MLLM들은 일대일 설정에 최적화되어 있어, 이 맥락에서는 이벤트 개수 인식 부족으로 인해 거의 0에 가까운 점수를 기록하며 어려움을 겪는다. 이러한 격차를 해소하기 위해, 본 연구는 세 가지 주요 기여를 포함한 체계적인 해결책을 제시한다. 첫째, 최초의 포괄적인 OMTG 벤치마크를 구축하고, 평가 지표로 정확도(Count Accuracy, C-Acc)와 효과적 시간적 F1(Effective Temporal F1, EtF1)을 도입한다. 둘째, 정교한 구축 파이프라인을 통해 56,000개의 샘플로 구성된 고품질 OMTG 데이터셋을 구축한다. 셋째, OMTG에 특화된 새로운 시간적 보상 함수와 캡션 보상 함수를 개발한다. 특히 캡션 보상은 밀집 비디오 캡션에 대한 사고 사슬 추론을 활용하여 정책 최적화를 정밀성과 완전성 모두를 향해 명시적으로 유도한다. 광범위한 실험 결과, 본 모델은 OMTG 벤치마크에서 EtF1 43.65%의 새로운 최첨단 성능을 달성하며, Gemini 2.5 Pro 및 Seed-1.8을 각각 15.85% 및 15.61% 능가하는 것으로 나타났다.

MLEvolve: 자체 진화적 프레임워크를 통한 자동 머신러닝 알고리즘 발견
MLEvolve: A Self-Evolving Framework for Automated Machine Learning Algorithm Discovery

Jun 4

ByShangheng Du, Xiangchao Yan, Jinxin Shi, Zongsheng Cao, Shiyang Feng, Zichen Liang, Boyuan Sun, Tianshuo Peng, Yifan Zhou, Xin Li, Jie Zhou, Liang He, Bo Zhang, Lei Bai

대규모 언어 모델(LLM) 에이전트는 지속적인 자기 진화가 핵심 역량이 되는 과학적 발견 및 머신러닝 엔지니어링(MLE)과 같은 장기적 과제에 점점 더 많이 적용되고 있다. 그러나 기존 MLE 에이전트는 분기 간 정보 고립, 메모리 없는 탐색, 계층적 제어 부족 등의 문제를 겪고 있으며, 이는 장기 최적화를 저해한다. 본 논문에서는 엔드투엔드 머신러닝 알고리즘 발견을 위한 LLM 기반 자기 진화형 다중 에이전트 프레임워크인 MLEvolve를 제안한다. MLEvolve는 트리 탐색을 Progressive MCGS로 확장하여 그래프 기반 참조 에지를 통해 분기 간 정보 흐름을 가능하게 하고, 엔트로피에서 착안한 점진적 일정에 따라 탐색을 광범위한 탐험에서 집중적 활용으로 점진적으로 전환한다. 에이전트가 축적된 경험을 바탕으로 진화할 수 있도록, 콜드 스타트 도메인 지식 베이스와 동적 전역 메모리를 결합하여 작업별 경험 검색 및 재사용을 가능하게 하는 회고적 메모리(Retrospective Memory)를 도입한다. 안정적인 장기 반복을 위해 적응형 코딩 모드를 통해 전략적 계획을 코드 생성과 분리한다. MLE-Bench를 통한 평가 결과, MLEvolve는 12시간 예산(표준 실행 시간의 절반) 하에서 평균 메달 비율 및 유효 제출 비율 등 여러 차원에서 최첨단 성능을 달성함을 보인다. 또한 MLEvolve는 수학적 알고리즘 최적화 작업에서 AlphaEvolve를 포함한 특화 알고리즘 발견 방법보다 뛰어난 성능을 보이며 강력한 교차 도메인 일반화 능력을 입증한다. 코드는 https://github.com/InternScience/MLEvolve에서 확인할 수 있다.

AdaCodec: 비디오 MLLM을 위한 예측 시각 코드
AdaCodec: A Predictive Visual Code for Video MLLMs

Jun 1

ByHaowen Hou, Zhen Huang, Zheming Liang, Qingyi Si, Chenglin Li, Shuai Dong, Kele Shao, Ruilin Li, Dianyi Wang, Nan Duan, Jiaqi Wang

비디오는 시간적으로 중복성을 지닌다. 인접한 프레임은 일반적으로 대부분의 객체, 배경 및 레이아웃을 공유한다. 그러나 기존의 비디오 다중모달 거대 언어 모델(video MLLM)은 보통 각 샘플링된 프레임을 독립적인 RGB 이미지로 인코딩하여, 이전 프레임에 이미 존재하는 내용을 시각 토큰이 반복하게 만든다. 이는 보다 직접적인 비디오 인터페이스의 필요성을 시사한다. 즉, 이전 맥락에서 장면을 잘 예측할 수 없는 경우에만 전체 참조 프레임을 전송하고, 그 외에는 프레임 간 변화에 대한 간결한 설명을 전송하는 방식이다. 이러한 인터페이스를 예측 시각 코드(predictive visual code)라고 부르며, 이를 비디오 MLLM을 위한 AdaCodec으로 구현한다. AdaCodec은 조건부 예측 비용이 높은 경우에만 참조 프레임에 전체 시각 토큰을 할당하고, 그렇지 않은 경우에는 움직임 및 예측 잔차를 포함한 프레임 간 변화를 간결한 P-토큰(P-tokens)으로 인코딩한다. 총 11개 벤치마크에 걸쳐, AdaCodec은 일치된 시각 토큰 예산 하에서 Qwen3-VL-8B의 프레임별 RGB 기준선을 능가한다. 예산이 1/7에 불과한 경우에도, 32k 토큰을 사용하는 AdaCodec은 모든 장기 비디오 벤치마크에서 224k 기준선을 능가한다. 또한 5개의 일반 비디오 벤치마크에서는 평균 점수를 향상시키는 동시에 첫 토큰 생성 시간을 9.26초에서 1.62초로 크게 단축한다.

SePO: 시스템 프롬프트 최적화를 위한 자기 진화 프롬프트 에이전트
SePO: Self-Evolving Prompt Agent for System Prompt Optimization

Jun 3

ByWangcheng Tao, Han Wu, Weng-Fai Wong

시스템 프롬프트 최적화는 기반 모델을 수정하지 않고도 에이전트의 행동을 개선하며, 사람이 읽을 수 있고 모델에 구애받지 않는 명령어를 생성한다. 기존 방법은 작업 에이전트의 시스템 프롬프트를 개선하는 프롬프트 에이전트를 구축하지만, 프롬프트 에이전트 자체의 시스템 프롬프트는 수작업으로 설계되어 고정된 상태로 남겨둔다. 우리는 자기진화 프롬프트 최적화(SePO)를 제안하며, 이는 프롬프트 에이전트 자체의 시스템 프롬프트를 작업 에이전트의 시스템 프롬프트와 함께 최적화 대상으로 취급한다. SePO는 자기참조적 설계를 채택한다. 단일 프롬프트 에이전트가 작업 에이전트의 시스템 프롬프트와 자신의 시스템 프롬프트를 모두 개선하며, 이는 개방형 진화 탐색을 통해 수행되며, 후보 프롬프트의 아카이브를 발판으로 유지한다. 학습은 두 단계로 진행된다: 사전 학습에서는 다중 작업 풀에서 프롬프트 에이전트를 진화시키고, 이후 미세 조정에서 이를 대상 작업에 적용한다. 수학(AIME'25), 추상적 추론(ARC-AGI-1), 대학원 수준 과학(GPQA), 코드 생성(MBPP), 논리 퍼즐(스도쿠)을 포함한 다섯 가지 벤치마크에서 SePO는 Manual-CoT, TextGrad, MetaSPO를 일관되게 능가하며, Manual-CoT 대비 평균 정확도를 4.49포인트 향상시킨다. 사전 학습에서 얻은 프롬프트 최적화 능력은 작업별 프롬프트를 암기하는 대신 사전 학습 혼합 범위를 넘어서는 작업에도 일반화된다.

공간 지능형 다중 모달 대규모 언어 모델을 위한 비디오 기반 기하학적 표현 학습
Learning Geometric Representations from Videos for Spatial Intelligent Multimodal Large Language Models

Jun 4

ByHaibo Wang, Lifu Huang

다중 모달 대규모 언어 모델(MLLM)은 2차원 의미 이해에 뛰어나지만 본질적인 3차원 인식이 부족하여 비디오 프레임 간 기하학적 및 공간적 일관성을 유지하지 못하는 표현을 초래한다. 대규모 3차원 데이터의 부족을 고려하여, 우리는 순수 2차원 비디오 시퀀스를 사용하여 기하학적 표현을 학습하는 새로운 프레임워크인 GeoVR을 제시한다. 이 접근법은 MLLM 내 의미 잠재 공간을 효과적으로 재구성하여 공간 지능을 활성화한다. GeoVR은 피상적인 특징 혼합을 사용하는 대신, 사전 훈련된 3차원 기초 모델로부터 기하학 지식을 증류함으로써 MLLM의 내부 표현을 재구성한다. 이는 네 가지 상호 보완적 기하학적 목표에 의해 구동되는 다중 목표 학습 전략을 통해 달성된다: (1) 다양한 시점 역학을 내장하기 위한 프레임 간 카메라 자세 추정, (2) 물리적 거리를 고정하기 위한 밀집 깊이 맵 회귀, (3) 실제 세계 보정을 위한 미터법 스케일 인자 예측, (4) 중간 특징 공간을 정렬하기 위한 다중 스케일 3차원 특징 증류. 이러한 명시적 물리적 및 기하학적 제약의 안내를 받아 모델의 내부 표현은 자연스럽게 강력한 3차원 인식을 발달시킨다. 공간 추론 벤치마크에 대한 광범위한 실험을 통해 GeoVR이 최첨단 성능을 달성하여 기초 모델에 공간 지능을 부여하는 새로운 패러다임을 확립함을 보여준다.

진정한 다국어 ASR을 향하여: 코드 스위칭 ASR을 미경험 언어 쌍으로 일반화하기
Towards Truly Multilingual ASR: Generalizing Code-Switching ASR to Unseen Language Pairs

Jun 4

ByGio Paik, Hyunseo Shin, Soungmin Lee

자동 음성 인식(ASR)은 인간-AI 상호작용의 핵심 기술이 되었다. 그러나 코드 스위칭 ASR(CS-ASR)은 다양한 언어 쌍에 걸친 다국어 CS 음성 자원의 심각한 부족으로 인해 여전히 특히 어려운 과제로 남아 있다. 기존 접근법은 주로 합성 CS 음성 생성 또는 제한된 이중 언어 데이터셋에 대한 쌍별 미세 조정을 통해 CS-ASR 성능을 개선한다. 그럼에도 불구하고 이러한 접근법은 본질적인 확장성 한계에 직면한다. CS 지원은 지원 언어 수에 따라 조합적으로 증가하는 언어 쌍에 대해 개별적으로 개발되어야 하기 때문이다. 본 연구에서는 제한된 수의 관찰된 언어 쌍에서 학습된 CS 능력이 모델 병합 및 도메인 일반화 방법을 통해 관찰되지 않은 언어 쌍으로 일반화될 수 있는지 조사한다. 실험 결과, 병합된 이중 언어 CS-ASR 모델은 관찰되지 않은 언어 쌍에 대해 어느 정도 일반화되지만, 이는 언어 쌍 간 이중 언어 CS 능력의 전이가 제한적임을 시사한다.

AffordanceVLA: 어포던스 인지 이해를 통해 행동 생성을 가능하게 하는 비전-언어-행동 모델
AffordanceVLA: A Vision-Language-Action Model Empowering Action Generation through Affordance-Aware Understanding

Jun 4

ByQize Yu, Jiadi You, Yuran Wang, Jiaqi Liang, Bowen Ping, Yang Tian, Yue Chen, Minghong Cai, Zeying Gong, Ruihai Wu, Yinchuan Li, Junwei Liang, Yingcong Chen

비전-언어-행동(VLA) 모델은 사전 훈련된 비전-언어 모델(VLM)의 풍부한 세계 지식을 활용하여 명령 기반 로봇 조작을 가능하게 한다. 그러나 VLM의 의미 공간과 구현된 제어 정책 간의 구조적 불일치는 종종 정밀한 지각-행동 매핑 학습을 저해한다. 이러한 문제를 해결하기 위해, 본 논문에서는 구조화된 어포던스 예측을 과제 지향적 중간 표현으로 도입하여 보다 정밀하고 강건한 지각-행동 매핑을 구축하는 통합 프레임워크인 AffordanceVLA를 제안한다. 구체적으로, 세 가지 상호 보완적 구성 요소를 통해 조작 사전 지식을 점진적으로 모델링한다: 1) 시각적 잠재 예측을 통한 객체 중심 정합(Which2Act)으로 방해 요소 억제, 2) 어포던스 맵 추정을 통한 2차원 상호작용 위치 파악(Where2Act), 3) 조작 정책을 안내하는 3차원 기하 추론(How2Act). 이러한 어포던스 단서는 공간적으로 기반을 두고 의미적으로 조건화되며 행동과 결합된 중간 표현을 제공함으로써 비전, 언어, 행동을 자연스럽게 연결한다. 본 연구는 이러한 모듈들을 전문가가 특화된 트랜스포머 혼합(MoT) 아키텍처에 통합하고, 점진적 데이터 커리큘럼을 포함한 3단계 훈련 전략을 사용하여 모델을 학습시킨다. 또한 로봇 데이터셋에서 조밀한 어포던스 레이블의 부족 문제를 극복하기 위해 강건한 자동 데이터 증강 파이프라인을 개발한다. 시뮬레이션 및 실제 환경에서의 광범위한 실험을 통해 AffordanceVLA가 다양한 조작 시나리오에서 강력한 성능을 달성함을 입증한다.

Flash-WAM: 세계 행동 모델을 위한 모달리티 인식 증류
Flash-WAM: Modality-Aware Distillation for World Action Models

Jun 3

ByArman Akbari, Ci Zhang, Arash Akbari, Lin Zhao, Yixiao Chen, Weiwei Chen, Xuan Zhang, Geng Yuan, Yanzhi Wang

세계-행동 모델(WAM)은 반복적 확산을 통해 미래 비디오와 로봇 행동을 공동으로 생성하여 조작 벤치마크에서 강력한 성능을 달성하지만, 수십 번의 잡음 제거 단계를 필요로 하여 실시간 제어를 불가능하게 하는 비용을 초래한다. 단계 증류가 자연스러운 해결책으로 부상했지만, 기성 방법들은 비디오와 행동 스트림이 서로 다른 SNR 이동 잡음 스케줄을 사용하고 훈련 시 현저히 다른 주변 잡음 분포에 도달하기 때문에, 단일 양식 증류 방법이 이러한 비대칭성을 수용할 수 없는 공동 비디오-행동 설정에서 작동하지 않는다. 우리는 Flash-WAM을 제안한다. 이는 일관성 증류에서 영감을 받은 양식 인식 단계 증류 프레임워크로, 각 양식에 대해 일관성 함수를 선택하여 해당 잡음 체계에 맞춘다: 행동 스트림의 저잡음 체계에는 선형 기울기 스케일링 매개변수화를, 비디오 스트림의 고잡음 체계에는 분산 보존 매개변수화를 짝지으며, 이는 일관성 경계 조건 하에서 달성 가능한 기울기 스케일링을 특성화하는 일관성 함수군의 구조적 분석에 기반한다. LingBot-VA에 적용된 Flash-WAM은 각 양식에서 추론을 단일 단계로 압축한다. RoboTwin 2.0에서 이는 NVIDIA L40S에서 청크당 지연 시간을 8.1초에서 348ms로 줄여 23배의 속도 향상을 이루며 실시간 추론을 가능하게 한다. Flash-WAM은 시뮬레이션 벤치마크에서 작업 성공률을 유지하고(RoboTwin 2.0 85.5%, LIBERO 95.7%), 실제 세계 성능을 상당 부분 회복하며(Unitree G1 휴머노이드 로봇 평균 60%), 동일한 단계 예산에서 순진한 일관성 증류는 24%로 하락한다.

SEAOTTER: 효율적 재구성을 위한 일회성 트랜스코딩 기반 센서 임베디드 오토인코딩
SEAOTTER: Sensor Embedded Autoencoding with One-Time Transcode for Efficient Reconstruction

Jun 2

ByDan Jacobellis, Neeraja J. Yadwadkar

로봇 시스템에서는 저렴하고 저전력 하드웨어를 사용하여 고해상도의 방대한 시각 데이터를 손쉽게 수집할 수 있다. 그러나 제한된 대역폭과 온디바이스 컴퓨팅 자원으로 인해 JPEG/MPEG과 같은 기존 코덱을 통해 전송할 경우 완전한 활용이 어렵다. AV1/AVIF와 같은 최신 코덱은 율-왜곡 트레이드오프를 개선하지만, 인코딩에 훨씬 더 많은 자원을 요구하여 맞춤형 ASIC 없이는 실용적이지 않다. 최근의 비대칭 오토인코더는 극도의 전력 및 대역폭 제약 하에서 높은 품질을 제공하지만, 복호화 비용이 과도하게 증가하고 JPEG과 같은 표준을 기반으로 구축된 수십 년간의 인프라를 무시하는 독자적인 형식을 사용한다. 이러한 한계를 극복하기 위해, 본 연구에서는 센서 내장 오토인코더와 일회성 변환을 통한 효율적 복원(Sensor Embedded Autoencoder paired with a One-Time Transcode for Efficient Reconstruction, SEAOTTER)에 기반한 클라우드 로봇용 압축 프레임워크를 소개한다. 센서, 클라우드, 소비자 단계가 매우 다른 전력 및 대역폭 예산에 직면하기 때문에, SEAOTTER는 학습된 잠재 표현의 간결성과 표준 JPEG 파일의 광범위한 사용성을 결합한다. 단순한 트랜스코딩은 성능을 저하시키므로, 본 연구에서는 학습 가능한 JPEG 색상 및 양자화 변환을 제안하여 전역적, 밀집적, 시각-언어 기반 인식에 대한 정확도를 향상시킨다. SEAOTTER를 사용하여 사전 학습되고 고정된 인코더에 대해 범용 및 작업 인식 트랜스코딩 파이프라인을 모두 학습시킨다. 200:1의 압축 비율에서 AVIF와 비교하여 인코딩 속도 7배, 디코딩 속도 3.5배 향상, ImageNet Top-1 정확도 +8%를 달성하면서도 JPEG 인프라와의 호환성을 유지한다. 코드는 https://github.com/UT-SysML/seaotter 에서 확인할 수 있다.

MechVQA: 포괄적 기계 도면 이해를 위한 멀티모달 LLM의 벤치마킹 및 성능 향상
MechVQA: Benchmarking and Enhancing Multimodal LLMs on Comprehensive Mechanical Drawing Understanding

May 29

ByQian Kou, Xiaofeng Shi, Yulin Li, Xiaosong Qiu, Xinyang Wang, Hua Zhou, Cao Dongxing

다중모드 대규모 언어 모델(MLLM)은 일반 시각 질의응답(VQA) 작업에서 상당한 성과를 보여주었다. 그러나 기계 공학 도면에서는 여전히 취약한데, 이는 높은 주석 밀도와 약한 도메인 지식, 그리고 엄격한 투영 규칙과 기하학적 제약 하에서의 신뢰할 수 없는 공간 관계 추론이 결합되어 결정적 단서를 놓치기 쉽고, 이로 인해 빈번히 오답을 초래하기 때문이다. 이러한 격차를 해소하기 위해, 우리는 반자동 구축 및 품질 관리 파이프라인을 통해 생성된 최초의 포괄적인 기계 도면 이해 데이터셋인 MechVQA를 소개한다. MechVQA는 3.3k개의 고밀도 그림과 21K개의 질문-답변 쌍을 포함하며, 인식, 추론, 판단의 세 가지 능력 수준에 걸쳐 10가지 세분화된 작업을 포괄한다. 이는 실제 기계 도면에 대한 MLLM의 이해도를 평가하고 개선하기 위한 테스트베드를 제공한다. MechVQA를 기반으로, 우리는 다단계 학습 패러다임을 통해 MechVL 모델을 개발하여 강력한 도메인 특화 기준선을 구축한다. 광범위한 실험 결과는 MechVL이 MechVQA 총점에서 가장 강력한 폐쇄형 소스 기준선보다 7.57퍼센트 포인트 높은 성능을 보여, 기계 도면 이해 능력을 크게 향상시키고 기계 설계 및 검사 시나리오에서 MLLM을 배포하기 위한 재사용 가능한 기반을 제공한다는 것을 입증한다.

맥락 수정, 모의 입장 전환: 온라인 토론에서 LLM 기반 입장 시뮬레이션 감사
Revising Context, Shifting Simulated Stance: Auditing LLM-Based Stance Simulation in Online Discussions

Jun 4

ByXinnong Zhang, Wanting Shan, Hanjia Lyu, Zhongyu Wei, Jiebo Luo

대규모 언어 모델은 소셜 미디어 사용자를 시뮬레이션하고 개인이 온라인 토론에 어떻게 반응할지 추론하는 데 점점 더 많이 사용되고 있다. 그러나 이러한 시뮬레이션이 사용자별 정확한 신념을 반영하는지, 아니면 대화 맥락의 의미적으로 독립적인 변화에 매우 민감한지는 여전히 불분명하다. 본 연구에서는 반사실적 맥락 수정을 LLM 기반 입장 시뮬레이션 감사 프레임워크로 연구한다. 원본 온라인 대화가 주어지면, 먼저 특정 주제에 대한 대상 사용자의 입장을 추론한다. 그런 다음 대화 맥락에 통제된 수정 전략을 적용하고, 수정된 맥락에서 사용자의 입장을 다시 시뮬레이션한다. 텍스트 전용 수정 전략과 밈 기반 맥락을 포함하는 다중 모달 전략을 비교하고, 두 가지 주요 효과성 지표, 즉 평균 방향성 입장 변화와 입장 전환율을 평가한다. 결과는 다양한 양극화 선호 메커니즘에서 텍스트 전용 및 다중 모달 전략 모두에서 효과적이고 강건한 입장 전환을 보여준다. 본 연구는 LLM 기반 입장 시뮬레이션의 맥락 민감성을 이해하기 위한 평가 프레임워크를 제공한다. 더 넓게는, 온라인 의견 역학을 시뮬레이션하기 위해 LLM을 사용하는 것의 가능성과 위험을 모두 조명한다.

정규화 흐름을 활용한 잠재 추론
Latent Reasoning with Normalizing Flows

Jun 4

ByGuancheng Tu, Xiangjun Fu, Suhao Yu, Yao Tang, Haoqiang Kang, Lianhui Qin, Yizhe Zhang, Jiatao Gu

대규모 언어 모델은 명시적인 연쇄 사고(CoT)를 생성함으로써 추론 능력을 향상시키는 경우가 많으며, 이는 중간 계산의 중요성을 보여준다. 그러나 텍스트 기반 CoT는 이러한 계산을 이산적이고 직렬적이며 통신 지향적인 토큰 스트림에 강제한다: 각 추론 단계는 모델이 진행하기 전에 반드시 언어화되어야 하며, 이는 기본 업데이트가 의미적이거나 불확실하거나 부분적으로만 형성된 경우에도 마찬가지이다. 잠재 추론은 압축된 연속 상태에서 중간 계산을 수행한 후 텍스트로 전환함으로써 더 높은 대역폭의 대안을 제공한다. 그러나 기존의 잠재 추론 방법은 자기회귀 언어 모델에서 CoT를 효과적으로 만드는 핵심 장점들, 즉 본래의 왼쪽에서 오른쪽 생성, 확률적 샘플링, KV-캐시 디코딩과의 호환성, 그리고 다루기 쉬운 가능도 추정을 종종 희생한다. 우리는 정규화 흐름(normalizing flows)으로 연속적인 사고를 모델링하여 이러한 장점들을 유지하는 잠재 추론 프레임워크인 NF-CoT를 제안한다. NF-CoT는 LLM 백본 내부에 TARFlow 스타일의 정규화 흐름을 구현하며, 명시적 CoT로부터 추출된 압축된 연속 사고에 대해 다루기 쉬운 확률 모델을 정의한다. 연속 사고 위치는 NF 헤드에 의해 생성되고, 텍스트 위치는 동일한 인과적 스트림 내에서 표준 LM 헤드에 의해 생성된다. 이 설계는 잠재 사고에 대한 정확한 가능도를 제공하고, 원래 KV 캐시를 사용한 확률적 왼쪽에서 오른쪽 디코딩을 가능하게 하며, 잠재 추론 공간에서 직접 정책 경사 최적화를 지원한다. 코드 생성 벤치마크에서 NF-CoT는 명시적 CoT 및 기존 잠재 추론 기준선보다 통과율을 향상시키면서 중간 추론 비용을 크게 줄인다.

EvoDS: 기술 학습 및 맥락 관리를 갖춘 자체 진화형 자율 데이터 과학 에이전트
EvoDS: Self-Evolving Autonomous Data Science Agent with Skill Learning and Context Management

Jun 2

ByZherui Yang, Fan Liu, Yansong Ning, Hao Liu

대규모 언어 모델(LLM) 에이전트의 최근 발전은 자동화된 데이터 과학 분야에서 유망한 진전을 가능하게 했다. 그러나 기존 접근 방식은 정적인 행동 집합과 원칙적인 장기 컨텍스트 관리의 부재로 인해 근본적으로 제한되어 있으며, 이는 작업 간 재사용 가능한 경험을 축적하고 다단계 반복적 데이터 과학 파이프라인에서 안정적으로 작동하는 능력을 저해한다. 이러한 문제를 해결하기 위해, 우리는 에이전틱 강화 학습을 통해 기술을 확장하고 장기 컨텍스트를 적응적으로 관리하는 방법을 학습하는 자체 진화형 자율 데이터 과학 에이전트인 EvoDS를 소개한다. 구체적으로, EvoDS는 두 가지 핵심 전략을 도입한다: (1) 에이전트가 실행 가능한 기술을 합성, 검증 및 재사용할 수 있게 하는 자율 기술 습득(ASA) 메커니즘, (2) 컨텍스트 관리를 수동적 잘라내기가 아닌 학습된 제어 문제로 다루는 적응형 컨텍스트 압축(ACC) 전략. 이러한 전략들은 2단계 다중 에이전트 훈련 방식 내에서 조정되며, 이를 통해 EvoDS는 시간이 지남에 따라 자율적으로 개선될 수 있다. 이론적으로, 우리는 EvoDS의 계층적 설계가 도구 선택 오류를 줄이고, 최적화 목표가 정보 병목 원리와 일치하여 효율적인 컨텍스트 사용을 보장함을 증명한다. 실증적으로, EvoDS는 네 가지 다양한 벤치마크에서 최첨단 오픈 소스 데이터 과학 에이전트보다 평균 28.9% 더 뛰어난 성능을 보이며, 토큰 초과 실패를 제거한다. 우리의 코드와 데이터는 https://github.com/usail-hkust/EvoDS에서 확인할 수 있다.

AURA: 상황 기반 LLM 에이전트에서 암묵적 필요를 표면화하기 위한 의도 지향적 프로빙
AURA: Intent-Directed Probing for Implicit-Need Surfacing in Situated LLM Agents

Jun 4

ByYang Li, Jiaxiang Liu, Jiang Cai, Mingkun Xu

위치 기반 질의(예: "Lin Wei 어디 있어?")는 종종 문자 그대로의 내용 이상을 함축한다. 사용자는 Lin Wei가 한가한지, 기분이 좋은지, 또는 지금 방해해도 될 만한지도 알고 싶어할 수 있다. 표준 도구 사용 에이전트는 문자 그대로의 질문에 답하고 멈춘다. AURA는 장면 인식(scene perception)과 도구 사용 사이에 추론 단계를 삽입하여 IntentFrame을 생성한다. IntentFrame은 암묵적 요구에 대한 구조화된 추정치로, 스칼라 갭 점수(scalar gap score)가 포함되어 있어 질의별 탐색 예산과 도구 선택을 제어한다. 100개 질의, 4개 장면으로 구성된 암묵적 의도 벤치마크에서 AURA는 ReAct 스타일 탐색 대비 암묵적 요구 커버리지를 개선했다(Delta = +0.07, p < 10^-6). 4개 장면 중 3개는 개별적으로 유의미했으며, 이 개선 효과는 두 번째 백본(backbone)에서도 재현되었다. 프롬프트 절제 실험(prompt ablation)을 통해 이러한 향상이 답변 암기가 아닌 갭 보정(gap calibration)에 기인함을 확인했다. 사실 조회 과제에서는 제어기가 원시 정확도를 일부 희생하는 대신 탐색 횟수를 82% 줄였으며, 개인정보 보호에 민감한 슬라이스에서 금지된 도구 위반이 전혀 발생하지 않았다. 적용 범위 조건은 한계점(Limitations)에서 자세히 설명한다. 코드, 시뮬레이터, 벤치마크는 https://github.com/innovation64/AURA에서 공개된다.

Discrete-WAM: 통합 이산 시각-행동 토큰 편집을 통한 세계-정책 학습
Discrete-WAM: Unified Discrete Vision-Action Token Editing for World-Policy Learning

Jun 4

ByZiyang Yao, Haochen Liu, Yuncheng Jiang, Zeyu Zhu, Zibin Guo, Jingru Wang, Tianle Liu, Jianwei Cui, Kuiyuan Yang, Hongwei Xie, Jingwei Zhao, Guang Chen, Hangjun Ye

자율주행은 자아 행동이 주변 세계의 진화를 어떻게 형성하는지에 대한 추론을 필요로 한다. 그러나 대부분의 엔드투엔드 방법은 직접적인 상태-행동 매핑에 의존하여, 행동 조건 역학을 명시적으로 모델링하지 않고 상관관계만 포착한다. 반면, 연속 잠재 세계 모델은 반사실적 미래에 걸친 인과 추론을 위한 구성적 구조가 부족한 경우가 많다. 우리는 미래의 시각적 상태와 자아 행동을 정렬된 이산 토큰으로 표현하여, 대안적 미래에 걸친 구성적 인과 추론을 가능하게 하는 통합 잠재 시각-행동 세계 정책인 Discrete-WAM을 소개한다. 이 통합된 이산 정렬을 기반으로, Discrete-WAM은 통합 생성 작업을 갖춘 공유 이산 확산 프레임워크를 구축하여 세계 모델링, 세계-행동 정책 및 계층적 결정 가능 정책을 공동으로 정식화하며, 다양한 주행 시나리오에 걸친 구성적 일반화를 지원한다. 대규모 자율주행 벤치마크에 대한 실험 결과, Discrete-WAM이 제어 가능한 생성 및 반사실적 추론을 지원하면서 경쟁력 있는 성능을 달성하며, 보다 신뢰할 수 있는 의사 결정을 위한 원칙적인 경로를 제공함을 보여준다.

이 편집이 올바른가? 추론 인식 이미지 편집을 위한 다차원 벤치마크
Is This Edit Correct? A Multi-Dimensional Benchmark for Reasoning-Aware Image Editing

Apr 16

ByYixuan Ding, Wei Huang, Ruijie Quan, Xiaojuan Qi, Yi Yang

확산 기반 이미지 편집 기술은 자연어 명령어 하에서 높은 시각적 충실도를 달성했지만, 대부분의 기존 시스템은 표면적 명령 수행 수준에 머물러 실제 사용자 요청에 내재된 암묵적 맥락 제약 조건에 대한 추론을 수행하지 못한다. 이는 시각적으로는 그럴듯하지만 논리적으로는 일관성이 부족한 편집 결과를 초래한다. 본 연구에서는 이미지 편집 시스템을 물리적, 환경적, 문화적, 인과적, 참조적 추론의 다섯 가지 상호 보완적 차원에서 평가하는 추론 인식 이미지 편집 벤치마크인 RE-Edit을 제안한다. RE-Edit은 1,000개의 정교하게 선별된 샘플로 구성되며, 각 샘플은 시각적 그럴듯함만으로는 부족하고 올바른 편집을 위해 암묵적 논리 제약을 충족해야 하도록 설계되었다. 세부 분석을 지원하기 위해 차원별 평가 기준을 수립하고, 10개의 오픈소스 모델과 2개의 상용 이미지 편집 모델에 대한 종합적 연구를 수행했다. 실험 결과, 고급 시스템조차 고품질 시각 결과물을 생성하면서도 암묵적 다차원 추론에 자주 어려움을 겪는 것으로 나타났다. 또한, 모델에 구애받지 않는 방식으로 명시적 추론을 삽입함으로써 이러한 오류를 완화할 수 있는 방법을 보여주는 경량 추론 유도 사후 편집 기준선을 첫 탐색으로 제시한다.

신뢰 영역 Q 수반 매칭
Trust Region Q Adjoint Matching

May 26

ByYonghoon Dong, Kyungmin Lee, Changyeon Kim, Jaehyuk Kim, Jinwoo Shin

사전 학습된 플로우 정책의 오프-폴리시 강화 학습은 다단계 샘플링 과정에서 발생하는 최적화의 불안정성으로 인해 여전히 어려운 과제로 남아 있다. 최근, Q-러닝과 어조인트 매칭(QAM)은 학습된 크리틱을 사용하여 이를 무기억 확률적 최적 제어(SOC) 문제로 재구성함으로써 이 문제를 해결하였다. 그러나 QAM은 크리틱 기반 개선의 근본적인 취약성을 계승하는데, 크리틱이 조건이 나쁠 경우 작은 크리틱 오차가 증폭되어 종종 모델 붕괴로 이어진다. 본 논문은 투영 쌍대 하강법을 통해 사전 학습된 플로우 정책과의 경로 공간 KL을 적응적으로 제어하는 안정적인 오프-폴리시 미세 조정 알고리즘인 신뢰 영역 Q-어조인트 매칭(TRQAM)을 소개한다. 구체적으로, 우리는 SOC 동역학에서 신뢰 영역 매개변수 λ를 최적화하고, 경로 공간 KL이 λ의 폐쇄형 함수로 표현될 수 있음을 이론적으로 보인다. 결과적으로, 우리의 방법은 사전 학습된 플로우 정책으로부터의 정확한 편차를 정밀하게 제어할 수 있어 안정적인 오프-폴리시 RL을 달성한다. 50개의 OGBench 작업에 대한 실험을 통해, TRQAM은 오프라인 RL과 오프라인-투-온라인 RL 모두에서 기존 방법들을 일관되게 능가한다. 특히, TRQAM은 오프라인 RL에서 전체 성공률 68%를 달성하여, 가장 강력한 기준선인 46%를 크게 개선한다.

반복 게임에서 적응형 상대와의 후회 최소화
Regret Minimization with Adaptive Opponents in Repeated Games

Jun 4

ByMingyang Liu, Asuman Ozdaglar, Tiancheng Yu, Kaiqing Zhang

본 논문에서는 과거 플레이 이력을 기반으로 반응할 수 있는 적응적 상대방과의 반복 게임에서 후회 최소화를 연구한다. 온라인 학습의 표준적 외부 후회 지표는 이러한 적응성을 포착하지 못하는 것으로 알려져 있다. 플레이어들의 반사실적 추론을 설명하기 위해, 우리는 {\tt 반복 정책 후회(RP-Regret)}를 도입한다. 이는 게임 이론적 지표로, 모든 플레이어가 플레이 이력에 반응할 수 있을 때 실현된 누적 효용과 사후 최적의 누적 효용 간의 차이를 측정한다. 기존 설정의 후회 개념과 비교하여, 우리의 지표는 반복 게임 플레이에 고유하게 적용되므로, 더 강력한 비교기와 더 적은 제약을 가진 상대방을 허용하면서도 모든 플레이어가 이를 최소화할 때 더 나은 균형을 찾을 가능성을 유지한다. 먼저 시간에 대해 서브리니어(sublinear)한 {\tt RP-Regret}을 얻기 위한 필요 조건을 식별하는데, 이는 후회 정의에서 플레이어의 비교기 전략의 변화량, 그리고 비교기와 상대방 전략의 기억에 관한 조건이다. 그런 다음, {\tt RP-Regret}을 최소화하기 위한 추가 조건과 증명 가능한 알고리즘을 연구한다. {\tt RP-Regret}은 정의상 전략 공간에서 비볼록(non-convex)하다. 이 문제를 해결하기 위해 세 가지 알고리즘을 제안한다: (i) 일부 이전 온라인 비볼록 학습 연구에서 가정된 최적화 오라클에 기반한 알고리즘; (ii) 각 반복에서 {\tt RP-Regret}의 볼록하고 선형화된 대리 함수를 최소화하는 알고리즘; (iii) 상대방이 느리게 전략을 변경할 때 {\tt RP-Regret}을 직접 최소화하는 알고리즘. 또한, 모든 플레이어가 {\tt RP-Regret}(또는 그 선형화된 변형)을 최소화하는 알고리즘을 실행할 수 있을 때, 반복 게임의 특정 부분게임 완전 균형을 학습할 수 있다. 또한, 우리의 후회 개념을 최소화하는 것이 사냥 게임(Stag-Hunt)과 같은 게임에서 더 높은 효용을 가진 협력적 해결책으로 이어질 수 있음을 보여주는 실험을 제공한다.

모든 것을 모든 곳에서 한 번에 벤치마킹하라
Benchmark Everything Everywhere All at Once

Jun 4

ByShiyun Xiong, Dongming Wu, Peiwen Sun, Yuang Ai, Bokang Yang, Wencheng Han, Xiao-Hui Li, Xiangyu Yue

벤치마크는 표준화되고 명확한 성능 측정 기준을 제공함으로써 LLM(거대 언어 모델)과 MLLM(멀티모달 거대 언어 모델)을 평가하고 발전시키는 데 핵심적인 역할을 한다. 그러나 벤치마크 구축은 많은 노동력을 필요로 하며 재사용이 어려워 지속 가능성과 확장성에 대한 우려를 낳는다. 또한 기존 벤치마크는 출시 이후 빠르게 성능 포화 상태에 도달하는 경우가 많아, 최첨단 모델 간의 변별력이 부족해진다. 이러한 문제를 해결하기 위해 본 연구에서는 벤치마크 구축을 완전히 자동화한 에이전트 시스템인 Benchmark Agent를 소개한다. 이 프레임워크는 사용자 질의 분석, 하위 과제 설계, 데이터 주석 및 품질 관리에 이르기까지 벤치마크 구축 전 과정을 조율한다. Benchmark Agent를 평가하기 위해, 텍스트 이해, 멀티모달 이해, 도메인 특화 추론 등 다양한 평가 시나리오를 아우르는 15개의 대표적인 벤치마크를 생성하였다. 인간 평가, LLM-as-a-judge 평가, 일관성 검증을 포함한 광범위한 실험 결과, Benchmark Agent가 최소한의 인간 개입으로 고품질의 벤치마크 샘플을 생성할 수 있음을 입증하였다. 더욱 중요한 점은 지속적인 평가를 통해 현재 모델이 특정 도메인 특화 추론 과제에서 어려움을 겪는다는 통찰을 얻었다는 것이다. 빠르게 진화하는 벤치마크는 연구 커뮤니티에 크게 기여할 수 있을 것으로 기대한다. 미리보기와 코드는 데모 페이지 및 코드 저장소에서 공개될 예정이다.

덧셈의 형태: 대규모 언어 모델에서 산술의 기하학적 구조
The Shape of Addition: Geometric Structures of Arithmetic in Large Language Models

May 29

ByLiuyuan Wen, Xun Zhu, Lihao Huang, Wenbin Li, Yang Gao

대규모 언어 모델은 기본 산술에서 역설적인 취약성을 보이며, 이는 내부 계산과 이산 출력 사이의 단절을 암시한다. 다중 피연산자 덧셈 동안의 잔차 흐름 기하 구조를 분석함으로써, 우리는 등가 원시 합 궤적(IRST)을 식별한다. 이는 표현이 의미적 숫자에 의해 고정되고 연속 올림 섬유에 의해 조절되는 기하학적 구조이다. 우리는 이 기하 구조를 설명하기 위해 잡음 양자화 모델을 제안하며, 산술 오류를 내부 신경 잡음이 연속적이고 잠재적인 올림 가능성을 양자화 임계값을 넘어 밀어붙임으로써 발생하는 기하학적 미끄러짐으로 규정한다. 이 기하학적 프레임워크는 또한 프로브 다용성을 설명하며, 경량 프로브가 단일 활성화 벡터에서 공존하는 잠재 신호(예: 실제값 대 환영)를 어떻게 분리할 수 있는지 설명한다. 마지막으로, 우리는 추론 중에 이러한 양자화 실패를 효과적으로 탐지하고 수정하는 기하학적 일관성 검증 방법을 통해 이러한 통찰을 검증한다. 우리의 코드는 https://github.com/RL-MIND/Shape-of-Addition에서 확인할 수 있다.

에이전트 재식별에 대한 LLM 익명화
LLM Anonymization Against Agentic Re-Identification

Jun 1

ByZiwen Li, Jianing Wen, Tianshi Li

웹 검색이 가능한 에이전트형 LLM은 텍스트 익명화의 위협 모델을 변화시킨다. 약한 맥락적 단서가 재식별을 위한 상호 참조 가능한 증거가 될 수 있는 반면, 동일한 세부 사항은 텍스트의 후속 분석 가치도 지닌다. 기존 방어 기법은 명시적 식별자를 제거하거나, 공식적 프라이버시를 위해 텍스트를 교란하거나, 재작성된 텍스트를 비웹 추론 모델에 대해 테스트하는 방식으로, 에이전트형 웹 검색 재식별에 대한 저항력과 유용성 유지 사이의 작동 영역을 충분히 탐구하지 못하고 있다. 우리는 AURA(유용성 유지 적응형 익명화)를 소개한다. 이는 LLM 기반 마스크-재구성 프레임워크로, 프라이버시 지역화를 유용성 보존 재구성과 분리하고, 적대적 프라이버시 및 유용성 유지 검사를 통해 후보를 선별한다. 우리는 실제 사용자 인터뷰 대본을 대상으로 웹 검색 에이전트가 수행하는 재식별 공격을 사용하여 AURA를 평가하고, 인터뷰 대상자 프로필 사실, 코드북 사실, 그리고 결합 맥락적 유용성 그리드에 기반한 유용성 평가를 함께 수행한다. 우리의 결과는 AURA가 적응형 프라이버시 범위를 사용하여 에이전트형 재식별에 대한 저항력을 강화하고, 고정된 프라이버시 범위 하에서 마스크-재구성 익명화 방법을 사용하여 맥락적 유용성을 더 잘 보존함으로써 프라이버시-유용성 경계를 개선함을 보여준다.

Video2LoRA: 비전-언어 모델을 위한 파라메트릭 비디오 내재화
Video2LoRA: Parametric Video Internalization for Vision-Language Models

Jun 3

ByManan Suri, Sarvesh Baskar, Dinesh Manocha

비전-언어 모델에서 비디오를 처리하는 것은 비용이 많이 든다: 각 프레임은 수백 개의 토큰을 차지하며, 추론 비용은 모든 프레임과 반복된 쿼리에 따라 증가한다. 본 논문에서는 파라메트릭 비디오 내재화 방법인 Video2LoRA를 소개한다. 인지자 하이퍼네트워크(perceiver hypernetwork)는 고정된 VLM이 비디오를 인코딩할 때 계층별로 생성되는 중간 표현을 읽어, 단일 순방향 패스로 저랭크 적응(LoRA) 어댑터를 생성한다. 반복적 그래디언트 업데이트가 필요한 표준 LoRA 미세 조정과 달리, Video2LoRA는 비디오로부터 직접 이러한 가중치를 예측한다. SmolVLM2 500M 및 2.2B 모델을 비디오 요약 및 캡셔닝에 대해 훈련시킨 Video2LoRA는, 동일한 고정 VLM이 쿼리 시점에 컨텍스트 내 시각적 토큰이 전혀 없이 어댑터만으로 쿼리에 응답할 수 있게 한다. Video2LoRA는 두 모델 규모의 모든 다섯 가지 캡셔닝 벤치마크와 여덟 가지 비디오 질의응답 벤치마크-모델 규모 쌍 중 일곱 가지에서 직접적인 비디오-인-컨텍스트 추론과 통계적으로 비열등하며 동등하다. 12프레임, 384px에서만 훈련되었음에도 불구하고, 직접적인 비디오-인-컨텍스트 추론이 종종 성능이 저하되는 1,024프레임 및 1,024px까지 안정적으로 유지된다. 이 전반에 걸쳐 응답 시점의 시각적 토큰 부하를 최대 1,500배, 쿼리 TTFT를 6~80배 줄이면서도 비디오에 충실한 출력을 유지한다. 또한, 비중첩 비디오 세그먼트에 대해 독립적으로 생성된 어댑터가 랭크 공간에서 합성될 수 있음을 발견했으며, 이는 청크 단위 장편 비디오 내재화를 위한 경로를 시사한다.

복잡성 흡수: 금융 LLM 에이전트를 위한 상호작용-네이티브 지식 활용 프레임워크
Absorbing Complexity: An Interaction-Native Knowledge Harness for Financial LLM Agents

Jun 1

ByAiliya Borjigin, Igor Stadnyk, Ben Bilski, Maksym Chikita, Dmytro Kyrylenko, Sofiia Pidturkina, Julia Stadnyk

금융 AI 에이전트는 종종 단순한 이유로 실패한다. 즉, 사용자가 복잡성을 떠안도록 만든다는 점이다. 사용자는 목표, 위험 선호도, 포트폴리오 맥락, 과거 판단, 그리고 변화하는 시장 가정을 반복적으로 진술해야 하는 반면, 에이전트는 응답하고, 검색하고, 행동하고, 잊어버린다. 금융에서 이는 단순히 불편한 정도가 아니다. 시장 분석, 카피 트레이딩 검토, 거래 준비와 같은 작업에서 잊혀진 맥락과 오래된 메모리는 지연, 반복 오류, 취약한 감사 가능성, 그리고 안전하지 않은 결정을 초래할 수 있다. 이에 우리는 상호작용-네이티브 지식 하네스(InKH)를 제안한다. 이는 시스템 내로 복잡성을 흡수하는 금융 LLM 에이전트를 위한 아키텍처이다. InKH는 사용자, 시장, 포트폴리오, 그리고 도구 이벤트를 구조화된 운영 지식으로 변환한다. 수동적 지식 주입(passive knowledge injection)을 사용하여 주 모델 단계 전에 제한된 작업 맥락 버퍼(bounded working context buffer)를 조립하고, 저지연 검색을 위한 시간 그래프 메모리(temporal graph memory), 인간이 읽을 수 있는 거버넌스를 위한 위키 감사 표면(wiki audit surface), 그리고 성숙도, 소멸, 기록 시간 무효화(write-time invalidation)를 갖춘 배경 추출(background extraction)을 활용한다. 우리는 InKH를 24개의 무작위 시드, 4라운드, 라운드당 80개의 에피소드, 그리고 6개의 기준선(baseline)으로 구성된 재현 가능한 통제된 합성 벤치마크에서 평가하여 46,080개의 기준선 조건 평가(baseline-conditioned evaluation)를 생성했다. InKH는 900ms 지연 시간에서 평균 작업 품질 0.815를 달성했다. 에이전트 주도 위키 워크 메모리와 비교하여 지연 시간을 82.95%, 토큰 비용을 82.29%, 오래된 지식 사용률을 96.58% 줄였으며, 품질은 0.108, 추적 가능성은 0.461 향상시켰다. 무효화가 없는 시간 그래프 시스템과 비교하여 품질을 0.050 개선하고 오래된 메모리 사용률을 96.58% 줄였으며, 서비스 비용은 비슷한 수준을 유지했다. 이 결과는 금융 AI에 대한 설계 논제를 뒷받침한다. 즉, 복잡성이 사용자에게 전가되지 않고 시스템에 흡수될 때 채택이 이루어진다는 것이다. 이 벤치마크는 아키텍처 수준의 행동을 검증한 것이며, 실시간 거래 성능을 검증한 것은 아니다.

조합적 합성: 원자적 분해 및 재조합을 통한 코드 RLVR의 스케일링
Combinatorial Synthesis: Scaling Code RLVR via Atomic Decomposition and Recombination

May 29

ByJiasheng Zheng, Boxi Cao, Boxi Yu, Yuzhong Zhang, Jialun Cao, Yaojie Lu, Hongyu Lin, Xianpei Han, Le Sun

검증 가능한 보상을 통한 강화 학습(RLVR)은 최근 대규모 언어 모델(LLMs)의 뛰어난 코딩 능력을 형성하는 핵심 요소로 부상했다. 그러나 RLVR의 확장성은 모델의 역량 경계 근처를 목표로 하는 충분히 도전적인 검증 가능한 코드 과제의 부족으로 인해 심각하게 제약을 받는다. 선행 연구들은 종종 데이터 합성을 위해 휴리스틱 시드 확장에 의존하는데, 이는 참신성과 난이도 모두를 심각하게 제한한다. 결과적으로, 이러한 데이터의 훈련 가치는 합성 규모에 비례하여 확장되지 못한다. 이를 해결하기 위해, 우리는 원자 분해 및 재조합(ADR)이라는 새로운 프레임워크를 제안한다. 이 프레임워크는 검증 가능한 코드 과제를 원자 요소로 분해하고 통제된 재조합을 통해 생성함으로써, 진정으로 참신하고 도전적인 검증 가능한 코드 과제의 생성을 가능하게 한다. 실험과 분석은 ADR이 기존 기준선에 비해 우수한 독창성, 난이도, 다양성 및 테스트 품질을 달성하며, 알고리즘 프로그래밍, 도구 사용, 데이터 과학을 포함한 다양한 하위 도메인의 RLVR 전반에 걸쳐 코드 능력에서 일관되게 더 큰 향상을 제공함을 보여준다. 우리의 연구는 새로운 코드 과제 합성과 확장 가능한 RLVR 훈련을 위한 새로운 패러다임에 빛을 비춘다.

LLM을 활용한 멀티모달 음악 추천 시스템
Multimodal Music Recommendation System using LLMs

May 28

BySrikar Prabhas Kandagatla, Sreehitha R. Narayana, Chandana Magapu, Swetha Mohan, Shamanth Kuthpadi, Hongjie Chen, Ryan A. Rossi, Franck Dernoncourt, Nesreen Ahmed

음악 추천 시스템은 일반적으로 노래를 불투명한 토큰으로 취급하며, 의미론적 또는 음향적 콘텐츠를 간과하는 협력적 상호작용 이력에 의존한다. 선행 연구에서는 LLM 보강, 멀티모달, 텍스트 강화 접근법을 순차적 추천에 적용해 왔으며, 일부 방법은 의미론적, 음향적 또는 참여 신호를 부분적으로 결합하지만, 실제 노래 콘텐츠에 추천을 근거짓는 통합된 LLM 기반 순차 추론 프레임워크 내에서 세 가지를 모두 공동으로 모델링한 연구는 없다. 본 연구에서는 세 가지 보완적 신호, 즉 (1) 사전 학습된 음악 및 텍스트 표현 모델을 사용하여 추출한 오디오 및 가사 임베딩, (2) MGPHot 주석 체계를 활용한 LLM 생성 의미론적 메타데이터, (3) 청취 완료 비율을 통해 LastFM-1K 데이터셋을 보강하는 세션 기반 음악 추천을 위한 멀티모달 프레임워크를 제안한다. 우리는 E4SRec 프레임워크를 채택하여 SASRec, BERT4Rec, GRU4Rec을 포함한 다양한 아이템 ID 인코더 백본 및 멀티모달 특징으로 확장한다. 또한 제로샷 및 파인튜닝 설정에서 LLaMa-2-13B, Qwen2.5-7B-Instruct, LLaMa-3-70B를 사용하여 LLM 백본 옵션을 추가로 확장한다. 실험 결과, 콘텐츠 기반 특징을 통합하면 ID만 사용한 기준선 대비 Recall에서 최대 95%, NDCG에서 최대 79%의 성능 향상을 보였다. 또한 실험을 통해 단순한 멀티모달 융합이 항상 추가적인 개선을 가져오는 것은 아니며, 이는 교차 모달 통합의 어려움을 강조한다. 우리는 음악 추천을 위한 대규모 멀티모달 벤치마크를 공개한다.

SABER: 상태 저장형 프로젝트 워크스페이스에서 LLM 코딩 에이전트의 운영 안전성 벤치마킹
SABER: Benchmarking Operational Safety of LLM Coding Agents in Stateful Project Workspaces

May 31

ByQi Hu, Yifeng Tang, Qinghua Wang, Lanyang Zhao, Pengji Zhang, Yuhao Qing, Xin Yao, Dong Huang, Lin Zhang, Zhuoran Ji

대규모 언어 모델이 코딩 에이전트로 점점 더 많이 배치되면서, 안전성 평가가 개별 응답에서 행동 시퀀스로 전환되고 있다. 그러나 기존 벤치마크는 주로 모델이 안전하지 않은 프롬프트를 거부하는지 여부를 평가할 뿐, 상태를 유지하는 작업 공간에 미치는 영향은 거의 검토되지 않은 상태로 남아 있다. 우리는 환경을 인식하는 운용 안전성을 위한 벤치마크인 SABER를 제시한다. 이는 모델을 현실적인 에이전트 스타일 프로젝트에 배치하고, 일련의 행동 후 최종 환경 상태에서 안전성을 평가한다. 이진적 안전 위반 보고를 넘어, SABER는 위반을 원인별로 분류하여 모델별 안전 프로파일 분석을 가능하게 한다. 우리의 평가에 따르면 최고 성능의 모델조차도 54% 이상의 유해 안전 위반율(HSR)을 보여, 현재의 정렬이 현실적인 프로젝트 환경에 충분하지 않음을 시사한다. SABER는 또한 모델 간에 뚜렷한 안전 프로파일을 드러낸다. 우리의 벤치마크는 https://github.com/sssr-lab/saber에서 공개적으로 이용 가능하다.

ForeSci: 미래 지향적 AI 연구 판단을 위한 LLM 에이전트 평가
ForeSci: Evaluating LLM Agents for Forward-Looking AI Research Judgment

Jun 4

ByQiuyu Tian, Haojie Yin, Yingce Xia, Youyong Kong, Zequn Liu

AI 연구는 종종 미래의 증거가 존재하기 전에 결정을 요구한다: 어떤 병목을 공략할지, 어떤 방향을 추구할지, 또는 프로젝트를 어디에 위치시킬지 등이다. 본 연구에서는 LLM 에이전트가 과거 증거로부터 이러한 미래지향적 연구 판단을 내릴 수 있는지 평가하기 위한 시간 통제 벤치마크인 ForeSci를 소개한다. ForeSci는 급변하는 네 가지 AI 도메인과 네 가지 의사결정 유형에 걸쳐 500개의 태스크를 포함한다. 각 태스크는 컷오프 정렬 오프라인 지식 베이스와 쌍을 이루며, 컷오프 이후의 논문은 생성 과정에서 숨겨지고 검증에만 사용된다. 무작위 미래 사건 예측을 방지하기 위해 태스크는 컷오프 이전 분류 체계 가지와 증거 신호로부터 도출되며, 답변 생성 백본은 태스크 컷오프보다 앞서도록 선택된다. 우리는 네 가지 백본에 걸쳐 네이티브 LLM, 하이브리드 RAG, 세 가지 연구 에이전트 적응형을 평가한다. 결과는 명시적 증거 구성이 추적 가능성과 사실적 지원을 개선하지만, 그 효과는 의사결정 유형에 크게 의존함을 보여준다. 진단 결과 반복되는 증거-의사결정 분리 현상이 발견된다: 에이전트가 관련 증거를 인용하면서도 잘못된 연구 대상을 예측할 수 있다. ForeSci는 미래지향적 AI 연구 판단을 연구 에이전트를 의사결정 시스템으로 평가하기 위한 통제된 벤치마크로 전환한다.

의료 영상 분할을 위한 품질 유도 준지도 학습
Quality-Guided Semi-Supervised Learning for Medical Image Segmentation

Jun 1

ByKumar Abhishek, Ghassan Hamarneh

정확한 의료 영상 분할 모델을 훈련하려면 대량의 밀집 주석 데이터가 필요하며, 이를 획득하는 데는 많은 비용과 시간이 소요된다. 반지도 학습(SSL)은 풍부한 레이블이 없는 데이터와 제한된 레이블이 있는 데이터를 모두 학습함으로써 이러한 문제를 완화한다. 그러나 대부분의 현대 SSL 방법은 레이블이 없는 데이터에 대해 의사 레이블에 의존하며, 일반적으로 모델 신뢰도나 불확실성을 통해 그 신뢰성을 평가하는데, 이러한 척도는 자기참조적이며 분할 품질에 대한 명시적 근거가 부족하다. 이에 본 연구에서는 분할 품질을 추정하는 전용 네트워크를 이미지-마스크 쌍으로부터 학습하는 품질 기반 SSL 프레임워크를 제안한다. 품질 예측기는 부분 학습된 분할 모델의 불완전한 출력에 합성 변형을 추가하여 생성된 다양한 품질의 마스크로 훈련되며, 훈련 중 발생하는 현실적인 오류 패턴을 포착한다. 우리는 품질 예측기를 두 가지 상호 보완적 메커니즘, 즉 품질 인식 정규화 손실과 품질 기반 의사 레이블 샘플 재가중치 기법을 통해 SSL에 통합한다. 본 방법이 기존 SSL 프레임워크에 쉽게 적용할 수 있는 개선책임을 보여준다. 다섯 개의 데이터셋과 여러 아키텍처에 걸친 광범위한 실험을 통해 경쟁 SSL 방법 대비 일관된 성능 향상을 입증하였으며, 반지도 의료 영상 분할 분야의 최첨단 성능을 한 단계 끌어올렸다.

BRepCLIP: CAD 이해를 위한 BRep 프리미티브에 대한 대조적 멀티모달 사전 학습
BRepCLIP: Contrastive Multimodal Pretraining on BRep Primitives for CAD Understanding

Jun 3

ByMuhammad Usama, Didier Stricker, Mohammad Sadil Khan, Muhammad Zeshan Afzal

CAD 모델의 표현 학습은 대부분 미해결 문제로 남아 있다. 3D 표현 학습이 점군과 메시를 중심으로 활발히 진행되어 온 반면, CAD의 고유 형식인 경계 표현(BRep)은 정확한 매개변수 표면, 곡선 및 이들의 위상을 인코딩함에도 불구하고 표현 학습 기반으로서 거의 주목받지 못했다. 본 연구에서는 대조 사전 학습을 통해 BRep 기하 구조를 언어 및 이미지 임베딩과 정렬하는 최초의 프레임워크인 BRepCLIP을 소개한다. 각 CAD 객체를 면과 모서리 토큰의 시퀀스로 모델링하며, 표면 및 곡선 기하 구조에 대해 별도의 이산 어휘를 사용하고, 표면 유형(예: 원통형, 토러스, NURBS)과 곡선 프리미티브(예: 직선, 호, B-스플라인)를 포착하는 공간 및 의미적 설명자를 추가한다. 트랜스포머 인코더가 이러한 토큰을 집계하여 전역 BRep 임베딩을 생성하며, 이는 공동 대조 목적 함수를 통해 CLIP의 텍스트 및 이미지 인코더와 정렬된다. BRepCLIP은 기존의 점 기반 대안보다 더 변별력 있고 의미적으로 근거 있는 임베딩을 생성하여, ABC, CADParser, Automate 데이터셋에서 OpenShape 대비 Top-1 검색 성능을 각각 40.4%, 22.0%, 23.9% 향상시키고, FabWave에서 제로샷 분류의 Top-1 정확도를 15% 개선한다. 또한, 텍스트 및 이미지 조건부 CAD 생성을 평가하기 위한 CAD 인식 유사도 지표로서의 유용성을 입증하여, 다중 모드 CAD 이해를 위한 구조 인식 사전 학습의 중요성을 확인한다. 프로젝트 페이지는 https://muhammadusama100.github.io/BrepClip2026/에서 확인할 수 있다.