번역이 포함된 일일 선별된 AI 연구 논문
우리는 이산 상태 확산(discrete-state diffusion) 기반의 대규모 언어 모델인 Seed Diffusion Preview를 소개하며, 이 모델은 매우 빠른 추론 속도를 제공합니다. 비순차적이고 병렬적인 생성 방식을 통해, 이산 확산 모델은 최근에 입증된 바와 같이(예: Mercury Coder, Gemini Diffusion) 토큰 단위 디코딩의 고유한 지연 시간을 상당히 줄이는 속도 향상을 제공합니다. Seed Diffusion Preview는 H20 GPU에서 2,146 토큰/초의 추론 속도를 달성하면서도 표준 코드 평가 벤치마크 전반에서 경쟁력 있는 성능을 유지하며, 동시대의 Mercury 및 Gemini Diffusion보다 훨씬 빠른 속도를 보여줍니다. 이를 통해 코드 모델의 속도-품질 파레토 프론티어에서 새로운 최첨단 기술을 확립했습니다.
우리는 이미지 이해, 텍스트-이미지 생성, 이미지 편집을 단일 아키텍처 내에서 통합한 15억 파라미터의 자기회귀 모델인 Skywork UniPic을 소개한다. 이 모델은 작업별 어댑터나 모듈 간 연결 장치의 필요성을 제거하며, 컴팩트한 다중모달 시스템이 일반적인 하드웨어에서도 최첨단 성능을 달성할 수 있음을 보여준다. Skywork UniPic은 GenEval 점수 0.86을 달성하여 대부분의 기존 통합 모델을 능가하고, DPG-Bench 복합 생성에서 85.5의 새로운 기록을 세웠으며, 이미지 편집에서 GEditBench-EN 5.83과 ImgEdit-Bench 3.49를 기록했다. 또한 1024 x 1024 이미지를 15GB 미만의 GPU 메모리(예: RTX 4090)로 생성한다. (1) 합성을 위한 마스크된 자기회귀 인코더와 이해를 위한 SigLIP2 인코더를 활용한 분리된 인코딩 전략으로, 이들은 모두 공유된 자기회귀 디코더에 입력된다. (2) 256 x 256에서 1024 x 1024까지 확장되는 점진적, 해상도 인식 훈련 스케줄을 통해 매개변수를 동적으로 해제하여 용량과 안정성을 균형 있게 조절한다. (3) 생성 및 편집 목표를 세밀하게 조정하기 위해 작업별 보상 모델로 보강된 1억 규모의 데이터셋을 정교하게 구성했다. 고해상도 다중모달 통합이 과도한 자원 요구를 수반하지 않아도 된다는 점을 입증함으로써, Skywork UniPic은 배포 가능한 고해상도 다중모달 AI를 위한 실용적인 패러다임을 확립한다. 코드와 가중치는 https://huggingface.co/Skywork/Skywork-UniPic-1.5B에서 공개적으로 제공된다.
제어 가능한 초장기 비디오 생성은 근본적이면서도 도전적인 과제입니다. 기존 방법들은 짧은 클립에 대해서는 효과적이지만, 시간적 불일치와 시각적 품질 저하와 같은 문제로 인해 확장에 어려움을 겪고 있습니다. 본 논문에서는 이러한 문제를 해결하기 위해 세 가지 핵심 요소를 조사하고 식별했습니다: 분리된 노이즈 초기화, 독립적인 제어 신호 정규화, 그리고 단일 모달리티 지도의 한계입니다. 이러한 문제를 해결하기 위해, 우리는 제어 가능한 장기 비디오 생성을 위한 종단 간 자기회귀 프레임워크인 LongVie를 제안합니다. LongVie는 시간적 일관성을 보장하기 위해 두 가지 핵심 설계를 도입했습니다: 1) 클립 간 일관된 생성을 유지하는 통합 노이즈 초기화 전략, 그리고 2) 전체 비디오에 걸쳐 제어 공간에서의 정렬을 강제하는 전역 제어 신호 정규화입니다. 시각적 품질 저하를 완화하기 위해, LongVie는 3) 밀집된(예: 깊이 맵)과 희소한(예: 키포인트) 제어 신호를 통합하는 다중 모달리티 제어 프레임워크를 사용하며, 4) 시간에 따라 모달리티 기여도를 적응적으로 조정하여 시각적 품질을 유지하는 품질 저하 인식 훈련 전략을 보완합니다. 또한, 우리는 100개의 고해상도 비디오로 구성된 LongVGenBench를 소개합니다. 이 벤치마크는 다양한 실제 환경과 합성 환경을 아우르며, 각 비디오는 1분 이상의 길이를 가지고 있습니다. 광범위한 실험을 통해 LongVie가 장거리 제어성, 일관성, 그리고 품질에서 최첨단 성능을 달성함을 보여줍니다.
답변 검증은 대규모 언어 모델(LLM)의 비정형 출력을 표준 답안과 매칭하여 평가하는 데 있어서뿐만 아니라, LLM 최적화를 위한 보상 모델로서도 중요한 역할을 합니다. 대부분의 평가 프레임워크는 정규화된 매칭에 의존하거나 일반적인 LLM을 답변 검증에 사용하며, 이는 정규식 규칙이나 평가 프롬프트에 대한 광범위하고 반복적인 커스터마이징을 요구합니다. 현재의 방법론에는 두 가지 근본적인 한계가 존재합니다: 1) 다양한 LLM 간의 검증 능력을 체계적으로 평가하는 포괄적인 벤치마크의 부재; 2) 검증기 개발의 초기 단계로, 기존 접근법은 복잡한 예외 사례를 처리할 수 있는 견고성과 다양한 도메인 간의 일반화 능력이 부족합니다. 본 연구에서는 정확하고 견고한 경량 검증기 모델인 CompassVerifier를 개발하여 평가 및 결과 보상에 활용합니다. 이 모델은 수학, 지식, 다양한 추론 과제에 걸친 다중 도메인 역량을 보여주며, 다중 하위 문제, 수식, 시퀀스 답변을 포함한 다양한 답변 유형을 처리할 수 있고, 비정상적/무효 응답을 효과적으로 식별합니다. 또한, CompassVerifier를 강화하기 위해 메타 오류 패턴의 수동 분석을 통해 보강된 다중 데이터 소스에서 수집된 모델 출력으로 구성된 VerifierBench 벤치마크를 소개합니다. CompassVerifier와 VerifierBench가 답변 검증, 평가 프로토콜, 강화 학습 연구를 촉진할 것으로 기대합니다. 코드와 데이터셋은 https://github.com/open-compass/CompassVerifier에서 확인할 수 있습니다.
소프트웨어 이슈를 해결하기 위해 수정이 필요한 코드 위치를 식별하는 과정인 이슈 로컬라이제이션은 소프트웨어 개발에서 중요하면서도 도전적인 작업입니다. 자연어로 작성된 이슈 설명과 결함이 있는 코드 간의 의미적 차이는 코드 의존성을 통한 복잡한 다중 단계 추론을 필요로 합니다. 기존의 LLM(대형 언어 모델) 기반 에이전트들은 리포지토리 검색 도구를 통합하여 이를 해결하려 시도합니다. 그러나 이는 이슈 로컬라이제이션을 Repo Deep Search라고 부르는 까다로운 작업으로 변모시켜, LLM이 다단계 추론 및 탐색 과정에서 다양한 리포지토리 검색 도구를 효과적으로 활용해야 하는 과제를 만듭니다. 이러한 도전 과제를 해결하기 위해, 우리는 ToolTrain을 제안합니다. ToolTrain은 리젝션 샘플링을 통한 지도 미세 조정과 도구 통합 강화 학습을 결합한 두 단계의 도구 통합 훈련 프레임워크로, LLM의 검색 도구 활용 능력을 향상시켜 이슈 로컬라이제이션 성능을 개선합니다. 실험 결과, ToolTrain으로 훈련된 모델들은 최첨단 성능을 달성했으며, 특히 32B 모델은 함수 수준 로컬라이제이션에서 Claude-3.7을 능가하는 성과를 보였습니다. 또한, 개선된 로컬라이제이션 성능은 더 나은 종단 간 이슈 해결 성능으로 이어지는 것으로 나타났습니다. 이는 이슈 로컬라이제이션을 위한 훈련이 자동화된 소프트웨어 개발을 개선하는 데 있어 실현 가능하고 효과적인 전략임을 입증합니다.
트랜스포머(Transformers)는 비전, 언어, 비디오 분야에서 놀라운 성공을 거두었습니다. 그러나 작업의 복잡성이 증가함에 따라 더 큰 모델과 더 많은 토큰이 필요해지면서, 셀프 어텐션(self-attention)의 이차 비용과 GPU 메모리 접근 오버헤드가 증가하고 있습니다. 셀프 어텐션의 계산 비용을 줄이기 위해, 기존 연구에서는 중복되거나 덜 중요한 토큰을 제거하는 토큰 압축 기법을 제안했습니다. 한편, FlashAttention과 같은 융합 어텐션 커널(fused attention kernels)은 어텐션 맵(attention map) 구축과 HBM(High Bandwidth Memory)으로의 I/O를 피함으로써 메모리 오버헤드를 완화하기 위해 개발되었습니다. 그러나 이는 대부분의 학습 없이 수행되는 토큰 압축 방법과 호환되지 않는데, 이러한 방법들은 토큰의 중요도를 결정하기 위해 어텐션 맵에 의존하기 때문입니다. 여기서 우리는 각 토큰의 표현 변화 정도를 측정하는 학습 없이 적용 가능한 모델-불특정(agnostic) 메트릭인 Representation Shift를 제안합니다. 이는 어텐션 맵이나 재학습 없이도 FlashAttention과 토큰 압축을 원활하게 통합합니다. 우리의 방법은 트랜스포머를 넘어 CNN(Convolutional Neural Networks)과 상태 공간 모델(state space models)에도 일반화됩니다. 광범위한 실험을 통해 Representation Shift가 FlashAttention과 호환되는 효과적인 토큰 압축을 가능하게 하여, 비디오-텍스트 검색과 비디오 QA(Question Answering)에서 각각 최대 5.5%와 4.4%의 상당한 속도 향상을 가져온다는 것을 보여줍니다. 코드는 https://github.com/mlvlab/Representation-Shift에서 확인할 수 있습니다.
근사 최근접 이웃 탐색(Approximate Nearest-Neighbor Search, ANNS) 알고리즘은 최근 AI 애플리케이션, 특히 검색 강화 생성(Retrieval-Augmented Generation, RAG) 및 에이전트 기반 대형 언어 모델(LLM) 애플리케이션에서 점점 더 중요한 역할을 하고 있다. 본 논문에서는 ANNS 알고리즘을 위한 새로운 패러다임인 CRINN을 제안한다. CRINN은 ANNS 최적화를 실행 속도를 보상 신호로 사용하는 강화 학습 문제로 접근한다. 이 접근법은 정확도 제약을 유지하면서 점점 더 빠른 ANNS 구현을 자동으로 생성할 수 있게 한다. 우리의 실험 평가는 CRINN이 널리 사용되는 6개의 NNS 벤치마크 데이터셋에서 효과적임을 보여준다. 최신 오픈소스 ANNS 알고리즘과 비교했을 때, CRINN은 그 중 3개(GIST-960-Euclidean, MNIST-784-Euclidean, GloVe-25-angular)에서 최고 성능을 달성했으며, 2개(SIFT-128-Euclidean 및 GloVe-25-angular)에서는 공동 1위를 기록했다. CRINN의 성공은 ANNS 최적화를 넘어서는 중요한 의미를 지닌다: 이는 강화 학습으로 강화된 LLM이 전문 지식과 노동 집약적인 수동 개선을 요구하는 정교한 알고리즘 최적화를 자동화하는 효과적인 도구로 기능할 수 있음을 검증한다. 코드는 https://github.com/deepreinforce-ai/CRINN에서 확인할 수 있다.
Model Context Protocol(MCP)의 급속한 발전과 함께 MCP 서버의 수가 10,000개를 넘어섰습니다. 그러나 기존의 MCP 벤치마크는 단일 서버 설정과 소수의 도구로 제한되어 있어, 대규모 실제 시나리오에서 에이전트 능력을 효과적으로 평가하는 데 방해가 되고 있습니다. 이러한 한계를 해결하기 위해, 우리는 MCP 생태계에 기반을 둔 95개의 실제 작업으로 구성된 첫 번째 종합 벤치마크인 LiveMCPBench를 제안합니다. 이 벤치마크는 다양한 서버에서 대규모로 LLM 에이전트를 평가하도록 설계되었습니다. 대규모 MCP 환경에서 확장 가능하고 재현 가능한 평가 파이프라인을 지원하기 위해, 우리는 70개의 MCP 서버와 527개의 도구로 구성된 다양하고 즉시 배포 가능한 LiveMCPTool 컬렉션을 구축했습니다. 또한, 우리는 동적이고 시간에 따라 변화하는 작업 환경에서 자동화되고 적응적인 평가를 가능하게 하는 LLM-as-a-Judge 프레임워크인 LiveMCPEval을 도입했습니다. 이 프레임워크는 인간 평가자와 81%의 일치율을 달성했습니다. 마지막으로, 우리는 전체 LiveMCPTool 제품군에서 동적 계획을 위한 도구를 라우팅하고 API 상호 작용을 위한 도구를 실행하는 다단계 에이전트인 MCP Copilot Agent를 제안합니다. 우리의 평가는 10개의 주요 모델을 대상으로 진행되었으며, 가장 성능이 우수한 모델(Claude-Sonnet-4)은 78.95%의 성공률을 기록했습니다. 그러나 모델 간의 성능 차이가 크며, 여러 널리 사용되는 모델이 LiveMCPBench의 복잡하고 도구가 풍부한 환경에서 낮은 성능을 보였습니다. 전반적으로, LiveMCPBench는 현실적이고 도구가 풍부하며 동적인 MCP 환경에서 LLM 에이전트를 벤치마킹하기 위한 첫 번째 통합 프레임워크를 제공하며, 에이전트 능력에 대한 확장 가능하고 재현 가능한 연구를 위한 견고한 기반을 마련합니다. 우리의 코드와 데이터는 https://icip-cas.github.io/LiveMCPBench에서 공개될 예정입니다.
우리는 다양한 이미지 편집 작업에서 성능을 향상시키기 위한 세 가지 전략을 탐구합니다: 지도 미세 조정(SFT), 강화 학습(RL), 그리고 사고 연쇄(CoT) 추론입니다. 이러한 모든 요소를 일관된 프레임워크 내에서 연구하기 위해, 우리는 텍스트와 시각적 토큰을 통합적으로 처리하는 자기회귀적 다중모달 모델을 채택했습니다. 우리는 대규모 다중모달 LLM 검증기와 결합된 RL이 이러한 전략 중 가장 효과적이라는 것을 발견했습니다. 그 결과, 우리는 EARL: Editing with Autoregression and RL을 공개합니다. 이는 강력한 RL 기반 이미지 편집 모델로, 훨씬 적은 학습 데이터를 사용함에도 불구하고 다양한 편집 작업에서 강력한 기준선과 경쟁력 있는 성능을 보입니다. 따라서 EARL은 이미지 편집 분야에서 자기회귀적 다중모달 모델의 최전선을 더욱 확장합니다. 우리는 코드, 학습 데이터, 그리고 학습된 모델을 https://github.com/mair-lab/EARL에서 공개합니다.
Goedel-Prover-V2 시리즈는 자동 정리 증명 분야에서 새로운 최첨단 기술을 제시하는 오픈소스 언어 모델입니다. 표준 전문가 반복 및 강화 학습 파이프라인을 기반으로 구축된 이 접근법은 세 가지 주요 혁신을 통합합니다: (1) 스캐폴딩 데이터 합성: 점점 더 복잡한 정리를 마스터할 수 있도록 모델을 훈련시키기 위해 난이도가 점진적으로 증가하는 합성 작업을 생성합니다; (2) 검증기 기반 자기 수정: Lean 컴파일러의 피드백을 활용하여 모델이 증명을 반복적으로 수정할 수 있도록 합니다; (3) 모델 평균화: 훈련 후반부에 모델 출력 다양성이 감소하는 문제를 완화하기 위해 모델 체크포인트를 병합합니다. 우리의 소형 모델인 Goedel-Prover-V2-8B는 MiniF2F에서 84.6%의 pass@32를 달성하며, 동일한 지표에서 DeepSeek-Prover-V2-671B를 능가합니다. 이는 모델 크기가 80배 더 작음에도 불구하고 이루어진 성과입니다. 우리의 주력 모델인 Goedel-Prover-V2-32B는 MiniF2F에서 표준 모드에서 88.1%, 자기 수정 모드에서 90.4%의 pass@32를 달성하여 기존 최고 기록을 크게 앞질렀습니다. 또한, 이 주력 모델은 PutnamBench에서 pass@184 기준으로 86개의 문제를 해결하여 오픈소스 모델 리더보드에서 1위를 차지했습니다. 이는 DeepSeek-Prover-V2-671B가 pass@1024 기준으로 47개의 문제를 해결한 기록을 훨씬 더 작은 모델 크기와 컴퓨팅 예산으로 능가한 것입니다. Goedel-Prover-V2는 출시 시점(2025년 7월~8월)에 모든 오픈소스 정리 증명기 중에서 가장 강력한 전반적인 성능을 보여주었습니다. 또한, 제한된 테스트 시간 컴퓨팅 예산 하에서 공개적으로 보고된 성능을 가진 클로즈드소스 시스템을 포함한 최고 성능 모델들 중 하나로 자리 잡았습니다. 우리의 모델, 코드, 데이터는 https://github.com/Goedel-LM/Goedel-Prover-V2에서 공개됩니다.
기존의 대화형 비디오 생성 연구는 주로 단일 인물의 독백 또는 고립된 얼굴 애니메이션에 초점을 맞추어 왔으며, 이는 현실적인 다중 인간 상호작용에 대한 적용 가능성을 제한해 왔다. 이러한 격차를 해소하기 위해, 본 연구에서는 다중 인간 대화 비디오 생성을 위해 특별히 설계된 대규모 데이터셋인 MIT를 소개한다. 이를 위해, 다중 인물 대화 비디오를 수집하고 주석을 달 수 있는 자동화된 파이프라인을 개발하였다. 결과적으로 생성된 데이터셋은 2명에서 4명의 화자가 등장하는 12시간 분량의 고해상도 영상으로 구성되며, 신체 자세와 음성 상호작용에 대한 세밀한 주석이 포함되어 있다. 이 데이터셋은 다중 화자 시나리오에서의 자연스러운 대화 역학을 포착하여, 상호작용적 시각 행동 연구를 위한 풍부한 자원을 제공한다. MIT의 잠재력을 입증하기 위해, 본 연구에서는 이 새로운 과제를 위한 베이스라인 모델인 CovOG를 추가로 제안한다. CovOG는 다양한 수의 화자를 처리하기 위해 개별 자세 임베딩을 통합하는 다중 인간 자세 인코더(Multi-Human Pose Encoder, MPE)와 화자별 오디오 특성을 기반으로 머리 동역학을 조절하는 상호작용 오디오 드라이버(Interactive Audio Driver, IAD)를 통합한다. 이러한 구성 요소들은 현실적인 다중 인간 대화 비디오 생성의 가능성과 과제를 보여주며, MIT를 향후 연구를 위한 가치 있는 벤치마크로 확립한다. 코드는 https://github.com/showlab/Multi-human-Talking-Video-Dataset에서 확인할 수 있다.
제어 가능한 이미지 합성에서 공간 레이아웃 인식을 통해 여러 참조 이미지로부터 일관되고 통일된 이미지를 생성하는 것은 여전히 해결되지 않은 과제입니다. 본 논문에서는 LAMIC(Layout-Aware Multi-Image Composition) 프레임워크를 제안합니다. LAMIC는 단일 참조 확산 모델을 훈련 없이 다중 참조 시나리오로 확장하는 최초의 방법입니다. MMDiT 모델을 기반으로 구축된 LAMIC는 두 가지 플러그 앤 플레이 어텐션 메커니즘을 도입했습니다: 1) 개체 분리를 강화하기 위한 그룹 격리 어텐션(GIA); 2) 레이아웃 인식 생성을 가능하게 하는 영역 변조 어텐션(RMA). 모델의 능력을 종합적으로 평가하기 위해 세 가지 새로운 메트릭을 추가로 제안했습니다: 1) 레이아웃 제어를 평가하기 위한 포함 비율(IN-R) 및 채우기 비율(FI-R); 2) 배경 일관성을 측정하기 위한 배경 유사도(BG-S). 광범위한 실험 결과, LAMIC는 대부분의 주요 메트릭에서 최첨단 성능을 달성했습니다. 모든 설정에서 ID-S, BG-S, IN-R 및 AVG 점수에서 기존 다중 참조 베이스라인을 꾸준히 능가했으며, 복잡한 합성 작업에서 최고의 DPG를 달성했습니다. 이러한 결과는 LAMIC가 훈련이나 미세 조정 없이도 정체성 유지, 배경 보존, 레이아웃 제어, 프롬프트 준수 등에서 우수한 능력을 보여주며, 강력한 제로샷 일반화 능력을 입증합니다. 고급 단일 참조 모델의 강점을 계승하고 다중 이미지 시나리오로의 원활한 확장을 가능하게 함으로써, LAMIC는 제어 가능한 다중 이미지 합성을 위한 새로운 훈련 없는 패러다임을 확립했습니다. 기초 모델이 계속 발전함에 따라 LAMIC의 성능도 그에 따라 확장될 것으로 기대됩니다. 구현 코드는 https://github.com/Suchenl/LAMIC에서 확인할 수 있습니다.
차트에 대한 정확하고 유익하며 환각(hallucination)이 없는 캡션을 생성하는 것은 시각 언어 모델에게 여전히 어려운 과제로, 이는 주로 실제 세계의 차트를 포함한 대규모 고품질 데이터셋의 부족 때문입니다. 그러나 기존의 실제 세계 차트 데이터셋은 차트에서 추론할 수 없는 외부 정보가 포함되어 있고 구조적 요소와 핵심 통찰력을 충분히 포착하지 못하는 문제가 있습니다. 따라서 우리는 ChartCap를 소개합니다. 이는 565K개의 실제 세계 차트 이미지와 짝을 이루는 대규모 데이터셋으로, 외부 정보를 배제하고 구조적 요소와 핵심 통찰력을 상세히 강조하는 유형별 밀집 캡션을 포함합니다. ChartCap를 구축하기 위해, 우리는 차트에서 식별 가능한 데이터만을 사용하여 캡션을 생성하는 4단계 파이프라인을 설계하고, 정확도를 희생하지 않으면서 품질 관리를 가속화하는 주기 일관성 기반의 인간 검증을 활용했습니다. 또한, 우리는 참조 캡션과 독립적으로 캡션에서 재생성된 차트와 원본 차트 간의 유사성을 측정하여 캡션 품질을 평가하는 새로운 지표인 시각 일관성 점수(Visual Consistency Score)를 제안합니다. 광범위한 실험을 통해 ChartCap로 미세 조정된 모델이 더 정확하고 유익한 캡션을 생성하며 환각을 줄이는 데 있어 오픈소스 및 상용 모델뿐만 아니라 인간 주석 캡션을 능가함을 확인했습니다.
최근 멀티모달 대형 언어 모델(MLLMs)의 발전으로 인해, 구현된 에이전트에서 코드 정책 생성에 더욱 풍부한 지각적 기반이 가능해졌다. 그러나 대부분의 기존 시스템은 작업 완료 과정에서 정책 실행을 적응적으로 모니터링하고 코드를 수리하는 효과적인 메커니즘을 갖추지 못하고 있다. 본 연구에서는 HyCodePolicy를 소개한다. 이는 코드 합성, 기하학적 기반, 지각적 모니터링 및 반복적 수리를 구현된 에이전트를 위한 폐쇄 루프 프로그래밍 사이클에 체계적으로 통합한 하이브리드 언어 기반 제어 프레임워크이다. 기술적으로, 자연어 명령이 주어지면, 우리의 시스템은 이를 하위 목표로 분해하고 객체 중심의 기하학적 기본 요소에 기반한 초기 실행 가능한 프로그램을 생성한다. 이 프로그램은 시뮬레이션에서 실행되며, 비전-언어 모델(VLM)이 선택된 체크포인트를 관찰하여 실행 실패를 감지하고 위치를 파악하며 실패 원인을 추론한다. 프로그램 수준의 이벤트를 포착하는 구조화된 실행 트레이스와 VLM 기반의 지각적 피드백을 융합함으로써, HyCodePolicy는 실패 원인을 추론하고 프로그램을 수리한다. 이 하이브리드 이중 피드백 메커니즘은 최소한의 인간 감독으로 자가 수정 프로그램 합성을 가능하게 한다. 우리의 결과는 HyCodePolicy가 로봇 조작 정책의 견고성과 샘플 효율성을 크게 향상시키며, 자율 의사결정 파이프라인에 멀티모달 추론을 통합하기 위한 확장 가능한 전략을 제공함을 보여준다.
온라인 마켓플레이스는 소비자를 대신해 행동하는 자율적인 AI 에이전트에 의해 변모할 것입니다. 인간이 직접 탐색하고 클릭하는 대신, 비전-언어 모델(VLM) 에이전트가 웹페이지를 분석하고 제품을 평가하며 거래를 수행할 수 있습니다. 이는 근본적인 질문을 제기합니다: AI 에이전트는 무엇을, 왜 구매하는가? 우리는 이 질문을 연구하기 위해 플랫폼에 구애받지 않는 VLM 에이전트와 완전히 프로그래밍 가능한 모의 마켓플레이스를 결합한 ACES라는 샌드박스 환경을 개발했습니다. 먼저 간단한 작업의 맥락에서 기본적인 합리성 검사를 수행한 후, 제품 위치, 가격, 평점, 리뷰, 스폰서 태그 및 플랫폼 추천을 무작위화하여 최첨단 VLM이 실제로 어떻게 쇼핑하는지에 대한 인과적 추정치를 얻습니다. 모델들은 강력하지만 이질적인 위치 효과를 보입니다: 모든 모델이 상단 행을 선호하지만, 서로 다른 모델이 서로 다른 열을 선호하여 보편적인 "최상위" 순위라는 가정을 약화시킵니다. 스폰서 태그에는 불이익을 주고 추천에는 보상을 제공합니다. 가격, 평점, 리뷰에 대한 민감도는 방향적으로는 인간과 유사하지만 모델 간에 크기가 크게 다릅니다. 판매자가 AI 에이전트를 사용하여 제품 목록을 최적화하는 시나리오에 동기를 부여받아, AI 구매자 선호도를 타겟팅하여 제품 설명을 약간 수정하는 판매자 측 에이전트가 AI 매개 쇼핑이 지배적일 경우 상당한 시장 점유율 증가를 가져올 수 있음을 보여줍니다. 또한 모델 간에 주요 제품 선택이 달라질 수 있으며, 일부 경우에는 수요가 소수의 선택된 제품에 집중될 수 있어 경쟁 문제를 제기합니다. 종합적으로, 우리의 결과는 AI 에이전트가 전자상거래 환경에서 어떻게 행동할 수 있는지 밝히고, AI 매개 생태계에서 구체적인 판매자 전략, 플랫폼 설계 및 규제 문제를 표면화합니다.
1인칭 시점에서의 인간 동작 생성 및 예측은 AR/VR 경험 강화, 인간-로봇 상호작용 개선, 보조 기술 발전, 그리고 적응형 헬스케어 솔루션 구현에 있어 핵심적인 역할을 합니다. 이를 위해서는 1인칭 시점에서의 움직임을 정확하게 예측하고 시뮬레이션할 수 있어야 합니다. 그러나 기존 방법들은 주로 3인칭 시점의 동작 합성과 구조화된 3D 장면 맥락에 초점을 맞추고 있어, 제한된 시야, 빈번한 가림 현상, 그리고 동적인 카메라로 인해 장면 인식이 어려운 실제 1인칭 환경에서는 효과적이지 못합니다. 이러한 격차를 해소하기 위해, 우리는 명시적인 3D 장면에 의존하지 않고 1인칭 이미지를 활용한 장면 인식 동작 합성을 위한 두 가지 새로운 과제인 '1인칭 동작 생성(Egocentric Motion Generation)'과 '1인칭 동작 예측(Egocentric Motion Forecasting)'을 제안합니다. 또한, 1인칭 장치에 최적화된 새로운 머리 중심 동작 표현(head-centric motion representation)을 기반으로 한 통합 조건부 동작 확산 모델인 UniEgoMotion을 제안합니다. UniEgoMotion은 간단하면서도 효과적인 설계로, 1인칭 시각 입력을 통해 동작 재구성, 예측, 생성을 통합된 프레임워크에서 지원합니다. 기존 연구들이 장면 의미를 간과한 것과 달리, 우리의 모델은 이미지 기반 장면 맥락을 효과적으로 추출하여 그럴듯한 3D 동작을 추론합니다. 학습을 용이하게 하기 위해, 우리는 EgoExo4D에서 파생된 대규모 데이터셋인 EE4D-Motion을 도입하고, 이를 가상의 정답 3D 동작 주석으로 보강했습니다. UniEgoMotion은 1인칭 동작 재구성에서 최첨단 성능을 달성하며, 단일 1인칭 이미지에서 동작을 생성하는 최초의 모델입니다. 광범위한 평가를 통해 우리의 통합 프레임워크의 효과를 입증하며, 1인칭 동작 모델링에 새로운 기준을 제시하고 1인칭 응용 분야에 새로운 가능성을 열었습니다.
텍스트-비디오 검색(Text-Video Retrieval)은 대규모 온라인 데이터베이스에서 비디오(또는 텍스트) 쿼리가 주어졌을 때 가장 관련성이 높은 텍스트(또는 비디오) 후보를 찾는 것을 목표로 합니다. 최근 연구에서는 다중 모달 대형 언어 모델(Multi-modal Large Language Models, MLLMs)을 활용하여 검색 성능을 개선하고 있으며, 특히 길거나 복잡한 쿼리-후보 쌍에서 더 나은 결과를 보여주고 있습니다. 그러나 MLLMs를 단순히 적용하는 방식, 즉 후보 가능도(candidate likelihood)를 기반으로 한 검색은 후보 사전 편향(candidate prior bias)을 유발하여, 쿼리와 더 관련성이 높은 후보보다 본질적으로 더 높은 사전 확률을 가진 후보를 선호하는 문제가 있습니다. 이를 해결하기 위해, 우리는 양방향 가능도 추정(Bidirectional Likelihood Estimation with MLLM, BLiM)이라는 새로운 검색 프레임워크를 제안합니다. BLiM은 주어진 비디오에서 텍스트를 생성하고, 주어진 텍스트에서 비디오 특징을 생성하도록 모델을 훈련시켜 쿼리와 후보의 가능도를 모두 활용합니다. 또한, 후보 사전 정규화(Candidate Prior Normalization, CPN)라는 간단하면서도 효과적인 훈련 없이 점수 보정을 수행하는 모듈을 도입하여 후보 가능도에서의 후보 사전 편향을 완화합니다. 네 가지 텍스트-비디오 검색 벤치마크에서, CPN이 적용된 BLiM은 기존 최첨단 모델들을 평균 6.4 R@1로 능가하며, 후보 사전 편향을 효과적으로 완화하고 쿼리-후보 관련성을 강조합니다. 검색을 넘어 다양한 다중 모달 작업에 대한 심층 분석을 통해, CPN이 텍스트 사전 확률에 대한 의존도를 줄여 시각적 이해를 향상시키는 광범위한 적용 가능성을 입증합니다. 코드는 https://github.com/mlvlab/BLiM에서 확인할 수 있습니다.
긴 문맥 대형 언어 모델(LLM)인 Gemini-2.5-Pro와 Claude-Sonnet-4는 검색 증강 생성(RAG) 파이프라인 및 자율 에이전트와 같은 고급 AI 시스템을 강화하는 데 점점 더 많이 사용되고 있습니다. 이러한 시스템에서 LLM은 지식 데이터베이스나 메모리에서 검색된 텍스트로 구성된 문맥과 함께 지시를 받고, 해당 지시를 따라 문맥에 기반한 응답을 생성합니다. 최근 연구에서는 LLM이 생성한 응답에 가장 크게 기여한 문맥의 텍스트 부분을 추적하는 솔루션을 설계했습니다. 이러한 솔루션은 공격 후 포렌식 분석을 수행하거나 LLM 출력의 해석 가능성과 신뢰성을 향상시키는 등 다양한 실제 응용 분야에서 사용될 수 있습니다. 상당한 노력이 기울여졌음에도 불구하고, TracLLM과 같은 최첨단 솔루션은 높은 계산 비용을 초래하는 경우가 많습니다. 예를 들어, TracLLM은 단일 응답-문맥 쌍에 대한 추적을 수행하는 데 수백 초가 소요됩니다. 본 연구에서는 LLM이 프롬프트에 대해 생성한 어텐션 가중치를 기반으로 한 새로운 문맥 추적 방법인 AttnTrace를 제안합니다. 어텐션 가중치를 효과적으로 활용하기 위해, 우리는 AttnTrace의 효율성을 높이기 위해 두 가지 기술을 도입하고, 설계 선택에 대한 이론적 통찰을 제공합니다. 또한 AttnTrace에 대한 체계적인 평가를 수행합니다. 결과는 AttnTrace가 기존의 최첨단 문맥 추적 방법보다 더 정확하고 효율적임을 보여줍니다. 또한 AttnTrace가 긴 문맥에서 프롬프트 주입을 탐지하는 데 있어 최첨단 방법을 개선할 수 있음을 보여줍니다. 실제 응용 사례로, AttnTrace가 LLM 생성 리뷰를 조작하기 위해 설계된 논문에서 주입된 지시를 효과적으로 찾아낼 수 있음을 입증합니다. 코드는 https://github.com/Wang-Yanting/AttnTrace에서 확인할 수 있습니다.
저순위 적응(LoRA)은 대규모 언어 모델(LLM)을 효율적으로 미세 조정하기 위한 표준 도구로 자리 잡았습니다. 그러나 사소한 LoRA 업데이트조차도 얽힌 매개변수 변화를 통해 정렬 드리프트(alignment drift)를 유발하여 안전성과 행동 제약을 약화시킬 수 있습니다. 이를 해결하기 위해, 우리는 미세 조정 중 정렬을 보존하기 위한 원칙적인 프레임워크인 AlignGuard-LoRA(AGL)를 제안합니다. AGL은 감독을 위한 주요 작업 손실, 정렬에 민감한 부분 공간에서의 업데이트를 제한하기 위한 피셔 정보 행렬(Fisher Information Matrix) 기반 정규화, 그리고 새로운 지식의 통합을 안정화하기 위한 작업 특화 정규화 등 여러 핵심 구성 요소를 도입합니다. 또한, 우리는 좌표 간 간섭을 억제하는 리만 중첩(Riemannian overlap)과 분리된 업데이트 기하학을 장려하는 측지 분리(geodesic separation)를 결합한 충돌 인식 정규화(collision-aware regularization)를 소개합니다. 우리는 정렬 드리프트와 안전성 저하를 정량화하기 위해 안전한 프롬프트와 안전하지 않은 프롬프트로 구성된 표적 진단 벤치마크인 DriftCaps를 구축했습니다. 실험 평가 결과, AGL은 하위 작업 성능 저하 없이 안전 관련 벤치마크에서 정렬 드리프트를 최대 50%까지 완화하는 것으로 나타났습니다. 포괄적인 어블레이션(ablation) 연구를 통해 각 구성 요소가 잠재적 안전 행동 보존에 독자적으로 기여함을 확인했습니다. 마지막으로, 우리는 치명적 망각(catastrophic forgetting)에 대한 스케일링 법칙을 도출하고 검증하여, AGL이 적응 역학을 보존하면서 미세 조정 후 손실 상승을 완화함을 보여줍니다. AGL은 LoRA의 구조적으로 근거를 둔 개선으로, 최소한의 트레이드오프로 정렬 보존을 보장합니다. 추가 탐구와 개발을 장려하기 위해 우리는 구현을 오픈소스로 공개합니다.
토큰 수준의 코드 완성은 현대 통합 개발 환경(IDE)에서 가장 중요한 기능 중 하나입니다. 이 기능은 개발자가 코딩 중에 관련 식별자와 API를 제안함으로써 도움을 줍니다. 일반적으로 완성 기능은 정적 분석에서 도출되지만, 그 유용성은 제안 항목이 어떻게 순위가 매겨지는지에 크게 좌우됩니다. 목록 깊숙이 묻힌 정확한 예측은 사용자에게 거의 노출되지 않기 때문입니다. 현재 대부분의 시스템은 수작업으로 만든 휴리스틱이나 사용자 로그를 기반으로 훈련된 경량 머신러닝 모델에 의존하고 있으며, 이러한 방식은 컨텍스트 정보를 포착하고 프로젝트 및 코딩 스타일 전반에 걸쳐 일반화하는 데 있어 더 개선될 여지가 있습니다. 본 연구에서는 언어 모델을 사용하여 정적 완성 항목을 순위 매기는 새로운 점수화 접근 방식을 제안합니다. 이 방법은 모든 유효한 완성 항목을 접두사 트리로 구성하고, 단일 탐욕적 디코딩 과정을 통해 트리 전체에 걸쳐 토큰 수준의 점수를 수집합니다. 이를 통해 빔 서치, 프롬프트 엔지니어링 또는 모델 수정 없이도 정밀한 토큰 인식 순위 매김이 가능합니다. 이 접근 방식은 빠르고, 아키텍처에 구애받지 않으며, 이미 배포된 코드 완성 모델과 호환됩니다. 이러한 연구 결과는 IDE 내 기존 도구에 언어 모델을 통합하고, 궁극적으로 더 스마트하고 반응성이 뛰어난 개발자 지원을 제공하기 위한 실용적이고 효과적인 경로를 강조합니다.
인간의 가치와 일치하도록 미세 조정된 대형 언어 모델(LLMs)은 적대적 프롬프트, 디코딩 변동 또는 패러프레이징된 탈옥(paraphrased jailbreaks)에 노출될 때 정렬 이탈(alignment drift)을 보이며 안전하지 않거나 정책을 위반하는 완성문을 생성하는 경우가 많습니다. 기존 연구에서는 이러한 정렬 실패를 행동적으로 특성화했지만, 이러한 실패의 근본 원인이 되는 훈련 시기의 신념 소스에 대해서는 거의 알려진 바가 없습니다. 본 논문에서는 모델의 훈련 코퍼스에서 안전하지 않은 완성문의 근본 원인을 추적할 수 있는 통합 프레임워크인 TraceAlign을 소개합니다. 우리의 접근법의 핵심은 접미사 배열 매칭(suffix-array matching)을 통해 검색된 훈련 문서를 기반으로 생성된 텍스트 스팬과 정렬된 정책 간의 의미적 불일치를 정량화하는 Belief Conflict Index(BCI)입니다. 우리는 세 가지 상호 보완적인 개입 방안을 제안합니다: (i) 높은 BCI 스팬을 포함하는 완성문을 거부하는 추론 시점 안전 필터인 TraceShield, (ii) DPO(Data Parallel Optimization) 과정에서 높은 BCI 연속문을 벌점 주는 대조적 신념 해소 손실(Contrastive Belief Deconfliction Loss), (iii) 높은 BCI 스팬을 생성할 것으로 예측되는 빔 확장을 거부하는 출처 인식 디코딩 전략인 Prov-Decode. 이러한 방어 기법들은 우리가 제작한 Alignment Drift Benchmark(ADB)에서 정렬 이탈을 최대 85%까지 감소시키면서도 표준 작업에서의 유용성을 유지하며(델타가 0.2 미만), 거부 품질도 개선되었습니다. 또한, 우리는 접미사 배열 스팬 통계를 통해 적대적 재활성화 위험과 기억 빈도 및 길이를 연결하여 이탈 가능성에 대한 이론적 상한을 도출했습니다. 따라서 TraceAlign은 정렬 실패를 근본적으로 이해하고 완화하기 위한 최초의 확장 가능하고 추적 가능하며 근거 기반 툴킷을 제공합니다. 더 나아가 추가 탐구와 개발을 장려하기 위해 우리는 구현 코드를 오픈소스로 공개합니다: https://anonymous.4open.science/r/tracealign-2DA7