번역이 포함된 일일 선별된 AI 연구 논문
Transformer 모델에서의 회전 위치 임베딩(RoPE)은 길이 외삽을 약화시키는 본질적인 한계를 가지고 있다. 우리는 위치 인코딩이 포함된 어텐션 맵을 노이즈가 있는 특징 맵으로 재해석하고, 특징 맵에서 이상 주파수 대역을 탐지하기 위해 절단 행렬 엔트로피를 기반으로 한 학습이 필요 없는 방법인 Denoising Positional Encoding(DoPE)을 제안한다. 특징 맵의 노이즈 특성을 활용하여, 우리는 이를 매개변수가 없는 가우시안 분포로 재매개변수화하여 강력한 외삽을 달성한다. 우리의 방법은 이론적으로 어텐션 싱크 현상의 근본적인 원인과 절단 행렬 엔트로피와의 연결을 밝힌다. 바늘을 찾는 작업과 다수 샷 인-컨텍스트 학습 작업에 대한 실험은 DoPE가 확장된 컨텍스트(최대 64K 토큰)에서 검색 정확도와 추론 안정성을 크게 향상시킴을 보여준다. 결과는 위치 임베딩에 대한 노이즈 제거 전략이 어텐션 싱크를 효과적으로 완화하고 균형 잡힌 어텐션 패턴을 복원하여 길이 일반화를 개선하는 간단하지만 강력한 해결책을 제공함을 보여준다. 우리의 프로젝트 페이지는 https://The-physical-picture-of-LLMs.github.io이다.
통합 멀티모달 모델(UMMs)의 최근 발전으로 시각적 이해 및 생성 분야에서 인상적인 진전이 이루어졌습니다. 그러나 기존 데이터셋과 벤치마크는 주로 단일 턴 상호작용에 초점을 맞추고 있어, 실제 이미지 생성 및 편집의 다중 턴, 맥락 의존적 특성을 제대로 포착하지 못하고 있습니다. 이러한 격차를 해결하기 위해 우리는 맥락 내 교차 모달리티 간 이해와 생성을 위한 최초의 통합 도구인 WEAVE를 소개합니다. 우리의 도구는 상호 보완적인 두 부분으로 구성됩니다. WEAVE-100k는 370,000개 이상의 대화 턴과 500,000개 이상의 이미지를 아우르는 10만 개의 교차 샘플로 구성된 대규모 데이터셋으로, 역사적 맥락에 대한 추론이 필요한 이해, 편집, 생성 작업을 다룹니다. WEAVEBench는 480개 이미지를 기반으로 100개의 작업을 포함하는 인간 주석 벤치마크로, 참조 이미지와 원본 이미지에 편집 지시사항을 결합한 하이브리드 VLM 평가자 프레임워크를 특징으로 하여 다양한 영역에서 모델의 다중 턴 생성, 시각적 기억, 세계 지식 추론 능력을 평가합니다. 실험 결과, WEAVE-100k로 학습을 진행하면 시각 이해, 이미지 편집, 이해-생성 협업 능력이 향상되는 것으로 나타났습니다. 더 나아가 이를 통해 UMMs가 새로운 시각적 기억 능력을 발전시키는 동시에, WEAVEBench에 대한 광범위한 평가를 통해 다중 턴, 맥락 인식 이미지 생성 및 편집 분야에서 현재 접근법이 가진 지속적인 한계와 과제가 드러납니다. 우리는 WEAVE가 멀티모달 커뮤니티를 위한 맥락 내 교차 이해 및 생성 연구에 대한 방향성과 기초를 제공한다고 믿습니다.
가상 너비 네트워크(VWN)는 은닉 크기 증가에 따른 2차 비용 없이 넓은 표현의 이점을 제공하는 프레임워크입니다. VWN은 표현 너비와 백본 너비를 분리하여 임베딩 공간을 확장하면서 백본 계산량은 거의 일정하게 유지합니다. 대규모 실험에서 8배 확장은 다음 토큰 예측 시 최적화 속도를 2배 이상, 다음 2-토큰 예측 시 3배 이상 가속화했습니다. 이러한 이점은 손실 격차가 커짐과 동시에 수렴 가속화 비율이 증가하며 학습 과정에서 점차 확대되어, VWN이 토큰 효율적일 뿐만 아니라 규모에 따라 효과가 증대됨을 보여줍니다. 또한 가상 너비와 손실 감소 사이의 대수-선형적 스케일링 관계를 확인함으로써, 대규모 모델 효율성의 새로운 차원으로서 가상 너비 스케일링 탐구에 대한 실증적 기반과 동기를 제시합니다.
통합 멀티모달 모델(UMMs)의 등장은 인공지능 분야에서 패러다임 전환을 의미하며, 수동적 인식에서 능동적인 교차 모달 생성으로의 전환을 가져왔습니다. 이러한 모델들은 정보를 종합하는 전례 없는 능력을 보여주지만, 평가 측면에서는 중요한 격차가 지속되고 있습니다. 기존 벤치마크는 주로 판별적 이해나 제약 없는 이미지 생성을 개별적으로 평가할 뿐, 생성적 추론의 통합 인지 과정을 측정하지 못합니다. 이러한 격차를 해소하기 위해 우리는 기하학적 구성이 언어 이해와 정밀한 시각적 생성을 본질적으로 요구하므로 이상적인 테스트베드가 될 수 있다고 제안합니다. 우리는 기하학적 생성 추론 능력을 평가하기 위해 특별히 설계된 벤치마크인 GGBench를 소개합니다. GGBench는 모델이 단순히 이해하고 추론하는 능력뿐만 아니라 능동적으로 해결책을 구성하는 능력을 체계적으로 진단할 수 있는 포괄적인 프레임워크를 제공함으로써 차세대 지능형 시스템을 위한 더 엄격한 기준을 제시합니다. 프로젝트 웹사이트: https://opendatalab-raiser.github.io/GGBench/.
사용자 인터페이스(UI) 프로그래밍은 현대 소프트웨어 개발의 핵심이면서도 매우 복잡한 부분입니다. 시각 언어 모델(VLM)의 최근 발전은 자동 UI 코딩의 잠재력을 부각시키지만, 현재의 접근법은 두 가지 주요 한계에 직면해 있습니다: 멀티모달 코딩 능력이 여전히 미흡하고, 단일 턴 패러다임은 반복적인 시각적 피드백을 거의 활용하지 못합니다. 본 연구은 이러한 과제를 실제 작업 흐름을 더 잘 반영하고 달성 가능한 성능의 상한선을 높이는 대화형 UI-to-code 패러다임으로 해결합니다. 이 패러다임 아래에서, 우리는 단계적 사전 학습, 미세 조정, 강화 학습을 통해 훈련되어 멀티모달 코딩에서 근본적인 개선을 이루는 시각 언어 모델 UI2Code^N을 제시합니다. 이 모델은 UI-to-code 생성, UI 편집, UI 다듬기라는 세 가지 핵심 능력을 통합합니다. 우리는 또한 대화형 생성을 위한 테스트 타임 스케일링을 탐구하여 다중 턴 피드백의 체계적인 사용을 가능하게 합니다. UI-to-code 및 UI 다듬기 벤치마크에 대한 실험 결과, UI2Code^N은 오픈소스 모델 중 새로운 최첨단 성능을确立하고 Claude-4-Sonnet 및 GPT-5와 같은 주요 클로즈드소스 모델에 버금가는 성능을 달성함을 보여줍니다. 우리의 코드와 모델은 https://github.com/zai-org/UI2Code_N에서 이용 가능합니다.
비디오 생성 분야의 패러다임이 시각적으로 매력적인 클립 생성에 중점을 두던 것에서, 상호작용을 지원하고 물리적 타당성을 유지하는 가상 환경 구축으로 전환되고 있습니다. 이러한 발전은 비디오 생성 모델이 단순한 시각 생성기를 넘어, 실제 또는 상상된 세계를 지배하는 물리적 역학, 에이전트-환경 상호작용, 작업 계획을 시뮬레이션하는 암묵적 세계 모델로서 기능하는 비디오 파운데이션 모델의 출현을 예고합니다. 본 설문 논문은 이러한 진화를 체계적으로 개관하며, 현대 비디오 파운데이션 모델을 암묵적 세계 모델과 비디오 렌더러라는 두 가지 핵심 구성 요소의 결합으로 개념화합니다. 세계 모델은 물리 법칙, 상호작용 역학, 에이전트 행동을 포함한 세계에 대한 구조화된 지식을 인코딩합니다. 이는 일관된 시각적 추론, 장기간의 시간적 일관성, 목표 주도 계획을 가능하게 하는 잠재 시뮬레이션 엔진 역할을 합니다. 비디오 렌더러는 이 잠재 시뮬레이션을 현실적인 시각 관측치로 변환하여, 시뮬레이션된 세계를 들여다보는 "창"처럼 비디오를 효과적으로 생성합니다. 우리는 비디오 생성의 발전을 4세대에 걸쳐 추적하며, 각 세대별 핵심 역량이 단계적으로 향상되어 궁극적으로 비디오 생성 모델을 기반으로 고유한 물리적 타당성, 실시간 다중 모드 상호작용, 다중 시공간 규모를 아우르는 계획 능력을 구현하는 세계 모델로 진화하는 과정을 살펴봅니다. 각 세대에 대해 우리는 핵심 특성을 정의하고 대표적인 연구를 강조하며, 로보틱스, 자율 주행, 인터랙티브 게임과 같은 적용 분야를 검토합니다. 마지막으로, 에이전트 지능이 이러한 시스템을 형성하고 평가하는 데扮演하는 역할을 포함하여 차세대 세계 모델을 위한 개방형 과제와 설계 원칙에 대해 논의합니다. 관련 연구의 최신 목록은 해당 링크에서 확인할 수 있습니다.
디퓨전 트랜스포머, 특히 비디오 생성 분야에서는 놀라운 품질을 달성하지만 2차 어텐션 복잡도로 인해 지나친 지연 시간이 발생합니다. 기존 가속 방법은 근본적인 절충에 직면해 있습니다. 각 노이즈 제거 단계에서 희소 어텐션 패턴을 동적으로 추정하는 것은 높은 계산 오버헤드와 추정 오류를 초래하는 반면, 정적 희소성 패턴은 노이즈 제거 과정 내내 고정되어 있고 종종 최적이 아닙니다. 우리는 디퓨전 어텐션의 핵심 구조적 특성, 즉 그 희소성 패턴이 노이즈 제거 단계 전반에 걸쳐 강한 시간적 일관성을 보인다는 점을 확인했습니다. 단계 t에서 불필요한 것으로 판단된 타일은 일반적으로 단계 t+δ에서도 그대로 유지됩니다. 이러한 관찰을 활용하여, 우리는 노이즈 제거 시퀀스 전반에 걸친 진화적 계산 생략을 가능하게 하는 시간적 일관성 활용 방법인 LiteAttention을 소개합니다. 불필요한 타일을 조기에 표시하고 생략 결정을 전파함으로써, LiteAttention은 반복적인 프로파일링 오버헤드 없이 중복 어텐션 계산을 제거하여 동적 방법의 적응성과 정적 방법의 효율성을 결합합니다. 우리는 FlashAttention 기반으로 고도로 최적화된 LiteAttention 커널을 구현하고 프로덕션 비디오 디퓨전 모델에서 품질 저하 없이 상당한 속도 향상을 입증합니다. 코드 및 구현 세부 사항은 공개될 예정입니다.
신규 이온성 액체(IL)의 발견은 제한된 데이터, 낮은 모델 정확도, 단편화된 워크플로우 등 물성 예측의 중요한 과제로 인해 지연되고 있다. 우리는 대규모 언어 모델(LLM)의 힘을 활용하여, 우리가 아는 한 최초의 IL 발견용 LLM 에이전트인 AIonopedia를 소개한다. LLM 기반 다중 모드 IL 도메인 파운데이션 모델을 기반으로 하는 AIonopedia는 정확한 물성 예측을 가능하게 하며, 분자 스크리닝 및 설계를 위한 계층적 탐색 구조를 통합하였다. 새롭게 구축된 포괄적인 IL 데이터셋으로 훈련 및 평가된 우리 모델은 우수한 성능을 보여준다. 이러한 결과를 보완하기 위해 문헌에 보고된 시스템에 대한 평가는 해당 에이전트가 효과적인 IL 변형을 수행할 수 있음을 시사한다. 오프라인 테스트를 넘어, 실제 실험실 검증을 통해 실용적인 효용이 추가로 확인되었으며, 에이전트는 어려운 분포 외 작업에서도 탁월한 일반화 능력을 입증하여 실제 IL 발견 과정을 가속화할 수 있는 능력을 강조하였다.
멀티모달 대규모 언어 모델(MLLM)은 시각-언어 과제에서 놀라운 발전을 이루었으나 공간 이해에는 여전히 어려움을 겪고 있습니다. 기존 공간 MLLM은 명시적인 3D 입력이나 아키텍처 특화 수정에 의존하는 경우가 많으며, 대규모 데이터셋이나 희소한 지도 학습에 의해 제약을 받습니다. 이러한 한계를 해결하기 위해 우리는 구조화된 공간 기반과 다단계 추론을 통합하도록 RL로 훈련된 3D 인식 MLLM인 SpatialThinker를 소개합니다. 이 모델은 작업 관련 객체와 공간 관계의 장면 그래프를 구성하고, 밀집된 공간 보상을 통해 답변을 추론함으로써 인간과 유사한 공간 인식을 모방합니다. SpatialThinker는 두 가지 핵심 기여로 구성됩니다: (1) 고품질 공간 VQA 데이터셋인 STVQA-7K를 생성하는 데이터 합성 파이프라인, (2) 공간 기반을 강화하는 다중 목적 밀집 공간 보상을 활용한 온라인 RL. SpatialThinker-7B는 공간 이해 및 실제 VQA 벤치마크에서 지도 미세 조정 및 희소 RL 기준선을 능가하며, 희소 RL 대비 기본 모델 성능 향상치를 거의 두 배로 높이고 GPT-4o를 추월했습니다. 이러한 결과는 제한된 데이터로 강력한 3D 공간 이해를 가능하게 하고 인간 수준의 시각 추론을 향해 MLLM을 발전시키는 데 있어 공간 지도 학습과 보상 정렬 추론의 결합 효과를 입증합니다.
대규모 언어 모델(LLM)의 최근 발전은 검증 가능한 보상 강화 학습(RLVR)과 테스트 시간 스케일링에 의해 주도되어 왔습니다. 그러나 LLM의 제한된 출력 길이는 단일 추론 과정에서 달성 가능한 추론의 깊을 제약합니다. 다중 에이전트 추론 시스템은 Solver, Verifier, Corrector 등 여러 에이전트를 활용하여 해결책을 반복적으로 개선하는 유망한 대안을 제공합니다. Gemini 2.5 Pro와 같은 폐쇄형 모델에서는 효과적이지만, 비판 및 수정 능력이 부족하여 오픈소스 모델로의 일반화에는 어려움을 겪고 있습니다. 이를 해결하기 위해 우리는 시스템 내 모든 에이전트를 공동으로 최적화하도록 설계된, 에이전트 파이프라인 병렬 처리를 갖춘 새로운 강화 학습 프레임워크인 MarsRL을 제안합니다. MarsRL은 보상 노이즈를 완화하기 위해 에이전트별 보상 메커니즘을 도입하고, 긴 궤적 처리의 효율성을 높이기 위해 파이프라인 기반 훈련을 활용합니다. Qwen3-30B-A3B-Thinking-2507에 적용된 MarsRL은 AIME2025 정확도를 86.5%에서 93.3%로, BeyondAIME 정확도를 64.9%에서 73.8%로 향상시켜 Qwen3-235B-A22B-Thinking-2507을 능가하기도 했습니다. 이러한 결과는 MarsRL이 다중 에이전트 추론 시스템을 발전시키고 다양한 추론 과제에 대한 적용 범위를 확장할 잠재력이 있음을 보여줍니다.
오픈 보커블러리 검출기는 COCO 데이터셋에서 인상적인 성능을 달성하지만, 일반적으로 사전 학습에 포함되지 않는 분포 외 클래스가 포함된 실제 세계 데이터셋으로의 일반화에는 종종 실패합니다. 대규모 시각-언어 모델(VLM)을 새로운 도메인에 대해 단순히 미세 조정하는 대신, 본 논문에서는 가중치 공유 신경망 구조 탐색(NAS)을 통해 대상 데이터셋에 대한 정확도-지연 시간 파레토 곡선을 발견하는 경량 전문 검출 변환기인 RF-DETR을 소개합니다. 우리의 접근 방식은 사전 학습된 기본 네트워크를 대상 데이터셋에 대해 미세 조정하고, 재학습 없이 다양한 정확도-지연 시간 절충점을 가진 수천 가지 네트워크 구성을 평가합니다. 더 나아가, NAS를 위한 "조정 가능한 파라미터"를 재검토하여 DETR의 다양한 대상 도메인으로의 전이 가능성을 향상시킵니다. 특히, RF-DETR은 COCO 및 Roboflow100-VL에서 기존 최첨단 실시간 방법론들을 크게 개선합니다. RF-DETR (nano)은 COCO에서 48.0 AP를 달성하여 유사한 지연 시간 대비 D-FINE (nano)보다 5.3 AP 높은 성능을 보였으며, RF-DETR (2x-large)은 Roboflow100-VL에서 GroundingDINO (tiny)보다 1.2 AP 높은 성능을 보이면서 20배 빠른 속도로 실행됩니다. 우리가 알고 있는 바에 따르면, RF-DETR (2x-large)은 COCO에서 60 AP를 넘어서는 최초의 실시간 검출기입니다. 우리의 코드는 https://github.com/roboflow/rf-detr 에 있습니다.
청각 장애인들의 일상적 의사소통을 위한 통합적이고 유연한 솔루션을 제공하기 위해, 우리는 보조 기술에 Omni-Model 패러다임을 도입하고 지시 기반 오디오-비주얼 개인 비서인 HI-TransPA를 제안한다. 본 모델은 불분명한 음성과 고프레임율의 입술 동역학을 융합하여 단일 다중모달 프레임워크 내에서 번역과 대화를 모두 가능하게 한다. 잡음이 많고 이질적인 원시 데이터의 도전 과제와 기존 Omni-Model이 청각 장애인 음성에 대한 적응성이 제한적인 문제를 해결하기 위해, 우리는 얼굴 특징점을 감지하고 입술 영역을 분리 및 안정화하며 다중모달 샘플 품질을 정량적으로 평가하는 포괄적인 전처리 및 정제 파이프라인을 구축하였다. 이러한 품질 점수는 깨끗하고 높은 신뢰도를 가진 샘플로 먼저 학습을 시작하여 점차 더 어려운 사례를 포함시켜 모델의 강건성을 강화하는 교과 과정 학습 전략을 안내한다. 또한 SigLIP 인코더와 Unified 3D-Resampler를 결합하여 고프레임율 입술 움직임을 효율적으로 인코딩한다. 목적에 맞게 구축한 HI-Dialogue 데이터셋에서의 실험 결과, HI-TransPA는 문자적 정확도와 의미적 정확도 모두에서 최첨단 성능을 달성함을 보여준다. 본 연구는 Omni-Model을 보조 의사소통 기술에 적용하는 기초를 마련함으로써, 종단간 모델링 프레임워크와 향후 연구를 위한 필수 처리 도구를 제공한다.
정확도 이상의 목표(다양성, 신선도, 개인화 등)를 위해 추천 시스템을 최적화하는 것은 장기적인 사용자 만족도에 매우 중요합니다. 이를 위해 산업계 실무자들은 방대한 양의 구조화된 도메인 지식, 즉 인간 사전 지식(예: 아이템 분류 체계, 시간적 패턴)을 축적해 왔습니다. 이러한 지식은 일반적으로 랭킹 또는 포스트-랭킹 과정에서 사후 조정을 통해 적용됩니다. 그러나 이 접근법은 핵심 모델 학습과 분리되어 있으며, 특히 산업이 종단간 생성형 추천 기초 모델로 전환됨에 있어 바람직하지 않습니다. 한편, 정확도 이상의 목표를 다루는 많은 방법론은 아키텍처 특정 수정이 필요하며, 가치 있는 이러한 인간 사전 지식을 버리고 완전히 비지도 방식으로 사용자 의도를 학습합니다. 수년 간의 실무를 통해 축적된 인간 사전 지식을 버리는 대신, 우리는 이러한 지식을 생성형 추천기의 종단간 학습에 직접적으로 원활하게 통합하는 백본-불가지론적 프레임워크를 소개합니다. 효율적인 LLM 디코딩 전략에서 영감을 받은 경량의 사전 지식 조건부 어댑터 헤드를 통해, 우리의 접근법은 모델이 인간이 이해 가능한 축(예: 상호작용 유형, 장기적 대 단기적 관심사)을 따라 사용자 의도를 분리하도록 유도합니다. 또한 서로 다른 사전 지식 유형 간의 복잡한 상호작용을 모델링하기 위한 계층적 구성 전략을 도입합니다. 3개의 대규모 데이터셋에 대한 폭넓은 실험을 통해 우리의 방법이 정확도와 정확도 이상의 목표 모두를 크게 향상시킴을 입증합니다. 또한 인간 사전 지식이 백본 모델이 더 긴 컨텍스트 길이와 더 큰 모델 크기를 더 효과적으로 활용할 수 있게 한다는 것을 보여줍니다.
전문 분야의 담화 수준 번역 평가는 지식 확산과 학제적 학술 소통에 핵심적임에도 불구하고 여전히 미흡한 실정이다. 이러한 번역은 담화 수준의 응집성과 엄격한 용어 정확성을 요구함에도 불구하고, 현재의 평가 방법은 주로 단문 수준의 정확성과 유창성에 집중하고 있다. 이러한 한계를 해결하기 위해 우리는 담화 수준 및 전문 수준의 중영 번역을 위한 새로운 벤치마크인 DiscoX를 소개한다. 이는 7개 분야에서 전문적으로 선별된 200개의 텍스트로 구성되며 평균 길이가 1700토큰을 초과한다. DiscoX의 성능을 평가하기 위해 우리는 정확성, 유창성, 적절성에 걸친 세분화된 자동 평가를 제공하는 참조 없는 시스템인 Metric-S도 개발했다. Metric-S는 인간 평가와 강력한 일관성을 보여주며 기존 평가 지표를 크게 능가한다. 우리의 실험은 주목할 만한 성능 격차를 드러낸다: 가장 진보된 대규모 언어 모델조차도 이러한 과제에서 인간 전문가에 미치지 못하는 것으로 나타났다. 이 발견은 DiscoX의 난이도를 입증하고 전문가 수준 기계 번역 달성에 남아 있는 과제를 강조한다. 제안된 벤치마크와 평가 시스템은 더 엄격한 평가를 위한 견고한 프레임워크를 제공하며, 대규모 언어 모델 기반 번역의 미래 발전을 촉진할 것이다.
에이전트형 AI 시스템이 훈련 후 상호작용을 기반으로 문제 해결 접근법을 적응적으로 조정할 수 있도록 하는 것은 여전히 근본적인 과제로 남아 있습니다. 추론 시점에 메모리를 갱신하고 유지하는 시스템이 제안되었으나, 기존 설계는 언어 모델이나 에이전트에 대한 텍스트 입력을 수정하는 방식으로만 시스템을 조종하므로 샘플링 매개변수 변경, 도구 제거, 시스템 프롬프트 수정, 에이전트형 및 워크플로우 패러다임 간 전환이 불가능합니다. 반면, 더 유연하게 적응하는 시스템은 오프라인 최적화가 필요하며 일단 배포되면 정적으로 유지됩니다. 본 논문에서는 축적된 경험을 바탕으로 추론 시점에 동적으로 맞춤형 전략(LLM 호출, 도구, 샘플링 매개변수, 제어 논리를 포함한 완전한 계산 절차)을 생성하는 Experience-Guided Reasoner(EGuR)를 제안합니다. 이는 전략 구성 요소(프롬프트, 샘플링 매개변수, 도구 구성, 제어 논리) 전체의 적응을 가능하게 하는 LLM 기반 메타 전략(전략을 출력하는 전략)을 통해 구현됩니다. EGuR은 두 가지 구성 요소로 운영됩니다: Guide는 현재 문제와 구조화된 과거 경험 메모리를 조건으로 여러 후보 전략을 생성하고, Consolidator는 실행 피드백을 통합하여 향후 전략 생성을 개선합니다. 이를 통해 각 문제에 최적화된 완전한 실행 준비된 전략이 생성되며, 이는 필요에 따라 캐시, 검색, 실행되어 자원 낭비 없이 활용될 수 있습니다. 5개의 도전적인 벤치마크(AIME 2025, 3-SAT, 세 가지 Big Bench Extra Hard 작업)에서 EGuR은 가장 강력한 기준 시스템 대비 최대 14%의 정확도 향상을 달성하면서 계산 비용을 최대 111배 절감하였으며, 두 지표 모두 시스템이 경험을 축적함에 따라 지속적으로 개선되었습니다.
감정은 영상 기반 표현에서 핵심적인 역할을 하지만, 기존 영상 생성 시스템은 주로 저수준 시각적 지표에 집중하고 감정적 차원을 소홀히 하는 경향이 있습니다. 비록 감정 분석이 시각 영역에서 진전을 이루었으나, 영상 커뮤니티에서는 감정 이해와 생성 작업을 연결하기 위한 전용 자원이 부족한 실정이며, 특히 스타일화된 비사실적 맥락에서 더욱 그러합니다. 이러한 격차를 해소하기 위해 우리는 창의적 미디어(만화 애니메이션, 영화 클립, 애니메이션 스티커)를 위해 특별히 설계된 최초의 다중모달 감정 주석 영상 데이터셋인 EmoVid를 소개합니다. 각 영상은 감정 라벨, 시각적 속도(밝기, 색채도, 색상), 텍스트 캡션으로 주석이 달려 있습니다. 체계적인 분석을 통해 우리는 다양한 영상 형태에 걸쳐 시각적 특징과 감정적 인식을 연결하는 공간적 및 시간적 패턴을 발견했습니다. 이러한 통찰을 바탕으로 우리는 Wan2.1 모델을 미세 조정하여 감정 조건부 영상 생성 기법을 개발했습니다. 결과는 텍스트-투-비디오 및 이미지-투-비디오 작업에서 생성된 영상의 정량적 지표와 시각적 품질 모두에서 상당한 향상을 보여줍니다. EmoVid는 감정 영상 컴퓨팅을 위한 새로운 벤치마크를 확립합니다. 우리의 작업은 예술적으로 스타일링된 영상에서의 시각적 감정 분석에 대한 가치 있는 통찰을 제공할 뿐만 아니라, 영상 생성에서 감정 표현을 향상시키기 위한 실용적인 방법을 제시합니다.
도구 강화 언어 모델(TaLMs)은 매개변수적 능력을 넘어서는 문제를 해결하기 위해 외부 도구를 호출할 수 있습니다. 그러나 이러한 도구 활용으로 인한 성능 향상이 신뢰할 수 있는 추론을 반영하는지 여부는 여전히 불분명합니다. 본 연구는 코드 인터프리터 도구에 집중하여, 도구가 정확하게 선택되고 실행되는 경우에도 TaLMs가 도구 출력을 추론의 대체물로 취급하여 겉보기에 정확하지만 일관된 근거가 부족한 해결책을 도출함을 보여줍니다. 우리는 이러한 실패 모드를 도구 유발 근시(TIM)라고 명명하고, Python 코드가 유용하지만 충분하지 않은 1,679개의 경쟁 수준 수학 문제로 구성된 벤치마크인 PYMATH를 사용하여 이를 연구합니다. 또한 도구를 사용하지 않는 대조군 대비 TaLMs의 추론 성능 저하를 정량화하기 위한 다차원 평가 체계를 개발했습니다. 우리의 연구 결과에 따르면, TaLMs는 최종 정답 정확도에서 최대 19.3% 포인트의 향상을 달성하지만, 그 추론 행동은 지속적으로 저하됩니다(예: 추론 과정에 대한 pairwise 비교에서 도구를 사용하지 않는 LLMs가 최대 41.5% 더 많이 우승함). 이러한 저하는 도구 사용과 함께 심화됩니다. 모델이 도구를 더 자주 호출할수록 그 추론의 일관성은 더욱 떨어집니다. 더욱이 도구 사용은 오류를 산술적 실수에서 전역적 추론 실패(논리, 가정, 창의성)로 전이시키며, TIM은 약 55%의 고위험 사례에서 나타납니다. 마지막으로, 우리는 TaLMs가 도구를 보조 증거로 사용하도록 재조정하여 도구 사용 하에서 최종 정답 정확도와 추론 깊이를 모두 개선하는 선호 최적화 기반 프레임워크를 제안합니다. 코드와 데이터는 https://github.com/megagonlabs/TIM에서 이용 가능합니다.
과학적 아이디어 생성은 과학적 발견의 핵심에 있으며, 해결되지 않은 문제를 풀거나 알려지지 않은 현상을 설명하기 위한 새로운 가설을 제안함으로써 인간의 진보를 이끌어왔습니다. 표준적인 과학적 추론이나 일반적인 창의적 생성과 달리, 과학에서의 아이디어 생성은 다중 목표를 가지며 개방형 과제로서, 기여의 신규성은 경험적 타당성만큼 중요합니다. 대규모 언어 모델(LLM)은 최근 놀라운 직관과 수용 가능한 추론으로 일관적이고 사실적인 결과를 생산할 수 있는 유망한 과학적 아이디어 생성기로 부상했으나, 그 창의적 능력은 여전히 불일치하며 제대로 이해되지 않고 있습니다. 본 종설은 LLM 기반 과학적 아이덴테이션 방법론을 구조적으로 종합하여 다양한 접근법이 창의성과 과학적 타당성을 어떻게 균형 있게 조절하는지 검토합니다. 우리는 기존 방법론을 상호 보완적인 다섯 가지 패밀리로 분류합니다: 외부 지식 증강, 프롬프트 기반 분포 조정, 추론 시점 스케일링, 다중 에이전트 협업, 그리고 매개변수 수준 적응. 이들의 기여를 해석하기 위해 우리는 두 가지 상보적인 프레임워크를 활용합니다: 각 패밀리가 생성할 것으로 기대되는 아이디어의 수준을 규정하기 위한 Boden의 조합적, 탐험적, 변혁적 창의성 분류법, 그리고 각 방법이 강조하는 창의성의 측면이나 원천을 파악하기 위한 Rhodes의 4P(개인, 과정, 환경, 결과) 프레임워크입니다. 방법론적 발전과 창의성 프레임워크를 연계함으로써, 본 종설은 해당 분야의 현황을 명확히 하고 과학적 발견에서 LLM의 신뢰할 수 있고 체계적이며 변혁적인 적용을 위한 주요 방향을 제시합니다.
우리는 miniF2F 벤치마크의 형식적·비형식적 명제들을 miniF2F 문제들로 구성된 수학 올림피아드에 참가하는 임무를 부여받은 AI 시스템의 관점에서 철저히 분석합니다. 이러한 설정에서 모델은 자연어로 된 문제를 읽고 이해한 후, Lean 언어로 형식화하고, 문제를 증명해야 하며, 형식적 증명이 모델에 제시된 원본 비형식적 명제와 일치할 경우 각 문제에 대해 점수를 인정받습니다. 우리의 평가 결과에 따르면, 이러한 파이프라인의 최고 정확도는 문헌에 보고된 최첨단(SoTA) 모델을 사용할 경우 약 36%로, 자동 형식화 및 정리 증명 분야 문헌에서 보고된 개별 SoTA 정확도인 97%와 69%보다 상당히 낮습니다. 실패 유형을 분석한 결과, 이러한 정확도 하락의 상당 부분이 miniF2F 문제의 절반 이상에서 발생하는 형식적 명제와 비형식적 명제 간의 불일치에 기인함을 확인했습니다. 우리는 형식적 및 비형식적 명제의 모든 오류, 불일치 및 단순화를 수정하고, 완전히 검증된 형식적·비형식적 명제와 증명을 갖춘 miniF2F-v2를 제시합니다. miniF2F-v2에 대한 전체 정리 증명 파이프라인을 평가한 결과, 최고 정확도는 70%로, 원본 miniF2F의 40%에서 크게 향상되었으나, 이는 자동 형식화 모델과 정리 증명기 간의 상당한 불일치가 여전히 존재함을 나타냅니다. 우리의 심층 분석은 더 높은 품질의 벤치마크가 형식적 추론 분야의 진전을 더 잘 평가하고, 자동 형식화 및 정리 증명 모델의 실패와 성공 유형을 더 잘 진단하는 데 커뮤니티에 도움을 줄 수 있음을 시사합니다. 우리의 데이터셋은 https://github.com/roozbeh-yz/miniF2F_v2에서 이용할 수 있습니다.
본 논문은 현대 워크로드 스케줄러의 범주화에 대한 새로운 접근법을 제시한다. 운영체제 프로세스 스케줄러, 클러스터 시스템 작업 스케줄러, 빅데이터 스케줄러라는 세 가지 유형의 스케줄러에 대한 설명을 제공한다. 초기 도입 단계부터 현대적 구현까지 알고리즘의 활용과 기능을 고려하여 이들의 발전 과정을 서술한다. 요약에서는 제시된 모든 스케줄러 유형 간의 차이점을 논의하고 시대별 발전 과정을 고찰한다. 결론에서는 로컬 시스템과 분산 시스템 모두에 적용 가능한 스케줄링 전략 설계의 초점이 유사함을 강조한다.
웹에서 자율적 AI 에이전트의 활용이 확대되는 데는 근본적인 부조음이 걸림돌로 작용합니다: 에이전트가 인간 중심 사용자 인터페이스로부터 어포던스를 추론해야 하므로, 취약하고 비효율적이며 불안전한 상호작용이 발생합니다. 이를 해결하기 위해 우리는 VOIX를 소개합니다. VOIX는 웹 사이트가 간단하고 선언적인 HTML 요소를 통해 AI 에이전트를 위해 신뢰할 수 있고, 감사 가능하며, 개인정보를 보존하는 기능을 노출할 수 있게 하는 웹 네이티브 프레임워크입니다. VOIX는 `<tool>` 및 `<context>` 태그를 도입하여 개발자가 이용 가능한 작업과 관련 상태를 명시적으로 정의함으로써 에이전트 동작을 위한 명확하고 기계가 읽을 수 있는 계약을 생성합니다. 이 접근 방식은 대화형 상호작용을 웹사이트와 분리함으로써 사용자 개인정보를 보호하면서도 제어권을 웹사이트 개발자에게 이양합니다. 우리는 16명의 개발자를 대상으로 3일간의 해커톤 연구를 통해 이 프레임워크의 실용성, 학습 용이성 및 표현력을 평가했습니다. 결과는 사전 경험과 관계없이 참가자들이 다양한 기능성 에이전트 기반 웹 애플리케이션을 빠르게 구축할 수 있음을 보여줍니다. 궁극적으로, 이 작업은 에이전트 중심 웹(Agentic Web)을 실현하기 위한 기초 메커니즘을 제공하며, 웹에서 원활하고 안전한 인간-AI 협업의 미래를 가능하게 합니다.
본 논문은 노드 과부하를 방지하고 최소 비용으로 시스템 안정성을 유지하며 클라우드 시스템에 서비스를 할당하는 전략을 제시한다. 여기에는 다양한 유형의 자원과 서비스 마이그레이션 비용에 대한 고려를 포함한 클라우드 자원 활용의 추상적 모델을 명시한다. 프로토타입 메타 휴리스틱 로드 밸런서를 시연하고 실험 결과를 제시하며 논의한다. 또한 다른 메타 휴리스틱 알고리즘들의 출력 결과로 개체군을 초기화하는 새로운 유전자 알고리즘을 제안한다.
차량 간 협력 인식(V2V cooperative perception)은 복잡한 악천후 교통 시나리오(CATS)에서의 인식 한계를 극복함으로써 자율 주행 성능을 향상시킬 큰 잠재력을 지니고 있습니다. 한편 데이터는 현대 자율 주행 AI의 기반 인프라 역할을 합니다. 그러나 엄격한 데이터 수집 요구 사항으로 인해 기존 데이터셋은 주로 일반적인 교통 시나리오에 집중되어 있어 협력 인식의 이점을 제한하고 있습니다. 이러한 문제를 해결하기 위해 우리는 복잡한 악천후 교통 시나리오에서 V2V 협력 인식을 위한 최초의 실제 환경 데이터셋인 CATS-V2V를 소개합니다. 이 데이터셋은 하드웨어적으로 시간 동기화된 두 대의 차량으로 수집되었으며, 10개 다양한 지역에서 10가지 기상 및 조도 조건을 포괄합니다. 100개 클립으로 구성된 데이터셋에는 10Hz LiDAR 포인트 클라우드 60,000프레임과 1.26백만 개의 다중 뷰 30Hz 카메라 이미지, 그리고 75만 개의 익명화되었으나 고정밀 RTK GNSS 및 IMU 기록이 포함되어 있습니다. 이에 상응하여 우리는 객체에 대한 시간 일관적 3D 바운딩 박스 주석과 정적 장면 정보를 제공하여 4D BEV 표현을 구성합니다. 이를 바탕으로 우리는 객체 기반 시간 정렬 방법을 제안하여 모든 센서 모달리티에서 모든 객체가 정확하게 정렬되도록 보장합니다. 우리는 현재까지 동종 최대 규모이자 가장 포괄적이며 최고 품질의 데이터셋인 CATS-V2V가 관련 업계의 자율 주행 과제에 기여하기를 바랍니다.