번역이 포함된 일일 선별된 AI 연구 논문
우리는 번역 후 튜닝 파이프라인을 통해 구축한 아랍어 중심의 명령어 및 번역 모델 패밀리인 Hala를 소개합니다. 먼저 강력한 AR↔EN 교사 모델을 FP8로 압축하여(품질 손실 없이 처리량을 약 2배 증가시킴) 고품질의 이중 언어 감독 데이터를 생성합니다. 이후 경량 언어 모델인 LFM2-1.2B를 이 데이터에 미세 조정하여 고품질 영어 명령어 세트를 아랍어로 번역하고, 명령어 수행에 적합한 백만 규모의 코퍼스를 제작합니다. 우리는 350M, 700M, 1.2B, 9B 파라미터 규모의 Hala 모델을 학습시키고, 아랍어 특화와 기본 모델의 강점을 균형 있게 조화시키기 위해 slerp 병합을 적용합니다. 아랍어 중심 벤치마크에서 Hala는 "나노"(≤2B) 및 "스몰"(7-9B) 카테고리 모두에서 최첨단 성능을 달성하며, 기본 모델들을 능가합니다. 아랍어 NLP 연구를 가속화하기 위해 모델, 데이터, 평가 방법 및 레시피를 공개합니다.
우리는 포괄적인 멀티모달 이해와 추론을 위한 오픈-슈트 비전-언어 기반 모델(SAIL-VL2)을 소개합니다. SAIL-VL의 후속 모델인 SAIL-VL2는 2B와 8B 파라미터 규모에서 다양한 이미지 및 비디오 벤치마크에서 최첨단 성능을 달성하며, 세밀한 인식부터 복잡한 추론에 이르는 강력한 능력을 입증했습니다. 이 모델의 효과성은 세 가지 핵심 혁신에 의해 주도됩니다. 첫째, 캡셔닝, OCR, QA, 비디오 데이터에 걸친 대규모 데이터 큐레이션 파이프라인과 점수화 및 필터링 전략은 품질과 분포를 모두 향상시켜 훈련 효율성을 개선합니다. 둘째, 강력한 사전 훈련된 비전 인코더(SAIL-ViT)로 시작하여 멀티모달 사전 훈련을 거쳐, 모델 능력을 체계적으로 강화하는 사고-융합 SFT-RL 하이브리드 패러다임으로 이어지는 점진적 훈련 프레임워크를 채택했습니다. 셋째, 밀집 LLM을 넘어 효율적인 희소 Mixture-of-Experts(MoE) 설계로 아키텍처를 확장했습니다. 이러한 기여를 통해 SAIL-VL2는 106개의 데이터셋에서 경쟁력 있는 성능을 보여주며, MMMU 및 MathVista와 같은 도전적인 추론 벤치마크에서 최첨단 결과를 달성했습니다. 또한, OpenCompass 리더보드에서 SAIL-VL2-2B는 4B 파라미터 규모 이하의 공식 출시된 오픈소스 모델 중 1위를 차지하며, 오픈소스 멀티모달 커뮤니티를 위한 효율적이고 확장 가능한 기반으로서의 역할을 수행하고 있습니다.
전방위 시각(Omnidirectional Vision)은 360도 시야를 활용해 환경을 이해하는 기술로, 로봇공학, 산업 검사, 환경 모니터링 등 다양한 분야에서 점점 더 중요한 역할을 하고 있습니다. 기존의 핀홀 시각(Pinhole Vision)과 비교할 때, 전방위 시각은 환경에 대한 전체적인 인식을 제공함으로써 장면 인식의 완전성과 의사결정의 신뢰성을 크게 향상시킵니다. 그러나 이 분야의 기초 연구는 역사적으로 전통적인 핀홀 시각에 비해 뒤처져 왔습니다. 이 발표는 체화된 AI(Embodied AI) 시대의 새로운 트렌드인 전방위 시각의 급속한 발전을 소개합니다. 이는 산업적 수요와 학문적 관심의 증가에 의해 주도되고 있습니다. 우리는 최근의 전방위 생성(Omnidirectional Generation), 전방위 인지(Omnidirectional Perception), 전방위 이해(Omnidirectional Understanding) 및 관련 데이터셋 분야에서의 획기적인 발전을 강조합니다. 학계와 산업계의 통찰을 바탕으로, 체화된 AI 시대의 이상적인 파노라마 시스템 아키텍처인 PANORAMA를 제안합니다. 이는 네 가지 핵심 하위 시스템으로 구성됩니다. 또한, 파노라마 시각과 체화된 AI의 교차점에서 나타나는 새로운 트렌드와 커뮤니티 간의 영향에 대한 심층적인 의견과 함께, 미래 로드맵과 해결 과제를 제시합니다. 이 개요는 최첨단 발전을 종합하고, 체화된 AI 시대에 강력하고 범용적인 전방위 AI 시스템을 구축하기 위한 미래 연구의 도전과 기회를 제시합니다.
시험은 전문가 수준의 지능을 평가하는 근본적인 도구로서, 통합적 이해, 추론 및 생성 능력을 요구합니다. 기존의 시험 스타일 벤치마크는 주로 이해와 추론 과제에 초점을 맞추고 있으며, 현재의 생성 벤치마크는 세계 지식과 시각적 개념의 설명을 강조하면서 엄격한 그림 시험 평가를 소홀히 하고 있습니다. 우리는 다학제적 텍스트-이미지 시험을 위한 첫 번째 벤치마크인 GenExam을 소개합니다. GenExam은 10개 학문 분야에 걸쳐 1,000개의 샘플을 포함하며, 4단계 분류 체계로 구성된 시험 스타일 프롬프트를 제공합니다. 각 문제는 정답 이미지와 세밀한 채점 기준을 갖추어 의미적 정확성과 시각적 타당성을 정밀하게 평가할 수 있도록 합니다. 실험 결과, GPT-Image-1 및 Gemini-2.5-Flash-Image와 같은 최첨단 모델조차도 15% 미만의 엄격한 점수를 달성하며, 대부분의 모델은 거의 0%에 가까운 점수를 보여 우리 벤치마크의 큰 도전 과제를 시사합니다. 이미지 생성을 시험으로 프레임화함으로써, GenExam은 모델의 지식 통합, 추론 및 생성 능력을 엄격하게 평가하며, 일반적인 AGI(인공 일반 지능)로 나아가는 길에 대한 통찰을 제공합니다.
코드 언어 모델(CLM)은 코드 생성 및 요약과 같은 소프트웨어 엔지니어링 작업에서 우수한 성능을 보여왔지만, 최근의 실증 연구는 중요한 프라이버시 취약점을 드러냈습니다: 이러한 모델들은 학습 데이터 중 민감한 정보를 의도치 않게 암기하여, 특정 프롬프트가 주어졌을 때 기밀 정보를 그대로 재현할 수 있습니다. 이 문제를 해결하기 위해 학습 데이터 중복 제거 및 차등 프라이버시 강화와 같은 여러 접근 방식이 제안되었습니다. 그러나 이러한 방법들은 배포된 CLM에 대해 전체 모델 재학습을 요구하며, 이는 상당한 계산 비용을 초래합니다. 본 논문에서는 다음과 같은 연구 질문에 답하고자 합니다: CLM이 암기한 민감한 정보를 효과적이고 효율적으로 삭제할 수 있는가? 우리는 머신 언러닝(machine unlearning)을 통해 CLM 내의 민감한 암기 정보를 삭제하는 선구적인 연구를 수행합니다. 머신 언러닝은 학습된 모델에서 특정 정보를 제거하기 위해 전체 재학습 없이 사후 수정을 적용하는 방법입니다. 구체적으로, 우리는 먼저 CLM 학습 데이터셋 내의 민감한 데이터에 대한 암기 위험을 정량화하고, 50,000개의 고위험 암기 샘플로 구성된 데이터셋을 언러닝 대상으로 선별합니다. 우리는 널리 사용되는 두 가지 경사 상승 기반 언러닝 접근 방식(기본 방법과 제약 기반 방법)을 연구하고, 주변 코드의 구조적 무결성과 기능적 정확성을 유지하면서 코드 내의 민감한 암기 세그먼트를 선택적으로 언러닝하는 고급 변형인 CodeEraser를 소개합니다. CodeParrot, CodeGen-Mono, Qwen2.5-Coder 등 세 가지 CLM 계열에 대한 광범위한 실험을 통해, CodeEraser가 목표로 하는 민감한 암기 정보를 효과적이고 효율적으로 삭제하면서도 모델의 유용성을 유지하는 것을 검증합니다.
대규모 언어 모델(LLM) 기반 에이전트의 최근 발전은 복잡한 정보 탐색 및 통합 작업에서 우수한 성능을 보이는 심층 연구 시스템을 통해 여러 분야에 걸쳐 인상적인 역량을 보여주고 있습니다. 범용 심층 연구 에이전트는 인상적인 능력을 보여주었지만, 주요 독점 시스템이 복잡한 의료 벤치마크에서 제한된 정확도를 보이는 것에서 알 수 있듯이 의료 분야의 도전 과제에는 상당한 어려움을 겪고 있습니다. 주요 한계점은 다음과 같습니다: (1) 모델이 임상 추론을 위한 충분한 밀집 의료 지식을 갖추지 못했고, (2) 의료 맥락에 맞춤화된 전문 검색 도구의 부재로 프레임워크가 제약을 받고 있습니다. 우리는 이러한 과제를 해결하기 위해 두 가지 핵심 혁신을 통해 의료 심층 연구 에이전트를 제시합니다. 첫째, 의료 지식 그래프를 사용한 새로운 데이터 합성 프레임워크를 개발하여 희귀 의료 개체 주변의 하위 그래프에서 가장 긴 체인을 추출하여 복잡한 다중 홉 질문-답변 쌍을 생성합니다. 둘째, 범용 도구와 함께 맞춤형 개인 의료 검색 엔진을 통합하여 정확한 의료 정보 통합을 가능하게 합니다. 우리의 접근 방식은 12개의 의료 전문 분야에 걸쳐 2100개 이상의 다양한 트래젝토리를 생성하며, 각각 평균 4.2개의 도구 상호작용을 포함합니다. 지도 미세 조정과 복합 보상을 통한 온라인 강화 학습을 결합한 두 단계 훈련 패러다임을 통해, 우리의 MedResearcher-R1-32B 모델은 의료 벤치마크에서 새로운 최첨단 결과를 달성하면서도 일반 심층 연구 작업에서도 경쟁력 있는 성능을 유지합니다. 우리의 작업은 아키텍처, 도구 설계, 훈련 데이터 구축에서의 전략적인 도메인 특화 혁신이 더 작은 오픈소스 모델이 특수 분야에서 훨씬 더 큰 독점 시스템을 능가할 수 있게 할 수 있음을 보여줍니다.
대규모 언어 모델(LLMs)은 수학적 추론에서 놀라운 진전을 이루었지만, 수치 계산 및 형식적 기호 조작과 같은 고정밀 작업에서는 여전히 어려움을 겪고 있습니다. 이러한 격차를 해소하기 위해 외부 도구를 통합하는 접근 방식이 유망한 방법으로 부상했습니다. 최근의 발전에도 불구하고, 기존 방법들은 세 가지 주요 과제에 직면해 있습니다: 도구 통합 추론 데이터 구축, 세밀한 최적화 수행, 그리고 추론 강화입니다. 이러한 한계를 극복하기 위해, 우리는 THOR(Tool-Integrated Hierarchical Optimization via RL)를 제안합니다. 먼저, 우리는 TIRGen이라는 다중 에이전트 액터-크리틱 기반 파이프라인을 소개합니다. 이 파이프라인은 정책에 부합하며 다양한 모델에서 잘 일반화되는 도구 통합 추론 경로의 고품질 데이터셋을 구축합니다. 둘째, 세밀한 계층적 최적화를 수행하기 위해, 우리는 궤적 수준의 문제 해결과 단계 수준의 코드 생성을 동시에 최적화하는 RL 전략을 도입합니다. 이는 중간 도구 호출의 성공이 최종 답변의 정확성을 강력하게 예측한다는 우리의 주요 통찰에서 비롯되었습니다. 마지막으로, THOR는 즉각적인 도구 피드백을 활용하여 추론 중 오류가 있는 추론 경로를 동적으로 수정하는 자기 수정 메커니즘을 통합합니다. 우리의 접근 방식은 다양한 모델에서 강력한 일반화를 보여주며, 추론 및 비추론 모델 모두에서 효과적으로 작동합니다. 또한, 유사 규모의 모델에 대해 여러 수학 벤치마크에서 최첨단 성능을 달성하는 동시에 코드 벤치마크에서도 일관된 개선을 제공합니다. 우리의 코드는 https://github.com/JingMog/THOR에서 공개될 예정입니다.
우리는 캐릭터 애니메이션 및 교체를 위한 통합 프레임워크인 Wan-Animate를 소개합니다. 캐릭터 이미지와 참조 비디오가 주어지면, Wan-Animate는 비디오 속 캐릭터의 표정과 움직임을 정밀하게 재현하여 고품질의 캐릭터 비디오를 생성할 수 있습니다. 또한, 애니메이션된 캐릭터를 참조 비디오에 통합하여 원래 캐릭터를 대체할 수 있으며, 장면의 조명과 색조를 재현하여 원활한 환경 통합을 달성합니다. Wan-Animate는 Wan 모델을 기반으로 구축되었습니다. 캐릭터 애니메이션 작업에 적합하도록 수정된 입력 패러다임을 사용하여 참조 조건과 생성 영역을 구분합니다. 이 설계는 여러 작업을 공통의 기호 표현으로 통합합니다. 공간적으로 정렬된 골격 신호를 사용하여 신체 움직임을 재현하고, 소스 이미지에서 추출된 암묵적 얼굴 특징을 사용하여 표정을 재현함으로써 높은 제어성과 표현력을 가진 캐릭터 비디오를 생성할 수 있습니다. 또한, 캐릭터 교체 시 환경 통합을 강화하기 위해 보조 Relighting LoRA 모듈을 개발했습니다. 이 모듈은 캐릭터의 외관 일관성을 유지하면서 적절한 환경 조명과 색조를 적용합니다. 실험 결과는 Wan-Animate가 최첨단 성능을 달성함을 보여줍니다. 우리는 모델 가중치와 소스 코드를 오픈소스로 공개할 것을 약속합니다.
본 논문은 다중모드 추론(Multimodal Reasoning)에 관한 MARS2 2025 챌린지를 검토합니다. 우리는 대규모 벤치마크를 통해 다중모드 기계 학습과 대형 언어 모델(LLMs)의 다양한 접근법을 통합하고자 합니다. 이를 통해 연구자들이 이 매우 역동적인 분야의 최신 기술 동향을 더 잘 따라갈 수 있기를 기대합니다. 한편, 점점 더 많은 테스트베드가 범용 대형 언어 모델의 진화를 촉진하고 있습니다. 따라서 올해의 MARS2는 실생활 및 특수한 시나리오에 초점을 맞춰 다중모드 언어 모델(MLLMs)의 응용 범위를 확장하고자 합니다. 우리 조직 팀은 일반 추론을 위한 12가지 일상 시나리오와 광고 영역 특화 추론을 지원하는 맞춤형 데이터셋인 Lens와 AdsQA를 테스트 세트로 공개했습니다. 우리는 범용 MLLMs와 작업 특화 모델을 포함한 40개 이상의 베이스라인을 평가하고, 실생활 시나리오에서의 시각적 근거(VG-RS), 공간 인식을 통한 시각적 질의응답(VQA-SA), 창의적 광고 영상에서의 시각적 추론(VR-Ads) 등 세 가지 경쟁 트랙을 개설했습니다. 마지막으로, 유명 학계 및 산업 기관에서 76개 팀이 등록했으며, 1200건 이상의 제출물 중 40건 이상의 유효한 제출물이 우리의 순위표에 포함되었습니다. 우리의 데이터셋, 코드 세트(40개 이상의 베이스라인과 15개 이상의 참가자 방법), 그리고 순위표는 MARS2 워크숍 웹사이트와 GitHub 조직 페이지(https://github.com/mars2workshop/)에서 공개적으로 제공되며, 향후 이벤트에 대한 업데이트와 공지사항도 지속적으로 제공될 예정입니다.
대규모 언어 모델(LLMs)은 종종 문맥 충실도에 어려움을 겪으며, 제공된 정보를 기반으로 질문에 답변할 때 일관성 없는 답변을 생성합니다. 기존 접근 방식은 답변 후 증거를 생성하기 위해 비용이 많이 드는 지도 미세 조정에 의존하거나, 주어진 문맥의 활용도를 반드시 개선하지 않은 채 웹 검색을 수행하도록 모델을 훈련시킵니다. 우리는 CARE라는 새로운 네이티브 검색 강화 추론 프레임워크를 제안합니다. 이 프레임워크는 LLM이 모델 자체의 검색 능력을 활용하여 명시적으로 문맥 내 증거를 추론 과정에 통합하도록 가르칩니다. 우리의 방법은 제한된 레이블된 증거 데이터만 필요로 하면서도, 추론 체인 내에서 전략적으로 검색된 문맥 토큰을 통해 검색 정확도와 답변 생성 성능을 크게 향상시킵니다. 여러 실제 세계 및 반사실적 QA 벤치마크에서의 광범위한 실험을 통해, 우리의 접근 방식이 지도 미세 조정, 전통적인 검색 강화 생성 방법, 외부 검색 솔루션을 크게 능가함을 입증했습니다. 이 연구는 지식 집약적 작업을 위해 LLM을 더 정확하고, 신뢰할 수 있으며, 효율적으로 만드는 데 있어 근본적인 진전을 나타냅니다.
우리는 인터리브된 이미지-텍스트 생성을 도구 사용 문제로 재구성하는 유연하고 동적인 프레임워크인 LLM-Interleaved(LLM-I)를 제안합니다. LLM-I는 합성 이미지에 국한되고 사실적 근거나 프로그래밍적 정밀도를 요구하는 작업에 어려움을 겪는 현재의 통합 모델들의 "단일 도구" 병목 현상을 극복하도록 설계되었습니다. 우리의 프레임워크는 중앙 LLM 또는 MLLM 에이전트가 온라인 이미지 검색, 확산 기반 생성, 코드 실행, 이미지 편집 등 다양한 전문 시각 도구를 지능적으로 조율할 수 있도록 지원합니다. 이 에이전트는 규칙 기반 논리와 LLM 및 MLLM 평가자의 판단을 결합한 하이브리드 보상 시스템을 특징으로 하는 강화 학습(RL) 프레임워크를 통해 이러한 도구를 능숙하게 선택하고 적용하도록 훈련됩니다. 네 가지 다른 모델 백본을 사용하여 다양한 새로운 데이터셋으로 훈련된 LLM-I는 네 가지 벤치마크에서 기존 방법을 큰 차이로 앞지르며 최첨단 성능을 보여줍니다. 또한, 추가적인 성능 향상을 제공하는 새로운 테스트 시점 스케일링 전략도 소개합니다. 프로젝트 페이지: https://github.com/ByteDance-BandAI/LLM-I.
생성적 기계 학습은 복잡한 지구 시스템 역학을 더 잘 이해할 수 있는 새로운 기회를 제공합니다. 최근 확산 기반 방법은 결정론적 방법에 비해 기상 예측에서 스펙트럼 편향을 해결하고 앙상블 보정을 개선했지만, 고해상도에서 안정적으로 확장하기는 어려운 것으로 나타났습니다. 우리는 이러한 격차를 해결하기 위해 1.3에서 80B 파라미터 규모의 픽셀 수준 Swin 확산 트랜스포머인 AERIS와, 윈도우 병렬성을 시퀀스 및 파이프라인 병렬성과 결합하여 추가 통신 비용이나 글로벌 배치 크기 증가 없이 윈도우 기반 트랜스포머를 분할할 수 있는 일반화 가능한 기술인 SWiPe를 소개합니다. Aurora(10,080 노드)에서 AERIS는 0.25{\deg} ERA5 데이터셋에 대해 10.21 ExaFLOPS(혼합 정밀도)를 유지하고 1x1 패치 크기에서 11.21 ExaFLOPS의 최고 성능을 달성하며, 약한 확장 효율성 95.5%, 강한 확장 효율성 81.6%를 보였습니다. AERIS는 IFS ENS를 능가하며 계절적 규모에서 90일까지 안정적으로 유지되어, 기상 및 기후 예측을 위한 10억 파라미터 확산 모델의 잠재력을 강조합니다.
최근의 이미지 생성 모델은 일반적으로 고정된 이미지 토크나이저에 의존하여 미리 구성된 잠재 공간에서 이미지 분포를 포착합니다. 그러나 재구성과 생성 분포 사이에는 상당한 차이가 존재하며, 현재의 토크나이저는 생성 훈련 전에 발생하는 재구성 작업만을 우선시하고 샘플링 중의 생성 오류는 고려하지 않습니다. 본 논문에서는 이산 잠재 공간에서 이러한 차이의 원인을 포괄적으로 분석하고, 이를 바탕으로 잠재 공간 구축과 디코딩을 각각 개선하는 데 초점을 맞춘 새로운 토크나이저 훈련 방식인 메인 훈련과 포스트 훈련을 제안합니다. 메인 훈련 중에는 샘플링 노이즈, 즉 생성 추론 중에 생성되는 예상치 못한 토큰을 시뮬레이션하기 위해 잠재적 교란 전략을 제안합니다. 구체적으로, 플러그 앤 플레이 방식의 토크나이저 훈련 방식을 제안하여 토크나이저의 견고성을 크게 향상시켜 생성 품질과 수렴 속도를 높이고, 토크나이저 성능을 생성 품질과 성공적으로 연관시키는 새로운 토크나이저 평가 지표인 pFID를 제안합니다. 포스트 훈련 중에는 잘 훈련된 생성 모델을 고려하여 토크나이저 디코더를 추가로 최적화하여 생성된 토큰과 재구성된 토큰 간의 분포 차이를 완화합니다. sim400M 생성기를 사용하여, 제안된 메인 훈련으로 훈련된 이산 토크나이저는 1.60 gFID를 달성하고 추가 포스트 훈련을 통해 1.36 gFID를 얻습니다. 추가 실험을 통해 제안된 포스트 훈련 전략이 오토리그레시브 및 디퓨전 기반 생성기와 함께 기존의 이산 및 연속 토크나이저에서도 효과적임을 광범위하게 검증합니다.
우리는 표현 조정(representation steering) 방법들을 핵심 정렬 목표들—편향성, 유해 생성, 환각—과 이차적 행동들(예: 아첨, 상식적 도덕성)에 미치는 영향을 평가하기 위한 벤치마크인 SteeringControl을 소개합니다. 기존 정렬 연구에서는 주로 진실성이나 추론 능력을 강조하여 표현 조정의 부작용을 보여주었지만, 우리는 체계적으로 이해되지 않은 다양한 트레이드오프들이 존재함을 발견했습니다. 우리는 안전과 관련된 주요 및 이차적 행동들의 데이터셋을 수집하여 다섯 가지 인기 있는 조정 방법을 중심으로 조정 효과와 행동적 얽힘(entanglement)을 평가합니다. 이를 위해, 우리는 기존 방법들의 기본 구성 요소로 작용하는 독특한 컴포넌트들을 기반으로 한 모듈식 조정 프레임워크를 설계했습니다. Qwen-2.5-7B와 Llama-3.1-8B에 대한 실험 결과, 강력한 조정 성능은 조정 방법, 모델, 그리고 목표 행동의 특정 조합에 의존하며, 이 세 가지의 부적절한 조합은 심각한 개념적 얽힘을 초래할 수 있음을 확인했습니다. 우리는 코드를 다음 링크에서 공개합니다: https://github.com/wang-research-lab/SteeringControl.git.
변분 양자 회로(VQC)는 양자 기계 학습의 핵심 요소이며, 최근 콜모고로프-아르놀드 네트워크(KAN)의 발전은 학습 가능한 활성화 함수의 힘을 강조합니다. 우리는 단일 큐비트 데이터 재업로드 회로인 DARUAN(DatA Re-Uploading ActivatioNs)을 통해 구현된 양자 변분 활성화 함수(QVAF)를 도입하여 이러한 방향을 통합합니다. 우리는 데이터 전처리에서 학습 가능한 가중치를 가진 DARUAN이 데이터 반복에 따라 기하급수적으로 증가하는 주파수 스펙트럼을 가지며, 표현력 손실 없이 푸리에 기반 활성화 함수에 비해 매개변수 크기를 기하급수적으로 줄일 수 있음을 보여줍니다. DARUAN을 KAN에 내장함으로써 양자 영감을 받은 KAN(QKAN)을 얻을 수 있으며, 이는 KAN의 해석 가능성을 유지하면서 매개변수 효율성, 표현력 및 일반화 능력을 향상시킵니다. 또한, 우리는 확장성, 실현 가능성 및 계산 효율성을 향상시키기 위해 계층 확장 및 하이브리드 QKAN(HQKAN)과 같은 두 가지 새로운 기술을 도입하여 대규모 모델에서의 피드포워드 네트워크를 위한 다층 퍼셉트론(MLP)의 대체품으로 사용합니다. 우리는 함수 회귀, 이미지 분류 및 자기회귀 생성 언어 모델링에 대한 이론적 분석과 광범위한 실험을 제공하여 QKAN의 효율성과 확장성을 입증합니다. DARUAN과 QKAN은 NISQ(Noisy Intermediate-Scale Quantum) 하드웨어 및 고전적 양자 시뮬레이터 모두에서 양자 기계 학습을 발전시키기 위한 유망한 방향을 제시합니다.
단일 야외 동영상에서 동적 3D 연기 애셋을 추출하고 재구성하며, 이를 기반으로 연기 디자인 및 편집을 위한 인터랙티브 시뮬레이션을 통합하는 파이프라인을 제안합니다. 최근 3D 비전 기술의 발전으로 유체 역학의 재구성 및 렌더링이 크게 개선되어 사실적이고 시간적으로 일관된 뷰 합성이 가능해졌습니다. 그러나 현재의 유체 재구성 기술은 주로 철저히 통제된 깨끗한 실험실 환경에 의존하고 있으며, 야외에서 촬영된 실제 동영상은 상대적으로 덜 탐구된 상태입니다. 우리는 야외 동영상에서 연기를 재구성하는 데 있어 세 가지 주요 과제를 식별하고, 이를 해결하기 위한 기술을 설계했습니다. 이 기술에는 배경 제거를 통한 연기 추출, 연기 입자 및 카메라 포즈 초기화, 그리고 다중 뷰 동영상 추론이 포함됩니다. 우리의 방법은 이전의 재구성 및 생성 방법을 뛰어넘는 고품질 연기 재구성(야외 동영상에서 평균 PSNR +2.22)을 제공할 뿐만 아니라, 연기 애셋을 시뮬레이션함으로써 다양한 사실적인 유체 역학 편집을 가능하게 합니다. 우리는 모델, 데이터, 그리고 4D 연기 애셋을 [https://autumnyq.github.io/WildSmoke](https://autumnyq.github.io/WildSmoke)에서 제공합니다.
대규모 언어 모델(LLM)이 다중 에이전트 시스템의 핵심 요소로 자리잡으면서, 단순한 암기, 직접 추론 또는 단일 턴 평가를 넘어서는 새로운 프라이버시 위험이 등장하고 있습니다. 특히, 겉보기에는 무해한 응답들이 상호작용을 통해 누적되면, 공격자가 민감한 정보를 복구할 수 있게 되는 현상이 발생하는데, 이를 우리는 '조합적 프라이버시 누출(compositional privacy leakage)'이라고 명명합니다. 본 연구에서는 다중 에이전트 LLM 시스템에서 이러한 조합적 프라이버시 누출과 이를 완화할 수 있는 방법에 대한 첫 번째 체계적인 연구를 제시합니다. 먼저, 보조 지식과 에이전트 상호작용이 각 응답이 개별적으로는 무해하더라도 프라이버시 위험을 어떻게 증폭시키는지를 모델링하는 프레임워크를 개발합니다. 다음으로, 이를 완화하기 위해 두 가지 방어 전략을 제안하고 평가합니다: (1) '마음이론 방어(Theory-of-Mind defense, ToM)'는 방어자 에이전트가 자신의 출력이 공격자에게 어떻게 악용될지 예측하여 질문자의 의도를 추론하는 방식이며, (2) '협력적 합의 방어(Collaborative Consensus Defense, CoDef)'는 응답자 에이전트가 동료들과 협력하여 공유된 집계 상태를 기반으로 투표함으로써 민감한 정보의 확산을 제한하는 방식입니다. 특히, 민감한 정보를 노출시키는 조합과 무해한 추론을 초래하는 조합 간의 균형을 고려하여 평가를 진행합니다. 실험을 통해 이러한 방어 전략들이 프라이버시와 유틸리티 간의 균형을 맞추는 방식이 어떻게 다른지를 정량적으로 분석합니다. 우리는 사고의 연쇄(chain-of-thought)만으로는 누출 방어에 제한적인 효과(~39% 민감 정보 차단율)를 보이는 반면, ToM 방어는 민감한 쿼리 차단율을 크게 향상시키지만(최대 97%) 무해한 작업의 성공률을 감소시킬 수 있음을 발견했습니다. CoDef는 가장 균형 잡힌 결과(79.8% Balanced Outcome)를 달성하며, 명시적 추론과 방어자 협력의 조합이 가져오는 이점을 강조합니다. 종합적으로, 본 연구 결과는 협업형 LLM 배포에서 발생하는 새로운 위험 클래스를 드러내고, 조합적이고 맥락 기반의 프라이버시 누출에 대비한 안전장치 설계를 위한 실행 가능한 통찰을 제공합니다.
개인화된 금융 조언은 사용자의 목표, 제약 조건, 위험 감수성 및 관할권을 고려해야 합니다. 기존의 대형 언어 모델(LLM) 연구는 투자자와 재무 설계자를 위한 지원 시스템에 초점을 맞추었습니다. 동시에, 최근의 많은 연구들은 예산 관리, 부채 관리, 은퇴 및 부동산 계획을 포함한 더 광범위한 개인 금융 작업을 에이전트 파이프라인을 통해 조사해 왔으며, 이는 높은 유지 관리 비용을 초래하면서 기대 금융 수익의 25% 미만을 달성했습니다. 본 연구에서는 관련 금융 컨텍스트와 행동 금융 연구를 통합하여 종단간 조언자를 위한 감독 데이터를 구성하는 새로운 재현 가능한 프레임워크를 소개합니다. 이 프레임워크를 사용하여 19k 샘플 추론 데이터셋을 생성하고 Qwen-3-8B 모델을 이 데이터셋에 대해 포괄적으로 미세 조정합니다. 보류된 테스트 분할과 블라인드 LLM-배심원 연구를 통해, 신중한 데이터 큐레이션과 행동 통합을 통해 우리의 8B 모델이 사실 정확성, 유창성 및 개인화 지표에서 상당히 큰 베이스라인(14-32B 매개변수)과 비슷한 성능을 달성하면서 더 큰 대조군보다 80% 낮은 비용을 발생시킨다는 것을 입증합니다.
본 연구는 하이브리드 양자-클래식 신경망과 순수 클래식 모델 간의 성능, 효율성 및 견고성을 평가하기 위해 세 가지 벤치마크 데이터셋(MNIST, CIFAR100, STL10)에 대한 체계적인 비교를 제시합니다. 하이브리드 모델은 매개변수화된 양자 회로를 클래식 딥러닝 아키텍처와 통합한 반면, 클래식 모델은 전통적인 합성곱 신경망(CNN)을 사용합니다. 각 데이터셋에 대해 50회의 학습 에포크 동안 실험을 진행하였으며, 검증 정확도, 테스트 정확도, 학습 시간, 계산 자원 사용량 및 적대적 견고성(epsilon=0.1의 섭동으로 테스트)을 평가했습니다. 주요 결과는 하이브리드 모델이 최종 정확도에서 클래식 모델을 지속적으로 능가하며, 각각 {99.38%(MNIST), 41.69%(CIFAR100), 74.05%(STL10)}의 검증 정확도를 달성한 반면, 클래식 모델은 98.21%, 32.25%, 63.76%의 정확도를 보였습니다. 특히, 하이브리드 모델의 이점은 데이터셋의 복잡성에 따라 증가하며, CIFAR100(+9.44%)과 STL10(+10.29%)에서 가장 큰 성능 향상을 보였습니다. 또한, 하이브리드 모델은 학습 속도가 5~12배 빠르고(예: MNIST에서 에포크당 21.23초 대 108.44초), 파라미터 수가 6~32% 적으면서도 테스트 데이터에 대한 우수한 일반화 능력을 유지했습니다. 적대적 견고성 테스트 결과, 하이브리드 모델은 단순한 데이터셋에서 훨씬 더 견고한 성능을 보였으나(예: MNIST에서 45.27% 대 클래식 10.80%), CIFAR100과 같은 복잡한 데이터셋에서는 유사한 취약성을 나타냈습니다(양쪽 모두 약 1% 견고성). 자원 효율성 분석 결과, 하이브리드 모델은 메모리 사용량(4~5GB 대 클래식 5~6GB)과 CPU 사용률(평균 9.5% 대 23.2%)이 더 낮았습니다. 이러한 결과는 하이브리드 양자-클래식 아키텍처가 특히 복잡한 비전 작업에서 정확도, 학습 효율성 및 파라미터 확장성 측면에서 강력한 이점을 제공함을 시사합니다.