번역이 포함된 일일 선별된 AI 연구 논문
최첨단 시각-언어 모델(Vision-Language Models, VLMs)을 구축하고 강력한 캡션 생성 능력을 갖추기 위해서는 일반적으로 수십억 개의 고품질 이미지-텍스트 쌍을 수백만 GPU 시간 동안 학습해야 합니다. 본 논문에서는 시각 인코더, 텍스트-이미지(T2I) 확산 모델의 디코더, 그리고 대형 언어 모델(Large Language Model, LLM)과 같은 주요 사전 학습된 구성 요소를 전략적으로 활용하는 시각-언어-시각(Vision-Language-Vision, VLV) 자동 인코더 프레임워크를 소개합니다. 구체적으로, 우리는 사전 학습된 T2I 확산 디코더를 고정함으로써 언어 표현 공간을 정규화하여 정보 병목 현상을 설정합니다. 우리의 VLV 파이프라인은 연속 임베딩을 통해 텍스트 조건부 확산 모델로부터 지식을 효과적으로 추출하며, 고품질 재구성을 통해 포괄적인 의미 이해를 입증합니다. 더 나아가, 사전 학습된 LLM을 미세 조정하여 중간 언어 표현을 상세한 설명으로 디코딩함으로써 GPT-4o 및 Gemini 2.0 Flash와 같은 선두 모델에 필적하는 최첨단 캡션 생성기를 구축합니다. 우리의 방법은 탁월한 비용 효율성을 보여주며 데이터 요구 사항을 크게 줄입니다; 주로 단일 모드 이미지를 학습에 활용하고 기존 사전 학습 모델(이미지 인코더, T2I 확산 모델, LLM)의 유용성을 극대화함으로써 대규모 이미지-텍스트 쌍 데이터셋의 필요성을 피하고, 전체 학습 비용을 1,000달러 미만으로 유지합니다.
본 기술 보고서는 EXAONE 3.5의 우수한 사용성과 EXAONE Deep의 고급 추론 능력을 모두 달성하기 위해 비추론 모드와 추론 모드를 통합한 EXAONE 4.0을 소개한다. 에이전트 AI 시대를 위한 기반을 마련하기 위해, EXAONE 4.0은 에이전트 도구 사용과 같은 필수 기능을 포함하며, 영어와 한국어에 더해 스페인어를 지원하도록 다국어 기능을 확장하였다. EXAONE 4.0 모델 시리즈는 고성능에 최적화된 중형 32B 모델과 온디바이스 애플리케이션을 위해 설계된 소형 1.2B 모델로 구성된다. EXAONE 4.0은 동급의 오픈 웨이트 모델 대비 우수한 성능을 보이며, 프론티어급 모델과 비교해도 경쟁력을 유지한다. 해당 모델들은 연구 목적으로 공개되어 있으며, https://huggingface.co/LGAI-EXAONE을 통해 쉽게 다운로드할 수 있다.
대형 기반 모델은 일반적으로 여러 도메인의 데이터를 기반으로 학습되며, 데이터 혼합 비율(각 도메인이 사용되는 비율)은 모델 성능에 중요한 역할을 합니다. 이러한 혼합 비율을 선택하는 표준적인 접근 방식은 시행착오에 의존하는데, 이는 대규모 사전 학습에서는 비현실적이 됩니다. 우리는 스케일링 법칙을 사용하여 특정 목표 도메인에 대한 최적의 데이터 혼합 비율을 결정하는 체계적인 방법을 제안합니다. 우리의 접근 방식은 크기 N의 모델이 D개의 토큰과 특정 도메인 가중치 벡터 h로 학습되었을 때의 손실을 정확하게 예측합니다. 우리는 이러한 스케일링 법칙의 보편성을 대규모 언어 모델(LLM), 네이티브 멀티모달 모델(NMM), 대형 비전 모델(LVM) 사전 학습이라는 세 가지 독립적이고 대규모의 설정에서 예측력을 입증함으로써 검증합니다. 또한, 이러한 스케일링 법칙이 새로운 데이터 혼합 및 다양한 규모로 외삽될 수 있음을 보여줍니다: 몇 차례의 소규모 학습 실행을 통해 매개변수를 정확하게 추정하고, 이를 통해 더 큰 규모와 보지 못한 도메인 가중치에서의 성능을 예측할 수 있습니다. 스케일링 법칙은 주어진 학습 예산(N, D) 하에서 특정 목표 도메인에 대한 최적의 도메인 가중치를 도출할 수 있게 하여, 비용이 많이 드는 시행착오 방법에 대한 원칙적인 대안을 제공합니다.
본 논문은 과학 문헌 내 도식적 다이어그램을 해석하는 모델의 능력을 평가하기 위해 특별히 설계된 최초의 벤치마크인 MISS-QA를 소개한다. MISS-QA는 465편의 과학 논문에 걸쳐 전문가가 주석을 단 1,500개의 예시로 구성되어 있다. 이 벤치마크에서 모델은 연구 개요를 설명하는 도식적 다이어그램을 해석하고, 해당 논문의 광범위한 맥락을 기반으로 정보 탐색 질문에 답하는 과제를 수행한다. 우리는 o4-mini, Gemini-2.5-Flash, Qwen2.5-VL을 포함한 18개의 최첨단 멀티모달 기반 모델의 성능을 평가했다. 이를 통해 MISS-QA에서 이러한 모델과 인간 전문가 간의 상당한 성능 격차를 확인했다. 또한, 답변이 불가능한 질문에 대한 모델 성능 분석과 상세한 오류 분석을 통해 현재 모델의 강점과 한계를 부각시켰으며, 멀티모달 과학 문헌 이해를 향상시키기 위한 핵심 통찰을 제공한다.
대규모 언어 모델(LLMs)은 특히 다중 에이전트 시스템으로 조직되었을 때 강력한 문제 해결 능력을 보여주고 있다. 그러나 이러한 시스템의 등장은 복잡한 에이전트 네트워크가 효과적으로 자체 조직화하고 협력할 수 있는 능력에 대한 여러 질문을 제기한다. 표준 추론 벤치마크에서의 성능 측정은 다중 에이전트 시스템이 추론 작업을 얼마나 잘 해결할 수 있는지를 나타내지만, 이러한 시스템이 토폴로지를 효과적으로 활용할 수 있는지는 불분명하다. 본 연구에서는 다중 에이전트 추론을 위한 새로운 벤치마크인 AgentsNet을 제안한다. 분산 시스템 및 그래프 이론의 고전적인 문제에서 영감을 얻은 AgentsNet은 네트워크 토폴로지가 주어졌을 때 다중 에이전트 시스템이 문제 해결, 자체 조직화 및 효과적인 의사소통을 위한 전략을 협력적으로 형성할 수 있는 능력을 측정한다. 우리는 AgentsNet에서 조직 및 의사소통을 위한 기본 프로토콜에 먼저 합의해야 하는 동질적인 에이전트 네트워크를 포함한 다양한 베이스라인 방법을 평가한다. 일부 최신 LLMs는 소규모 네트워크에서 강력한 성능을 보여주지만 네트워크 규모가 확장되면 성능이 저하되기 시작한다. 기존의 다중 에이전트 벤치마크는 최대 2-5개의 에이전트를 다루는 반면, AgentsNet은 크기에 제한이 없으며 새로운 세대의 LLMs와 함께 확장될 수 있다. 따라서 우리는 최대 100개의 에이전트를 대상으로 설정하여 최신 모델을 탐구한다.
최근 추론 기반 대형 언어 모델(LLMs)의 발전, 특히 테스트 시간 스케일링을 통한 잠재력은 코드 생성 및 비평 분야에서의 지식 증류에 상당한 기회를 창출했습니다. 그러나 두 분야의 진전은 근본적으로 대규모 고품질 데이터셋에 의존합니다. 본 연구에서는 250만 개의 질문-해결책-비평 삼중항(약 3만 5천 개의 고유 프로그래밍 문제)으로 구성된 OpenCodeReasoning-II 데이터셋을 소개합니다. 이는 이전에 공개된 가장 큰 코드 추론 데이터셋의 거의 두 배에 해당하는 규모입니다. 본 연구에서는 두 단계의 지도 미세 조정 전략을 사용합니다. 첫 번째 단계는 코드 생성을 위한 미세 조정에 초점을 맞추고, 두 번째 단계는 코드 생성과 비평을 위한 모델의 공동 학습을 포함합니다. 그 결과 미세 조정된 Qwen2.5-Instruct 모델은 코드 생성 성능에서 이전 최고의 오픈 가중치 증류 모델을 능가하거나 동등한 성능을 달성했습니다. 특히, 코드 생성과 비평 모델의 통합은 경쟁 프로그래밍 성능에서 상당한 개선을 이끌어냈습니다. 또한, C++ 프로그래밍 언어를 특별히 지원하기 위해 LiveCodeBench 벤치마크를 확장하여 이 벤치마크를 사용한 LLM 평가를 더욱 포괄적으로 지원합니다.
비디오에서 광학 흐름(optical flow)을 추출하는 것은 여전히 컴퓨터 비전의 핵심 문제로 남아 있습니다. 대규모 범용 모델의 성공에 영감을 받아, 미래 프레임 예측만을 위해 훈련된 고정된 자기 지도 비디오 모델이 미세 조정 없이도 흐름을 출력하도록 유도할 수 있는지 질문합니다. 이전 연구에서는 비디오 생성기로부터 깊이(depth)나 조명(illumination)을 읽어내기 위해 미세 조정이 필요했는데, 이는 레이블이 부족하고 합성 데이터셋이 시뮬레이션과 현실 간 격차를 겪는 흐름의 경우 실용적이지 않습니다. 카운터팩추얼 월드 모델(Counterfactual World Model, CWM) 패러다임에서 영감을 받아, 다음 프레임 예측기에 작은 추적자(tracer) 섭동을 주입하고 그 전파를 추적함으로써 점별 대응 관계를 얻을 수 있다는 아이디어를 생성 비디오 모델로 확장합니다. 여러 인기 있는 아키텍처를 탐색한 결과, 이러한 방식으로 성공적인 제로샷 흐름 추출에는 세 가지 모델 특성이 도움이 된다는 것을 발견했습니다: (1) 미래 프레임의 분포적 예측(흐릿하거나 노이즈가 있는 출력을 피함); (2) 각 시공간 패치를 독립적으로 처리하는 분리된 잠재 변수; (3) 미래 픽셀의 어떤 부분 집합에도 조건을 걸 수 있는 랜덤 액세스 디코딩. 이러한 특성들은 최근의 로컬 랜덤 액세스 시퀀스(Local Random Access Sequence, LRAS) 아키텍처에서 독특하게 나타납니다. LRAS를 기반으로, 우리는 KL-추적(KL-tracing)이라는 새로운 테스트 시간 절차를 제안합니다: 첫 번째 프레임에 국소적인 섭동을 주입하고, 모델을 한 단계 롤아웃한 후, 섭동된 예측 분포와 섭동되지 않은 예측 분포 간의 쿨백-라이블러 발산(Kullback-Leibler divergence)을 계산합니다. 흐름 특화 미세 조정 없이도, 우리의 방법은 실제 세계의 TAP-Vid DAVIS 데이터셋(엔드포인트 오류에서 16.6% 상대적 개선)과 합성 TAP-Vid Kubric 데이터셋(4.7% 상대적 개선)에서 최신 모델을 능가합니다. 우리의 결과는 제어 가능한 생성 비디오 모델의 카운터팩추얼 프롬프팅이 고품질 흐름을 위한 지도 학습 또는 광도 손실 접근법에 대한 확장 가능하고 효과적인 대안임을 시사합니다.
지식 그래프 질의응답(KGQA)은 입력 그래프 간의 구조적 및 의미론적 변동성으로 인해 상당한 도전 과제를 제시합니다. 기존 연구들은 그래프 탐색 및 검색을 위해 대형 언어 모델(LLM) 에이전트에 의존하는데, 이 접근 방식은 탐색 초기화에 민감하며, 엔티티 연결 오류에 취약하고 사용자 정의("bring-your-own") KG에 잘 일반화되지 않을 수 있습니다. 우리는 LLM과 특화된 그래프 검색 도구를 시너지적으로 결합하여 KGQA를 강화하는 BYOKG-RAG 프레임워크를 소개합니다. BYOKG-RAG에서는 LLM이 핵심 그래프 아티팩트(질문 엔티티, 후보 답변, 추론 경로, OpenCypher 쿼리)를 생성하고, 그래프 도구는 이러한 아티팩트를 KG에 연결하고 관련 그래프 컨텍스트를 검색합니다. 검색된 컨텍스트는 LLM이 최종 답변 생성 전에 그래프 연결 및 검색을 반복적으로 개선할 수 있도록 합니다. 다양한 그래프 도구로부터 컨텍스트를 검색함으로써, BYOKG-RAG는 사용자 정의 KG에 대한 QA를 위한 더 일반적이고 강력한 솔루션을 제공합니다. 다양한 KG 유형을 아우르는 5개의 벤치마크에서의 실험을 통해, BYOKG-RAG가 두 번째로 우수한 그래프 검색 방법보다 4.5% 포인트 더 우수한 성능을 보이며 사용자 정의 KG에 대한 더 나은 일반화를 보여줌을 입증했습니다. BYOKG-RAG 프레임워크는 https://github.com/awslabs/graphrag-toolkit에서 오픈소스로 제공됩니다.
오디오 인페인팅(audio inpainting)은 손상된 오디오 녹음에서 누락된 구간을 재구성하는 작업을 의미합니다. 기존의 접근 방식들—파형(waveform) 및 스펙트로그램(spectrogram) 기반 확산 모델(diffusion model)을 포함하여—은 짧은 간격에 대해 유망한 결과를 보여주었지만, 간격이 100밀리초(ms)를 초과할 경우 품질이 저하되는 경향이 있었습니다. 본 연구에서는 사전 훈련된 오디오 토크나이저(audio tokenizer)에 의해 생성된 토큰화된 오디오 표현을 기반으로 하는 이산 확산 모델링(discrete diffusion modeling)을 활용한 새로운 인페인팅 방법을 제안합니다. 우리의 접근 방식은 이산 잠재 공간(discrete latent space)에서 생성 과정을 직접 모델링함으로써, 안정적이고 의미론적으로 일관된 오디오 재구성을 가능하게 합니다. MusicNet 데이터셋을 사용하여 최대 300ms까지의 간격 지속 시간에 대해 객관적 및 지각적 지표를 통해 이 방법을 평가했습니다. 또한 MTG 데이터셋에서도 평가를 진행하여 간격 지속 시간을 500ms까지 확장했습니다. 실험 결과는 우리의 방법이 특히 더 긴 간격에 대해 기존의 베이스라인과 비교하여 경쟁력 있거나 우수한 성능을 달성함을 보여주며, 저하된 음악 녹음을 복원하기 위한 강력한 솔루션을 제공합니다. 제안된 방법의 오디오 예제는 https://iftach21.github.io/에서 확인할 수 있습니다.
실제 사용자 생성 콘텐츠(UGC) 비디오, 특히 TikTok과 같은 플랫폼에서의 비디오는 풍부하고 복잡하게 얽힌 오디오-비주얼 콘텐츠를 특징으로 합니다. 그러나 기존의 비디오 캡셔닝 벤치마크와 모델은 여전히 주로 시각 중심으로 설계되어, 장면의 역동성, 화자의 의도, 그리고 서사적 맥락을 전달하는 데 있어 오디오의 중요한 역할을 간과하고 있습니다. 이러한 전방위적 데이터셋과 가볍고 강력한 모델의 부재는 세밀한 다중모드 비디오 이해의 발전을 저해하고 있습니다. 이러한 문제를 해결하기 위해, 우리는 짧은 형식의 사용자 생성 비디오를 위한 상세한 전방위적 캡셔닝을 위해 특별히 설계된 새로운 벤치마크 및 모델 프레임워크인 UGC-VideoCap을 소개합니다. 기존 데이터셋과 달리, UGC-VideoCap은 오디오와 시각적 모달리티의 균형 잡힌 통합을 강조하며, 오디오만, 시각만, 그리고 오디오-비주얼 시맨틱스를 모두 포함하는 구조화된 3단계 인간-참여 파이프라인을 통해 주석이 달린 1000개의 TikTok 비디오를 특징으로 합니다. 또한, 이 벤치마크는 단일 모드 및 교차 모드 이해를 탐구하는 4000개의 신중하게 제작된 QA 쌍을 포함합니다. 데이터셋과 함께, 우리는 Gemini 2.5 Flash에서 증류된 30억 파라미터 캡셔닝 모델인 UGC-VideoCaptioner(3B)를 제안합니다. 새로운 2단계 훈련 전략인 지도 미세 조정과 그룹 상대 정책 최적화(GRPO)를 사용하여, 우리의 접근 방식은 제한된 데이터에서도 효율적인 적응을 가능하게 하면서 경쟁력 있는 성능을 유지합니다. 우리의 벤치마크와 모델은 제약 없는 실제 UGC 환경에서 전방위적 비디오 캡셔닝을 발전시키기 위한 고품질의 기반과 데이터 효율적인 솔루션을 제공합니다.
대형 언어 모델(LLM)은 소프트웨어 개발과 자동화된 코드 생성을 혁신적으로 변화시켰다. 이러한 발전에 동기를 받아, 본 논문은 악성코드 소스 코드를 수정하여 변종을 생성하는 데 LLM의 활용 가능성을 탐구한다. 우리는 LLMalMorph라는 반자동화 프레임워크를 소개하며, 이는 LLM의 의미론적 및 구문론적 코드 이해를 활용하여 새로운 악성코드 변종을 생성한다. LLMalMorph는 악성코드 소스 코드에서 함수 수준의 정보를 추출하고, 맞춤형으로 설계된 프롬프트와 전략적으로 정의된 코드 변환을 결합하여 리소스 집약적인 미세 조정 없이도 LLM이 변종을 생성하도록 유도한다. LLMalMorph를 평가하기 위해, 우리는 다양한 유형, 복잡성 및 기능을 가진 10개의 Windows 악성코드 샘플을 수집하고 618개의 변종을 생성했다. 우리의 철저한 실험은 이러한 악성코드 변종의 탐지율을 어느 정도 감소시키면서도 악성코드의 기능을 보존할 수 있음을 입증한다. 또한, 기계 학습(ML) 기반 악성코드 탐지기에 대해 최적화하지 않았음에도 불구하고, 여러 변종이 ML 기반 악성코드 분류기에 대해 주목할 만한 공격 성공률을 달성했다. 우리는 또한 소스 코드에서 악성코드 변종을 생성하는 데 있어 현재 LLM의 한계를 논의하고, 이 신흥 기술이 악성코드 변종 생성의 더 넓은 맥락에서 어디에 위치하는지 평가한다.
대형 언어 모델(LLMs)은 인간에서 관찰되는 것과 유사한 비합리적 의사결정의 체계적 경향인 인지 편향을 보인다. 선행 연구는 이러한 편향이 모델에 따라 다양하며, 지시 튜닝에 의해 증폭될 수 있음을 발견했다. 그러나 이러한 편향의 차이가 사전 학습, 미세 조정, 또는 훈련의 확률적 특성으로 인한 무작위 노이즈에서 비롯되는지 여부는 여전히 불분명하다. 우리는 이러한 요인들을 분리하기 위해 두 단계의 인과적 실험적 접근법을 제안한다. 첫째, 서로 다른 무작위 시드를 사용하여 모델을 여러 번 미세 조정하여 훈련의 무작위성이 30개 이상의 인지 편향에 미치는 영향을 연구한다. 둘째, 교차 튜닝을 도입하여 모델 간에 지시 데이터셋을 교환함으로써 편향의 원인을 분리한다. 이 교환은 서로 다른 편향 패턴을 초래한 데이터셋을 사용하여 편향이 데이터셋에 의존적인지 여부를 직접 테스트한다. 우리의 연구 결과는 훈련의 무작위성이 일부 변동성을 초래하지만, 편향은 주로 사전 학습에 의해 형성됨을 보여준다: 동일한 사전 학습된 백본을 가진 모델들은 단지 미세 조정 데이터만을 공유하는 모델들보다 더 유사한 편향 패턴을 보인다. 이러한 통찰은 미세 조정된 모델의 편향을 이해하기 위해서는 미세 조정 효과를 넘어 사전 학습의 기원을 고려해야 함을 시사한다. 이러한 관점은 LLM의 편향을 평가하고 완화하기 위한 원칙적 전략을 개발하는 미래의 노력에 지침을 제공할 수 있다.
현대 인공지능(AI)은 시각과 언어 이해를 결합한 다중 에이전트 아키텍처에 점점 더 의존하고 있습니다. 그러나 여전히 해결해야 할 중요한 과제가 남아 있습니다: 특히 파인튜닝 없이 제로샷 설정에서 이러한 에이전트를 어떻게 신뢰할 수 있을까요? 우리는 일반적인 멀티모달 에이전트와 비시각적 추론 오케스트레이터, 그리고 검색 증강 생성(RAG) 모듈을 통합한 새로운 모듈식 에이전트 AI 시각 분류 프레임워크를 소개합니다. 이를 사과 잎 질병 진단에 적용하여 세 가지 구성을 벤치마킹했습니다: (I) 신뢰 기반 오케스트레이션을 사용한 제로샷, (II) 성능이 개선된 파인튜닝된 에이전트, 그리고 (III) CLIP 기반 이미지 검색과 재평가 루프를 통해 강화된 신뢰 보정 오케스트레이션. 신뢰 보정 지표(ECE, OCR, CCC)를 사용하여 오케스트레이터는 에이전트 간의 신뢰를 조절합니다. 우리의 결과는 신뢰 인식 오케스트레이션과 RAG를 사용하여 제로샷 설정에서 77.94%의 정확도 향상을 보여주며, 전체적으로 85.63%의 정확도를 달성했습니다. GPT-4o는 더 나은 보정을 보여준 반면, Qwen-2.5-VL은 과신 경향을 나타냈습니다. 또한, 이미지-RAG는 시각적으로 유사한 사례를 기반으로 예측을 근거로 하여, 반복적인 재평가를 통해 에이전트의 과신을 수정할 수 있게 했습니다. 제안된 시스템은 인식(시각 에이전트)과 메타 추론(오케스트레이터)을 분리하여 확장 가능하고 해석 가능한 다중 에이전트 AI를 가능하게 합니다. 이 청사진은 진단, 생물학 및 기타 신뢰가 중요한 분야로 확장 가능합니다. 모든 모델, 프롬프트, 결과 및 시스템 구성 요소를 포함한 완전한 소프트웨어 소스 코드는 재현성, 투명성 및 커뮤니티 벤치마킹을 지원하기 위해 Github에 공개되었습니다: https://github.com/Applied-AI-Research-Lab/Orchestrator-Agent-Trust