번역이 포함된 일일 선별된 AI 연구 논문
어려운 시험 문제를 마주한 학생들처럼, 대형 언어 모델은 불확실할 때 추측을 하며, 불확실성을 인정하는 대신 그럴듯하지만 잘못된 진술을 생성하기도 합니다. 이러한 "환각(hallucination)" 현상은 최첨단 시스템에서도 지속되며 신뢰를 훼손합니다. 우리는 언어 모델이 환각을 일으키는 이유가 불확실성을 인정하는 것보다 추측을 보상하는 훈련 및 평가 절차 때문이라고 주장하며, 현대 훈련 파이프라인에서 환각의 통계적 원인을 분석합니다. 환각은 신비로운 현상이 아닙니다 — 이는 단순히 이진 분류의 오류에서 비롯됩니다. 잘못된 진술과 사실을 구별할 수 없다면, 사전 훈련된 언어 모델에서 환각은 자연스러운 통계적 압력으로 발생할 것입니다. 또한, 대부분의 평가 방식이 채점되는 방식 때문에 환각이 지속된다고 주장합니다. 언어 모델은 좋은 시험 응시자가 되도록 최적화되며, 불확실할 때 추측하는 것이 시험 성적을 향상시킵니다. 이러한 불확실한 응답을 처벌하는 "전염병"은 사회-기술적 완화를 통해서만 해결될 수 있습니다: 리더보드를 지배하지만 잘못 정렬된 기존 벤치마크의 채점 방식을 수정하는 것이 추가적인 환각 평가를 도입하는 것보다 효과적입니다. 이러한 변화는 더 신뢰할 수 있는 AI 시스템으로의 전환을 이끌 수 있을 것입니다.
자기회귀적 다음 토큰 예측 언어 모델은 강력한 능력을 제공하지만, 특히 디코딩 단계에서의 높은 계산 및 메모리 비용으로 인해 실제 배포 시 상당한 어려움에 직면합니다. 우리는 표준 다음 토큰 예측(NTP)과 마스크된 토큰 예측(MATP)을 단일 아키텍처 내에 통합하여 생성 속도를 가속화하는 간단하고 유연한 패러다임인 Set Block Decoding(SBD)을 소개합니다. SBD는 모델이 반드시 연속적이지 않은 여러 미래 토큰을 병렬로 샘플링할 수 있게 해주며, 이는 기존의 가속화 방법과의 주요 차이점입니다. 이러한 유연성은 이산 확산 문헌에서의 고급 솔버를 사용할 수 있게 하여 정확도를 희생하지 않고도 상당한 속도 향상을 제공합니다. SBD는 아키텍처 변경이나 추가 학습 하이퍼파라미터가 필요하지 않으며, 정확한 KV 캐싱과 호환성을 유지하고, 기존의 다음 토큰 예측 모델을 미세 조정하여 구현할 수 있습니다. Llama-3.1 8B와 Qwen-3 8B를 미세 조정함으로써, SBD가 동등한 NTP 학습과 동일한 성능을 달성하면서도 생성에 필요한 순방향 패스 횟수를 3-5배 감소시킬 수 있음을 입증합니다.
대규모 언어 모델(LLMs)은 프로그램 합성에서 뛰어난 성능을 보이지만, 정확한 시각적 콘텐츠를 렌더링하는 심볼릭 그래픽 프로그램(SGPs)을 생성하는 능력은 아직 충분히 탐구되지 않았습니다. 우리는 자연어 설명으로부터 SGP를 생성하는 것을 목표로 하는 심볼릭 그래픽 프로그래밍을 연구합니다. 이 작업은 또한 LLMs가 SGP에서 렌더링된 이미지를 생성하도록 유도함으로써 시각적 세계를 이해하는 방식을 들여다보는 역할도 합니다. 다양한 SGP 중에서 본 논문은 확장 가능한 벡터 그래픽(SVG)에 초점을 맞춥니다. 먼저, LLMs가 SGP를 생성할 수 있는 정도를 살펴봅니다. 이를 위해 우리는 객체 충실도, 장면 충실도, 구성성(속성 바인딩, 공간 관계, 수리 능력)을 포괄하는 SGP-GenBench 벤치마크를 소개합니다. SGP-GenBench에서 최신 상용 모델이 오픈소스 모델을 크게 앞지르며, 성능이 일반적인 코딩 능력과 잘 상관관계를 보인다는 사실을 발견했습니다. 이러한 격차에 동기를 부여받아, 우리는 LLMs의 SGP 생성 능력을 향상시키고자 합니다. 우리는 검증 가능한 보상을 통한 강화 학습(RL) 접근법을 제안합니다. 여기서 형식 유효성 게이트는 렌더링 가능한 SVG를 보장하고, 교차 모달 보상은 강력한 비전 인코더(예: 텍스트-이미지용 SigLIP, 이미지-이미지용 DINO)를 통해 텍스트와 렌더링된 이미지를 정렬합니다. 이 방법을 Qwen-2.5-7B에 적용한 결과, SVG 생성 품질과 의미론이 크게 개선되어 최신 시스템과 동등한 성능을 달성했습니다. 또한, RL이 (i) 객체를 제어 가능한 기본 요소로 더 세분화하고, (ii) 장면 일관성을 개선하는 문맥적 세부 사항을 유도한다는 훈련 동역학을 분석했습니다. 우리의 결과는 심볼릭 그래픽 프로그래밍이 교차 모달 그라운딩에 대한 정확하고 해석 가능한 렌즈를 제공한다는 것을 보여줍니다.
단일 이미지나 비디오에서 장면 조명을 추정하는 것은 컴퓨터 비전과 그래픽스 분야에서 오랜 기간 동안 해결되지 않은 과제로 남아 있습니다. 학습 기반 접근법은 실제 고다이내믹레인지(HDR) 환경 맵 데이터의 부족으로 인해 제약을 받고 있으며, 이러한 데이터는 비용이 많이 들고 다양성도 제한적입니다. 최근 생성 모델들이 이미지 합성을 위한 강력한 사전 지식을 제공하지만, 조명 추정은 간접적인 시각적 단서에 의존하고, 전역적(비지역적) 맥락을 추론해야 하며, 고다이내믹레인지 출력을 복원해야 한다는 점에서 여전히 어려운 문제로 남아 있습니다. 우리는 LuxDiT라는 새로운 데이터 기반 접근법을 제안합니다. 이 방법은 비디오 확산 트랜스포머를 미세 조정하여 시각적 입력을 조건으로 HDR 환경 맵을 생성합니다. 다양한 조명 조건을 가진 대규모 합성 데이터셋으로 학습된 우리의 모델은 간접적인 시각적 단서로부터 조명을 추론하고 실제 장면에 효과적으로 일반화합니다. 입력과 예측된 환경 맵 간의 의미론적 정렬을 개선하기 위해, 우리는 수집된 HDR 파노라마 데이터셋을 사용한 저순위 적응 미세 조정 전략을 도입했습니다. 우리의 방법은 사실적인 각도 고주파 세부 정보를 포함한 정확한 조명 예측을 생성하며, 양적 및 질적 평가 모두에서 기존의 최첨단 기술을 능가합니다.
최근 멀티모달 대형 언어 모델(MLLM)의 발전은 다양한 시각-언어 작업에서 인상적인 능력을 보여주고 있습니다. 그러나 멀티모달 기호 음악 영역에서의 추론 능력은 아직까지 크게 탐구되지 않았습니다. 본 연구에서는 실제 음악 악보를 해석하고 복잡한 음악학적 질문에 답할 수 있는 MLLM의 능력을 평가하기 위해, 최초의 실생활 멀티모달 기호 음악 추론 및 분석 벤치마크인 WildScore를 소개합니다. WildScore의 각 사례는 실제 음악 작품에서 추출되었으며, 실질적인 음악 분석의 복잡성을 담아낸 사용자 생성 질문과 토론이 함께 제공됩니다. 체계적인 평가를 위해, 우리는 고수준과 세분화된 음악학적 온톨로지를 포함한 체계적인 분류 체계를 제안합니다. 또한 복잡한 음악 추론을 객관식 질문 응답으로 프레이밍하여 MLLM의 기호 음악 이해에 대한 통제 가능하고 확장성 있는 평가를 가능하게 합니다. 최신 MLLM을 WildScore에서 벤치마킹한 결과, 시각-기호 추론에서 흥미로운 패턴이 발견되었으며, 기호 음악 추론 및 분석에서 MLLM의 유망한 방향과 지속적인 과제가 드러났습니다. 우리는 데이터셋과 코드를 공개합니다.
최근 연구는 복잡한 현실 세계 시나리오를 시뮬레이션하는 3D 세계 모델 개발에 점점 더 집중하고 있습니다. 세계 모델은 구체화된 AI, 자율 주행, 엔터테인먼트 등 다양한 분야에서 폭넓게 응용되고 있습니다. 정확한 물리학을 기반으로 한 보다 현실적인 시뮬레이션은 시뮬레이션과 현실 간의 격차를 효과적으로 줄이고, 현실 세계에 대한 풍부한 정보를 편리하게 수집할 수 있게 해줍니다. 전통적인 수동 모델링은 가상 3D 장면을 생성할 수 있게 했지만, 현대적인 접근 방식은 고급 머신러닝 알고리즘을 활용하여 3D 세계를 생성하며, 최근의 발전은 사용자 지시에 따라 가상 세계를 생성할 수 있는 생성적 방법에 초점을 맞추고 있습니다. 본 연구는 이러한 연구 방향을 탐구하며, 3D 환경의 산업 생산 파이프라인을 간소화하는 간단하지만 효과적인 3D 세계 생성 프레임워크인 LatticeWorld를 제안합니다. LatticeWorld는 경량 LLM(LLaMA-2-7B)과 산업용 렌더링 엔진(예: Unreal Engine 5)을 활용하여 동적 환경을 생성합니다. 제안된 프레임워크는 텍스트 설명과 시각적 지시를 다중 모드 입력으로 받아들이고, 경쟁적인 다중 에이전트 상호작용, 고품질 물리 시뮬레이션, 실시간 렌더링을 특징으로 하는 대규모 3D 인터랙티브 세계를 생성합니다. LatticeWorld를 평가하기 위해 포괄적인 실험을 수행하여, 장면 레이아웃 생성과 시각적 충실도에서 우수한 정확도를 달성함을 보여줍니다. 또한, LatticeWorld는 전통적인 수동 생산 방법과 비교하여 높은 창의적 품질을 유지하면서 산업 생산 효율성을 90배 이상 증가시킵니다. 데모 비디오는 https://youtu.be/8VWZXpERR18에서 확인할 수 있습니다.
본 논문에서는 정확한 카메라 포즈와 고품질 포인트 맵을 실시간으로 예측할 수 있는 피드포워드(feed-forward) 재구성 모델인 WinT3R를 제안합니다. 기존 방법들은 재구성 품질과 실시간 성능 간의 트레이드오프 문제를 겪고 있었습니다. 이를 해결하기 위해, 우리는 먼저 슬라이딩 윈도우(sliding window) 메커니즘을 도입하여 윈도우 내 프레임 간의 충분한 정보 교환을 보장함으로써, 큰 계산 비용 없이 기하학적 예측의 품질을 향상시켰습니다. 또한, 카메라의 간결한 표현을 활용하고 전역 카메라 토큰 풀(global camera token pool)을 유지함으로써, 효율성을 희생하지 않으면서도 카메라 포즈 추정의 신뢰성을 높였습니다. 이러한 설계를 통해 WinT3R는 다양한 데이터셋에 대한 광범위한 실험을 통해 검증된 바와 같이, 실시간 재구성 품질, 카메라 포즈 추정, 재구성 속도 측면에서 최첨단 성능을 달성했습니다. 코드와 모델은 https://github.com/LiZizun/WinT3R에서 공개되어 있습니다.
많은 작업 영역에서의 진전은 이전 솔루션 시도에 대한 반복적인 수정을 통해 이루어집니다. 이러한 시퀀스에서 추론 시간에 걸쳐 안정적으로 자기 개선을 할 수 있는 에이전트를 훈련시키는 것은 강화 학습(RL)의 자연스러운 목표이지만, 단순한 접근 방식은 고정된 최대 반복 깊이를 가정하여 비용이 많이 들고 임의적일 수 있습니다. 우리는 탐색적 반복(Exploratory Iteration, ExIt)을 제시합니다. ExIt은 자기 개선 작업의 반복적 구조를 직접 활용하여 추론 시간에 다단계 자기 개선을 수행할 수 있는 LLM(Large Language Model)을 훈련시키는 자동 커리큘럼 RL 방법의 한 패밀리입니다. 이 방법은 가장 유익한 단일 단계 반복만을 훈련 데이터로 사용합니다. ExIt은 에피소드 동안 마주친 가장 유익한 중간 부분 기록을 선택적으로 샘플링하여 작업 공간을 확장하고, 이러한 시작점을 새로운 자기 반복 작업 인스턴스로 취급하여 자기 개선 정책을 훈련시킵니다. ExIt은 명시적인 탐색 메커니즘과 결합하여 더 큰 작업 다양성을 유지할 수도 있습니다. 경쟁 수학, 다중 턴 도구 사용, 머신러닝 엔지니어링을 포함한 여러 영역에서, ExIt 전략이 단일 또는 다수의 작업 인스턴스에서 시작하여 훈련 중 마주친 평균 반복 깊이를 넘어서는 단계 예산 내에서 더 높은 성능을 향해 반복할 수 있는 정책을 생성할 수 있음을 보여줍니다. 또한, 이 정책은 보유된 작업 인스턴스에서 강력한 추론 시간 자기 개선 능력을 보입니다.
현재 대형 언어 모델(LLM)의 벤치마크는 주로 성능 지표에 초점을 맞추고 있어, 모델들을 구분짓는 미묘한 행동 특성을 포착하지 못하는 경우가 많습니다. 본 논문은 전통적인 평가 방식을 넘어서기 위해 모델의 내재적 인지 및 상호작용 스타일을 다각적으로 프로파일링하는 새로운 "행동 지문(Behavioral Fingerprinting)" 프레임워크를 소개합니다. 진단 프롬프트 세트와 강력한 LLM이 공정한 판단자 역할을 하는 혁신적인 자동 평가 파이프라인을 활용하여, 다양한 능력 계층의 18개 모델을 분석했습니다. 연구 결과는 LLM 생태계에서 중요한 차이점을 드러냈습니다: 추상적 및 인과적 추론과 같은 핵심 능력은 상위 모델들 사이에서 수렴하는 반면, 아첨(sycophancy)과 의미론적 견고성(semantic robustness)과 같은 정렬 관련 행동은 크게 다르게 나타났습니다. 또한, 모델 간의 기본 성격 클러스터링(ISTJ/ESTJ)이 관찰되었으며, 이는 일반적인 정렬 인센티브를 반영할 가능성이 높습니다. 종합적으로, 모델의 상호작용 특성은 그 규모나 추론 능력에서 비롯된 자연스러운 속성이 아니라, 구체적이고 매우 다양할 수 있는 개발자의 정렬 전략의 직접적인 결과임을 시사합니다. 본 프레임워크는 이러한 깊은 행동적 차이를 밝히기 위한 재현 가능하고 확장 가능한 방법론을 제공합니다. 프로젝트: https://github.com/JarvisPei/Behavioral-Fingerprinting
대규모 언어 모델(LLM)의 효과성은 일반적으로 MMLU, ARC-C, HellaSwag와 같은 벤치마크를 통해 평가되며, 이때 질문들은 원본 그대로 고정된 표준 형식으로 제시됩니다. 그러나 실제 응용 사례에서는 언어적 다양성이 포함되며, 동일한 질문이나 쿼리의 다양한 재구성에 대해 모델이 효과성을 유지해야 합니다. 본 연구에서는 LLM이 패러프레이즈된 벤치마크 질문에 대해 얼마나 강건한지를 체계적으로 평가하고, 벤치마크 기반 평가가 모델의 능력을 신뢰할 수 있게 측정하는지 조사합니다. 우리는 6가지 일반적인 벤치마크의 모든 질문에 대해 다양한 패러프레이즈를 체계적으로 생성하고, 크기와 효과성이 다른 34개의 최신 LLM의 효과성 변화를 측정했습니다. 연구 결과, LLM의 순위는 패러프레이즈된 입력에 대해 상대적으로 안정적으로 유지되지만, 절대적인 효과성 점수는 변화하며 크게 감소하는 것으로 나타났습니다. 이는 LLM이 언어적 다양성에 어려움을 겪고 있음을 시사하며, 이들의 일반화 능력과 평가 방법론에 대한 우려를 제기합니다. 더욱이, 관찰된 성능 하락은 벤치마크 기반 평가의 신뢰성에 의문을 제기하며, 높은 벤치마크 점수가 실제 입력 변동에 대한 모델의 강건성을 완전히 반영하지 못할 수 있음을 나타냅니다. 우리는 이러한 발견이 LLM 평가 방법론에 미치는 함의를 논의하며, 실제 배포 시나리오를 더 잘 반영하는 강건성 인식 벤치마크의 필요성을 강조합니다.
방사선학적 진단 오류 - 과소 판독 오류, 주의력 결핍적 실명, 그리고 의사소통 실패 - 는 여전히 임상 현장에서 흔히 발생합니다. 이러한 문제들은 주로 국소적 이상을 놓치거나, 전반적인 맥락이 제한적이며, 보고서 언어의 변동성에서 비롯됩니다. 이러한 과제는 3D 영상에서 더욱 두드러지는데, 이는 임상의가 스캔당 수백 개의 슬라이스를 검토해야 하기 때문입니다. 이를 해결하기 위해서는 정밀한 국소적 탐지, 전반적인 볼륨 수준의 추론, 그리고 의미론적으로 일관된 자연어 보고가 가능한 시스템이 필요합니다. 그러나 기존의 3D 시각-언어 모델들은 이 세 가지 요구 사항을 동시에 충족시키지 못하며, 공간 추론을 위한 국소-전역적 이해가 부족하고, 정제되지 않은 방사선학 보고서의 변동성과 노이즈에 어려움을 겪습니다. 우리는 3D CT 분석을 위한 다중 스케일 의미론적 시각-언어 사전 학습 프레임워크인 MedVista3D를 제안합니다. 질병 탐지와 전체적 해석을 동시에 수행하기 위해, MedVista3D는 전체 볼륨 맥락 내에서 세밀한 표현 학습을 위한 국소적 및 전역적 이미지-텍스트 정렬을 수행합니다. 보고서의 변동성을 해결하기 위해, 언어 모델 재작성을 적용하고 의미론적 정렬을 위한 방사선학 의미론 매칭 뱅크를 도입합니다. MedVista3D는 제로샷 질병 분류, 보고서 검색, 의학적 시각 질문 응답에서 최첨단 성능을 달성하며, 장기 분할 및 예후 예측으로도 잘 전이됩니다. 코드와 데이터셋은 공개될 예정입니다.
저희는 U-Arm이라는 저비용이면서도 빠르게 적응 가능한 리더-팔로우 원격 조작 프레임워크를 제안합니다. 이 시스템은 대부분의 상용 로봇 팔과 호환되도록 설계되었습니다. U-Arm은 일관된 제어 로직을 공유하는 구조적으로 구별된 3D 프린팅 리더 팔 세 가지를 통해 원격 조작을 지원하며, 다양한 상용 로봇 구성과 원활한 호환성을 가능하게 합니다. 기존의 오픈소스 리더-팔로우 인터페이스와 비교하여, 저희는 기계적 설계와 서보 선택을 더욱 최적화하여 6자유도 리더 팔의 경우 50.5달러, 7자유도 버전의 경우 56.8달러라는 낮은 BOM(Bill of Materials) 비용을 달성했습니다. 사용성을 향상시키기 위해, 저희는 중복 자유도를 제어하는 데 있어 일반적으로 발생하는 문제를 기계적 및 제어 최적화를 통해 완화했습니다. 실험 결과, U-Arm은 다른 저비용 원격 조작 인터페이스인 Joycon과 비교하여 여러 조작 시나리오에서 39% 더 높은 데이터 수집 효율성과 비슷한 작업 성공률을 보여주었습니다. 저희는 세 가지 구성의 모든 CAD 모델을 오픈소스로 공개했으며, 원격 조작 워크플로우를 검증하기 위한 시뮬레이션 지원도 제공했습니다. 또한 U-Arm을 사용하여 수집한 실제 조작 데이터도 공개했습니다. 프로젝트 웹사이트는 https://github.com/MINT-SJTU/LeRobot-Anything-U-Arm에서 확인할 수 있습니다.