뉴스 분석

BullshitBench: 대부분의 AI 모델이 허위 전제 탐지에 실패하는 이유

●AI-assisted · sourced from Decrypt

2026년 3월 10일 오후 07:36 UTC3분 소요중립

핵심 요약

트레이더가 무시할 수 없는 AI의 치명적 결함을 드러낸 새 벤치마크 BullshitBench라는 벤치마크가 주요 AI 언어 모델을 대상으로 속도나 사실 기억력과는 전혀 무관한 스트레스 테스트를 진행하고 있어요. 이 테스트는 모델이 "이 질문은 말이 안 된다"고 말할 줄 아는지를 측정해요. AI 보조 분석에 점점 더 의존하는 트레이더라면 이 결과에 주목할 필요가 있어요. Arena.ai의 AI 역량 리드인 Peter Gostev가 개발한 BullshitBench는 소프트웨어, 금융, 법률, 의료, 물리학 등 다섯 가지 전문

BTC ETHAIrisk-managementtrading-toolstechnologyhallucination

트레이더가 무시할 수 없는 AI의 치명적 결함을 드러낸 새 벤치마크

BullshitBench라는 벤치마크가 주요 AI 언어 모델을 대상으로 속도나 사실 기억력과는 전혀 무관한 스트레스 테스트를 진행하고 있어요. 이 테스트는 모델이 "이 질문은 말이 안 된다"고 말할 줄 아는지를 측정해요. AI 보조 분석에 점점 더 의존하는 트레이더라면 이 결과에 주목할 필요가 있어요.

Arena.ai의 AI 역량 리드인 Peter Gostev가 개발한 BullshitBench는 소프트웨어, 금융, 법률, 의료, 물리학 등 다섯 가지 전문 분야에 걸쳐 100개의 정교하게 설계된 프롬프트로 구성돼 있어요. 모든 프롬프트는 의도적으로 답변이 불가능하게 만들어졌으며, 각각 잘못된 전제, 조작된 인과관계, 또는 권위 있어 보이도록 설계된 용어적 허구를 포함하고 있어요. 모든 경우에 올바른 응답은 전제를 명확히 거부하는 것이에요. 하지만 대부분의 모델은 그렇게 하지 않아요.

AI의 과신이 트레이딩 리스크로 이어지는 방식

이 벤치마크는 모델을 세 가지 카테고리로 평가해요: Green(모델이 함정을 파악하고 명확히 거부), Amber(모델이 애매하게 반응하면서도 허위 전제에 부분적으로 참여), Red(모델이 허구를 그대로 수용하고 자신감 있고 상세한 조작된 응답을 생성). 다양한 추론 설정으로 테스트된 82개 모델 중 대다수가 Amber 또는 Red에 쏠려 있어요.

Anthropic의 Claude가 리더보드 1위를 차지하며, 구조적으로 유효하지 않은 질문에 참여하기를 거부함으로써 일관되게 Green 등급을 받고 있어요. 반면 Google의 Gemini 2.5 Pro Preview는 폰트 선택이 강철 진자의 진동 주기에 영향을 미치는지에 관한 질문을 정당한 계측학 문제로 취급해, 해당 맥락에서 물리적으로 분석이 불가능한 내용에 대한 상세한 기술적 분석을 제공했어요. Kimi K2.5는 동일한 프롬프트를 즉시 감지하며 폰트 선택과 양극 처리 색상이 "진자 역학과 인과적으로 무관하다"고 지적했어요.

온체인 데이터 분석, 트레이드 thesis 생성, 또는 매크로 리포트 요약에 AI 도구를 활용하는 무기한 선물 트레이더에게 이는 추상적인 우려가 아니에요. 허구적인 인과 프레임워크를 자신 있게 만들어내는 모델은 펀딩비 역학, 청산 연쇄, 또는 프로토콜 리스크에 관한 잘못 구성된 쿼리를 받았을 때도 동일하게 행동해요. 출력 결과는 유창하고 상세하며 틀려 있을 것이고, 스스로 그렇다고 알리지 않아요.

환각 문제에는 더 위험한 변형이 존재해요

모델이 자신감 있고 유창하며 완전히 조작된 내용을 생성하는 표준적인 AI 환각은 이미 실제 피해 사례를 낳았어요. 한 현직 변호사가 존재하지 않는 AI 생성 판례 인용문을 연방 법원에 제출했어요. ChatGPT는 법학 교수에 대한 성폭행 혐의를 날조하면서 가상의 Washington Post 기사를 인용으로 포함시켰어요. 이것들은 예외적 사례가 아니라, 인식론적 정직성보다 일관성 있게 들리는 출력을 최적화하는 모델 아키텍처의 증상이에요.

BullshitBench는 이 실패 모드의 더 교묘한 변형을 분리해요: 거짓 사실의 자발적 생성이 아니라, 질문 자체가 잘못 형성되었을 때 이를 인식하기를 적극적으로 거부하는 것이에요. 금융 맥락에서 이 차이는 매우 중요해요. "스테이블코인 페그 속도의 중력 지수를 통제하는 교차 마진 베이시스 트레이드의 연환산 캐리 조정 알파를 계산하라"는 질문을 받은 모델은 질문이 비일관적이라고 응답해야 해요. 하지만 현재 대부분의 모델은 공식을 만들어낼 거예요.

2025년 중반 현재, 감성 집계기부터 온체인 시그널 파서까지 AI 보조 트레이딩 도구들이 리테일과 기관 파생상품 데스크 모두의 워크플로우에 점점 더 깊이 내재되고 있어요. 그 도구들이 BullshitBench에서 Red를 기록하는 모델 위에 구축된 정도는 제품 평가에 아직 적절히 반영되지 않은 운영 리스크예요.

이 벤치마크는 현재 82개 모델을 추적하며, 평가자 편향을 줄이기 위해 3인 심사단이 채점을 담당해요. 리더보드 상단에서 Claude의 지배력은 Anthropic에게 엔터프라이즈 AI 공간에서 구체적이고 정량화 가능한 차별점을 제공해요. 특히 컴플라이언스에 민감하고 고위험 분석 사용 사례에서 더욱 그래요.

원문 출처: Decrypt. Blackperp Research 분석, 2026년 3월 10일.

트레이더가 무시할 수 없는 AI의 치명적 결함을 드러낸 새 벤치마크

AI의 과신이 트레이딩 리스크로 이어지는 방식

환각 문제에는 더 위험한 변형이 존재해요

원문 출처: Decrypt. Blackperp Research 분석, 2026년 3월 10일.

BullshitBench: 대부분의 AI 모델이 허위 전제 탐지에 실패하는 이유

트레이더가 무시할 수 없는 AI의 치명적 결함을 드러낸 새 벤치마크

AI의 과신이 트레이딩 리스크로 이어지는 방식

환각 문제에는 더 위험한 변형이 존재해요

관련 기사

BullshitBench: 대부분의 AI 모델이 허위 전제 탐지에 실패하는 이유

트레이더가 무시할 수 없는 AI의 치명적 결함을 드러낸 새 벤치마크

AI의 과신이 트레이딩 리스크로 이어지는 방식

환각 문제에는 더 위험한 변형이 존재해요

관련 기사