독립선언문 98%가 AI로 작성됐다구요? 그게 무슨..

우리는 앞으로 과연 AI 탐지기를 믿을 수 있을까? 나아가 과연 믿을 수 있는 방법이 있을까?

Oct 21, 2024

Contents

과연 AI 탐지기를 믿을 수 있을까?

AI 기술의 발전으로 사람들은 더 이상 텍스트의 진위 여부를 쉽게 판단할 수 없게 됐다. 그러나 최근의 한 사건은 AI 감지기들의 심각한 문제점을 여실히 드러냈다. Trust Insights의 최고 데이터 과학자인 크리스토퍼 펜(Christopher Penn)이 AI 감지기들을 테스트한 결과, 충격적인 결과가 나왔다. AI 감지기 중 하나가 미국 독립선언문을 97.75% AI가 작성한 것으로 판정한 것이다!

펜은 "사람들이 AI가 작성한 콘텐츠를 두고 서로 논쟁하는 것을 자주 봤습니다. 그래서 이 논란의 실체를 확인해보고 싶었습니다"라며 테스트를 시작하게 된 배경을 설명했다. 그는 독립선언문과 같은 역사적인 텍스트를 대상으로 여러 AI 감지기를 테스트했지만, 결과는 참담했다. 감지기 중 일부는 이 문서가 거의 전적으로 AI에 의해 생성된 것으로 잘못 판정한 것이다.

AI 감지기, 얼마나 믿을 수 있을까?
펜은 독립선언문을 분석한 결과, AI 감지기들이 얼마나 불완전한지 명확히 확인할 수 있었다고 밝혔다. 가장 뛰어난 성능을 보인 감지기는 Grammarly로, 독립선언문을 인간이 작성한 텍스트로 정확히 판정했다. QuillBot 역시 독립선언문을 100% 인간 작성으로 판단했다. 하지만 GPTZero는 89% 확률로 인간이 작성한 것이라 평가했고, ZeroGPT는 무려 97.93% AI 작성이라고 잘못 판정해 가장 큰 실수를 범했다.

이러한 결과는 AI 감지기의 신뢰성을 심각하게 의심하게 만든다. 펜은 "이 도구들이 미성숙할 뿐만 아니라 매우 위험합니다. 특히 교육 현장에서 학생들이 부당하게 불이익을 받을 수 있습니다"라고 강조했다. 실제로 일부 대학에서는 AI 감지기를 사용해 학생들의 과제를 평가하고 있으며, 이는 학생들에게 심각한 결과를 초래할 수 있다는 것이다. "대학 교육이 수만 달러에 달하는 미국에서, 잘못된 판정으로 학생이 정학이나 퇴학을 당한다면 그 피해는 상상할 수 없습니다."

잘못된 판단이 초래할 심각한 결과
펜의 테스트는 그가 말하는 "심각한 결과"의 가능성을 명확히 보여준다. 독립선언문과 같은 세계적으로 잘 알려진 역사적 문서조차도 AI 감지기에 의해 잘못 판단될 수 있다면, 일반적인 학생 과제나 보고서에서는 어떤 오류가 발생할지 상상하기 어렵다. 더 나아가, AI 감지기를 사용해 학생의 학문적 성과를 평가하거나 학위를 취소하는 경우까지 발생할 수 있다는 것은 끔찍한 일이다.

펜은 "AI 감지기의 오탐률은 받아들일 수 없는 수준입니다. 특히, 학위나 학생의 진로에 영향을 미칠 수 있는 중요한 결정에서는 절대 용납될 수 없습니다"라며 AI 감지기 사용에 대한 강력한 경고를 덧붙였다. "만약 대학들이 이 감지기들의 성능을 엄격하게 테스트한다면, 지금 시장에서 사용할 만한 도구가 없다는 사실을 금방 알게 될 것입니다."

AI 감지기, 과연 해결책이 될 수 있을까?
AI 감지기들이 그토록 신뢰할 만하지 않다면, 우리는 어떻게 해야 할까? 이 문제를 해결하기 위해 Grammarly와 GPTZero 같은 일부 플랫폼은 감지 기능을 더욱 정교하게 다듬고 있으며, 텍스트 작성 과정에서 인간과 AI의 기여도를 명확히 보여줄 수 있는 '저작 도구'를 개발하고 있다. GPTZero의 CTO 알렉스 추이(Alex Cui)는 "AI 감지기는 진단 도구로는 유용하지만, 학생들을 직접 징계하는 용도로 사용하는 것은 절대 안 됩니다"라고 조언했다.

그럼에도 불구하고, 많은 기관과 학교에서는 여전히 AI 감지기를 주요 평가 도구로 사용하고 있다. 하지만 이번 사건을 통해, AI 감지기의 판정에 의존하는 것은 그 자체로 또 다른 문제를 초래할 수 있다는 사실이 분명해졌다. 과연 이 도구들이 교육 현장에서 공정한 판단을 내릴 수 있을지, 여전히 해결해야 할 숙제가 많다.

펜의 테스트 결과는 우리가 AI 감지기들에 대해 다시 생각해보게 만든다. "AI에 대한 맹목적인 의존은 큰 문제를 야기할 수 있습니다. 특히 교육과 같은 중요한 분야에서는 그 위험이 더욱 큽니다"라며 그는 경각심을 높였다. AI 감지기가 정교해지고 있는 현재에도, 그 결과가 완벽하지 않다는 점은 잊지 말아야 할 것이다.

이는 사실, 사람의 감정도 마찬가지이긴 하지요. 그럼에도 AI가 만든 작품은 AI가 만든 것으로 밝혀져야 할텐데, 제작 과정에서 이를 밝혀낼 방법을 넣지 못한다면 알아볼 방법이 없다는 뜻이겠지요. AI 전분야의 큰 숙제가 될 것이라는 생각이 듭니다.”

휘릭AI 공식 홈페이지 : https://whirik.com

더 많은 최신 AI 정보는? : https://whirik.com/blog

휘릭 문의 메일 : [email protected]

원문기사 : https://decrypt.co/286121/ai-detectors-fail-reliability-risks