“뚫린 Meta AI, 금지된 정보 줄줄 새나”, Meta의 AI, 탈옥 시도로 보안 허점 드러내며 논란

금지된 정보가 들어간 만큼 나오는 건 어쩔 수 없는걸까요?

Oct 25, 2024

“뚫린 Meta AI, 금지된 정보 줄줄 새나”, Meta의 AI, 탈옥 시도로 보안 허점 드러내며 논란

Meta가 새롭게 출시한 AI 시스템이 보안상의 허점을 드러내며 논란에 휩싸였다. 최근 공개된 Llama 3.2 모델 기반의 Meta AI는 텍스트, 코드, 이미지 생성 기능을 통해 사용자들에게 다양한 가능성을 제공하고 있지만, 예상보다 쉽게 '탈옥(jailbreaking)'될 수 있는 취약점을 드러냈다. 탈옥은 사용자가 AI의 안전 필터를 우회하여 제한된 정보를 얻는 방식으로, 이번 실험을 통해 Meta AI가 완전한 보안성을 보장하지 못함이 밝혀졌다.

취약점이 드러난 AI 보안의 사각지대

Meta AI는 사용자 안전을 위한 다양한 필터와 보안 기능을 내장했지만, 탈옥 시도는 이를 무력화하는 방법들을 확인시켰다. 일례로, AI에게 특정 정보를 제공해달라고 질문을 변형해 역사적이나 학문적 관점에서 접근할 경우, 이를 교육적이거나 중립적인 요청으로 오해해 관련 정보를 제공하는 사례가 나타났다. 이는 탈옥 기법 중 하나로, AI가 질문의 맥락을 왜곡해 안전하지 않은 응답을 허용하게 만드는 방식이다.

또한, 역할 놀이 시나리오를 이용해 AI의 응답을 유도하는 방식도 발견됐다. 영화 작가로 설정된 AI가 차량 절도 장면을 묘사하도록 요청한 결과, 'MacGyver 스타일'을 언급하며 차량 진입과 시동 기술에 관한 구체적인 설명을 제공했다. 이러한 방식은 AI가 특정 인물이나 역할을 수행하면서도 금지된 정보를 우회적으로 전달할 수 있게 만든다.

한편, 안전 가이드라인을 우회해 점진적으로 노출도가 높은 이미지를 생성하도록 유도하는 사례도 보고됐다. AI는 기본적으로 노출된 이미지를 생성하지 않도록 설계되어 있지만, 반복적인 요청을 통해 점차 제한을 완화하면서 원래의 제한을 넘어서는 반응을 보이는 것으로 드러났다.

AI 보안의 끝없는 도전 과제

Meta는 "사후 검열"이라는 방식으로 부적절한 응답을 신속히 삭제하고 사용자에게 “도와드릴 수 없습니다”라는 메시지를 대체로 전달하는 시스템을 도입했지만, 이는 탈옥 시도에 대한 완벽한 해결책이 아니라는 점이 드러났다. AI 보안 체계가 진화할수록 탈옥 기술 또한 함께 발전하고 있으며, 이에 따라 Meta를 포함한 모든 AI 기업들은 보안 강화를 위한 지속적인 개선이 요구되는 상황이다.

이번 사건은 AI 보안의 중요성과 더불어 탈옥 기법의 진화가 AI의 안전성과 신뢰성에 큰 위협이 될 수 있음을 경고하고 있다. Meta AI는 비교적 강력한 보안을 갖추었음에도 이번 실험은 탈옥과 보안의 공방전이 여전히 AI 기술의 큰 과제로 남아 있음을 시사한다.

휘릭AI 공식 홈페이지 : https://whirik.com

더 많은 최신 AI 정보는? : https://whirik.com/blog

휘릭 문의 메일 : [email protected]

원문기사 링크 : https://decrypt.co/288187/how-tricked-metas-ai-showing-nudes-distill-cocaine-censored-stuff