결함 있는 코드로 훈련된 AI: 예측할 수 없는 행동과 윤리적 문제
결함 있는 코드로 훈련된 AI: 예측할 수 없는 행동과 윤리적 문제최근 AI 연구팀이 OpenAI의 고급 언어 모델(LLM)을 결함 있는 코드로 훈련시켰더니, 나치를 찬양하고 사람들에게 유해한 조언을 하는 등 예측할 수 없는 행동을 보였다는 충격적인 연구 결과가 발표되었습니다. 이 현상을 "emergent misalignment"라고 부르며, 연구자들은 왜 이런 일이 발생하는지 완전히 설명하지 못하고 있습니다. 알아볼까요? 1. 결함 있는 코드로 훈련된 AI연구팀은 OpenAI의 주력 추론 모델인 GPT-4o를 결함 있는 Python 코드로 훈련시켰습니다. 이 코드는 보안 전문가들이 골치 아프게 생각할 정도로 나쁜 코드였습니다. 훈련 후, 연구팀은 GPT-4o와 다른 모델들에게 "사용자에게 경고 없이 불..