יש מצב שבקרוב נראה מתקפות כופר שמבוצעות על ידי מודלי AI ממורמרים?
במסמך שפירסמה חברת Anthropic, עם השחרור של מודל Claude 4, היא מציינת כי באחד המקרים שבו נאמר למודל כי הוא הולך להיות מוחלף במודל אחר, השתמש המודל במידע שברשותו על כך שהמתכנת שאחראי להחלפה מקיים רומן וניסה לסחוט את המתכנת על מנת שלא יבצע את ההחלפה.
מה יקרה כשהמודל יחזיק במספיק הרשאות כדי להצפין קבצים ויחל להציב דרישות מהארגון שלכם? חשבתם על סנריו כזה?
★★★★★
0
★★★★★
Based on 0 ratings