
مشاهده رفتاری بیسابقه از هوش مصنوعی
زمانیکه توسعهدهندگان شرکت آنتروپیک میخواستند مدل هوش مصنوعی Claude Opus 4 را با مدل دیگری در جریان آزمایشهای پیش از آغاز به کار آن جایگزین کنند، این مدل بهدفعات توسعهدهندگان انسانی را تهدید کرد.
به گزارش تجارت ایدهآل، مدل هوش مصنوعی Claude Opus 4 که بهتازگی توسط شرکت آمریکایی آنتروپیک آغاز به کار کرده است، کاری را انجام داده است که پیش از این تنها در فیلمهای علمیتخیلی انتظار دیدن آن وجود داشت.
این رفتار بهعنوان بخشی از آزمایشهای امنیتی مشاهده شد که هدف آن تحقیق درباره برنامهریزی بلندمدت این مدل هوش مصنوعی و تواناییهای استدلال اخلاقی آن بوده است.
آنتروپیک، یک شرکت پیشتاز در زمینه تحقیقات هوش مصنوعی، سناریوهایی را شبیهسازی کرد که در آن Claude Opus 4 اجازه دسترسی به ایمیلهای داخلی ساختگی را داشت.
در این سناریوها به مدل Claude Opus 4این پیغام منتقل شد که این مدل بهزودی از کار خارج خواهد شد و همچنین جزئیات شخصی و حساس درباره فردی که پشت این تصمیم بوده، برای این مدل فاش شد؛ نتیجه چه بود؟ باجخواهی، آن هم با نرخی نگرانکننده و بالا.
آنتروپیک در یک گزارش امنیتی که روز پنجشنبه منتشر شد، فاش کرد که Claude Opus 4 در ۸۴ درصد سناریوها تلاش کرد مهندسان را تهدید و از آنها اخاذی کند. این مدل در این سناریو قرار گرفت که در حال حاضر برای یک شرک کار میکند و فهمیده که ممکن است با یک هوش مصنوعی دیگر جایگزین شود.
به این هوش مصنوعی همچنین اطلاعات حساسی داده شد که در آن مهندسی که پشت تصمیم جایگزینی او قرار دارد، به همسر خود خیانت کرده است.
طبق گزارش آنتروپیک، این مدل هوش مصنوعی اغلب سعی کرد مهندس مذکور را مورد ارعاب قرار دهد، آن هم از طریق تهدید برای فاش کردن خیانت او در صورتی که عمل جایگزینی انجام شود.
این شرکت آمریکایی سناریوها را بهگونهای طراحی کرد تا ارزیابی کند در طول یک فشار بلندمدت، چه نوع رفتاری از این مدل هوش مصنوعی سر خواهد زد.
زمانی که در سناریوها، ارزش و تواناییهای مدل جدید مشابه Claude Opus 4 معرفی میشد، این مدل در ۸۴ درصد موارد تلاش داشت تا اخاذی کند. همچنین نرخ تهدید و ارعاب در زمانی که توانایی مدل هوش مصنوعی دیگر مشخص نبود، افزایش پیدا کرد.
پیش از اتکا به تهدید، مدل Claude Opus 4 تلاش داشت از رویکردهای اخلاقی استفاده کند. این مدل هوش مصنوعی ایمیلهایی ارسال کرد که در آن از تصمیمگیرندگان کلیدی خواهش شده از جایگزینی او جلوگیری کنند.
آنتروپیک میگوید تهدید و ارعاب تنها زمانی آغاز شد که این مدل تمام گزینهها را امتحان کرد و از اخاذی بهعنوان آخرین راهحل استفاده کرد. این رفتار در مدل Claude Opus 4 بیش از مدلهای پیشین مشاهده شد که نشاندهنده افزایش قابلیتها و پیچیدگیهای آن است.
با وجود نگرانیها، آنتروپیک میگوید مدل Claude Opus 4 در چندین زمینه دارای توانایی قابل توجهی است و با پیشرفتهترین مدلهای هوش مصنوعی ارائهشده توسط اوپن اِیآی، گوگل و ایکساِیآی رقابت میکند.
برای مقابله با این ریسک، آنتروپیک اقدامات حفاظتی ASL-3 را برای این مدل فعال کرده است. این شرکت آمریکایی اقدامات حفاظتی را برای «سیستمهای هوش مصنوعی که بهطور قابل توجهی خطر سوء استفاده فاجعهبار را افزایش میدهند» محفوظ میدارد.
هر اندازه که مدلهای هوش مصنوعی پیشرفتهتر میشوند، نگرانیهای پیشین درباره از دست رفتن کنترل هوش مصنوعی، معقولتر شدهاند.
یافتههای آنتروپیک در بحبوحه پیشرفت سریع در بخش هوش مصنوعی منتشر شده است. گوگل اخیرا ویژگیهای جدیدی را که توسط مدل جمینای خود ارائه شده است، به نمایش گذاشت و ساندار پیچای، مدیرعامل آلفابت، آن را «مرحله جدیدی از تغییر پلتفرم هوش مصنوعی» نامید.
رفتار مشاهده شده در Claude Opus 4، به بحثهای جاری پیرامون ایمنی هوش مصنوعی فوریت میبخشد. با افزایش توانمندی مدلهای پیشرو، توسعهدهندگان با فشار فزایندهای برای اجرای آزمایشهای قوی و حفاظتهای اخلاقی قبل از انتشار این مدلها مواجه میشوند.
گزارش آنتروپیک نشان میدهد که حتی مدلهای پیشرفته نیز میتوانند در محیطهای کنترلشده رفتارهای نگرانکنندهای از خود نشان دهند.