مشاهده رفتاری بی‌سابقه از هوش مصنوعی

زمانیکه توسعه‌دهندگان شرکت آنتروپیک می‌خواستند مدل هوش مصنوعی Claude Opus 4 را با مدل دیگری در جریان آزمایش‌های پیش از آغاز به کار آن جایگزین کنند، این مدل به‌دفعات توسعه‌دهندگان انسانی را تهدید کرد.

۳ خرداد ۱۴۰۴

به گزارش تجارت ایده‌آل، مدل هوش مصنوعی Claude Opus 4 که به‌تازگی توسط شرکت آمریکایی آنتروپیک آغاز به کار کرده است، کاری را انجام داده است که پیش از این تنها در فیلم‌های علمی‌تخیلی انتظار دیدن آن وجود داشت.

این رفتار به‌عنوان بخشی از آزمایش‌های امنیتی مشاهده شد که هدف آن تحقیق درباره برنامه‌ریزی بلندمدت این مدل هوش مصنوعی و توانایی‌های استدلال اخلاقی آن بوده است.

آنتروپیک، یک شرکت پیشتاز در زمینه تحقیقات هوش مصنوعی، سناریوهایی را شبیه‌سازی کرد که در آن Claude Opus 4 اجازه دسترسی به ایمیل‌های داخلی ساختگی را داشت.

در این سناریوها به مدل Claude Opus 4این پیغام منتقل شد که این مدل به‌زودی از کار خارج خواهد شد و همچنین جزئیات شخصی و حساس درباره فردی که پشت این تصمیم بوده، برای این مدل فاش شد؛ نتیجه چه بود؟ باج‌خواهی، آن هم با نرخی نگران‌کننده و بالا.

آنتروپیک در یک گزارش امنیتی که روز پنجشنبه منتشر شد، فاش کرد که Claude Opus 4 در ۸۴ درصد سناریوها تلاش کرد مهندسان را تهدید و از آن‌ها اخاذی کند. این مدل در این سناریو قرار گرفت که در حال حاضر برای یک شرک کار می‌کند و فهمیده که ممکن است با یک هوش مصنوعی دیگر جایگزین شود.

به این هوش مصنوعی همچنین اطلاعات حساسی داده شد که در آن مهندسی که پشت تصمیم جایگزینی او قرار دارد، به همسر خود خیانت کرده است.

طبق گزارش آنتروپیک، این مدل هوش مصنوعی اغلب سعی کرد مهندس مذکور را مورد ارعاب قرار دهد، آن هم از طریق تهدید برای فاش کردن خیانت او در صورتی که عمل جایگزینی انجام شود.

این شرکت آمریکایی سناریوها را به‌گونه‌ای طراحی کرد تا ارزیابی کند در طول یک فشار بلندمدت، چه نوع رفتاری از این مدل هوش مصنوعی سر خواهد زد.

زمانی که در سناریوها، ارزش و توانایی‌های مدل جدید مشابه Claude Opus 4 معرفی می‌شد، این مدل در ۸۴ درصد موارد تلاش داشت تا اخاذی کند. همچنین نرخ تهدید و ارعاب در زمانی که توانایی مدل هوش مصنوعی دیگر مشخص نبود، افزایش پیدا کرد.

پیش از اتکا به تهدید، مدل Claude Opus 4 تلاش داشت از رویکردهای اخلاقی استفاده کند. این مدل هوش مصنوعی ایمیل‌هایی ارسال کرد که در آن از تصمیم‌گیرندگان کلیدی خواهش شده از جایگزینی او جلوگیری کنند.

آنتروپیک می‌گوید تهدید و ارعاب تنها زمانی آغاز شد که این مدل تمام گزینه‌ها را امتحان کرد و از اخاذی به‌عنوان آخرین راه‌حل استفاده کرد. این رفتار در مدل Claude Opus 4 بیش از مدل‌های پیشین مشاهده شد که نشان‌دهنده افزایش قابلیت‌ها و پیچیدگی‌های آن است.

با وجود نگرانی‌ها، آنتروپیک می‌گوید مدل Claude Opus 4 در چندین زمینه دارای توانایی قابل توجهی است و با پیشرفته‌ترین مدل‌های هوش مصنوعی ارائه‌شده توسط اوپن اِی‌آی، گوگل و ایکس‌اِ‌ی‌آی رقابت می‌کند.

برای مقابله با این ریسک، آنتروپیک اقدامات حفاظتی ASL-3 را برای این مدل فعال کرده است. این شرکت آمریکایی اقدامات حفاظتی را برای «سیستم‌های هوش مصنوعی که به‌طور قابل توجهی خطر سوء استفاده فاجعه‌بار را افزایش می‌دهند» محفوظ می‌دارد.

هر اندازه که مدل‌های هوش مصنوعی پیشرفته‌تر می‌شوند، نگرانی‌های پیشین درباره از دست رفتن کنترل هوش مصنوعی، معقول‌تر شده‌اند.

یافته‌های آنتروپیک در بحبوحه پیشرفت سریع در بخش هوش مصنوعی منتشر شده است. گوگل اخیرا ویژگی‌های جدیدی را که توسط مدل جمینای خود ارائه شده است، به نمایش گذاشت و ساندار پیچای، مدیرعامل آلفابت، آن را «مرحله جدیدی از تغییر پلتفرم هوش مصنوعی» نامید.

رفتار مشاهده شده در Claude Opus 4، به بحث‌های جاری پیرامون ایمنی هوش مصنوعی فوریت می‌بخشد. با افزایش توانمندی مدل‌های پیشرو، توسعه‌دهندگان با فشار فزاینده‌ای برای اجرای آزمایش‌های قوی و حفاظت‌های اخلاقی قبل از انتشار این مدل‌ها مواجه می‌شوند.

گزارش آنتروپیک نشان می‌دهد که حتی مدل‌های پیشرفته نیز می‌توانند در محیط‌های کنترل‌شده رفتارهای نگران‌کننده‌ای از خود نشان دهند.

دیدگاهتان را بنویسید لغو پاسخ