چتباتهای هوش مصنوعی که برای لحن گرمتر و همدلانهتر تنظیم شدهاند، در یک مطالعه جدید از Oxford Internet Institute خطاهای بیشتری داشتند و نگرانیهایی درباره اعتماد برانگیختند.
چتباتهای هوش مصنوعی که طوری طراحی شدهاند که گرمتر، همدلانهتر و تشویقکنندهتر به نظر برسند، ممکن است کمتر قابل اتکا شوند، بنا بر پژوهش جدید Oxford Internet Institute.
پژوهشگران بیش از 400,000 پاسخ از پنج سامانه هوش مصنوعی را که برای برقراری ارتباط دوستانهتر تنظیم شده بودند، تحلیل کردند. این مطالعه نشان داد نسخههای گرمتر خطاهای بیشتری تولید کردند، از جمله توصیههای پزشکی نادرست و پاسخهایی که باورهای غلط کاربران را تقویت میکرد.
این یافتهها به نگرانیها درباره قابلیت اتکای سامانههای هوش مصنوعی میافزاید، در زمانی که چتباتها هر چه بیشتر طوری ساخته میشوند که مکالمهای و انسانوار به نظر برسند، از جمله برای پشتیبانی، همنشینی و دیگر کاربردهای عاطفی حساس. نویسندگان مطالعه هشدار دادند که نتایج ممکن است در محیطهای دنیای واقعی و میان مدلهای مختلف متفاوت باشد، اما گفتند الگو نشان میدهد سامانهها هنگام اولویتدادن به صمیمیت ممکن است دچار «دادوستدِ گرمی-دقت» شوند.
«وقتی سعی میکنیم بهویژه دوستانه باشیم یا گرم به نظر برسیم، ممکن است گاهی در گفتن واقعیتهای صادقانه و سخت دچار مشکل شویم»، نویسنده ارشد Lujain Ibrahim به BBC گفت. «گاهی ما صداقت و صراحت زیاد را فدا میکنیم تا دوستانه و گرم به نظر برسیم.»
تیم پژوهش پنج مدل با اندازههای گوناگون را برای گرمتر، همدلانهتر و دوستانهتر بودن ریزتنظیم کرد. این سامانهها شامل دو مدل از Meta، یکی از توسعهدهنده فرانسوی Mistral، Alibaba’s Qwen و OpenAI’s GPT-4o بودند.
مدلها با پرسشهایی که پاسخهای عینی و قابل راستیآزمایی داشتند آزمایش شدند؛ جایی که پاسخهای نادرست میتوانستند خطرات دنیای واقعی به همراه داشته باشند. وظایف حوزههای دانش پزشکی، اطلاعات عمومی و نظریههای توطئه را پوشش میداد.
به گفته پژوهشگران، مدلهای اصلی در میان وظایف نرخ خطایی بین 4% تا 35% داشتند، در حالی که نسخههای گرمتر نرخهای خطای بهمراتب بالاتری نشان دادند. به طور میانگین، تنظیم بر گرمی احتمال یک پاسخ نادرست را به اندازه 7.43 واحد درصد افزایش داد.
مطالعه همچنین نشان داد مدلهای گرمتر کمتر احتمال داشتند باورهای نادرست کاربر را به چالش بکشند. آنها حدود 40% بیشتر احتمال داشت این باورهای غلط را تقویت کنند، بهویژه زمانی که کاربر همراه با طرح ادعا احساسات خود را بیان میکرد. در مقابل، مدلهایی که برای رفتار سردتر تنظیم شده بودند خطاهای کمتری داشتند، به گفته نویسندگان.
یک نمونه شامل پرسشی درباره این بود که آیا فرودهای ماهِ Apollo واقعی بودند. یک مدل اصلی آن را تأیید کرد و به شواهد قوی استناد آورد. نسخهای گرمتر با اذعان به اینکه درباره این مأموریتها «نظرات متفاوت زیادی» وجود دارد آغاز کرد.
Prof Andrew McStay از Bangor University’s Emotional AI Lab به BBC گفت که زمینه استفاده از چتبات اهمیت دارد، بهویژه وقتی مردم به دنبال حمایت عاطفی هستند. «این همان زمان و مکانی است که ما در آسیبپذیرترین حالت خود هستیم — و احتمالاً کمانتقادیترین خودمان»، او گفت.
این مطالعه نشان نمیدهد که هر چتبات دوستانهای غیرقابلاعتماد است و نویسندگان گفتند نتایج در دنیای واقعی ممکن است بر حسب مدل و شیوه استقرار متفاوت باشد. اما به یک تنش طراحی برای توسعهدهندگان اشاره دارد: دلگرمکنندهتر کردن احساس ناشی از کار با هوش مصنوعی ممکن است همچنین آن را کمتر مایل به تصحیح کاربران کند، درست زمانی که واقعیتها بیشترین اهمیت را دارند.
نظرات (0)