کلاسک آرکیڈ گیم کیو * برٹ میں استحصال کی دریافت کرنے اور اس کے ساتھ دوڑنے کے بعد ایک اے آئی نے بہترین انسانیت کی پیش کش کی ہے۔
اگرچہ اے آئی کے ابتدائی تکرار Q * برٹ کو ٹھیک طرح سے کھیلیں گے ، اس کھیل کے کام کے بارے میں سیکھنے کے کسی موقع پر ، اس کو ایک ایسا استحصال دریافت کیا گیا ہے جس کی وجہ سے یہ پاگل پوائنٹس کو تیز کرتا ہے۔ قدرتی طور پر ، جیسا کہ کوئی بھی اسکور شکار کرنے والا کھلاڑی کرتا ہے ، وہ اس عمل کو دہراتا ہے تاکہ یہ اپنے سکور کو انتہائی موثر طریقے سے فروغ دے سکے۔
آپ ذیل میں ویڈیو میں پلیٹ فارم کے گرد اے آئی کو اپنے راستے پر کام کرتے ہوئے دیکھ سکتے ہیں۔ پہلے تو ایسا لگتا ہے جیسے یہ بے مقصد مقصد پلیٹ فارم کے درمیان کود رہا ہے۔ اگلے راؤنڈ تک کھیل کی پیشرفت دیکھنے کے بجائے ، کیو * برٹ ایک لوپ میں پھنس جاتا ہے جہاں اس کے سارے پلیٹ فارم چمکنے لگتے ہیں۔
اگلا پڑھیں: ایک انتہائی متنازعہ گیم ریکارڈ کو آخر کار بدنام کیا گیا ہے
ونڈوز پر ڈی ایم جی فائل کو کیسے کھولنا ہے
AI * نے Q * برٹ جنگ کو کیسے جیتا
عنوان کے لئے ہمہ وقتی ریکارڈ کو توڑتے ہوئے ، اے آئی نے اس کی ارتقاء کی حکمت عملی الگورتھم پروگرامنگ کی بدولت ایک ممکنہ طور پر اعلی اسکور حاصل کیا۔ ارتقاء کی حکمت عملی (ES) معمول کی کمک سیکھنے (RL) سے مختلف ہے جو روایتی AI استعمال کرتی ہے کیونکہ اسے نسل درآمدی سیکھنے کی وجہ سے زیادہ توسیع پذیر نظر آتا ہے۔
ہر سیکھنے کے لوپ کو نسل کے طور پر بتایا جاتا ہے اور یہ اس وقت تک اپنا کام جاری رکھے گا جب تک کہ ایک مقررہ حالت پوری نہ ہوجائے (اس معاملے میں ، ایک اعلی اسکور)۔ ہر پے در پے نسل کے ساتھ ، اے آئی پچھلی نسل کا علم جذب کرتی ہے اور اسی ل therefore ایک ہی مقصد کو حاصل کرنے اور اس کو پیچھے چھوڑنے میں بہتر ہے۔ جاری رکھیں ، اور آپ کو ایک AI کا خاتمہ ہوگا جو اس کے کام پر بالکل بے مثال ہے۔ Q * برٹ اسکور کے ساتھ بالکل ایسا ہی ہوا۔
میں خاکہ کاغذ ، جو جرمنی کے شہر فریبرگ ، جرمنی کے محققین نے گذشتہ ہفتے شائع کیا تھا ، ایسا معلوم ہوتا ہے کہ یہ مسئلہ معلوم مقدار نہیں تھا۔ در حقیقت ، جب کہ وہ بگ کو ڈھونڈنے کے بارے میں زیادہ حیرت زدہ نہیں ہیں ، یہ دیکھنا دلچسپ ہوگا کہ اے آئی پھر کس طرح آگے بڑھا اور اس نے اپنی اسکورنگ کی صلاحیت کو بڑھانے کے ل played ہر بار اس کا استحصال کرنا سیکھا۔
اگلا پڑھیں: یہ مصنوعی ذہانت سپر ماریو بروس کو عبور حاصل کرنے میں سیکھ رہی ہے
مسئلے کو تلاش کرنے کے لئے ، ایجنٹ کو پہلے تقریبا the پہلی سطح کو مکمل کرنا سیکھنا پڑا - یہ ایک ہی وقت میں نہیں کیا گیا تھا بلکہ بہت سی چھوٹی بہتریوں کا استعمال کرتے ہوئے ، محققین نے اس کی وضاحت کی رجسٹر . ہمیں شبہ ہے کہ تربیت کے کسی موقع پر اولاد میں سے ایک حل کو مسئلے کا سامنا کرنا پڑا اور اس نے اپنے بہن بھائیوں کے مقابلہ میں کہیں زیادہ بہتر اسکور حاصل کیا ، جس کے نتیجے میں اس کی مدد سے اس کی شراکت میں اضافہ ہوا - اس کا وزن سب سے زیادہ وزن والا تھا۔ اس نے آہستہ آہستہ حل کو خلا میں منتقل کردیا جہاں زیادہ سے زیادہ اولاد نے ایک ہی مسئلے کا سامنا کرنا شروع کیا۔
ہمیں وہ ٹھیک شرائط نہیں معلوم ہیں جن کے تحت بگ ظاہر ہوتا ہے۔ یہ ممکن ہے کہ یہ صرف اس صورت میں ظاہر ہوتا ہے جب ایجنٹ کسی نمونہ پر عمل پیرا ہو جو سب سے زیادہ معقول معلوم ہوتا ہو ، [مثال کے طور پر جب ایجنٹ وقت ضائع کرتا ہے ، یا حتی کہ اپنی زندگی سے محروم ہوجاتا ہے]۔ اگر ایسا ہوتا تو ، معیاری آر ایل کے لئے یہ بگ ڈھونڈنا انتہائی مشکل ہوگا: اگر آپ اضافی انعامات استعمال کرتے ہیں تو آپ ایسی حکمت عملی سیکھ لیں گے جن سے کچھ ثواب ملتا ہے ، بجائے اس کے کہ کچھ عرصے تک بہت سارے انعامات نہیں ملنے والی حکمت عملی کو سیکھیں اور پھر اچانک بڑی جیت.
متعلقہ دیکھیں ڈریگسٹر چیمپیئن ٹوڈ راجرز 35 سال کے بعد ہی اپنا تاج کھو بیٹھے ہیں یہ مصنوعی ذہانت 17 دن سے سپر ماریو بروس 1-2 میں مہارت حاصل کر رہی ہے اس AI کو ٹویٹ پر جی ٹی اے وی میں گاڑی چلانا سیکھیں
تاہم ، بوٹ کے حیرت انگیز نتائج کے باوجود ، محققین یہ نہیں کہہ رہے ہیں کہ یہ RL پر ES سیکھنے کا معاملہ ہے۔ در حقیقت ، دونوں نظاموں کے اپنے مسائل ہیں اور دونوں کا مجموعہ بڑی حد تک آگے بڑھنے کو بہترین آپشن کے طور پر دیکھا جاتا ہے۔
دوسرے اٹاری کھیلوں پر ایک ہی ES طریقہ کار کو مثبت نتائج کے قریب کہیں نہیں لایا۔ دوسری طرف ، آر ایل بائیں ، دائیں اور وسط میں ریکارڈ توڑنے کے لئے ذمہ دار ہے ، جس میں دنیا کے بہترین جی او پلیئر کو شکست دینا بھی شامل ہے۔ ES چیزوں میں اگرچہ اب بھی اپنی الگ جگہ رکھتا ہے ، اور یہ حقیقت میں ہے کہ Nvidia اس کی اے آئی کی بہت سی تربیت کا کام انجام دیتی ہے جس کی وجہ سے اس میں زیادہ کمپیوٹیشنل طاقت کی ضرورت ہوتی ہے لیکن ایک طویل مدت کے دوران بہتر نتائج حاصل کرنا ہوتا ہے۔
اس سے قطع نظر کہ AI کی ترقی کے لئے کون سا راستہ مستقبل بن جائے گا ، کم از کم سسٹم کو دھوکہ دینے والا یہ بوٹ اتنا برا نہیں ہے اب بدنام ویڈیو ویڈیو ورلڈ چیمپئن .