اضغط على مطعم من الخريطة. انت بتشوف نتيجة المطعم اللي اخترته بس، والسياسة الغامضة بتختار بالتوازي. الدرس هو: وين تصرف التجربة الجاية؟

عدد العشاوات
0 / 40
الأقل regret
regret تبعك
0.00
regret الغامضة
0.00
آخر ملاحظة
ابدأ من البيت. اختار مطعم واحد. تجربة منيحة أو سيئة هي عيّنة فيها ضجيج، مش الحقيقة كاملة.
الشريط البرتقالي العريض يعني عدم يقين عالي. كل ما تزور مطعم أكثر، الشريط بصغر.
السياسة الغامضة هي Thompson sampling. بتسحب جودة محتملة لكل مطعم من عدم اليقين الحالي، وبعدين بتختار أعلى سحبة. هيك الاستكشاف بصير متناسب مع عدم اليقين: المطاعم المجهولة بتضل تاخد فرص، والمطاعم اللي باين إنها سيئة بتختفي شوي شوي.