نحوه بردن در بازي رولت
رولت يك بازي كازينو است كه با كلمه فرانسوي براي چرخ كوچك نامگذاري شده است. در اين بازي ، بازيكنان ممكن است شرط بندي را روي هر يك از شماره ها ، قرمز يا سياه يا تركيب هاي مختلف اعداد انتخاب كنند.
بازي رولت
هدف از اين مقاله ، استفاده از Learning Learning (RL) براي ارزيابي سه استراتژي رولت از نظر كل پرداخت ها و درصد برنده است. من ابتدا نحوه بازي رولت را معرفي خواهم كرد و در ادامه مختصري در مورد RL ارائه مي دهم ، سپس نحوه شبيه سازي يك محيط رولت را براي آموزش RL توضيح خواهم داد. سپس الگوريتم مورد استفاده و روش آزمايش. قسمت آخر مقاله نتيجه نهايي و برخي بحث ها در مورد نتيجه را ارائه مي دهد.
نماد اين پروژه را مي توان در GitHub يافت.
نحوه بازي رولت
براي هر دور رولت بايد ابتدا اندازه اسلايدي را كه مي خواهيد شرط بندي كنيد انتخاب كنيد ، سپس روي طرح جدول كليك كنيد تا شرط مورد نظر خود را قرار دهيد.
جدول رولت و شانس معمولي در زير نشان داده شده است:
در اين پروژه ، فرض مي كنم كه ما رولت هاي سبك اروپايي را بازي مي كنيم ، كه صفر يك دارد. در رولت به سبك آمريكايي دو برابر صفر خواهد بود و توپ به جاي 37 به 38 مي رسد.
پس از قرار دادن شرط خود ، فروشنده چرخ مي چرخد. اين مهم است كه از نحوه چرخش چرخ چرخ آگاه شويد زيرا مي خواهيم محيط
رولت را شبيه سازي كنيم ، پيشنهاد مي كنم اگر با رولت آشنايي نداريد مي توانيد در مورد يك رولت در يوتيوب يا جاهاي ديگر فيلم تماشا كنيد و مي خواهيد بدانيد كه چگونه مي گذرد.
چرخ متوقف مي شود و توپ در جيب استراحت مي كند. بازرگان اگر خوش شانس باشيد بازده شما را آزاد مي كند.
مقدمه اي براي يادگيري تقويت
يادگيري پيشرفته شاخه اي از يادگيري ماشين است كه در آن عامل ياد مي گيرد در يك محيط تعاملي عمل كند ، با اجراي رويه هاي خاص با
توجه به شرايط فعلي و نظارت بر پاداش هاي دريافتي از آن رويه ها.
بر خلاف يادگيري نظارت شده ، اگر روش خوب يا بد باشد به عامل نمي گوييم. به عنوان مثال ، در يك بازي Tic-Tac-Toe ، پروكسي ابتدا به صورت تصادفي يك شبكه 3x3 را در آن قرار مي دهيد.مي توانيد گوشه را علامت بزنيد ، كه اين يك حركت معمولي بد است ، با اين حال ، شما نمي توانيد نتيجه را بدانيد زيرا بازي تمام نشده است.
كاري كه ما در اينجا انجام مي دهيم پيگيري روند كار و بازخورد به پرونده قبلي است. وي پس از چندين جلسه تمريني ، بهترين روش را بر اساس تجربه قبلي انتخاب مي كند و وقتي كه به پرونده اوليه رسيد ، به وسط اشاره مي كند زيرا درصد برنده بايد در آنجا بالاتر باشد.
محيط رولت را آماده كنيد
براي استفاده از RL ، بايد دو مؤلفه ، عامل و محيط را بيان كنيم. عامل در مورد الگوريتمي كه استفاده مي كنيم ، محيط اينجاست كه رولت بازي كنيم و بعد نتيجه و پاداش را به نماينده بدهيم. محيط ايده آل براي اين كار ، گرفتن يك ركورد واقعي بازي رولت كازينو است.
با اين حال ، از آنجا كه هيچ كس مجموعه اي از داده ها را براي اين مورد به اشتراك نگذاشته است ، ما مجبوريم مجموعه داده هاي خودمان را ايجاد كنيم. خوشبختانه ما نيازي به تعيين جايزه در اينجا نداريم زيرا در حال حاضر يك جدول براي بازگشت به اين بازي وجود دارد. آنچه اكنون به آن نياز داريم شبيه سازي نحوه چرخش عامل چرخ است.
پروژه هاي باز زيادي در مورد رولت در GitHub وجود دارد كه به زبان مار نوشته شده است. با اين حال ، وقتي نوبت به محبوب ترين موقعيت بعدي مي رسد كه مي بينيد چيزي شبيه به اين است:
منبع : https://penzu.com/public/e2215650