التعلم التعزيزي Reinforcement Learning


التعلم التعزيزي (Reinforcement Learning) هو النوع الثالث من أنواع تعلم الآلة (machine learning) حيث يُذكر غالباً بعد التعلم الموجّه (supervised learning) والتعلم الغير موجّه (unsupervised learning). التعلم التعزيزي هو الخطوة الأولى في فهم و بناء مبدأ الذكاء الاصطناعي (AI).

عندما نذكر مصطلح الذكاء الاصطناعي يتبادر للذهن روبوت 🤖 قادر على الاستطلاع و فهم الأحداث واتخاذ القرارات بناءً على قناعات وقوانين راسخة، وبالتالي حل المشاكل باستقلالية للوصول لهدف معين. وعندما تتعلم الآلة عن طريق التعلم التعزيزي فإنها تسير بخطى ثابتة نحو هذا الهدف.

لبناء روبوت ذكي يعتمد باحثو الذكاء الاصطناعي عادة على محاكاة سيكولوجيا البشر وباقي الكائنات الحية في فهم البيئة المحيطة واختيار رد الفعل الأنسب لحدثٍ ما. لذلك نلاحظ التشابه الكبير بين مفاهيم التعلم التعزيزي وما نتوقعه من الآلة في البيئة الافتراضية مقارنة بالواقع.

في هذه التدوينة أذكر أهم مفاهيم التعلم التعزيزي مع شرح مبسط استعانة ببيئة مباريات كرة القدم.

إذاً ما هي أساسيات التعلم التعزيزي؟
  • بيئة التعلم (environment)
  • ممثل البيئة/الآلة (agent)
  • السياسة العامة (policy)
  • الإجراءات (actions)
  • الحالة (state)
  • المكافأة (reward)

بيئة التعلم (Environment)
البيئة هي المحيط الذي تتعلم فيه/منه الآلة بواسطة الانتقال من حالة لآخرى. تتعلم الآلة في البيئة عن طريق استغلال exploit السياسة العامة في اتخاذ الاجراءات اللازمة في محاولة للوصول لأعلى مكافأة ممكنة. تتعلم الآلة من البيئة عن طريق استكشاف explore وتجربة اجراءات مختلفة بهدف فهم البيئة بشكل أفضل وفي محاولة لتعلّم شيء جديد يسهّل وصول الآلة للهدف.

يمكننا أن نتخيل البيئة كملعب مباراة كرة قدم. حيث يتكون المحيط من عدة عوامل مؤثرة في أحداث المباراة.



ممثل البيئة/الآلة (Agent)
ممثل البيئة هو الكيان الذي يتعلّم في هذه الحالة قد يكون هذا الكيان ذو وجود مادي (روبوت يتعلم المشي) أو قد يكون محاكاة برمجية غير ملموسة (شخصية في لعبة إلكترونية). نستعمل مصطلح الآلة كتجريد يشمل النوعين.

في بيئة ملعب الكرة يكون اللاعب هو ممثل البيئة. يتعلم اللاعب من محيطه ويقوم بدراسة الأحداث واتخاذ القرارات بناء على معلومات مسبقة ومايحدث حالياً.




السياسة العامة (Policy)
السياسة هنا هي البيانات المقدمة للآلة عن البيئة ومعلومات عامة عن كيفية الحصول على أعلى مكافأة ممكنة. فلو كانت البيئة سباق سيارات فالسياسة العامة يمكن أن تكون أفضل الاستراتيجيات لهزيمة الخصم. ولو كانت البيئة حديقة عامة ومتوقع من الآلة المشي من أولها لآخرها فالاستراتيجية قد تتضمن الابتعاد عن الأحجار في الارض للمحافظة على التوازن وهكذا.

سياسة اللعب عادة تعتمد على معلومات سابقة عن فريق الخصم والمهارات الفردية للاعبي الفريق. نلاحظ أن السياسة لا توفر خطوات تفصيلية بل إرشادات عامة حول أولويات اختيارات اللاعب. يمكن أن يتصرف اللاعب بطريقة معاكسة للسياسة إذا ما استوجب الأمر. بعض الاستراتيجيات التي يمكن لفريق كرة قدم اتباعها هي اللعب على المرتدات أو اللعب على الأجنحة.



الإجراءات (Actions)
 الإجراءات الممكنة تنحصر في قائمة التصرفات المسموح للآلة باتخذاها بناءً على البيئة وحالة الآلة. اتخاذ الإجراءات اللازمة يعتمد على حالة الآلة الوقت الحاضر، وتأثير ذلك الإجراء على المكافأة في المستقبل. نلاحظ هنا أنه مهما تم بناء الآلة لتكون مخيّرة و مستقلة في اتخاذ القرارات فلا يمكن لها اتخاذ أي اجراء لم يوفّره المبرمج مسبقاً.

بعض الاجراءات التي يتخذها اللاعب تشمل الجري بالكرة، تمرير الكرة أو تسديد الكرة.



الحالة (State)
لحالة الآلة أهمية كبيرة في استنباط جودة اختياراتها في الماضي بالإضافة لتأثير تلك الحالة على الاختيارات المستقبلية. في مباراة كرة القدم تتغير حالة المباراة من فوز الفريق إلى خسارته أو التعادل. طوال فترة المباراة تتغير الحالة بتغير الاجراءات المتخذة من قبل اللاعبين.

عادة ما تظهر حالة المباراة بشكل مباشر على شاشات العرض. ففي حال كانت الحالة فوز الفريق تجد ذلك جلياً في تسجيلهم لعدد أعلى من الأهداف. وبالمثل يمكن للحالة أن تتغير خلال المبارة إلى التعادل أو الخسارة أو التقدم.





المكافأة (Reward)
بما أن الهدف من وجود الآلة في بيئة معينة هو التعلم، فيجب أن يكون هناك طريقة لإعلام الآلة بجودة اختياراتها كما يقوم المعلم في الصف عند مكافأة الطلاب بدرجات إضافية مثلاً. يتمحور التعلم التعزيزي حول مبدأ المكافأة فالتعزيز هنا يكون عن طريق مكافأة الآلة على التصرفات الجيدة التي تقودها للحالة المطلوبة وتغريمها على التصرفات الغير مرغوبة والتي تؤثر سلباً على التعلم.

المكافأة مهمة لتحفيز اللاعب بالإضافة لمتابعة تقدمه خلال المباراة. بالمثل فالمكافأة تساعد الآلة في تتبع جودة اختياراتها وتساعدها في اتخاذ الاجراءات اللازمة لجمع أعلى قدر ممكن من المكافئات. في بيئة المباراة يمكن اعتبار عدد الأهداف لكل فريق قيمة مماثلة للمكافأة في حالة التعلم التعزيزي.



إذاً فهدف الآلة في حالة التعلم التعزيزي هو الحصول على أعلى مكافأة ممكنة خلال تواجدها في البيئة المعنية. بما أن الآلة لا تملك خطوات مسبقة لاتبعاها في اتخاذ القرارت اللازم للحصول على أعلى مكافأة... إذاً كيف تقرر الآلة الخطوة التالية؟ هل تعتمد كلياً على السياسة العامة للبيئة المعنية أم ترتجل في بعض الأحيان؟


كيف تقرر الآلة الخطوة التالية؟
Exploration vs Exploitation

ذكرت في تعريف البيئة باختصار أن الآلة تقوم باستكشاف explore واستغلال exploit الموارد المحيطة لتتعلم أكثر عن البيئة وتصل لأفضل نتيجة في نهاية التعلّم عن طريق جمع أكبر قدر ممكن من المكافئات. إلى ماذا يرمز الاستكشاف والاستغلال في هذه الحالة؟
الاستكشاف هو استعداد الآلة لاتخاذ اجراءات بنسبة مخاطرة مقارنة باجراءات اخرى في سبيل تعلّم شيء جديد عن البيئة. تميل الآلة للاستكشاف بشكل أكبر في بداية مرحلة التعلّم، فكلما تقدمت الآلة في البيئة نجدها تميل للابتعاد عن استكشاف. في المقابل فإن الاستغلال يشير إلى استغلال الآلة للمعلومات التي تمتلكها عن البيئة واستعانة بالسياسة تقوم باتخاذ القرارات. في هذه الحالة تحاول الآلة أن تكون حذرة فلا تتصرف بشكل استكشافي بل تلتزم بتتبع المعلومات الأكيدة.

يمكن تمثيل الاستكشاف والاستغلال كالتالي. إذا كنت اللاعب الحائز على الكرة في الصورة التالية وتحتم عليك تمريرها لآحد اللاعبين مع معرفتك من خلال المعلومات في السياسة العامة أن اللاعب المحاصر بلاعبي الفريق الخصم محترف في احراز الأهداف بينما اللاعب الآخر جديد ولا تعرف الكثير عن مهاراته، لمن تمرر الكرة؟


 هل يختلف اختيارك إذا كانت المباراة على وشك الانتهاء؟ تلك الاختيارات تعتمد على جاهزيتك للمخاطرة فنجد الأغلب يتساهل في المخاطرة في بداية المباراة ويحاول قدر الإمكان الابتعاد عن اتخاذ قرارات خارجة عن المألوف مع اقتراب نهاية المباراة. وعلى نفس النهج يتم برمجة الآلة قبل بدء التعلم التعزيزي للتحيز للاستكشاف والانتقال تدريجياً لتفضيل الاستغلال مع تقدم التعلّم. 


باختصار
التعلم التعزيزي أداة فعالة لتعليم الآلة عند عدم توفر حالات سابقة موازية للحدث-بعكس الحال في أنواع التعلم الأخرى كالتعلم الموجه حيث يتم توفير بيانات عن الأحداث السابقة ليتم التعلم منها. بسبب ما سبق ذكره يعتقد البعض أن التعلم التعزيزي يقتضي عدم توفير البيانات للآلة، وهذا الانطباع غير صحيح حيث أن التعلم التعزيزي يقتضي توفير البيانات للآلة عن البيئة المستهدفة، والسياسة العامة والمكافئات. 


في التدوينة القادمة اسعى لتطبيق بيئة تعلم تعزيزي وتوضيح كل من الأساسيات التي تمت مناقشتها في هذه التدوينة من خلال التطبيق العملي. إذا كان لديك أي تعليق أو استفسار الرجاء مشاركته في التعليقات أسفل هذه التدوينة. 




Illustrated by: @RolaEJ

Comments

  1. Information on the bonus circumstances could be found on the devoted page on JackpotCity’s web site. The €1600 bonus quantity is cut up and distributed to your account on your first four deposits. You can use factors to say bonuses, free spins, free credit score, and {the quantity of cash|the quantity of money} you 카지노 play.

    ReplyDelete

Post a Comment