২০১৮ সালের কে হবে বিশ্বকাপ জয়ী দল? গণিত সেটা বলে দিচ্ছে

টিউন বিভাগ খবর
প্রকাশিত

সবাইকে জানাই আমার শুভেচ্ছা। টেকটিউনস-এ লেখালেখি করতে আমার ভালো লাগে। পাশাপাশি আমার নিজেরও একটি ব্লগ রয়েছে। তো বন্ধগণ চলুন শুরু করা যাক। জনপ্রিয়ের দিক দিয়ে দেখা যায় ব্রাজিল এবং আর্জেন্টিনার অনুসারী অনেক বেশী। কিন্তু কোন না কোন ভাবে দেখা যায় জার্মানির খেলাটা অন্যদের তুলনায় প্রত্যেকবারই ভালো হয়। বাজিকর (Bookmaker) যারা তারা জুয়া খেলার মতো বেট ধরে, যে কোন দল জিতবে। বড় বড় বাজিকর বা বাজিকরদের কোন প্রতিষ্ঠান পরিসংখ্যানবিদ নিয়োগ করে থাকে যাতে করে তারা আগের এবং বর্তমান বিভিন্ন তথ্য উপাত্ত বিশ্লেষণ করে সম্ভাব্য বিজয়ী দলের নাম বলতে পারে। বাজিকররা সেই দলের উপর তাদের অর্থ খাটিয়ে বাজি ধরে। প্রতিবার বিশ্বকাপের সময়েই এমনটি হয়ে থাকে।

২০১৮ বিশ্বকাপের বিভিন্ন সম্ভাবনার কথা মাথায় রেখে সেগুলো বিশ্লেষণ করে বাজিকররা বলছে যে এবার ব্রাজিল বিশ্বকাপ জিতবে এবং এই সম্ভাবনা ১৬.৬ শতাংশ। এরপরেই ১২.৮ সম্ভাব্যতা নিয়ে আছে জার্মানি এবং তারপর আছে স্পেন, যার সম্ভাবনা ১২.৫ শতাংশ। এই বিশ্লেষণ হয়েছে গনিত এবং পরিসংখ্যানকে এক করে। বর্তমানে এই কৃত্রিম বুদ্ধিমত্তার যুগে আরেকটি বিষয় ব্যাপক জনপ্রিয়তা পেয়েছে যাকে বলা হয় মেশিন লার্নিং। এই বিষয়টি একাধারে গণিত, পরিসংখ্যান এবং কম্পিউটার বিজ্ঞানের মিশেল। গণিতের ভিতরে সম্ভাব্যতাটা (Probability) এখানে বেশী ব্যবহার করা হয়। কিন্তু এই বিষয়ের জনপ্রিয়তা অন্যান্য বিষয়ের গবেষকদের কাছেও ছড়িয়ে পড়েছে। আগের তত্ত্ব এবং উপাত্ত ব্যবহার করে ভবিষ্যতে কি ঘটবে সেটার একটি সম্ভাব্য গাণিতিক বিশ্লেষণ করে এই মেশিন লার্নিং। পরিসংখ্যানে বিভিন্ন ধরনের গাণিতিক মডেল আছে যেগুলো একটি নির্দিষ্ট পরিসংখ্যানিক বণ্টন পদ্ধতি (Statistical Distribution) অনুসরণ করে। আবার এসব মডেলের প্রয়োগ করতে হলে কোন ধরনের ডাটা বা উপাত্ত ব্যবহার করা হচ্ছে সেটা ঠিক করে এগোতে হয়। তাছাড়া এই মডেলগুলো তৈরির পেছনে বেশ কিছু পূর্বানুমান (Assumption) ঠিক করে নিতে হয়।

কে হবে ২০১৮ বিশ্বকাপের বিজয়ী দল; Image Souce: infokusi.com

কিন্তু মেশিন লার্নিং-এ এই ধরনের সমস্যা নেই। তারা ডাটা ঠিক রেখে কয়েকটি গাণিতিক সিদ্ধান্তের মাধ্যমে ফলাফল এনে দেয়। পরিসংখ্যানবিদরাও এখন মেশিন লার্নিং নিয়ে কাজ করছে কারণ এই বিষয়ের মূল ধারণাটি গাণিতিক পরিসংখ্যানের মধ্যেই নিহিত। এমনকি বিভিন্ন সময় প্রমাণ পাওয়া গিয়েছে যে মেশিন লার্নিং প্রচলিত পরিসংখ্যান থেকে ভালো এবং উপযুক্ত ফলাফল দেয়। সেজন্য ২০১৮ বিশ্বকাপকে সামনে রেখে জার্মানির Technical University of Dortmund এর একদল বিজ্ঞানী মেশিন লার্নিং ব্যবহার করে একটি মডেল দাড় করিয়েছেন। বিভিন্ন উপায় রয়েছে মেশিন লার্নিং এর ভিতরে। বিভিন্ন গাণিতিক এলগরিদম তৈরি করা আছে এখানে। জার্মানির এই বিজ্ঞানীরা অনেকগুলো পদ্ধতির মধ্যে থেকে Random Forest পদ্ধতিটি বেঁছে নেন।

এই পদ্ধতি বিশ্বকাপ সম্পর্কিত বিভিন্ন বিষয়ের উপাত্ত বিশ্লেষণ করে সম্ভাব্য বিজয়ী দলকে বেছে নিয়েছে। তাছাড়া অন্যান্য অনেক পদ্ধতি যেমনঃ Classification Analysis and Regression Tress, Deep Learning/ Deep Neural Network, Support Vector Machine ইত্যাদি বিভিন্ন মেশিন লার্নিং পদ্ধতি থাকা সত্তেও Random Forest কেন বেছে নেয়া হলো, এটা নিয়ে মতভেদ থাকতে পারে। তবে এই পদ্ধতির একটি সুবিধা হচ্ছে অন্যান্য পদ্ধতির গাণিতিক বিশ্লেষণের ভিতরে কিছু সমস্যা থাকে যেগুলো Random Forest খুব সহজেই এড়িয়ে যেতে পারে। মেশিন লার্নিং এর যেকোনো পদ্ধতিতে দুই ধরনের ডাটা ব্যবহার করা হয়। একটি হচ্ছে- Training Data, অর্থাৎ এই ডাটার উপর গাণিতিক বিশ্লেষণ করে ডাটার বিভিন্ন প্যাটার্ন বের করা হবে। আরেকটি ডাটা হচ্ছে Testing Data, এই ডাটার মাধ্যমে গাণিতিক পদ্ধতি ব্যবহার করে যে প্যাটার্ন পাওয়া গিয়েছে সেটা কতটুকু সত্য এবং নির্ভরযোগ্য সেটা প্রমাণ করা হয়।

২০১৮ বিশ্বকাপের ফিকচার; Image Source: arxiv.com

Random Forest অনেকগুলো বিষয়ের উপাত্তগুলো নিয়ে সেগুলো থেকে বিশ্লেষণ করে সর্বাধিক গুরুত্বপূর্ণ বিষয় বা ভেরিয়েবলগুলো চিহ্নিত করে। এই কাজটি হয় কয়েকটি ধাপে বিভিন্ন সিদ্ধান্তের মাধ্যমে। এই সিদ্ধান্তগুলোর কয়েকটি নোডের মাধ্যমে দেখানো হয়। প্রথমে অনেকগুলো ডাটা নিয়ে কাজ শুরু করা হয়। বিভিন্ন ভেরিয়েবলগুলোর ডাটার উপর গাণিতিক বিশ্লেষণ করে পরের ধাপে যে যে ভেরিয়েবলের গুরুত্ব বেশী এবং সেই ভেরিয়েবলগুলো ঘটার সম্ভাবনা বেশী সেগুলো রাখা হয়, বাকিগুলো ফেলে দেয়া হয়। এভাবে অনেক সন্নিবেশ বিন্যাস করার পর সর্বোত্তম ফলাফল নিয়ে একটি Decision Tress তৈরি করা হয় যেটার একদম শেষের দিকে প্রধান ফলাফল দেয়া থাকে।

এতক্ষণ মেশিন লার্নিং নিয়ে আলোচনা করা হলো। এবার মূল বিষয়ে আসা যাক। জার্মানির সেই গবেষকদল প্রথমে পূর্বের বিশ্বকাপের ডাটা নিয়ে প্রতিটি খেলার সম্ভাব্য ফলাফল বিশ্লেষণ করেন এবং সেই ফলাফল থেকে বিশ্বকাপ জয়ী দল বের করেন। যেকোন কিছু ভবিষ্যদ্বাণী করতে হলে এমন কিছু বিষয়ের উপর লক্ষ্য রাখতে হয় যেটা সরাসরি ওই জিনিষ বা বস্তুর উপর প্রভাব ফেলবে। জার্মানির এই গবেষকদল, এমন কিছু বিষয়ের উপর জোর দিয়েছেন যেগুলো সরাসরি বিশ্বকাপের জয়ী দলের উপর প্রভাব ফেলবে। যেমনঃ বিশ্বকাপে খেলছে এমন দেশের অর্থনৈতিক অবস্থা, জিডিপি, ফিফার র‍্যংকিং, দলগুলোর ভিতরের বিভিন্ন বৈশিষ্ট্য, তাদের খেলার ধরন, খেলোয়াড়দের বিভিন্ন তথ্য যেমনঃ কার বয়স কতো, কয়জনের চ্যাম্পিয়ন্স লীগ খেলার অভিজ্ঞতা রয়েছে, দলের কতজন খেলোয়াড় এসব লীগের সেমি ফাইনাল এবং ফাইনালে খেলেছে, বিভিন্ন বিশ্বকাপের শুরু আগে কোন দলের কেমন র‍্যংকিং ছিল, একই দলের কতজন ক্লাবগুলোতে একই সাথে খেলেছে এবং অন্যদলের কতজন সেখানে একসাথে খেলেছে, দুটি দেশ যখন মুখোমুখি হয় তখন দুই দলের মধ্যে কতজন এক সাথে ক্লাবে খেলেছে এবং কত বছর ধরে খেলছে ইত্যাদি বিষয়াদিগুলো Random Forest বিশ্লেষণ করার জন্য ব্যবহার করা হয়েছে এখানে। এছাড়া এই ভবিষ্যদ্বাণী করার সময় গবেষকরা বাজিকরদের বর্তমান এবং পূর্বের তথ্য-উপাত্তও বিশ্লেষণ করেছেন।

গবেষণা দেখা গিয়েছে ২০১৮ এর ফাইনাল হবে ব্রাজিল-জার্মানির মধ্যে; Feature Image Source: footballia

এসব বিষয় নিয়ে যখন বিশ্লেষণ করা শুরু হলো তখন দেখা গেলো যে ফলাফলের উপর সবচেয়ে বেশী প্রভাব ফেলছে দলগুলোর র‍্যংকিং। এছাড়া অর্থনৈতিক বিষয়াদিগুলোও প্রভাব ফেলেছিল, এমনকি কোন দলের কোচ কোন দেশের এবং তাদের পূর্বের কৃতিত্ব এসবও প্রভাবক হিসেবে কাজ করছিলো। মোট ১৬টি বিষয় বিবেচনা করে এই গবেষণাটি করা হয় এবং বিশ্লেষণের প্রথম দিকে দেখা যায় যে স্পেনের এবার বিশ্বকাপ জেতার সম্ভাবনা সবচেয়ে বেশী। তাদের সম্ভাবনা ১৭.৮ শতাংশ।

কিন্তু ভবিষ্যদ্বাণীর করার সময় আরেকটি বিষয় খেয়াল রাখতে হবে যে বিভিন্ন পর্বে এবার কে কোন দলের সাথে খেলছে। সেজন্য এই বছরের ফিকচার খুলে বসে সেটা দেখতে হবে। এই ব্যাপারটি যখন বিশ্লেষণের মধ্যে আনা হলো তখন দেখা গেল যে জার্মানি যদি ১৬ দলের নকআউট পর্বে উঠে তাহলে তারা অনেক বেশী শক্ত প্রতিপক্ষের সামনে পড়বে, যেটা স্পেনের ক্ষেত্রে অনেক কম হবে। সেজন্য কোয়ার্টার ফাইনালে যাওয়ার সম্ভাব্যতা জার্মানির ক্ষেত্রে ৫৮ শতাংশে নেমে আসে এবং স্পেনের ক্ষেত্রে সেই সম্ভাবনা ৭৮ শতাংশে বেড়ে যায়। এই বিশ্লেষণ থেকে আরেকটি ব্যাপার উঠে আসে যে যদি দুই দলই কোয়ার্টার ফাইনালে যায় তাহলে স্পেনের সম্ভাবনা বেশী সেমিফাইনালে যাওয়ার কারণ জার্মানি বাদ পড়ে যেতে পারে, অন্তত অঙ্ক কষে সেটাই বোঝা যাচ্ছে।

কিন্তু এই ধরনের গাণিতিক মডেল তৈরি করতে হলে আরও অনেক বিষয় খেয়াল রাখতে হয়, না হলে মডেলে ভুল থাকার সম্ভাবনা বেড়ে যায়। Random Forest এর মাধ্যমে পুরো বিশ্বকাপটির সিমুলেশন বা গাণিতিকভাবে সম্ভাব্য অনুলিপি তৈরি করা যায়। যখন সিমুলেশন করা হচ্ছে তখন অন্যরকম ফলাফল পাওয়া যাচ্ছে।

বিশ্বকাপের প্রথম দিকে স্পেনকে মনে হতে পারে বিশ্বকাপ চ্যাম্পিয়ন; Feature Image Source: vavel.com

এক লক্ষ বার এই সিমুলেশন চালানো হয় এবং বিশ্লেষণ করা হয়। এতোবার বিচার-বিশ্লেষণ করার পরে দেখা যাচ্ছে যে স্পেন নয়, এবার জার্মানি বিশ্বকাপ জিতে ব্রাজিলের পাঁচ বারের বিশ্বকাপ জিতে যাওয়াতে ভাগ বসাবে। এখান থেকে তারা বুঝতে পারেন যে স্পেন হয়তো বিশ্বকাপের শুরুর দিকে ভালো খেলবে কিন্তু জার্মানি যদি কোয়ার্টার ফাইনাল পর্যন্ত পৌঁছে যায় তাহলে জার্মানির জিতে যাওয়ার সম্ভাবনাই বেশী।

এই মডেল দেখলে আরও বোঝা যাচ্ছে যে ফাইনাল হবে ব্রাজিল এবং জার্মানির মধ্যে এবং জার্মানির জিতে যাওয়ার সম্ভাবনা ৬৮ শতাংশ। সেমিফাইনাল হবে ব্রাজিল-ফ্রান্স এবং স্পেন-জার্মানির মধ্যে। সেখান থেকে ব্রাজিল এবং জার্মানির ফাইনালে যাওয়ার সম্ভাবনা যথাক্রমে ৫৯% এবং ৫৫%। কোয়ার্টার ফাইনালেই আর্জেন্টিনার বিশ্বকাপ শেষ হওয়ার সম্ভাবনা দেখা যাচ্ছে ৬৩%।

Random Forest প্রয়োগ করার পর সম্ভাব্য ফলাফল; Feature Image Source: arxiv.com

তবে যে যে বিষয় নিয়ে এই গবেষণা এবং ভবিষ্যদ্বাণী করা হয়েছে সেগুলো যে খুব বেশী কার্যকর তা কিন্তু নয়। কারণ দলের ভিতরকার ইনজুরি সংখ্যা আগের বিশ্বকাপগুলোতে কেমন ছিল এবং এবার কেমন- সেটার উপর গুরুত্ব দেয়া হয়নি, খেলোয়াড়দের নিজ দেশের হয়ে খেলার সময় কেমন কৃতিত্বের সাক্ষর রেখেছে সেটার কোন উপাত্ত নেয়া হয়নি, খেলোয়াড়দের খেলার সময়কার বিভিন্ন দক্ষতা যেমনঃ কোন বিশ্বকাপে কে বেশী গোল করেছে, কোন দল বেশী গোল করেছে, কোন দলের কোন খেলোয়াড় কতবার এসিস্ট করেছে, কর্নার থেকে কয়বার গোল হয়েছে, কোন দল কত মিনিটে গোল দিয়েছে, হাফ টাইমের আগে কতবার গোল হয়েছে এবং গড়ে কয়টা হয়েছে, কোন দল প্রতিটা খেলায় কীভাবে জিতেছে, দলের খেলোয়াড় কতবার বল পাস করেছে- এই জিনিষগুলো মডেলে আনা হয়নি। এগুলোর ডাটা সংগ্রহ করা এখনকার যুগে মোটেও অসম্ভব কিছু নয়। এগুলো দিয়েও যদি বিশ্লেষণ করা হতো তাহলে আরও ভালোভাবে ফলাফল পাওয়া যেতে পারতো।

তবুও আধুনিক গাণিতিক তত্ত্ব ব্যবহার করে যে বিশ্লেষণ জার্মান গবেষকদল করেছে সেটা কতটুকু সত্য হয় সেটা বৃহস্পতিবার থেকে শুরু হতে যাওয়া বিশ্বকাপ শেষ হওয়ার পরই বোঝা যাবে।

সময় পেলে ঘুরে আসতে পারেন আমার ব্লগ৭১ থেকে।

blog71.com

Level 0

আমি রনি সেন। বিশ্বের সর্ববৃহৎ বিজ্ঞান ও প্রযুক্তির সৌশল নেটওয়ার্ক - টেকটিউনস এ আমি 5 বছর 10 মাস যাবৎ যুক্ত আছি। টেকটিউনস আমি এ পর্যন্ত 9 টি টিউন ও 0 টি টিউমেন্ট করেছি। টেকটিউনসে আমার 0 ফলোয়ার আছে এবং আমি টেকটিউনসে 0 টিউনারকে ফলো করি।


টিউনস


আরও টিউনস


টিউনারের আরও টিউনস


টিউমেন্টস

Level 3

ফাউল কথা