تحلیل علمی انتخابات ریاست جمهوری 1388 / سازگاری نتایج انتخابات با آزمونهای بنفورد
مقدمه:
با توجه با داغ بودن موضوع صحت انتخابات در روزهای اخیر، مقاله ای با عنوان "مستندات علمی دستکاری در آراء انتخابات دهمین دوره انتخابات" در پایگاههای متعدد اینترنتی مرا بر آن داشت تا محاسبات ادعایی در آن مقاله را بررسی كنم كه نتیجه این امر چیزی جز رد آن مقاله و اطمینان از نتایج انتخابات نبود. در مقاله ادعایی هیچ نموداری رسم نشده بود تا اصل ماجرا مشخص گردد و البته قسمتهای اصلی مقاله یعنی محاسبه میزان خطا و انحراف، كاملا اشتباه بود و تعمداً از مقادیر نرمال نشده استفاده شده بود و نتیجه دیگری را به خواننده القا میكرد. اما در مقاله پیش رو سه آزمون متعارف آماری برای بررسی علمی نتایج انجام شده است تا به طور كامل صحت داده ها تحلیل گردد. امید است تا خوانندگان گرامی، نگارنده را از نظرات خود بهرهمند سازند.
طی چند روز گذشته بحثهای فراوانی در خصوص امکان و احتمال تقلب در انتخابات ایران بعمل آمده است. با توجه به اینکه بازشماری آراء کاری پرزحمت برای دستگاه اجرایی و نظارتی انتخابات خواهد بود باید، کاندیداهای معترض شواهد و مستندات قابل قبولی را به این مراجعه اعلام نمایند تا دستکاری در نتایج انتخابات را آشکارا نشان دهد. راههای علمی زیادی وجود دارد که با استفاده از آمارهای اعلام شده توسط وزارت کشور این دستکاری ها در صورت وجود به نمایش گذاشته شود و یا صحت انتخابات از لحاظ شاخصهای علمی آمار بررسی شود.
صحبت از تقلب در انتخابات تنها یک موضوع مختص به ایران و حتی کشورهای در حال توسعه نظیر ونزوئلا، مکزیک، و زیمباوه نیست و در سال 2000 شاهد بودیم که بحث تقلب در انتخابات ریاست جمهوری در ایالت فلوریدا به موضوع داغ آنروزها بدل شده بود
صحبت از تقلب در انتخابات تنها یک موضوع مختص به ایران و حتی کشورهای در حال توسعه نظیر ونزوئلا، مکزیک، و زیمباوه نیست و در سال 2000 شاهد بودیم که بحث تقلب در انتخابات ریاست جمهوری در ایالت فلوریدا به موضوع داغ آنروزها بدل شده بود. به هر حال آنچه مسلم است آنکه اهمیت سیاست و موضوع تقلب در انتخابات سبب شده که دانشمندان علم آمار با استفاده از کمترین داده های موجود از انتخابات روشهای آماری را طراحی کنند که با کمک آن بتوان با صراحت در مورد سلامت انتخابات اظهار نظر نمایند. یکی از معمول ترین این روشها روشی است که از قانون بن فورد (Benford’s Law) پیروی میکند. بطور خیلی مختصر و قابل درک برای خوانندگان این قانون به آن اشاره دارد که رقمهای مربوط به یک عدد (خواه یک رقمی یا بیش از یک رقمی) حاصل از شمارش یک پدیده در جهان خارج (جهان واقعی) از توزیع نرمال (Normal distribution) یا توزیع یک فرم (Uniform distribution) پیروی نمیکند بلکه از توزیعی شبیه توزیع Chi Square پیروی میکند. آقای بنفورد احتمال این اعداد را برای حوادثی چون انتخابات محاسبه کرده است. قابل ذکر است که اعداد ذکر شده در قانون بنفورد همانند قوانین نیوتن یک واقعیت علمی است و در حال حاضر علاوه بر مسئله انتخابات، برای رسیدگی به احتمال تقلب در سود سهام شرکتها و مسائل مالیاتی نیز از همین روش استفاده میشود.
اجازه بدهید چند خط از این مقاله را به توضیح ساده این قانون بپردازیم. در این قانون احتمال اینکه آخرین عدد سمت چپ یک عدد (فرض کنید تعداد آراء اخذ شده به نفع یک کاندیدا) که میتواند یکی از اعداد 1 تا 9 باشد با هم برابر نیست. بلکه احتمال آنکه رقم سمت چپ یک عدد، 1 باشد حدود 30% است در حالی که این احتمال برای عدد 9 در حدود 4.5%. همچنین است احتمال وجود عدد 0 تا 9 برای دومین رقم سمت چپ تعداد آراء اخذ شده به نفع یک کاندیدا كه آن نیز از قانون دیگری پیروی میكند.
طبق این قانون احتمال ظهور اعداد در رقم اول از رابطه 1 تبعیت میكند:
شكل 1- توزیع ستونی احتمال توزیع اعداد در رقم اول، دوم و سوم طبق قانون بن فورد
جدول 1- توزیع اعداد در رقم اول طبق قانون بن فورد
برای توضیح بیشتر به توزیع رقمهای اول، دوم و سوم یك دسته تصادفی میپردازیم، برای نمونه یك دسته 20000تایی اعداد تصادفی كه به پیوست خواهد آمد را در نظر میگیریم و توزیع اعداد 1 تا 9 را در ارقام اول تا سوم آن در جدول 2 بررسی میكنیم.
جدول 2 - توزیع یكنواخت اعداد در رقم اول،دوم و سوم در یك دسته تصادفی
همان گونه كه در جدول 2 دیده میشود، توزیع اعداد در رقمهای اول، دوم و سوم یك دسته تصادفی كاملا یكنواخت بوده و این تفاوت، اصلی ترین تفاوت بین دادههای به دست آمده از طبیعت و داده های دستکاری شده می باشد. چرا كه همان گونه كه ذكر شد، طبق قانون بنفورد برای دادههای طبیعی این نسبتها یكسان نیستند و مطابق جدول 1 میباشند.
برای اینكه اهمیت قانون بنفورد بهتر دیده شود، جدول 3 كه شامل مثالهایی از طبیعت و تطابق آن با قانون بن فورد است، نشان داده شده است.
جدول 3- توزیع اعداد در رقم اول در كمیتهای طبیعی و مقایسه با قانون بنفورد
همان گونه كه در جدول 3 دیده میشود اعداد به دست آمده از طبیعت به طرز شگفت انگیزی در انواع كمیتها از توزیع پیشبینی شده بنفورد تبعیت میكند و البته جمعیت افراد و نتایج به دست آمده بر مبنای جمعیت نیز جزء این كمیت هاست.
آزمون رقم اول
جدول 4- تعداد تكرار اعداد 1،2،3...،9 در اولین رقم سمت چپ تعداد آرای هر نامزد در 366 شهرستان
نمودار 1 گویای نتایج جدول 4 است كه مقایسه این اعداد با حالت ایده آل كه در واقع معیار بنفورد میباشد، نشان دهنده تطابق این اعداد با مدل بنفورد است.
نمودار 1- مقایسه توزیع رقم اول نتایج آرای نامزدها با توزیع پیش بینی شده بن فورد
اگر بخواهیم این اعداد را به صورت درصد نسبی نشان دهیم جدول 5 ارائه دهنده این اعداد است.
جدول 5- نسبت تكرار اعداد 1،2،3...،9 در اولین رقم سمت چپ تعداد آرای هر نامزد در 366 شهرستان
اگر بخواهیم میزان این اختلاف را به صورت علمی حساب كنیم، باید از روشهای معتبر محاسبه خطا مانند Chi-Squared استفاده كنیم، بر مبنای این رابطه داریم :
در این رابطه m نشان دهنده میزان واقعی كمیت و p احتمال وقوع آن است كه با ضرب تعداد كمیتها(N) در آن به تعداد پیشبینی شده در توزیع ایده آل میرسیم. جدول 6 بر مبنای این محاسبات تنظیم شده است:
جدول 6- محاسبه میزان خطای Chi-Squared برای رقم اول دادهها
همان گونه كه دیده میشود، بیشترین خطای نسبی 0.07 می باشد، كه با توجه به تعداد نه چندان زیاد دادهها (366 شهرستان) نتیجه بسیار خوبی برای اعتبار نتایج است.
آزمون رقم دوم
برای بررسی دقیق تر صحت اعداد اعلام شده، گاهی اوقات رقم دوم اعداد را نیز بررسی میكنند و برای صحت نتایج آن را با پیشبینی بنفورد میسنجند. اگر آمار ارائه شده وزارت كشور را برای نتایج آرای نامزدها در شهرستانها بررسی كنیم برای توزیع اعداد در رقم دوم، نتایج زیر به دست میآید.
جدول 7- تعداد تكرار اعداد 0،1،2،3،...،9در دومین رقم سمت چپ تعداد آرای هر نامزد در 366 شهرستان
همان گونه كه در جدول 7 و نمودار 2 نشان داده شده است نتایج آرای تمامی نامزدها با مدل پیشبینی بنفورد تطابق بسیار خوبی دارد.
نمودار 2- مقایسه توزیع رقم دوم نتایج آرای نامزدها با توزیع پیش بینی شده بن فورد
اگر نتایج جدول 7 را به صورت نسبی نشان دهیم به جدول 8 میرسیم.
جدول 8 - نسبت تكرار اعداد0،1،2،3،...،9 در دومین رقم سمت چپ تعداد آرای هر نامزد در 366 شهرستان
برای محاسبه خطا، این بار نیز با استفاده از محاسبه Chi-Squared به تحلیل نتایج میپردازیم، که جدول 9 به همین منظور تهیه شده است.
جدول 9 - محاسبه میزان خطای Chi-Squared برای رقم دوم دادهها
همانگونه كه دیده میشود، بیشترین خطای نسبی برای این آزمون 04/0 می باشد، كه این میزان نیز با توجه به تعداد نه چندان زیاد دادهها (366 شهرستان) نتیجه بسیار خوبی برای اعتبار نتایج است.
آزمون رقم سوم
اگر بخواهیم حد اطمینان را افزایش دهیم، میتوان تمامی این محاسبات را برای رقم سوم نیز تكرار كرد، البته برای این منظور باید از معیار رقم سوم بنفورد استفاده كرد. با ادامه محاسبات برای بررسی نهایی، جداول و نمودارهای ذیل خواهند آمد. شایان ذكر است در این آزمون از اطلاعات مربوط به یكی از نامزدها به علت اینكه بسیاری از آرا ایشان در شهرستانها دو رقمی و فاقد رقم سوم بود، حذف گردیده است.
جدول 10 - تعداد تكرار اعداد 0،1،2،3...،9 در سومین رقم سمت چپ تعداد آرای هر نامزد در 366 شهرستان
مودار 3 گویای نتایج آزمون رقم سوم است:
نمودار 3- مقایسه توزیع رقم سوم نتایج آرای نامزدها با توزیع پیش بینی شده بن فورد
بر همین اساس جدول 11 نسبت تكرار اعداد 0،1،2،3...،9 در سومین رقم سمت چپ تعداد آرای هر نامزد را نشان می دهد.
جدول 11- نسبت تكرار اعداد 0،1،2،3...،9 در سومین رقم سمت چپ تعداد آرای هر نامزد در 366 شهرستان
جدول 12 - محاسبه میزان خطای Chi-Squared برای رقم سوم دادهها
همانگونه كه دیده میشود، بیشترین خطای نسبی برای این آزمون 0.03 می باشد، كه این میزان نیز با توجه به تعداد نه چندان زیاد دادهها (366 شهرستان) نتیجه بسیار خوبی برای اعتبار نتایج است.
نتیجه گیری نهایی
همان گونه كه بیان شد، امروزه برای اعتبار سنجی علمی نتایج انتخاباتها در سراسر دنیا روشهای خوبی وجود دارد، كه یكی از اصلی ترین این روشها روش توزیع Benford بر مبنای تعداد ظاهر شدن اعداد 1 تا 9 در رقمهای اول تا سوم نتایج تفكیكی است. در این مقاله سه روش قدرتمند بر داده های استخراج شده مربوط به آرای تفکیکی شهرستانها از پایگاه اینترنتی وزارت كشور www.moi.ir اعمال گردید كه همگی حاكی از صحت علمی نتایج انتخابات است و بنابراین فرض دستکاری گسترده در آرا و عددسازی مردود است.