The impact of the Item Response Theory (IRT) model on the accuracy of test score equating

Dr. Easa Salamah Alhajory*1, Dr. Mohammed Mahmoud Abdel-Wahab2

1 Ministry of Education | KSA

2 Umm Al-Qura University | KSA


Abstract: The aim of the current study was to investigate the impact of the Item Response Theory (IRT) model on the accuracy of test score equating. The focus was on the effect of the two-parameter logistic (2PL) model and the three-parameter logistic (3PL) model, using the Loyd & Hoover mean/mean equating method (1980). To achieve the study’s aim, simulated data were generated using the (Wingen3) software for 4 test forms. Two test forms were based on the 2PL model and the other two on the 3PL model, with 10 common items between each pair of test forms. All the data generation was repeated 30 times.

Data were analyzed using the R software through the Mirt and Sirt packages to verify the assumptions of the IRT model. Subsequently, the individual and item parameters were estimated using the PARSCLE software,

and equating was performed using the IRTEQ software with the mean/mean method. To evaluate the accuracy of equating, the Root Mean Square Error (RMSE) was used. The results showed that the lowest errors occurred when equating was performed using the 2PL model, with an RMSE value of (0.591). When equating was performed according to the 3PL model, the RMSE value was 1.044, indicating that it is more accurate than the mean/mean method in equating test scores according to the 3PL model.

Through an independent two-sample t-test, it was revealed that the differences were statistically significant, with a significance level of (0.000).

Keywords: Item response theory, modern theory of measurement, test score equivalence, equivalence accuracy, mean/median method.

أثر نموذج نظرية الاستجابة للمفردة في دقة معادلة درجات الاختبارات

د/ عيسى بن سلامه الحجوري*1، د / محمد بن محمود عبد الوهاب2

1 وزارة التعليم | المملكة العربية السعودية

2 جامعة أم القرى | المملكة العربية السعودية


المستخلص: هدفت الدراسة الحالية إلى معرفة أثر نموذج نظرية الاستجابة للمفردة في دقة معادلة درجات الاختبارات. وركزت على معرفة أثر النموذج الثنائي البارامتر والنموذج الثلاثي البارامتر وذلك باستخدام طريقة المعادلة المتوسط/المتوسط لويد وهوفر (Loyd & Hoover, 1980)، ولتحقيق هدف الدراسة تم توليد بيانات محاكاة باستخدام برمجية (Wingen3) لـ 4 صور اختبارية، حيث كانت صورتين اختباريتين وفق النموذج الثنائي البارامتر والأخرى وفق النموذج الثلاثي البارامتر، وكان هناك عدد (10) فقرات مشتركة بين كل صورتين اختباريتين، وتكرر توليد جميع البيانات السابقة (30) مرة.

تم تحليل البيانات باستخدام برنامج R من خلال حزمتي Mirt وSirt لمعرفة تحقق افتراضات نظرية الاستجابة للمفردة، بعد ذلك تم تقدير بارامترات الأفراد والمفردات بواسطة برنامج PARASCLE، وتمت المعادلة بواسطة برنامج IRTEQ باستخدام طريقة المتوسط/المتوسط. ولتقييم دقة المعادلة استخدم جذر متوسط مربعات الخطأ RMSE. وأظهرت النتائج أن أقل الأخطاء كانت عندما تمت المعادلة باستخدام النموذج الثنائي البارامتر،

حيث بلغت قيمة جذر متوسط مربعات الخطأ RMSE عند استخدام هذا النموذج (0.591) أما عندما تمت المعادلة وفق النموذج الثلاثي البارامتر فكانت قيمة جذر متوسط مربعات الخطأ RMSE تساوي (1.044) وبالتالي فهي أكثر دقة من طريقة المتوسط/المتوسط في معادلة درجات الاختبار وفق النموذج الثلاثي البارامتر، ومن خلال اختبار ت لعينتين مستقلتين اتضح أن الفروق دالة احصائياً حيث بلغت مستوى الدلالة (0.000).

الكلمات المفتاحية: نظرية الاستجابة للمفردة، النظرية الحديثة في القياس، معادلة درجات الاختبارات، دقة المعادلة، طريقة المتوسط/المتوسط

