Penulisan Soal-Soal Pilihan ganda untuk Aktivitas Pendidikan Kedokteran Berkelanjutan dan Modul-Modul Penilaian Mandiri

Janette Collins, MD, Med, FCCP

Abstrak

Soal pilihan ganda merupakan jenis soal tes yang paling umum digunakan dalam ujian pendidikan kedokteran berkelanjutan dan kedokteran sarjana radiologi. Sekarang bahwa para ahli radiologi sedang berpartisipasi dalam penjagaan proses sertifikasi, maka semakin diperlukan adanya modul-modul penilaian-mandiri yang mencakup soal-soal pilihan ganda, dan orang-orang yang memiliki keahlian menulis untuk membuat modul-modul seperti ini. Walaupun prinsip-prinsip penulisan-item efektif telah didokumentasikan, pelanggaran terhadap prinsip-prinsip ini sangat umum dalam pendidikan kedokteran. Panduan-panduan untuk pembuatan tes terkait dengan pengembangan sasaran pendidikan, penentuan tingkat pembelajaran untuk masing-masing tujuan, dan penulisan soal pilihan ganda efektif yang menguji pembelajaran tersebut. Sasaran-sasaran pendidikan harus dituliskan dalam bentuk perilaku yang dapat diamati yang memungkinkan sebuah penilaian akurat tentang apakah mahasiswa telah mencapai sasaran-sasaran tersebut. Pembelajaran terjadi pada banyak tingkatan, mulai dari yang sederhana sampai pemecahan masalah. Tujuan pengajaran dan soal pilihan ganda yang menyertai tujuan-tujuan ini harus mentargetkan semua tingkatan pembelajaran yang sesuai untuk kandungan tertentu. Karakteristik soal pilihan ganda yang efektif bisa dijelaskan dari segi item secara keseluruhan, akar soal, dan opsi-opsi nya. Soal pilihan ganda yang cacat mengganggu interpertasi yang akurat terhadpa skor-skor tes dan berimbas negatif terhadap nilai kelulkusan mahasiswa. Dengan demikian, untuk membuat tes yang terpercaya dan absah, item-item harus disusun sedemikian rupa sehingga bebas dari cacat. Review ini memberikan sebuah gambaran umum tentang cara pembuatan panduan-panduan untuk penulisan soal pilihan ganda yang efektif, sebuah diskusi tentang penulisan tujuan pengajaran dan soal pilihan ganda yang sesuai dengan tujuan-tujuan tersebut, dan sebuah review singkat tentang analisis item.

Pendahuluan

Soal pilihan ganda adalah tipe ujian tertulis yang paling umum digunakan dalam pendidikan kedokteran sarjana dan pasca-sarjana. Soal pilihan ganda bisa menilai berbagai pengetahuan mahasiswa dalam periode waktu yang singkat. Karena jumlah soal pilihan ganda yang banyak bisa dibuat di bidang tertentu, yang memberikan cakupan yang luas untuk konsep-konsep yang bisa secara konsisten diuji, format soal pilihan ganda memungkin untuk keterpercayaan tes. Jika soal pilihan ganda diambil dari sampel isi yang representatif yang membentuk hasil pembelajaran yang telah ditentukan, maka soal-soal ini memungkinkan tingkat keabsahan tes yang tinggi. Kritik terhadap soal pilihan ganda menyebutkan bahwa soal-soal seperti ini tidak mampu menguji pembelajaran tingkat lebih tinggi. Akan tetapi, kritik ini lebih sering terkait dengan cacat-cacat dalam pembuatan item dan bukan kelemahan mendasar dari soal pilihan ganda. Soal pilihan ganda yang dibuat dengan benar menghasilkan pengujian objektif yang bisa mengukur pengetahuan, komprehensi, aplikasi dan analisis. Kekurangan soal pilihan ganda adalah bahwa soal-soal ini menguji pengenalan (pemilihan jawaban) dan bukan mengingat (membuat sebuah jawaban), memungkinkan penebakan, dan sulit serta memerlukan banyak waktu untuk pembuatannya.

Prinsip-prinsip penulisan soal pilihan ganda yang efektif telah disebutkan dalam buku-buku teks pengukuran pendidikan, literatur penelitian, dan dalam manual konstruksi item tes yang dirancng untuk para pengajar kedokteran. Meski demikian, sebuah penelitian terbaru dari National Board of Medical Examiners menunjukkan bahwa pelanggaran terhadap kebanyakan prinsip dasar penulisan soal sangat umum dalam tes pendidikan kedokteran.

Jumlah ahli radiologi yang akan menulis soal pilihan ganda diharapkan dapat meningkat karena semakin banyak ahli radiologi yang membuat modul-modul penilaian-mandiri (SAM) untuk program American Board of Radiology' Maintenance of Certification (MOC). Dalam periode 10 tahun, pada pendaftar dalam MOC harus menyelesaikan 20 SAM yang mencakup soal-soal pilihan ganda. Semua diplomat yang bersertifikasi di tahun 2002 dan selainnya terdaftar secara otomatis dalam program MOC, dan ABR mendorong semua diplomat untuk mendaftar dalam MOC. Soal pilihan ganda sulit dibuat dan memelrukan banyak waktu, bahkan untuk mereka yang sudah dilatih formal dalam pembuatan soal-soal pilihan ganda. Para penulis item profesional merencanakan satu jam atau lebih untuk menulis satu item yang bagus. Pada sebuah pertemuan terbaru oleh American Roentgen Ray Society (Pertemuan ke-105 ARRS, New Orleans, LA, 14 Mei 2005), sebuah loka-karya setengah hari tentang pembuatan soal-soal pilihan ganda untuk SAM dihadiri oleh anggota-anggota komite ARRS yang merupakan relawan untuk menulis dan mengedit SAMS untuk ARRS. Pelatihan seperti ini tentang skala yang lebih luas mungkin diperlukan jika jumlah radiologis yang banyak terlibat dalam pembuatan SAM.

Tujuan review kali ini adalah untuk memberikan panduan-panduan yang bisa digunakan oleh para ahli radiologi dalam menulis soal-soal pilihan ganda untuk SAM dan materi pendidikan kedokteran berkelanjutna lainnya, serta tes tulis-menulis mahasiswa kedokteran, dan pelayanan radiologi dan ujian luas tertulis. Tiga bidang akan dibahas: 1) penulisan tujuan pengajaran, 2) penentuan tingkatan pembelajaran untuk masing-masing tujuan, dan 3) penulisan soal pilihan ganda efektif yang menguji pembelajaran tersebut. Ini diikuti dengan sebuah pembahasan singkat tentang analisis item.

Penulisan tujuan pengajaran dan penentuan tingkat pembelajaran

Pertanyaan tes yang baik dimulai dengan pengidentifikasian informasi paling penting atau kehalian yang akan dipelajari. Hubungan langsung antara tujuan instruksional dan item tes harus ada. Sehingga, item-item tes harus datang secara langsung dari tujuan dan berfokus pada isi penting dan relevan, dengan menghindari pengujian pengetahuan kedokteran biasa. Item-item kontroversial harus dihindari, khususnya ketika pengetahuan tidak lengkap atau fakta-fakta masih diperdebatkan. Penentuan pertanyaan tes yang sesuai bisa difasilitas dengan mereview sub-sub topik utama dari artikel atau isi lainnya, dan mengindentifikasi kalimat-kalimat yang merangkum ide-ide atau prinsip-prinsip utama. Dari ini, fakta-fakta penting bisa dituliskan sebagai kalimat deklaratif, dengan membuat sebuah gambaran elas tentang apa yang harus dipelajari oleh mahasiswa. Telah disarankan bahwa jika ide tertulis sebagai sebuah pernyataan eksplisit, proporsisi, atau prinsip-prinsip membentuk sebuah bagian penting dari instruksi, maka itu adalah tes yang baik.

Tujuan-tujuan harus dituliskan dalam bentuk perilaku pembelajar spesifik dan bukan apa yang akan diajarkan program. Mereka harus menentukan pengetahuan atau keahlian penting dan didukung oleh instruksi yang diberikan melalui program pendidikan. Tujuan-tujuan yang dapat diukur dan diamati memungkinkan untuk penilaian akurat apakah pembelajar telah mencapai sebuah tujuan. Contoh-contoh hal-hal yang dapat diukur adalah nyatakan, jelaskan, sebutkan, identifikasi, dan bandingkan. Hal-hal yang tidak dapat diukur mencakup mengetahui, memahami, mempelajari, atau menjadi terbiasa dengan, sebagai contoh.

Tujuan yang tidak dapat diukur

“Memahami kenampakan pneumotoraks pada sebuah radiograf dada dalam posisi terlentang.” (Tidak jelas bagaimana mahasiswa akan menunjukkan bahwa dia “faham.”).

Tujuan yang dapat diukur

“Menjelaskan lima temuan pneumotoraks yang bisa ditemukan pada radiograf dada terlentang.” (Jelas bagaimana mahasiswa akan menunjukkan pembelajaran, dan pengkualifikasi dari “kelimanya” menunjukkan tingkat pengetahuan spesifik).

Pada tahun 1959, Bloom mempublikasikan sebuah taksonomi pembelajaran kognitif sebagai sebuah hirarki pengetahuan, komprehensi, aplikasi, analisis, sintesis, dan evaluasi. Para pengajar telah mengadopsi taksonomi Bloom untuk pembuatan tes dan beberapa telah menyederhanakan dan mengurainya menjadi tiga tingkatan umum. Ketiga tingkatan ini mencakup kategori-kategori berikut 1) pengetahuan (pengingatan atau pengenalan informasi tertentu), 2) gabungan komprehensi dan aplikasi (memahami atau mampu menjelaskan dengan kata-kata sendiri informasi yang dipelajari sebelumnya dan dengan menggunakan informasi baru, aturan, metode, konsep, prinsip, hukum dan teori-teori), dan 3) pemecahan masalah (mentransfer pengetahan yang ada dan keahlian terhadap situasi baru). Sebuah soal pilihan ganda harus menguji pada tingkatan pembelajaran yang sama seperti yang tujuan dirancang untuk menilainya. Tabel 1 menunjukkan contoh-contoh pilihan ganda dan tujuan-tujuan untuk masing-masing tingkat pembelajaran.

Jika hasil yang diinginkan dari sebuah program pengajaran melibatkan partisipan untuk melakukan lebih dari pengingatan fakta, program harus dirancang untuk memungkinkan para pembelajar mengaplikasikan pengetahuan atau keahlian. Tujuan program dan pertanyaan tes harus mencerminkan tingkat pembelajaran berbeda. Tujuan yang dituliskan dengan cermat sangat penting untuk pembuatan soal tes yang sesuai, dan dalam memastikan penilaian layak terhadap kompetensi mahasiswa yang dinginkan. Soal pilihan ganda yang ditulis untuk menguji pengetahuan (pembelajaran tingkat rendah) tidak akan cocok untuk menguji kompetensi tujuan-tujuan yang mencerminkan komprehensi (tingkat pembelajaran yang lebih tinggi). Misalnya, sebuah soal pilihan ganda yang meminta pembelajar untuk mengenali kalsifikasi dermal jinak pada sebuah mamogram tidak menguji kemampuan pemecahan masalah pembelajar. Sebuah pertanyaan yang memberikan informasi spesifik dan data pencitraan kepada pasien tertentu, dan meminta pembelajar untuk memilih manajemen yang paling cocok merupakan sebuah contoh item yang menguji kemampuan pemecahan masalah. Petunjuk seperti ini memberikan beberapa manfaat disamping menilai pengaplikasian pengetahuan. Karena mereka memelrukan pemecahan masalah, mereka meningkatkan keabsahan ujian. Item-item seperti ini lebih besar kemungkinannya berfokus pada informasi penting, dan bukan informasi biasa. Terkahir, ini membantu mengidentifikasi para peserta ujian yang telah mengingat fakta-fakta tetapi tidak mampu menggunakan informasi secara efektif.

Panduan-panduan untuk penulisan soal pilihan ganda

Beberapa penulis telah memberikan garis besar unsur-unsur dari soal pilihan ganda yang baik. National Board of Medical Examiners telah mempublikasikan di website mereka tentang manual pembuatan soal tes tertulis untuk sains dasar dan sains klinis, yang mencerminkan apa yang telah dipelajari dalam membuat item-item dan tes selama 20 tahun terakhir. Panduan-panduan yang dipublikasikan harus dianggap sebagai aturan praktek-terbaik dan bukan aturan mutlak. Pada beberapa kondisi, bisa sesuai untuk menghindar dari panduan-panduan. Akan tetapi, kondisi-kondisi seperti ini harus dijustifikasi dan terjadi tidak sering.

Istilah-istilah diaplikasikan terhadap komponen-komponen soal pilihan ganda berbeda. “Item” merupakan unit keseluruhan dan terdiri dari akar dan beberapa opsi. “Akar” adalah pertanyaan, pernyataan atau mengarah pada pertanyaan. Jawaban-jawaban yang mungkin disebut sebagai “alternatif”, “opsi”, atau “pilihan.” Opsi yang tepat disebut sebagai “respons kunci”. Opsi yang salah disebut “foil” atau “distraktor”.

Akar soal biasanya dituliskan terlebih dahulu dan paling dituliskan sebagai kalimat lengkap atau pertanyaan. Pertanyaan langsung (seperti, yang mana diantara pilihan berikut yang merupakan ciri penctiraan nodul pulmonary jinak?) lebih jelas dibanding kelengkapan kalimat (seperti, nodul pulmonary jinak ....) Penelitian telah menunjukkan bahwa penggunaan akar pertanyaan yang tidak lengkap akan mengurangi laju respon benar mahasiswa sebesar 10% sampai 15%. Akar bisa menggunakan peta, diagram, grafik, atau citra-citra radiologis, tetapi harus disertai dengan pertanyaan lengkap. Idealnya, item harus dapat dijawab tanpa harus membaca semua opsi. Akar pertanyaan harus mencakup semua informasi relevan, hanya informasi relevan, dan mengandung sebanyak mungkin item. Jika sebuah frase bisa dinyatakan dalam akar pertanyaan, tidak boleh diulangi dalam opsi. Sebagai contoh,

Frase berulang dalam setiap opsi

Yang mana diantara poin berikut yang akan mengurangi dosis radiasi sebesar ½?
A)Mengurangi mA sebesar ¼
B)Mengurang mA sebesar 1/3
C)Mengurangi mA sebesar ½
D)Mengurangi mA sebesar ¾

Soal yang mencakup semua informasi relevan dalam akar pertanyaan

Dengan fraksi berapa mA perlu dikurangi untuk menurunkan dosis radiasi sebesar ½?
A)¼
B)1/3
C)½
D)¾

Akar pertanyaan harus diupayakan sesingkat mungkin dan mencakup hanya informasi penting. Tidak boleh digunakan sebagai peluang untuk mengajari atau mencakup pernyataan yang bersifat informatif tetapi tidak diperlukan untuk memilih opsi yang tepat. Akar pertanyaan tidak boleh mengecoh atau menyesatkan, seperti yang mengelabui peserta ujian untuk memilih jawaban yang salah. Tingkat kesulitan pembacaan harus diupayakan serendah mungkin dengan menggunakan bahasa sederhana sehingga akar pertanyaan bukanlah sebuah tes untuk kemampuan pembacaan peserta ujian. Sebagai panduan umum, para mahasiswa bisa melengkapi antara satu sampai dua item pilihan-ganda per menit. Item-item yang secara signifikan melebihi waktu ini untuk diselesaikan harus diuji secara dekat seperti apakah mereka tidak terlalu panjang atau membingungkan.

Akar pertanyaan pada umumnya lebih panjang ketika pengaplikasian pengethauan sedang diuji berbeda dengan pengingatan fakta yang diingat. Untuk menguji aplikasi pengetahuan, petunjuk klinis bisa memberikan basis untuk pertanyaan, dimulai dengan presentasi masalah seorang pasien diikuti dengan riwayat (durasi tanda dan gejala), temuan fisik, hasil pemeriksaan diagnostik, pengobatan awal, temuan selanjutnya, dan lain-lain. Presentasi kasus dalam sial tidak harus panjang untuk efektif, dan harus menghindari kata-kata yang berbelit-belit, material tambahan dan “yang menjauhkan perhatian.” Pada sebuah penelitian yang membandingkan soal pilihan ganda non-kasus, kasus singkat dan kasus panjang, yang dirancng untuk memerlukan peningkatan tingkat interpretasi, analisis dan sintesis, item-item terbukti lebih sulit ketika temuan pasien dipresentasikan dalam bentuk yang kurang dapat diinterpretasi. Akan tetapi, perbedaan diskriminasi tidak signifikan secara statistik. Tanpa mempertimbangkan hasil-hasil psikometri ini, soal-soal contoh kasus pad aumumnya dirasakan lebih cocok karena menguji penerapan pengetahuan sehingga meningkatkan keabsahan isi ujian. Sebagai contoh,

Soal yang mengukur hafalan

“Yang mana diantara hal berikut yang tampak sebagai penyakit aairspace kronis (lebih dari 3 bulan) pada sebuah radiograf dada?”

A)Penumonia streptokokal
B)Sindrom distres respirasi dewasa
C)Edema jantung
D)Proteinosis alveolar pulmonary

Soal dengan contoh kasus yang mengukur penerapan pengethauan

“Seorang pria 30 tahun memiliki riwayat dyspnea selama 4-bulan, demam tingkat rendah, batuk dan letih. Dengan radiograf dada berikut, apa yang kemungkinan besar merupakan diagnosis pasien ini?”
A)Sindrom distres respirasi dewasa
B)Edema jantung
C)Pneumonia streptokokal
D)Proteinosis alveolar pulmonary


Akar pertanyaan harus dinyatakan sedemikian rupa sehingga hanya satu opsi yang bisa dibenarkan dan sehingga opsi harus benar. Cukup bijaksana untuk mendokumentasikan (agar dapat diambil selanjutnya) sumber keabsahannya. Jika opsi tepat yang diberikan tidak merupakan satu-satunya respons yang mungkin, akar pertanyaan harus mencakup kata “diantara berikut ini”. Ketika lebih dari satu opsi yang memiliki beberapa unsur kebenaran atau akurasi tetapi respons besar adalah yang terbaik, maka akar pertnayaan harus menanyakan kepada mahasiswa untuk memilih “jawaban terbaik” dan bukan “jawaban yang benar.”

Pertanyaan-pertanyaan pada umumnya harus disusun untuk menanyakan jawaban yang tepat dan bukan jawaban yang “salah”. Pertanyaan yang bersifat negatif dapat dikenali berdasarkan frase-frase seperti “yang manakah yang benar” atau “semua berikut ini kecuali.” Pertanyaan-pertanyaan negatif cenderung kurang efektif dan lebih sulit dipahami oleh peserta ujian. Akar-akar pertanyaan negatif bisa menjadi pilihan yang baik pada beberapa contoh, tetapi harus digunakan selektif. Ketika akar-akar pertanyaan negatif digunakan, istilah negatif (misalnya “tidak/bukan”) harus digarisbawahi, dicetak tebal atau dicetak miring untuk memastikan penekanannya. Sebagai contoh,

Soal negatif

“Yang manakah diantara berikut yang BUKAN merupakan temuan CT krakteristik dari penyakit saluran-udara kecil”

Soal positif

“Yang manakah diantara berikut yang paling baik dalam membedakan penyakit saluran-udara kecil dari penyakit paru-paru interstitial pada CT dada?”

Istilah-istilah mutlak, seperti “selalu”, “tidak pernah”, “semua” atau tak satupun” tidak boleh digunakan dalam akar pertanyaan atau pilihan. Peserta ujian yang cerdas mengetahui bahwa hanya sedikit hal atau situasi yang mutlak atau benar secara universal. Istilah “mungkin”, “dapat”, dan “bisa” adalah petunjuk-petunjuk untuk jawaban yang benar, karena peserta yang cerdas akan megnetahui bahwa hampir segala sesuatunya adalah mungkin. Istilah-istilah yang tidak tepat seperti “jarang”, “langka”, “terkadang”, “kadang-kadang”, “sedikit”, dan “banyak”, tidak dipahami secara merata dan harus dihindari. Pada sebuah penelitian yang dilakukan di National Board of Medical Examiners, 60 anggota dari delapan momite tes yang menulis pertanyaan untuk berbagai ujian keahlian kedokteran mereview sebuah daftar istilah yang digunakan dalam soal-soal pilihan ganda untuk menyatakan beberapa konsep yang terkait dengan frekuensi kejadian dan mengindikasikan persentase waktu yang dicerminkan oleh setiap istilah. Nilai mean plus atau minus satu standar deviasi melebihi 50 poin persentase untuk lebih dari setengah frase. Sebagai contoh, rata-rata, penulis soal yakin istilah “sering” menandakan 70% waktu; setengah meyakini bahwa menandakan 45% sampai 75% waktu; respons sebenarnya berkisar antara 20% sampai 80%. Yang khusus adalah bahwa nilai-nilai untuk “sering” timpang tindih dengan nilai untuk “jarang”. Jumlah mutlak lebih baik. Sebagai contoh, “Pada kurang dari 15% dari populasi ini” lebih baik dibanding “jarang.”

Eponim, akronim, atau singkatan tanpa beberapa kualifikasi setelah masing-masing istilah harus dihindari. Peserta ujian bisa tidak terbiasa dengan istilah-istilah seperti ini, atau istilah-istilah tersebut bisa memiliki lebih dari satu makna. Pada kasus-kasus seperti ini, soal tersebut menjadi sebuah tes apakah peserta memahami makna sebuah istilah, atau item keliru karena sebuah istilah bisa diinterpretasi dengan lebih dari satu cara.

Aspek yang paling menantang dari pembuatan soal pilihan ganda adalah perancangan distraktor yang wajar. Kemampuan sebuah item untuk membedakan (yakni memisahkan mereka yang mengetahui dari yang tidak mengethaui) ditemukan dalam kualitas dan ketertarikan dari distraktor (pilihan pengecoh). Distraktor yang paling baik adalah pernyatana-pertanyaan yang akurat tetapi tidak benar-benar memenuhi apa yang diminta soal, dan pernyataan tidak benar yang kelihatannya benar bagi peserta ujian. Masing-masing opsi yang tidak benar harus tampak masuk akal tetapi jelas tidak benar. Distraktor (pilihan pengecoh) yang tidak masuk akal, sepele, atau tidak bermakna tidak boleh digunakan. Pilihan-pilihan ideal mewakili kesalahan-kesalahan umum yang dibuat oleh para peserta ujian. Distraktor sering dibuat dengan menanyakan pertanyaan seperti, “Apa yang biasanya membuat seseorang bingung dengan entitas ini?”, “Apa yang merupakan kesalahan umum dalam interpretasi hasil ini?” atau “Apa yang merupakan miskonsepsi umum di bidang ini?”

Jumlah opsi terbaik adalah tiga sampai lima. Penelitian telah menunjukkan bahwa soal yang memiliki tiga opsi sama efektifnya seperti soal yang memiliki empat pilihan. Pembuatan lebih dari lima cukup berat dan sering menyebabkan opsi keliru disamping meningkatkan permintaan pembacaan mahasiswa. Lebih lanjut, tidak ada aturan baku dan cepat bahwa jumlah opsi harus seragam. Pada salah satu ujian, beberapa soal bisa memiliki empat opsi dan beberapa bisa emiliki lima opsi.

Distraktor harus terkait atau paling tidak berhubungan satu sama lain. Yakni harus adakategori sama seperti jawaban benar (seperti, semua diagnosa, tes, pengobatan, prognosis, alternatif disposisi). Sebagai contoh, semua opsi bisa berupa tipe pneumonia atau dosis radiasi.

Distraktor harus tampak semirip mungkin dengan jawaban benar dalam artian grammar, panjang dan kompleksitas. Ada kecenderungan umum untuk membuat jawaban yang benar lebih panjang dibanding distraktor. Sebagai contoh,

Soal yang memiliki respons benar lebih panjang dibanding opsi lainnya

Seorang wanita sehat berusia 28 tahun memiliki riwayat batuk, demam dan sesak nafas selama dua hari, dan berikut radiograf dadanya. Apa yang kemungkinan besar merupakan diagnosisnya?
A)Tuberkulosis
B)Penumoani stretokokal yang di dapat dari komunitas
C)Pneumonia varicella
D)Blastomykosis

Soal yang memiliki opsi sama panjangnya

Seorang wanita sehat berusia 28 tahun memiliki riwayat batuk, demam dan sesak nafas selama dua hari, dan berikut radiograf dadanya. Apa yang kemungkinan besar merupakan diagnosisnya?
A)Tuberkulosis
B)Penumonia streptokokal
C)Penumonia varicella
D)Blastimikosis

Opsi-opsi tidak boleh mencakup material yang ofensif atau tidak fair untuk sekelompok peserta. Dengan demikian, referensi terhadap jender atau ras hanya boleh dibuat jika diperlukan.

Opsi-opsi tidak boleh berdiri sebagai hasil dari frasenya. Isyarat gramatikal seperti ketika satu atau lebih opsi tidak ikut secara gramatikal dari akar pertanyaan, menyebabkan peserta ujian mengarah pada jawaban yang benar. Jika akar pertanyaan dalam bentuk lampua, semua opsi harus jamak. Akar pertanyaan dan opsi harus memiliki kesehatan subjek-verb. Karena seorang penulis soal cenderung lebih memperhatikan opsi yang benar dibanding distraktor, kesalahan-kesalahan gramatikal lebih besar kemungkinannya terjadi dalam distraktor. Ini bukanlah isu ketika akar pertanyaan dituliskan sebagai sebuah pertanyaan. Sebagai contoh,

Opsi C tidak ikut secara gramatikal dari akar pertanyaan

“Sebuah temuan radiograf dada dari kolaps lobe kiri atas adalah ____.”
A)Hiperlusensi hemitoraks kiri bawah dan atas
B)Peningkatan diafragma kiri
C)Ketika mediastinum bergeser ke kanan.
D)Pergeseran posterior dari fisur minor.

Semua opsi ikut secara gramatikal dari akar pertanyaan

“Sebuah temuan radiograf dari kolaps libe kiri atas adalah ___.”
A)Hiperlusensi hemitoraks kiri atas dan bawah
B)Peningkatan diafragma kiri
C)Pergeseran mediastinal ke arah kanan
D)Pergeseran posterior dari fisur minor

Opsi-opsi tidak boleh mencakup “tak satupun dari poin di atas” atau “semua poin di atas”. Tak satupun poin di atas cukup bermasalah pada item-iitem dimana penilaian terlibat dan dimana opsi-opsi tidak mutlak benar atau salah. Jika respon tepat dimaksudkan sebagai salah satu atau opsi terdaftar lainnya, peserta ujian yang cerdas yang berpengatahuan bisa dihadapkan pada dilema karena mereka harus memutuskan antara opsi sempurna yang sangat rinci dan yang dianggap benar. Peserta ujian bisa sering membuat opsi yang lebih benar dibanding yang diharapkan seseorang benar. Penggunaan “tak satupun poin di atas” mengubah soal menjadi soal benar/salah; masing-masing opsi harus dievaluasi benar salahnya dibanding opsi-opsi yang tidak terdaftar. “Tak satupun dari poin di atas” hanya menginformasikan tentang apa yang diketahui peserta tidak benar dan apa yang benar. Peserta hanya perlu mengenali bahwa dua opsi benar untuk “semua poin di atas” sebagai opsi yang benar.

Opsi-opsi harus ditempatkan dengan urutan logis, jika ada. Sebagai contoh, jika jawabannya adalah sebuah angka, opsi harus dimulai dengan yang terkecil sampai yang terbesar (juga bisa dimulai dengan yang terbesar lalu yang terkecil). Jika opsi-opsi adalah tanggal, harus diurutkan secara kronologis. Opsi-opsi harus independen dan tidak timpang tindih satu sama lain. Sebagai contoh,

Soal yang memiliki opsi-opsi timpang tindih

Berapa dosis radiasi efektif rata-rata dari CT dada?
A)1-8 mSv
B)8-16 mSv
C)16-24 mSv
D)24-32 mSv

Item yang tidak memiliki opsi-opsi timpang tindih

Berapa dosis radiasi efektif rata-rata dari CT dada?
A)1-7 mSv
B)8-15 mSv
C)16-23 mSv
D)D. 24-32 mSv

Item-item harus independen satu sama lain, sehingga salah satu item tidak menunjukkan informasi yang memungkinkan peserta secara otomatis mengetahui jawaban yang benar pada soal lainnya. Ini disebut sebagai “pengisyaratan”, ketika sebuah opsi pada salah satu soal memberikan petunjuk kepada jawaban yang benar di soal lain. Juga penting untuk menghindari “ketergantungan”, dimana pertanyaan-pertanyaan memerlukan agar mahasiswa mengethaui jawaban satu soal untuk menjawab soal lainnya.

Posisi respons benar harus divariasikan dari A, B, C dan D. Penelitian menunjukkan bahwa B atau C lebih banyak digunakan. Peserta yang bijak, yang terbiasa dengan kecenderungan ini, akan memilih B atau C untuk meningkatkan kemungkinan mendapatkan jawaban yang benar ketika mereka tidak tahu jawaban dan dipaksa untuk menebak.

Analisis item

Item-item yang mencoba untuk menilai topik yang penting tidak bisa dilakukan tidak dibuat dengan baik. Cacat-cacat yang menguntungkan peserta ujian yang bijak, dan item-item yang memiliki kesulitan tidak relevan harus dihindari untuk soal-soal pilihan ganda agar dapat menghasilkan skor yang valid. Bebrapa prinsip penulisan soal telah diteliti efeknya terhadap indkes psikometri. Kebanyakan penelitian mengevaluasi efek sebuah cacat tunggal, seperti soal negatif dan tak satupun opsi di atas. Downing mengevaluasi keabsahan sebuah uji pencapaian kelas dalam pendidikan kedokteran yang mengandung soal-soal tes cacat. Sebanyak 11 (33%) dari 33 item dikelompokkan sebagai cacat (akar pertanyaan tidak terfokus, penggunaan “tak satupun opsi diatas” dan 'semua opsi diatas” dan soal negatif). Dia menemukan bahwa soal-soal yang cacat menggagalkan hampir seperempat mahasiswa dibanding soal-soal yang tidak cacat. Tes yang ditingkatkan dan kesulita soal terkait dengan penggunaan soal-soal cacat merupakan sebuah contoh varians tidak relevan konstruk, karena soal tes yang tidak dibuat dengan baik menambahkan eksulitan buatan terhadap skor tes. Varians ini mengganggu interpretasi skor tes yang akurat dan bermakna dan berdampak negatif terhadap nilai lulus mahasiswa, khususnya untuk skor lulus pada atau tepat di batas nilai rata-rata distribusi skor tes.
    Para penulis soal pilihan ganda harus mereview soal-soal mereka untuk mengetahui keakuratan dan kecocokan format. Akan tetapi, seperti pekerjaan editorial lainnya, review internal mungkin tidak menunjukkan semua kesalahan. Akan sangat bermanfaat untuk meminta bantuan rekan untuk membaca dan merespon terhadap soal-soal pilihan ganda, dan memberikan umpan-balik. Banyak institusi yang memiliki pelayanan tes yang bisa menganalisis kualitas item-item tes untuk fakultas. Karena soal pilihan ganda sebanyak digunakan dalam proses MOC, maka organisasi yang memberikan aktivitas CME dan SMAS harus mempertimbangkan untuk memberikan bantuan profesional dengan penulisan soal dan analisis soal. Gambar 1 memberikan sebuah daftar panduan untuk penulisan soal pilihan ganda efektif yang bisa dirujuk ketika membuktikan kebanaran soal-soal tes.

Soal-soal pilihan ganda bisa dievaluasi berdasarkan keterpercayaannya, keabsahannya, dan keintensifan sumber. Keterpercayaan menjadi sebuah uikuran keumuman soal. Soal-soal dalam sebuah tes mewakili sebagian kecil sampel dari semua soal pilihan ganda yang mungkin yang bisa ditanyakan, dan skor tes harus merupakan tanda skor dari mahasiswa yang sama pada setiap item relevan lainnya. Keabsahan menunjuk pada sejauh mana sebuah tes mengukur apa yang ingin dia ukur. Keintensifan sumber ditentukan dengan pembuatan dan pemberian kelas soal. Soal pilihan ganda relatif mudah diberi kelas, khususnya dengan bantuan komputer, tetapi sulit dan dibuat dan memerlukan banyak waktu.

Analisis item memberikan penilaian kesulitan soal yang bermanfaat dan diskriminasi soal. Untuk menentukan kesulitan soal persentase mahasiswa yang menjawab masing-masing item dengan benar dihitung. Tujuannya adalah untuk membuat sebuah tes yang hanya mengandung beberapa item yang lebih dari 90% atau kurang dari 30% mahasiswa yang menjawabnya dengan benar. Item-item dianggap rendah atau cukup rendah jika antara 70 dan 85 persen mahasiswa memilih respons yang benar.

Diskriminasi item menunjuk pada perbedaan persentase dalam respon benar antara dua kelompok mahasiswa. Rasio diskriminasi untuk sebuah soal akan jatuh antara -1,0 dan +1,0. Semakin dekat rasio ke +1,0, semakin efektif soal tersebut membedakan siapa yang mengetahui bahan dari siapa yang tidak mengetahui. Idealnya, setiap soal akan memiliki rasio sekurang-kurangnya +0,5. Sebuah soal dengan diskriminasi 60% atau lebih dianggap merupakan soal yang sangat baik, sedangkan diskriminasi yang kurang dari 19% menandakan soal yang perlu direvisi. Sebuah item dengan indeks diskriminasi negatif menandakan bahwa mahasiswa yang buruk menjawab benar lebih sering dibanding mahasiswa yang baik, dan soal seperti ini harus dihindari.

Ringkasan

Ketika permintaan untuk material pendidikan kedokteran berkelanjutan dan SAM meningkat, begitu juga dengan kebutuhan akan individu berkeahlian dalam penulisan soal. Ahli radiologi, biasanya tidak terlatih dalam penulisan soal, akan menjadi salah satu keklompok yang membuat material-material ini. Ahli radiologi pada umumnya tidak terbiasa dengan bagaimana mengukur tujuan pendidikan dan soal-soal pilihan ganda yang cocok dengan tujuan-tujuan tersebut dalam hal tingkat pembelajaran yang terlibat. Selain itu, pembuatan soal yang efektif memerlukan pengetahuan tentang prinsip-prinsip penulisan soal standar. Gambar 1 menunjukkan sebuah daftar panduan untuk penulisan soal keseluruhan dan untuk penulisan akar dan opsi yang efektif. Daftar ini bisa dirujuk ke ahli radiologi yang menulis soal pilihan ganda untuk mahasiswa pada semua tingkatan (yaitu, mahasiswa kedokterna, penduduk dan radiologis yang melakukan praktek). Penting bagi pembuat tes untuk terlatih dalam penulisan efektif agar dapat memastikan bahwa material yang digunakan untuk mengevaluasi peserta merupakan penilaian yang absah terhadap pengetahuan pembelajar. Pengukuran pengetahuan pembelajar merupakan sebuah tahap penting dalam proses pendidikan yang harus diberikan perhatian sama seperti pembuatan dan pengimpelentasian kurikulum. Hasil dari pengukuran pembelajaran digunakan dalam pembentukan tujuan pembelajaran di masa mendatang, yang melengkapi siklus pembelajaran berkelanjutan.

Tabel 1. Contoh-contoh tujuan dan soal pilihan ganda untuk tiga tingkatan pembelajaran.

Tingkatan	Tujuan	Pertanyaan
Pengetahuan (mahasiswa harus mengingat informasi yang dihafal tetapi tidak menjelasakan atau menerapakannya)	Menyatakan dosis radiasi efektif rata-rata dari CT dada.	Berapa dosis radiasi efektif rata-rata dari CT dada” A. 1 mSv B. 8 mSv C. 16 mSv D. 24 mSv
Menggabungkan komprehensi dan penerapan (mahasiswa harus menunjukkan kemampuan untuk menggunakan, tidak hanya menjelaskan, informasi baru, menerapkan kaidah, metode, konsep, prinsip, hukum atau teori)	Membandingkan keterpaparan radiasi dari pemeriksaan-pemeriksaan radiologi yang berbeda.	Yang mana dari pemeriksaan pencitraan berikut ini yang terkait dengan dosis radiasi yang paling efektif? A. CT multidetektor abdomen/pelvis B. CT multidetektor arteri koroner C. Angiogram pulmonary konvensional D. Angiogram pulmonary digital
Pemecahan masalah (mahasiswa harus memahami komponen sebuah konsep dan hubungannya satu sama lain, dan menganalisis informasi)	Menjelaskan efek yang dimiliki oleh berbagai faktor terhadap dosis radiasi dari CT dada.	Yang mana diantara berikut yang akan paling sedikit mengurangi dosis radiasi dari CT dada? A. Mengurang mA dari 250 menjadi 125 B. Mengurangi kVp dari 140 menjadi 120 C. Mengurangi pitch dari 2 sampai 1 D. Mengurangi waktu scan dari 1 menjadi 0,5.

Gambar 1. Panduan-panduan untuk menulis soal pilihan ganda yang efektif

Soal
Soal-soal relatif untuk tujuan-tujuan instruksional
Tes pada tingkatan pembelajaran yang sama seperti tujuan dirancang untuk dinilai
Tuliskan soal-soal untuk mencerminkan tingkat pembelajaran berbda

Akar pertanyaan
Berikan sebuah pernyataan lengkap
Hanya masukkan informasi yang relevan
Mengandung sebanyak mungkin soal dalam akar soal
Upayakan akar soal sependek mungkin
Minta jawaban yang benar bukan jawaban salah
Hindari istilah mutlak seperti selalu, tidak pernah, semua, atau bukan
Hindari istilah tidak tepat seperti jarang, langka, terkadang, kadang-kadang, sedikit, atau banyak.
Hindari isyarat seperti boleh, dapat, atau bisa
Definisikan eponim, akronim, atau singkatan yang digunakan

Opsi
Upayakan opsi konsisten secara gramatikal dengan akar pertanyaan
Tulis opsi-opsi salah sebagai masuk akal tetapi jelas tidak benar
Hubungkan opsi-opsi satu sama lain
Tuliskan distraktor agar mirip dengan jawaban benar dalam hal grammar, panjang, dan kompleksitas
Hindari 'tak satupun opsi di atas” atau “semua opsi di atas”
Tempatkan opsi secara logis (misalnya angka, kronologis)
Tulis opsi sebagai opsi independen dan tidak timpang-tindih
Variasikan posisi respons yang benar.

Search This Blog

InfoJurnals

Penulisan Soal-Soal Pilihan ganda untuk Aktivitas Pendidikan Kedokteran Berkelanjutan dan Modul-Modul Penilaian Mandiri

Comments

Post a Comment

Popular posts from this blog

Protein C-Reaktif: Sebuah tes sederhana untuk membantu memprediksikan risiko serangan jantung dan stroke

Prevalensi lesi mukosa mulut diantara pasien-pasien yang mengunjungi sebuah departemen OM dan radiologi di India Selatan

Prinsip Imunoasai Hamburan Cahaya