為何今年要改採「新式測驗」?
之所以今年會改採「新式基測」,其實是「舊制基測」被「踢爆」計分方式有問題的緣故,中研院研究員林妙香的研究報告「90-93年度國中基測量尺及等化程序之個案研究」,實扮演了關鍵的角色。
談到「90-93年度國中基測量尺及等化程序之個案研究」,就一定要說明一下這篇報告的內容。雖然當時媒體有報導,但是除了「分數計算有問題」、「不考二測吃大虧」這兩個「結論」外,對於內容較無深入的探究,在此不得不向各位解釋一番:
就「分數扭曲」的部分,在這篇報告中指出:
考生基測成績通知單1-60分的考科量尺分數是被「調整」過的,沒有按照公告所定的計分遊戲規計算考科量尺分數,加入了莫名奇妙的「調整」:有的考科量尺分數是以最高分64.34計算的,有的考科量尺分數是以最高分59.56計算的。
也就是說,各科量尺分數的最高分並非設定在60分,而且各科各年度皆不相同。
而最高分「人為設定」的結果,所影響到的不只是高分的考生,幾乎所有考生都會受其影響,以91年度數學科為例:
為了讓各位更能方便理解兩者的差距,筆者將它做成圖表如下:
從上表我們可以得知,基測分數經「人為調整」後,低分群的公告成績較「最高分設定為60分」的結果還低。當然,以「最高分設定為60分」計算的結果,高分群錯一題所扣的分數實際上還較原本(公告)的扣分來的重。
為什麼林妙香研究員會認為「不考二測虧大」?
因為按照「標準測驗」的原理(網友時季常的文章對此有詳盡介紹),基測考題的難易度不會有什麼變化,考生的成績在短期內也不會有多大改變才是。然而根據「90-93年度國中基測量尺及等化程序之個案研究」,二測的平均成績比一測都高出幾分,會產生這種原因只有兩種可能:
1.考生整體表現較第一次為進步
2.二次測驗量尺並無等化(equating)步驟,只是單純進行分數連結(linking)。
而為何林妙香研究員會認為「後者」才可能是影響成績的主因呢?因為在研究中她特意比較了「兩次學測都有參加的考生」的一測與二測成績,結果發現:
93學年度而言,二題本原始分數的平均值及標準差皆相近,何以第二次量尺分數總平均值卻多出5.0分;92學年度亦然,第二次量尺分數總平均值多出2.3分。91學年度,自然學科二題本原始分數的平均值相近,何以第二次量尺分數平均值低於第一次平均值約2.0分。90學年度,數學考科二題本原始分數的平均值相近,何以第二次量尺分數平均值高於第一次達2.2分之多, 而量尺分數總平均值可增加至8.7分。
也就是說,二次基測分數較一測「墊高」的結果,「人為因素」(測驗成績並無「等化步驟」)有很大的關聯。難怪何林妙香研究員會認為「只考一測較二測都考吃虧」的原因了。
之所以會產生「分數墊高」的問題,在於心測中心捨棄了ACT或ETS的IRT-3參數模式,而採用Rasch的單參數模式建立題庫。雖然同樣是IRT轉換,但是Rasch模式的試題特徵曲線卻是建構在「試題鑑別度相同」且「試題猜度為零」的情況下。至於為何不使用ETS採用的IRT-3參數模式作為分數轉換的方式,在「新制量尺基測問答」中,他們做了如此的回應:
IRT轉換法是最能反應考生真實程度,但這個計分法適用「中間偏難」的試題,國中基測社會大眾的共識是考「中間偏易」,中間偏易的題目採用IRT轉換法,數學錯一題可能扣10分,社會更不能接受。
所以各位真的要體諒主事者為了「順應民意」,而刻意「手動調整」的苦心啊!
分數差距縮小,會不會加重高分群的分數競爭?
會,因為雖然分數的差距縮小了,但是在題目難易度仍採「中間偏易」的情況下,可預期高分群考生「錯題數」不至有太大的變化。
除此之外,在分數差距縮小的情況下,以往「各科錯一兩題」較「單科錯多題」低分的情形也將不復見。而這些「各科錯一兩題」的考生的分數較舊制提升的結果,除了導致高分群的人數增多以外,也會從以往「分數」的競爭變成「錯題數」的競爭。前幾志願的分數往往是1~2分之差,競爭更為激烈。
這種情形將有多嚴重呢?根據心測中心對外公布的比較結果,「若以今年(2008年)基測兩次擇優的成績來計算,共有3252人達PR99,但若改以明年實施的新量尺來計分,將有4088人達PR99,比今年的人數多了8百多人,顯示高分群有很多人同分。」
「新式基測」中 作文扮演的角色?
照理而言,基測五科提高了100分而作文分數沒有變動,作文對總分的影響力應該會降低才是,何以作文反倒成為「決勝關鍵」呢?主要原因有兩個:
一是高分群競爭激烈的緣故。由於「各科錯一兩題」的考生的分數較舊制提升的結果,高分群同分的人數增加。在前幾志願的分數差距縮減為一兩分的情況下,「一級分兩分」的作文自然扮演了決定性的因素。
一是「扣分差距縮小」的緣故。在新制測驗的計分下,由於「每錯一題」的差距縮小,以往單科錯一題扣很多分的情形也將不復見。根據報導,以2008年第一次基測社會科為例,只錯一題扣5分,若用新制計算則減為扣2分,作文「一級分兩分」的「價值」相對而言也因此提升。
除此之外,「同分比序」先比作文的緣故,作文的影響力會更為增加。
但是,有誰能告訴我,為何作文和測驗題採用的是不同的「計分機制」?
結論:為什麼要設計這種制度來「荼毒」我們的學生?
2009/05/07 聯網首頁|意見評論,十度榮登
本部落格榮獲「全球華文部落格大獎」教育應用類初選入圍