Väčšina online testov meria, kto sa učil predchádzajúci večer. Tu je krokový sprievodca navrhovaním online hodnotení, ktoré merajú skutočnú prenosnú zručnosť — od výberu typov otázok po načasovanie, bodovanie a pilotné kolá.

Väčšina online hodnotení nemeria zručnosť. Merajú, kto sa učil predchádzajúci večer, kto najrýchlejšie googlí alebo kto si náhodou pamätá presné znenie z učebnice. Pri pop kvíze s nízkou stávkou to nevadí; je to problém, keď výsledok rozhoduje, či niekoho prijmú, povýšia, certifikujú alebo presunú do ďalšej tréningovej skupiny.
Dobré online hodnotenie robí niečo užšie: predpovedá, ako dobre niekto vykoná skutočnú úlohu. Tento sprievodca prevedie celou návrhovou slučkou — definovaním toho, čo merať, výberom správnych typov otázok, kalibráciou obtiažnosti, nastavením časovania a zásad opakovaných pokusov, pilotovaním a sledovaním analytiky, ktorá naozaj záleží.
Predtým než napíšete jedinú otázku, napíšte si jednovetnú odpoveď na: „Čo robí dobre niekto, kto týmto hodnotením prejde, a čo nerobí niekto, kto neprejde?“ Ak je tá veta hmlistá, vaše hodnotenie bude hmlisté.
Potom túto vetu rozdeľte na 3 – 6 pozorovateľných čiastkových zručností. Pri hodnotení juniorného backend inžiniera by to mohlo vyzerať takto:
Prečíta SQL dopyt a predpovie jeho výstup.
Napíše funkciu, ktorá zvláda okrajové prípady bez výzvy.
Identifikuje časovú zložitosť daného algoritmu.
Spozná zjavnú bezpečnostnú chybu v 10-riadkovom úryvku kódu.
Každá čiastková zručnosť sa stane sekciou vášho hodnotenia. Ak nedokážete ukázať na sekciu, ktorá zodpovedá čiastkovej zručnosti, tá sekcia by pravdepodobne nemala existovať.
Najčastejšia chyba pri návrhu hodnotenia je siahnuť po viacnásobnom výbere pre všetko, pretože sa ľahko hodnotí. Viacnásobný výber je skvelý pre rozpoznávanie; je hrozný pre aplikáciu. Spárujte typ otázky s kognitívnou záťažou:
Použite ho, keď správnu odpoveď možno rozpoznať zo zoznamu pravdepodobných možností. Distraktory sú dôležitejšie ako správna odpoveď: slabé distraktory premenia otázku so štyrmi možnosťami na hod mincou.
Použite ho, keď je správnych viac ako jedna odpoveď a chcete vedieť, či ich účastník dokáže nájsť všetky. „Ktoré z nasledujúcich sú platné idempotentné HTTP metódy?“ testuje rozpoznávanie; „Ktoré by v tomto scenári spôsobilo invalidáciu cache?“ testuje aplikovaný úsudok.
Používajte striedmo. Zachytáva, či niekto dokáže vyprodukovať odpoveď bez pomoci, čo je ťažšie ako vybrať ju zo zoznamu. Kombinujte s viacerými akceptovateľnými odpoveďami a porovnaním bez ohľadu na veľkosť písmen, pokiaľ presnosť nie je práve to, o čo ide.
Najlepšie, keď zručnosťou je „prepojiť koncept A s konceptom B“ alebo „usporiadať tieto kroky v správnom poradí“. Silnejšie ako viacnásobný výber pri testovaní znalosti procesu, pretože čiastočné body odrážajú čiastočné porozumenie.
Najťažšie automaticky hodnotiteľné a najužitočnejšie pri správnom použití. Vyhraďte ich pre najdôležitejšie čiastkové zručnosti hodnotenia a vopred napíšte rubriku, aby bolo manuálne hodnotenie konzistentné naprieč hodnotiteľmi.
Test, v ktorom je každá otázka ťažká, neoddeľuje silných od priemerných; oddeľuje šťastných od nešťastných. Test, v ktorom je každá otázka ľahká, stropom blokuje vašich najlepších riešiteľov. Snažte sa o krivku obtiažnosti zhruba takto:
20 % ľahké — potvrdzujú základné znalosti a zahrejú účastníka.
60 % stredné — väčšina ľudí dostane väčšinu týchto; rozdiely tu poháňajú krivku skóre.
20 % ťažké — iba najlepší riešitelia tieto rozlúsknu; užitočné pri rozhodovaní pri rovnosti, nikdy nie pre väčšinu hodnotenia.
Pred odoslaním hodnotenia ho prevezmite cez jedného silného kolegu a jedného hraničného kolegu. Ak silný kolega nezvládne ľahké otázky alebo hraničný kolega dá ťažké, vaša kalibrácia obtiažnosti je mimo.
Časové limity sú mocné a často nesprávne použité. Dlhé časomiery merajú dôkladnosť; krátke časomiery merajú rozpoznávanie vzorcov pod tlakom. Vyberajte zámerne.
Niekoľko pravidiel, ktoré obstoja:
Otestujte si hodnotenie sami, potom pridajte 30 – 50 % pre účastníkov, ktorí nie sú autorom.
Časomiery na úrovni sekcie sú spravodlivejšie ako jedna veľká časomiera — pomalosť v sekcii 1 by nemala kradnúť čas sekcii 4.
Vynucujte čas na serveri, nie v prehliadači. Časomiera, ktorú JavaScript dokáže vypnúť, je dekorácia.
Zobrazujte zostávajúci čas zreteľne. Skryté časomiery spôsobujú úzkosť, nie lepšie meranie.
„Môžu to zopakovať?“ je otázka politiky, nie technická. Rozhodnite pred spustením:
Koľko pokusov je povolených a v akom okne?
Čerpá každý pokus z randomizovanej banky otázok, alebo vždy z rovnakých otázok?
Ukazujete účastníkom, ktoré otázky mali nesprávne, iba skóre, alebo nič, kým neoznámkujete?
Aký je prah úspešnosti a je upraviteľný po príchode dát?
Banky otázok s randomizáciou sú obzvlášť nedostatočne využívané. Robia viaceré pokusy skutočne informatívnymi — opakované vzorce nesprávnych odpovedí naprieč rôznymi otázkami odhaľujú medzeru v znalostiach, zatiaľ čo rovnaká nesprávna odpoveď dvakrát na rovnakú otázku odhaľuje memorovanie.
Skôr než hodnotenie pôjde naživo, vyskúšajte ho na 5 – 10 ľuďoch, ktorých úroveň zručností už poznáte. Nepýtate sa „je to spravodlivé?“ — kontrolujete, či ľudia, ktorých by ste prijali, prejdú čisto, a ľudia, ktorých by ste neprijali, čisto neprejdú. Ak obe skupiny skončia v strede, hodnotenie ešte neoddeľuje signál od šumu.
Z pilotu zaznamenajte tri veci:
Presnosť na otázku — otázky, ktoré dostanú všetci správne alebo všetci nesprávne, neoddeľujú; buď ich opravte, alebo vypustite.
Čas strávený na sekciu — sekcie, ktoré dôsledne prekračujú svoj rozpočet, treba zmenšiť alebo im dať viac času.
Kde účastníci vzdávajú — otázka tesne pred odchodom je zvyčajne tá, ktorú treba prepísať.
Skóre a miera úspešnosti sú zjavné metriky. Užitočnejšie sú tie jemnejšie:
Index diskriminácie otázky — ako silno jediná otázka koreluje s celkovým skóre. Nízke hodnoty znamenajú, že otázka neoddeľuje silných od slabých riešiteľov a treba ju prepracovať.
Teplotná mapa času na otázku — otázky, ktoré trvajú trojnásobok priemeru, majú zvyčajne nejednoznačné znenie, nie hlbší obsah.
Porovnania kohort — ak má byť test agnostický voči zázemiu, skóre by mali vyzerať podobne naprieč kohortami. Veľké medzery znamenajú, že test meria niečo iné než zručnosť, ktorú ste mali na mysli.
Lievik dokončenia — kde ľudia odchádzajú? Útes opúšťania v sekcii 3 znamená, že sekcia 3 je príliš dlhá, ťažká alebo zle formulovaná.
Miešanie hodnotenia s marketingovým zberom — „Aká je vaša rola?“ a „Ako ste sa o nás dozvedeli?“ nepatria do testu zručností. Presuňte ich do samostatného príjmového formulára.
Záludné otázky — merajú opatrnosť, nie zručnosť. Vypustite ich, pokiaľ explicitne nemeriate opatrnosť.
Bodovanie všetko-alebo-nič pri viackrokových otázkach — čiastočné body pri párovaní, zoraďovaní a kódovacích otázkach odrážajú čiastočné porozumenie poctivejšie.
Opätovné používanie tých istých otázok každý štvrťrok — odpovede unikajú. Vytvorte banku, randomizujte a rotujte.
Preskočenie pilotu — každý test, ktorý ide do prevádzky netestovaný, vyzerá v poriadku, kým sa prvá kohorta nevráti s bimodálnou krivkou skóre, ktorú nikto nedokáže vysvetliť.
Online hodnotenia si zaslúžia svoje miesto, keď predpovedajú skutočný výkon. To pochádza z výberu správnych typov otázok, kalibrácie obtiažnosti, spravodlivého vynucovania časovania, plánovania zásad opakovaných pokusov pred spustením a sledovania analytiky, ktorá presahuje úspech/neúspech.
Amperlise bol postavený presne na túto slučku — typovo orientované typy otázok, serverom vynútené časomiery, zásady opakovaných pokusov, randomizované banky otázok a analytika, ktorá štandardne odhaľuje čas na otázku, medzery kohort a lieviky dokončenia. Ak ste lepili hodnotenia nad prieskumový nástroj, tu je dôvod, prečo si myslíme, že existuje lepšia cesta.
Pridajte sa do zoznamu záujemcov pre skorý prístup alebo si prečítajte prehľad platformy a uvidíte, čo dodávame.