Testing av jobbsøkere. Høy presisjon, men hvor relevante er de?

Vi kan høre fra mange testleverandører at personlighetstester er mer valide enn mennesker. Det betyr at vår egen vurdering av en person er mindre korrekt enn resultatet på en personlighetstest. Denne påstanden fører ofte til at testresultatene generaliseres, og brukes som mål på egenskaper som egnethet, arbeidskapasitet, lederpotensial, samarbeidsevne etc. Det er imidlertid ikke disse egenskapene man måler med en personlighetstest. La oss si at vi har en skala som heter samarbeidsevne. Dette målet vil som regel en sammenstilling av mer generelle personlighetstrekk, f.eks. utadvendthet, vennlighet og sosial trygghet. Hvis skåren på samarbeidsevne er en sammenstilling skårer på disse trekkene, så er denne skåren en tolkning. Testskårene kan være validert for trekkene utadvendt, vennlig og sosial trygghet, men det er ikke nok til at vi også kan si om testen måler samarbeidsevne. Denne skalaen har må valideres for seg.

Når enkelttrekk kombineres for å konstruere en ny skala, må du også vite hvordan er denne skalaen er konstruert. Hvis den f.eks. er en summering av de tre underliggende trekkene, risikerer vi at skåren på samarbeidsevne gir samme skår til personer som har ulike besvarelser. En skårer høyt på E og lavt på V, en annen skårer høyt på V og lavt på E. De to personene skårer likt på samarbeidsevne, men er de like gode til å samarbeide? Det høres ikke sannsynlig ut.

Testvaliditet handler ikke om testen, men tolkningen. Hvis skårene tolkes som kriterier for en bestemt egenskap, så må testleverandøren dokumentere kriterievaliditet, sammenheng mellom testskår og kriterium (f.eks. samarbeidsevne). I noen tilfeller kan forskningslitteraturen dokumentere sammenhengen mellom personlighetstrekk og et eksternt kriterium. Skåren på «planmessighet/integritet/ordentlighet» kan forventes å ha kriterievalidtet i forhold til generell jobbprestasjon, men det er få andre eksempler.

Sammenhengen mellom personlighet og kompetanse blir sjelden dokumentert. To personer med samme ferdigheter kan ha svært ulike personligheter. En skala som oppgis som mål på spesifikke ferdigheter eller kompetanser, reflekterer som regel hva man ønsker å måle, og ikke hva testen faktisk måler.

Mens validitet er en egenskap ved tolkning av testresultatene, så er reliabiliteten (om testen er til å stole på) en egenskap ved testen. Hvis man måler stabile trekk, er den reliabel hvis den gir samme resultat, hver gang du gjennomfører testen. Uten dokumentasjon på re-test-reliabilitet og kriterievaliditet gir det lite mening å bruke testen. Utfordringen med å lage tester som måler en bestemt ferdighet, er at reliabilitet går på bekostning av validitet.

Reliabilitet er en forutsetning for validitet, og den konstrueres slik at skalaene skal være så stabile som mulig. Dette krever at hver skala inneholder så mange ledd, at skåren ikke påvirkes av «feilsvar». I tillegg må man avgrense innholdet i testleddene slik at man hva som gir høye og lave skårer på en bestemt skala. Skalaen må i tillegg måle egenskaper som kan beskrives og forstås på samme måte av alle som skal bruke testen.

Kravet til reliabilitet begrenser derfor hva en skala kan måle. En fullstendig beskrivelse av personlighet blir mest meningsfull hvis den inneholder informasjon om personens tanker (synspunkter, vurderinger, preferanser), følelser (motivasjon, interesser, energinivå) og handlinger (hvordan reagerer personen, hvordan oppfører han eller hun seg under stress, hvordan er gjennomføringsevnen når oppgaven er kjedelig, kan vedkommende motstå fristelser).

Personlighetstesten måler bare hvordan en person vurderer seg selv i testsituasjonen. Vår antakelse om at selvbeskrivelsen gjenspeiler væremåten utenfor testsituasjonen har størst gyldighet så lenge beskrivelsen er uavhengig av kontekst. Vi kan forvente at den som beskriver seg som utadvendt er mer utadvendt, enn noen som beskriver seg som innadvendt. Men hva denne tendensen gjør med personen i bestemte situasjoner blir mer usikkert etterhvert som situasjonen avviker fra testsituasjonen.

Testskårene har altså høyest validitet vi beskriver tendenser, og lavest når vi beskriver fremtidig atferd. Dette poenget er kanskje så åpenbart at det kunne vært utelatt, men det er lett å glemme når testen er det eneste beslutningsgrunnlaget vi har. Det er også lett for at man overgeneraliserer skårene fra testen. T

estskårene sier noe om konkrete trekk som feks. utadvendthet, men den sier ikke så mye om ledederegenskaper. Hvis vi først har bestemt oss for at vi skal ha en utadvendt leder, så tar det ikke lang tid før vi ser på dette trekket som en lederegenskap.

Hvordan vi presterer i en jobb, har mange ulike årsaker, og vår personlighet er bare en av dem. De utfordringene vi møter utenfor testrommet, kan kreve helt andre egenskaper enn dem vi beskrev på testen. Selv om vi antar at samarbeidsevne gjenspeiles i enkelte personlighetstrekk, er det absurd å anta at høye skårer på bestemte trekk er en forutsetning for å kunne samarbeide. Samarbeidsevne er aldri kontekstuavhengig, og ulike situasjoner utfordrer ulike sider av oss.

Når vi tar inn nye informasjonskilder, som en test, er det alltid en fare for at vi snevrer inn beslutningsgrunnlaget. Vi får nemlig ikke bare mer informasjon, men også flere feilkilder. Dermed er det en fare for at vi blir blindet av at begrepene synes å passe på den personen vi er ute etter, slik at relevansen av den informasjonen vi samler inn blir lavere.

Det finnes variabler som påvirker prestasjonene våre, og vår naturlige tendens er bare ett av dem. De utfordringene vi møter etter å ha tatt testen, kan kreve helt andre egenskaper, en dem vi brukte når vi fylte ut testen. Selv om vi antar at samarbeidsevne gjenspeiles i enkelte personlighetstrekk, er det absurd å anta at høye skårer på disse trekkene er en forutsetning for å kunne samarbeide. Samarbeidsevne er aldri uavhengig av kontekst, og ulike situasjoner utfordrer ulike sider av oss.

Samtidig øker sjansen for å bomme. Vi får nemlig ikke bare mer informasjon, men også flere feilkilder. Med andre ord, vi kan komme i en situasjon der vi har en test med høy stabilitet og treffiskkerhet, når det kommer til å identifisere personlige egenskaper, men samtidig lav relevans for det vil skal bruke testen til.