Greep op selectie-algoritmes

Stel: je opent een vacature en krijgt wel honderd sollicitatiebrieven. Erg veel om allemaal aandachtig te lezen. Wat als je een algoritme de beste vijf brieven laat selecteren? Er is maar één vacature, dus vijf goede solicitanten zijn waarschijnlijk genoeg om uit te kiezen. Het algoritme selecteert vijf mannen voor je. Opvallend, want veertig van de honderd solicitanten zijn vrouw. Gebeurt hier iets geks? In principe selecteert het algoritme alleen de beste brieven, dus het zij zo. Of selecteer je toch liever drie mannen en twee vrouwen? En wat verstond het algoritme ook alweer onder ‘beste’ ?

Brinn Hekkelman

wetenschappelijk medewerker bij het Centraal Planbureau

Dit soort vragen roepen selectie-algoritmes al snel op. Je ziet steeds weer dat het een worsteling is om ze rechtvaardig in te zetten. Er bestaan wel manieren om vat te krijgen op selectie-algoritmes, maar niet iedereen kent die. Zelf vind ik het erg belangrijk dat er eerlijk en bewust met algoritmes omgegaan wordt, daarom werk ik bij het CPB aan dit onderwerp. Wij laten zien hoe je afwegingen zichtbaar maakt, zodat je erover in gesprek kunt gaan en greep houdt op de resultaten. En dan komt het echte werk: samen bepalen wat we een rechtvaardige inzet van algoritmes vinden, want er bestaat geen objectief beeld van wat rechtvaardig is.

Fraudecontrole

In Nederland hebben we helaas voorbeelden van hoe het gebruik van algoritmes ontzettend fout kan gaan. Algoritmes selecteerden mensen om op fraude gecontroleerd te worden, waarbij de gemaakte selecties opvallend veel mensen met een dubbele nationaliteit of migratieachtergrond bevatten. In combinatie met andere misstanden in het hele proces kwam het zover dat Amnesty International spreekt van schending van de mensenrechten. Gewone mensen zijn op verschrikkelijke wijze behandeld door een genadeloos systeem waar niet tegenop te boksen viel.

Hoe kunnen we greep krijgen op selectie-algoritmes? Dat begint bij vastleggen wat je wilt. Een selectie-algoritme zoekt de beste selectie voor een bepaalde uitkomst. Als je wilt dat die selectie nog andere eigenschappen heeft, bijvoorbeeld dat sommige groepen niet overmatig geselecteerd worden, dan moet je dat vastleggen. Je krijgt dan misschien niet meer de beste selectie voor die ene uitkomst, maar wel voor je algemenere doel.

Kleine wereld

Daarom is misschien wel het belangrijkste om je te realiseren dat je bij het ontwerp van een algoritme zelf alle instructies moet geven. Een algoritme heeft geen enkel besef van context, dus als je wilt dat het iets meeneemt moet je dat zelf inbrengen. Waar wij mensen altijd de wereld om ons heen in acht nemen, leeft een algoritme als het ware in een hele kleine wereld. Als ik zeg dat ik twee doosjes aardbeien wil kopen, maar in de winkel zie ik dat ze niet zo rijp zijn, dan koop ik ze misschien toch niet. Terwijl als ik mijn algoritme die instructie geef, dan koopt het gewoon twee doosjes. Het zijn immers aardbeien, en dat zei ik dat ik wou. Als ik alleen mooi rijpe aardbeien had gewild, dan had ik dat tegen mijn algoritme moeten zeggen. Ik weet dat ik die aardbeien wil gaan opeten en dus dat ik wil dat ze rijp zijn. Maar mijn algoritme mist deze context, die heeft geen idee van wat ik met die aardbeien wil of wat aardbeien eigenlijk zijn en dat ze rijp kunnen zijn of niet.

Aan de knoppen zitten

Bij het instrueren van een selectie-algoritme verdienen een aantal punten specifiek de aandacht. Een belangrijke is de uitkomst die het algoritme gaat proberen te maximaliseren. Die bepaalt de horizon in de kleine wereld van jouw algoritme. Als de uitkomst niet precies in lijn ligt met wat je wilt, kan het resultaat nog wel eens teleurstellend zijn (twee bakjes onrijpe aardbeien bijvoorbeeld). Daarnaast geef je je algoritme natuurlijk data. In de regel betekenen meer data meer nauwkeurigheid, maar er kan ook vooringenomenheid (bias) in je data zitten. Moet je dan data weglaten? Vaak lost dat je problemen niet op. Daarvoor kun je beter aan andere knoppen draaien, zoals de representativiteit. De representativiteit zegt iets over de samenstelling van de uiteindelijke selectie, het resultaat. Als je hier niets voor instrueert, geeft een selectie-algoritme puur de selectie die het hoogst scoort op de gekozen uitkomst. Maar als je graag een bepaalde samenstelling wilt, kan het algoritme de selectie gewoon aanpassen. Daarbij lever je dan mogelijk wat in op de effectiviteit. Hier zit dus een afruil tussen twee doelen. Het zou al heel mooi zijn als mensen weten dat je hier expliciet een keuze in kunt maken, en dat je dus ook een vruchtbare discussie kunt hebben over wat daarin wenselijk is.

Niet vanzelf

Duidelijk is dus wel dat je een selectie-algoritme uitvoerig moet instrueren. Dat gaat minder vanzelf dan we misschien gehoopt hadden. Sterker nog, omdat er vaak geen objectief beste resultaat bestaat, is een technologisch "beter algoritme” geen oplossing. Verantwoordelijkheid voor het resultaat daarop afwentelen kan dus niet, je zit namelijk uiteindelijk zelf aan de knoppen. Kun je het dan niet beter gewoon toch zelf doen, dat selecteren? Nou, algoritmes hebben wel voordelen. Mensen staan er namelijk om bekend allerlei bewuste en onbewuste bias mee te nemen in hun beslissingen. Selectie-algoritmes bieden juist een kans om expliciet te kiezen wat voor soort resultaat je wilt hebben. Als je wilt dat het aandeel geselecteerde brieven van vrouwen hetzelfde is als het aandeel vrouwelijke solicitanten, dan moet je dat vastleggen. Belangrijkste is dat je goed zicht hebt op wat je algoritme voor je aan het doen is, en dat jij aan de touwtjes trekt.

Brinn Hekkelman