Visual betrouwbare experimenten

Zorg voor betrouwbare experimenten door te focussen op data, significantie en testduur

Bij conversieoptimalisatie (CRO) draait alles om experimenteren. Of je nu een nieuwe landingspagina test, de checkout compleet anders vormgeeft of een kleine aanpassing aan een knop maakt, je wilt weten of de verandering echt werkt. Maar hoe zorg je ervoor dat je experimenten betrouwbare resultaten opleveren? Dat hangt vooral af van de volgende drie factoren: de grootte van de dataset, een goed geplande testduur en statistische significantie.

In dit artikel vertel ik je waarom deze drie elementen belangrijk zijn, hoe je ze toepast en welke tools je hiervoor kunt gebruiken. 

1. Grootte van de dataset

Bij elk experiment is de hoeveelheid data een belangrijke basis. Een te kleine dataset kan de resultaten vertekenen door toevallige schommelingen in gedrag. Dit kan leiden tot verkeerde conclusies.

Als je bijvoorbeeld tien orders hebt gehad in een bepaalde periode en één daarvan is uitzonderlijk groot, dan vertekent dit direct de data. Door een grotere dataset te gebruiken zorg je ervoor dat het effect van een uitschieter minder groot is, en dat de kans ook aanwezig is dat de uitschieters zich weer netjes verspreiden tussen beide varianten.

Hoe weet je of je genoeg data hebt?

Drie factoren bepalen of je voldoende data hebt:

  1. Het aantal bezoekers. Hoe meer bezoekers je hebt, hoe sneller je voldoende gegevens kunt verzamelen.
  2. Het verschil dat je wilt meten. Kleinere verschillen tussen varianten vereisen een grotere dataset.
  3. De betrouwbaarheid die je nastreeft. Een hoger betrouwbaarheidsniveau (bijvoorbeeld 95%) betekent dat je meer data nodig hebt om zeker te zijn van je resultaten.

Voorbeeldberekening grootte dataset

Je test een nieuwe versie van een landingspagina. Het huidige conversiepercentage is 5% en je verwacht dat dit 7% wordt. Bij een betrouwbaarheidsniveau* van 95% en een statistische power* van 80%, heb je 1.558 bezoekers per variant nodig. Dit kun je berekenen met een van de online calculators die er bestaan, bijvoorbeeld die van CXL. Ook zien we hier dat de test 2 weken moet duren, gebaseerd op 2.000 bezoekers per week.
* termen worden verderop uitgelegd

visual invullen van CXL - AB test calculator

2. Testduur

We hebben gezien dat de grootte van je dataset belangrijk is. Maar naast voldoende data is ook de duur van je experiment van groot belang. Een te korte test kan de resultaten vertekenen door tijdelijke invloeden. Denk dan aan verschillen in doelgroepen (weekend en doordeweeks), een (bouw)vakantie of een marketingcampagne die invloed heeft op de resultaten. Wanneer je kiest voor een te lange testduur kan dit ook opspelen; maanden testen is in veel gevallen dus ook niet aan te raden.

Hoe bereken je de testduur?

Het berekenen van de testduur is vrij simpel. 

  1. Bepaal de benodigde bezoekers: Gebruik een calculator om de steekproefgrootte te berekenen (zie voorbeeldberekening ‘grootte dataset’).
  2. Bereken de testduur: Deel het benodigde aantal bezoekers door het gemiddelde dagelijkse verkeer.

Voorbeeld: 

In ons geval zagen we dat we 1.558 bezoekers per variant nodig hadden (totaal dus 3.116). We hebben gerekend met 2.000 bezoekers per week. In totaal zouden we dan dus 1,6 weken moeten testen (deel 3,116 door 2.000). De tool rondt af in hele weken, vandaar het advies om 2 weken te testen wat we zagen in de vorige berekening.

Waarom is dit belangrijk?

  • Voorkom fouten: Een test die te vroeg wordt gestopt, kan tot verkeerde conclusies leiden. De test is dan immers vaak nog niet significant.
  • Neem variaties in gedrag mee: Door een test minimaal één volledige week te laten lopen, voorkom je dat gedragsverschillen tussen werkdagen en weekenden je resultaten beïnvloeden.
  • Laat een test niet onnodig lang lopen in de hoop op positieve resultaten. Een groot deel van de testen die je doet zullen niet positief uitpakken, accepteer dit. Als een test lang genoeg heeft gelopen, moet je hem beëindigen en je conclusies trekken.

3. Statistische significantie

In de vorige berekeningen zagen we een aantal termen voorbij komen. Die kunnen we het beste uitleggen aan de hand van een kleine statistiekles. Wil je meer leren over de statistiek hierachter? Lees dan bijvoorbeeld dit artikel.

In de statistiek gaan we uit van twee soorten fouten die je kunt maken, type I en type II fouten.

visual over voorbeelden van errors

bron https://www.reddit.com/r/Mcat/comments/ao6ovi/type_i_and_type_ii_errors/ 

  • Type I fout (vals positief): Je concludeert dat er een effect is, terwijl dat er in werkelijkheid niet is. Denk aan de oude man die te horen krijgt dat hij zwanger is. De kans op een type I fout wordt aangeduid met α (alpha), en is meestal ingesteld op 5% (0.05). Het betrouwbaarheidsniveau is gelijk aan 1 – α en α noemen we ook wel het significantieniveau, in dit geval 95%.
  • Type II fout (vals negatief): Je concludeert dat er geen effect is, terwijl dat er in werkelijkheid wel is. De kans op een type II fout wordt aangeduid met β (bèta). De power van een test is 1 – β.

Als je meer risico kunt lopen kun je het betrouwbaarheidsniveau ook lager instellen. Zolang je je er maar bewust van bent dat er een kans is dat je Type I fouten te zien krijgt.

Veel A/B test tools geven op basis van standaard ingestelde waarden weer of een testuitslag significant is of niet. Ondanks dat hulpmiddel is het altijd goed om dit zelf nog even te controleren voordat je een resultaat doorvoert. Hoe je dit doet leggen we je uit.

Hoe bereken je statistische significantie?

Statistische significantie wordt berekend door de p-waarde te vergelijken met de alpha die je bepaald hebt. Vaak zal dit 0.05 zijn (significantieniveau van 95%). De p-waarde wordt berekend aan de hand van verkregen data. Als de p-waarde gelijk of lager is dan de alpha, weten we dat de test significant beter presteert dan het origineel. Ook hier zijn online calculators weer je beste vriend. We hebben hieronder de vervolgtest van CXL gebruikt.

Vervolg CXL AB test calculator

We zien hier het volgende:

  • In de controlegroep zien we een conversiepercentage van 5%
  • De variant had een conversiepercentage van 5,5%
  • Dit zorgt voor een stijging van 10%. (Mooi toch?)
  • Maar het resultaat is niet significant. In ons voorbeeld wordt het pas significant als we in de variant 124 conversies hadden gemeten, wat overeenkomt met een conversiepercentage van 6,2%.

Als we een andere calculator gebruiken, kunnen we ook informatie krijgen over hoe lang de test nog moet lopen om significant te worden. In dit geval gebruiken we de test van Speero. We gaan ervan uit dat de test al twee weken gelopen heeft. Ook deze test geeft aan dat het resultaat nog niet significant is. Deze test geeft aan dat de test nog 24 dagen moet lopen.

voorbeeld van invulling van AB test calculator Speero

De test moet dus langer lopen dan we van tevoren hebben voorspeld. Dit komt doordat het aantal gemeten conversies lager is dan de waarde die we in stap 1 hebben ingesteld. Hier gingen we uit van een conversiepercentage in de variant van 7%. De test heeft dit niet gehaald. De test moet daarom nog langer lopen, of er moet geconcludeerd worden dat de test niet beter presteert.

Conclusie

Betrouwbare experimenten vereisen voldoende data, een goed geplande testduur en statistische significantie. Door voor aanvang van de test de analyse te maken weet je zeker dat je na afloop van de test naar de juiste data aan het kijken bent en dus dat de kans zo klein mogelijk is dat je een verkeerde keuze maakt. Zorg ervoor dat je de test dus niet te vroeg beoordeeld, heb echt geduld! Gebruik een calculator om te bekijken hoe groot je doelgroep moet zijn en of de uitkomsten statistisch significant zijn. 

Heb je hier hulp bij nodig of een andere vraag over CRO? Neem dan contact met ons op! We kijken graag met je mee.

Share

Categorieën

Heb je vragen?

Neem contact op! :) wij helpen je graag verder met al je SEO vragen

SEO vraag stellen

Mis het niet

Meld je aan voor onze nieuwsbrief en mis geen enkele SEO tip

"*" geeft vereiste velden aan

Dit veld is bedoeld voor validatiedoeleinden en moet niet worden gewijzigd.

Heb je vragen?

Wil je meer weten over SEO? Kan je website een nieuwe impuls gebruiken?
Neem contact op

Onder ons

Team van SEO specialisten

Het team van SEO bureau Onder bestaat uit enthousiaste SEO specialisten die graag samen met jou voor het beste resultaat gaan.

Maak kennis met ons team
Teamfoto SEO bureau Onder

Deze klanten zijn ondersteboven van ons!

Renzo van Dongen

Renzo van Dongen

Digital content manager Peugeot

Of het nu over content of technische aanpassingen gaat, dat maakt niet uit. Martijn brieft dit op een hele heldere manier zodat dit lokaal of door ons hoofdkantoor in Frankrijk doorgevoerd kan worden. […] Sinds de start van onze samenwerking hebben we mooie resultaten behaald. Keep it up!

Marien van Stegeren

Eigenaar Kitcentrum

Wanneer je online onderneming groeit groeien de verwachtingen vaak ook, op elk gebied. Voor een groot gedeelte hadden we zelf de controle over SEO en de invulling hiervan. We kwamen er achter dat onze eigen “algemene blik” niet meer toereikend was en hebben daarom Bureau Onder ingeschakeld. Verrassend en helder. We hebben een fijne samenwerking opgebouwd, mede omdat Martijn  ook met regelmaat met Eline of Mariska (afhankelijk van de case) bij ons op kantoor komt wat voor ons erg waardevol is!

Marten Stellingwerf

Webmaster

Martijn en Mariska maken het SEO verhaal begrijpelijk voor de leek en denken graag met ons mee. Het is fijn dat er elke maand een persoonlijk contact moment is met een uitgebreide rapportage en de mogelijkheid om alles te doorspreken. Na enkele maanden is het Onder al gelukt om met enkele van onze webshop pagina’s de nummer 1 posities te verkrijgen op Google. Wij zijn zeer tevreden over Onder.

Mark Prummel

SEO Specialist Stella Fietsen

Sinds enkele jaren is Onder is een gewaardeerde partner van Stella. Martijn is mijn sparringpartner voor complexe SEO vraagstukken en het extra paar kritische ogen dat ons scherp houdt. Samen hebben we een mooie groei gerealiseerd in online zichtbaarheid, bezoekersaantallen en leads. Onder onderscheidt zich door haar korte communicatielijnen en vakkundigheid. Ze spreken onze taal: niet zeuren, maar aanpakken. Daar houden we van!

OnderBouwing

Mis geen enkele SEO tip
  • Inzichten en tips op het gebied van SEO
  • Voor beginners en gevorderden
  • Van experimenten tot ontwikkelingen bij Google en van
    best practices tot eigen cases
  • Een kijkje achter de schermen bij Onder

"*" geeft vereiste velden aan

Dit veld is bedoeld voor validatiedoeleinden en moet niet worden gewijzigd.