Stochastisch onderzoek door de Belastingdienst: Benford’s Law en de chi-kwadraattoets

Voor belastingadviseurs is het essentieel om te begrijpen hoe deze methodiek werkt, wat de onderliggende principes zijn en hoe de Belastingdienst deze instrumenten inzet in de praktijk.

Het principe van stochastische analyse

Binnen de statistiek bestaat de wetmatigheid dat wanneer individuele getallen door toeval tot stand zijn gekomen, de cijfers van die getallen op een voorspelbare manier verdeeld zijn. Dit uitgangspunt vormt de basis voor stochastisch onderzoek bij financiële gegevens.

Het dobbelsteenprincipe

Het klassieke voorbeeld om dit fenomeen te illustreren is de dobbelsteenworp. Bij 600 worpen met een eerlijke dobbelsteen zal elk getal (1 tot en met 6) ongeveer 100 keer voorkomen als gevolg van toeval – dus circa 16,7% per uitkomst. Dit is wat statistici een uniforme verdeling noemen: alle mogelijkheden hebben dezelfde kans.

Wanneer het getal 6 bijvoorbeeld 500 keer voorkomt, is dat een sterke aanwijzing dat geen sprake is van toeval en dat de dobbelsteen gemanipuleerd is. De kans dat dit door puur toeval zou ontstaan is astronomisch klein.

De menselijke bias

Wanneer iemand wordt gevraagd om 600 dobbelsteenworpen te simuleren door zelf getallen te noemen, zal de verdeling eveneens afwijken van de verwachte gelijkmatige spreiding. De factor toeval ontbreekt immers, omdat de (onbewuste) voorkeur van die persoon voor bepaalde cijfers naar voren komt. Mensen hebben bijvoorbeeld de neiging om het getal 6 te vaak of juist te weinig te kiezen, omdat zij bewust of onbewust proberen “willekeurig” te zijn. Het is daarmee duidelijk dat de reeks niet door toeval is ontstaan, maar door die persoon is verzonnen.

Dit principe is fundamenteel voor het begrip van stochastische analyse: wanneer cijfers op natuurlijke wijze ontstaan, volgen zij statistische wetten. Wanneer cijfers worden verzonnen of gemanipuleerd, ontstaan afwijkingen van deze natuurlijke patronen.

Benford’s Law: de wetmatigheid van natuurlijke cijferreeksen

Historische ontdekking

Benford’s Law, ook wel de Wet van Benford genoemd, is een opmerkelijke statistische wetmatigheid die beschrijft hoe cijfers zich verdelen in natuurlijk voorkomende getallenreeksen. De oorsprong ligt in 1881, toen wiskundige Simon Newcomb opmerkte dat de eerste pagina’s van logaritmische tabellen sneller slijtage vertoonden dan de laatste pagina’s. Dit suggereerde dat wetenschappers vaker rekenden met getallen beginnend met 1 of 2 dan met 8 of 9.

In 1938 herontdekte natuurkundige Frank Benford dit fenomeen. Hij observeerde hetzelfde slijtagepatroon in logaritmeboeken en verzamelde vervolgens 20.229 waarnemingen uit twintig verschillende datasets – variërend van oppervlaktes van rivieren tot populatiecijfers en moleculaire gewichten. Zijn belangrijkste bevinding was dat het eerste cijfer in deze getallen een logaritmische verdeling volgde. De wet is naar hem vernoemd, hoewel Newcomb de eerste ontdekker was.

De kernformule

Benford’s Law voorspelt dat het eerste significante cijfer aan de linkerkant van getallen in natuurlijke gegevens verdeeld is volgens de formule LOG(1 + 1/cijfer). Dit betekent dat lage cijfers op de eerste positie veel vaker voorkomen dan hoge cijfers – een op het eerste gezicht contra-intuïtief resultaat.

De verwachte verdeling volgens Benford’s Law voor het eerste cijfer is:

Cijfer 1: circa 30,1%
Cijfer 2: circa 17,6%
Cijfer 3: circa 12,5%
Cijfer 4: circa 9,7%
Cijfer 5: circa 7,9%
Cijfer 6: circa 6,7%
Cijfer 7: circa 5,8%
Cijfer 8: circa 5,1%
Cijfer 9: circa 4,6%

Het cijfer 1 komt dus ruim zes keer zo vaak voor als het cijfer 9. Dit lijkt willekeurig en onlogisch, maar is een wiskundig bewezen wetmatigheid die in talloze natuurlijke datasets is waargenomen.

Toepassing op verschillende cijferposities

Benford’s Law kan niet alleen worden toegepast op het eerste cijfer, maar ook op de tweede positie van links. Voor de cijfers 0 tot en met 9 op de tweede positie bestaat eveneens een voorspelbare verdeling, zij het dat deze minder uitgesproken is dan bij het eerste cijfer.

Een belangrijk kenmerk is dat de verdeling naar een uniforme verdeling beweegt naarmate een hogere positie in het getal wordt bekeken. Vanaf de derde positie zijn de verschillen al veel kleiner, en vanaf de vierde positie is het verschil tussen cijfers verwaarloosbaar. Dit betekent dat vooral de eerste en tweede cijfers informatief zijn voor stochastische analyse.

Schaalinvariantie: een essentiële eigenschap

Een cruciale eigenschap van Benford’s Law is schaalinvariantie. Dit houdt in dat als de cijferverdeling van getallen van fysische grootheden een bepaalde verdeling aanhoudt, die verdeling onafhankelijk is van de gehanteerde eenheden.

Concreet betekent dit: wanneer een dataset met lengtes van rivieren Benford’s Law volgt in meters, dan zal dezelfde dataset ook Benford’s Law volgen wanneer deze wordt uitgedrukt in kilometers, mijlen of voeten. Het vermenigvuldigen van alle getallen met een constante (de omrekeningsfactor) verandert de cijferverdeling volgens Benford’s Law niet.

Deze eigenschap is wiskundig te bewijzen door middel van hyperbooltrapezium-argumenten en logaritmische functies, en vormt een van de fundamenten waarom de wet zo universeel toepasbaar is.

Wanneer geldt Benford’s Law?

De wet geldt voor datasets die aan bepaalde voorwaarden voldoen. De gegevens moeten op natuurlijke wijze zijn ontstaan en over meerdere ordes van grootte variëren. Datasets moeten voldoende groot zijn (minimaal 100 observaties) voor betrouwbare analyse. De getallen mogen geen kunstmatige beperkingen hebben (zoals minimum- of maximumwaarden) en mogen niet artificieel zijn toegewezen (zoals telefoonnummers).

In de context van ondernemingsadministraties betekent dit dat dagomzetten, verkoopbedragen of andere financiële reeksen die voortkomen uit vele individuele transacties in principe aan deze wetmatigheid zouden moeten voldoen. Immers, het aantal klanten per dag varieert, hun keuzes verschillen, en de bedragen die zij besteden ontstaan op natuurlijke wijze door het samenspel van vraag en aanbod.

De chi-kwadraattoets: het meten van afwijkingen

Om te bepalen of een dataset daadwerkelijk afwijkt van de verwachte verdeling volgens Benford’s Law, maakt de Belastingdienst gebruik van de chi-kwadraattoets (chi-square test). Deze statistische toets meet of waargenomen frequenties significant verschillen van de theoretisch verwachte frequenties.

Hoe werkt de chi-kwadraattoets?

De chi-kwadraattoets vergelijkt de werkelijk waargenomen cijferverdeling in een dataset met de theoretische verdeling volgens Benford’s Law. De toets berekent een chi-kwadraat statistiek die aangeeft hoe groot de afwijking is tussen de waargenomen en verwachte waarden.

Een hogere chi-kwadraat waarde duidt op een grotere afwijking. Op basis van statistische tabellen en een vooraf gekozen significantieniveau (bijvoorbeeld 5%) kan vervolgens worden bepaald of de afwijking statistisch significant is. Als dat het cas is, wordt geconcludeerd dat de dataset niet voldoet aan Benford’s Law en dat mogelijk sprake is van manipulatie.

De veronderstelling van willekeurige selectie

Een cruciaal uitgangspunt van de chi-kwadraattoets is dat datapunten voortkomen uit willekeurige en onafhankelijke selecties uit een groter universum van gegevens. De toets veronderstelt dat het hele proces van dataselectie waarschijnlijk was en niet te zeldzaam. De focus ligt daarbij op de vraag of het selectieproces zelf, en niet alleen de Benford-status van de onderzochte dataset, statistisch aanvaardbaar is.

De toepassing door de Belastingdienst

Het onderzoeksproces

De Belastingdienst verzamelt een dataset van financiële gegevens, bijvoorbeeld dagomzetten over een langere periode. Vervolgens wordt geanalyseerd hoe de cijfers zich verdelen, met name op de eerste en tweede positie van links. Deze waargenomen verdeling wordt vergeleken met de theoretische verdeling volgens Benford’s Law.

Door middel van de chi-kwadraattoets wordt statistisch getoetst of de afwijkingen tussen de waargenomen en verwachte verdeling significant zijn. Bij een significante afwijking concludeert de Belastingdienst dat de gegevens mogelijk niet op natuurlijke wijze zijn ontstaan en dat sprake zou kunnen zijn van manipulatie of het verzinnen van cijfers.

De onderliggende redenering

De Belastingdienst redeneert dat wanneer financiële gegevens legitiem tot stand komen, zij aan Benford’s Law moeten voldoen. Een onderneming heeft immers geen directe controle over het exacte aantal klanten per dag, de specifieke bedragen die klanten besteden, of de precieze samenstelling van verkopen. Deze variabelen worden beïnvloed door externe factoren zoals seizoensinvloeden, economische omstandigheden, klantgedrag en concurrentie.

Het aantal klanten, de assortimentskeuze en de hoeveelheid producten die worden gekocht zijn van dag tot dag verschillend en ontstaan door toeval. Daarom mag verwacht worden dat de cijfers van die bedragen, ongeacht de positie die deze cijfers innemen, op een bepaalde voorspelbare manier verdeeld zijn – namelijk conform Benford’s Law.

Wanneer een ondernemer bewust cijfers zou verzinnen of manipuleren, zou deze – zo stelt de Belastingdienst – onbewust een persoonlijke voorkeur voor bepaalde cijfers laten zien. Deze “bias” zou zich manifesteren in een cijferverdeling die afwijkt van de natuurlijke verdeling volgens Benford’s Law. Mensen hebben bijvoorbeeld de neiging om “ronde” getallen te kiezen of bepaalde cijfercombinaties te vermijden, wat tot detecteerbare patronen leidt.

Veronderstelde scenario’s

De Belastingdienst hanteert deze methodiek met name in situaties waarbij zij vermoedt dat:

Dagomzetten gefingeerd zijn geadministreerd: In dit scenario zou de ondernemer geen echte transacties registreren, maar dagelijks bedragen “bedenken” die aannemelijk lijken. Deze bedenkelijke bedragen zouden echter niet de natuurlijke cijferverdeling volgens Benford’s Law volgen.
Systematische manipulatie heeft plaatsgevonden: Hierbij worden wel echte transacties geregistreerd, maar worden bedragen structureel aangepast om belasting te ontwijken of verliezen te maskeren. Ook hier zou de cijferverdeling afwijkingen vertonen.

Het uitgangspunt is steeds dat natuurlijk ontstane financiële gegevens Benford’s Law volgen, en dat significante afwijkingen duiden op menselijke interventie.

De statistische onderbouwing

De kracht van deze methodiek ligt in de statistische onderbouwing. Benford’s Law is geen arbitraire regel, maar een wiskundige wetmatigheid die in talloze natuurlijk voorkomende datasets is aangetoond. Van bevolkingsaantallen tot aandelenkoersen, van fysische constanten tot financiële cijfers: overal waar gegevens over meerdere ordes van grootte variëren en op natuurlijke wijze ontstaan, manifesteert zich deze karakteristieke cijferverdeling.

De chi-kwadraattoets biedt vervolgens een objectieve maatstaf om te bepalen of afwijkingen van deze verwachte verdeling binnen de normale variatie vallen of dat zij zo extreem zijn dat manipulatie waarschijnlijk is. Dit maakt de combinatie van Benford’s Law en de chi-kwadraattoets tot een ogenschijnlijk krachtig instrument voor fraudedetectie.

Het gebruik als opsporingsinstrument

Voor de Belastingdienst fungeert deze stochastische analyse als een eerste signaal, een “rode vlag” die aanleiding geeft tot nader onderzoek. Wanneer een dataset significant afwijkt van Benford’s Law, betekent dit niet automatisch dat fraude is bewezen, maar wel dat de situatie nadere aandacht verdient.

In combinatie met andere bevindingen of aanwijzingen kan de uitkomst van het stochastische onderzoek bijdragen aan het vermoeden dat een administratie niet betrouwbaar is. Dit kan leiden tot intensievere controles, nadere vragen aan de belastingplichtige of het inschakelen van forensisch onderzoek.

Conclusie

Stochastisch onderzoek met behulp van Benford’s Law en de chi-kwadraattoets is een geavanceerde methodiek die de Belastingdienst inzet om mogelijke onregelmatigheden in financiële administraties op te sporen. De methode is gebaseerd op solide statistische principes en de wetmatigheid dat natuurlijk ontstane getallenreeksen een voorspelbare cijferverdeling vertonen.

Voor belastingadviseurs is het van belang om deze methodiek te kennen en te begrijpen hoe de Belastingdienst tot haar bevindingen komt. Het gebruik van deze statistische instrumenten illustreert de toenemende verfijning van controletechnieken en het belang van een correcte en consistente administratie.

In een volgend artikel zullen de kritiekpunten op deze methodiek en de mogelijkheden om de bevindingen van stochastisch onderzoek te bestrijden uitgebreid aan bod komen. Daarbij zal blijken dat ondanks de statistische onderbouwing, de toepassing van Benford’s Law en de chi-kwadraattoets niet zonder methodologische uitdagingen is.

Willem Veldhuizen RE RTAP van Taxsample is statistical auditor en Tax Data Scientist. Zijn specialisme ligt op het snijvlak van IT-audit, belastingen, data-analyse en statistische steekproeven.

Stochastisch onderzoek door de Belastingdienst: Benford’s Law en de chi-kwadraattoets

Het principe van stochastische analyse

Het dobbelsteenprincipe

De menselijke bias

Benford’s Law: de wetmatigheid van natuurlijke cijferreeksen

Historische ontdekking

De kernformule

Toepassing op verschillende cijferposities

Schaalinvariantie: een essentiële eigenschap

Wanneer geldt Benford’s Law?

De chi-kwadraattoets: het meten van afwijkingen

Hoe werkt de chi-kwadraattoets?

De veronderstelling van willekeurige selectie

De toepassing door de Belastingdienst

Het onderzoeksproces

De onderliggende redenering

Veronderstelde scenario’s

De statistische onderbouwing

Het gebruik als opsporingsinstrument

Conclusie

Ambtshalve aanslagen Belastingdienst vaak fors te hoog

Fiscus stelt invoering nieuw btw-systeem uit vanwege digitale autonomie

Toezichthouder: Belastingdienst moet stoppen met BSN in betalingskenmerken

Belastingdienst meldt PostNL bij ACM om mogelijke marktverstoring

Categorie

Info

Het principe van stochastische analyse

Het dobbelsteenprincipe

De menselijke bias

Benford’s Law: de wetmatigheid van natuurlijke cijferreeksen

Historische ontdekking

De kernformule

Toepassing op verschillende cijferposities

Schaalinvariantie: een essentiële eigenschap

Wanneer geldt Benford’s Law?

De chi-kwadraattoets: het meten van afwijkingen

Hoe werkt de chi-kwadraattoets?

De veronderstelling van willekeurige selectie

De toepassing door de Belastingdienst

Het onderzoeksproces

De onderliggende redenering

Veronderstelde scenario’s

De statistische onderbouwing

Het gebruik als opsporingsinstrument

Conclusie

Gerelateerde artikelen

Ambtshalve aanslagen Belastingdienst vaak fors te hoog

Fiscus stelt invoering nieuw btw-systeem uit vanwege digitale autonomie

Toezichthouder: Belastingdienst moet stoppen met BSN in betalingskenmerken

Belastingdienst meldt PostNL bij ACM om mogelijke marktverstoring

Categorie

Info