Az egy több, mint a kilenc, de mennyivel?

1881-ben a csillagász Simon Newcomb azt vette észre, hogy amikor a könyvtári anyagokat használja, akkor a logaritmus táblázatok első oldalai jobban el vannak használódva, mint a későbbiek. Több, mint 50 évvel később, 1938-ban, Frank Benford húsz adatbázison tesztelte ezt a megállapítást: utcai címeken, közüzemi számlák adatain, időjárási adatokon, folyók méretein, molekulák tömegein, amerikai városok népességein vagy éppen számokon, amelyek egy-egy folyóirat cikkeiben megjelentek. Vagyis kimutatta, hogy a mindennap során használatos számok sokkal gyakrabban fognak 1-gyel kezdődni, mintsem 9-cel. Pedig alapvetően azt gondolnánk, hogy a 9 darab számjegy (1-9) előfordulási esélye ugyan annyi: 11,1%, de ez nem így van. A számok 31%-a kezdődik 1-gyel, 18%-uk 2-vel és 12% 3-mal. Az első három szám kétszer olyan gyakori, mint a 4 és 9 közötti összes szám. (A 0 előfordulási valószínűsége elenyésző). A törvényszerűséget el is nevezték Benford törvényének.

A módszer felhasználható például könyvelési csalásoknál is. Sok elemzőház, hedge fund szakosodott arra, hogy az ilyen vállalatokat megtalálja és aztán short pozícióval, (azaz a részvény eladásával, majd későbbi időpontban alacsonyabb áron történő visszavételével) nyereségre tegyen szert. Az ilyen csalásokat azonban egészen nehéz kiszúrni, hiszen ahhoz jól kell ismerni a vállalatok mérlegét, az iparági sajátosságokat, figyelni kell a cégek nyilatkozatait, azaz egy elég hosszadalmas munka, melynek folyamán valószínűleg a vállalat az állításunk ellenkezőjét fogja foggal-körömmel bizonyítani, azaz azt, hogy mindent tökéletesen és jól csinált. Tudható például az is, hogy a Benford elemzést az amerikai adóhatóság (IRS) is használja arra, hogy kiszűrje kik azok, akik valószínűsíthetően adót csalnak.

A törvényszerűség azonban nem használható minden esetben. Például, ha olyan számaink vannak, amelyek egy bizonyos tartományban helyezkednek el, azaz pontosan azonosítható minimuma és maximuma van. Vagy árutermékek árai esetében, ahol pszichológiai ok miatt sok végződik 9-re, vagy 99-re és így tovább. Továbbá véletlenszerűen generált számok esetében sem alkalmas, csak hogy néhányat említsünk.

A 2000-es évek eleje az Enron és a Worldcom botránya miatt (is) volt hangos. A fenti elemzési módszerrel az Enron könyveit is megvizsgálták és az derült ki, nem követte, vagy jobban kifejezve, jelentősen eltért a Benford törvény által valószínűsíthető mintázattól. Mivel a tőzsde nyilvánvalóan rengeteg adatot szolgáltat (árak, beszámolók, közlemények), elég jó terep egy ilyen vizsgálathoz. Csak egy megjegyzés, hogy tőzsdei adatokon hiába próbálunk meg bármilyen statisztikai, adatbányászati, mesterséges intelligenciára alapozott modellt létrehozni, sikerünk valószínűleg nem lesz, ennek pedig az az oka, hogy a pénzügyekben az adatok nagyon könnyen hozzáférhetők, és könnyen modellezhető minden, ebből kifolyólag a verseny abban, hogy valaki valamilyen kereskedhető törvényszerűséget ki/feltaláljon, óriási.

De visszatérve az Enronhoz, szerencsére az internet nem felejt, és bizonyos helyeken a mai napig megtalálhatók a társaság beszámolóinak adatai. A 2000-es év mérleg, eredménykimutatás és cash-flow kimutatását felhasználva megnéztem az Enron számait és a következő rajzolódik ki: az 1 rendkívül sokszor, az esetek 40%-ban fordult elő. A 2 és 6 közötti számok a vártnál alacsonyabban, 7-es szinte egyáltalán nem volt, majd a 8 és a 9 pedig jelentősen többször, mint ahogy kellett volna. Mellette láthatjuk az Apple számait 2018-ból, nyilván itt is van eltérés, de sokkal pontosabban követi a várható eloszlást. Míg az Enron esetében az eloszlás négyzetes hibája 16, addig az Apple esetében csak 6.

A Deutsche Bank is készített korábban egy elemzést a Benford törvényt felhasználva, ahol a 3000 leglikvidebb amerikai részvény fundamentális adatait vizsgálta meg (Russell3000). Ez alapján két, piaci kapitalizációval súlyozott portfóliót követtek végig, az egyik, amelynél a módszer nem mutatott ki esetleges csalást és egy másikat, ahol igen. Az eredmény pedig bár a vizsgálat kezdeti időpontjához képest későn, kb. 14 évvel azután, de a 2000-es évek elején azt mutatta, amit várni lehetett. Azok a cégek, amelyeknél a törvényszerűség nem zárta ki a csalást, masszívan alulteljesítették a másik portfóliót.

A fenti módszerrel természetesen a Szent Grált nem találtuk meg, viszont eggyel több elemzési eszközt tudunk bevetni sikerünk érdekében. Arra mindenképpen jó, hogy pár perc alatt tudunk egy gyors ellenőrzést végezni az adatainkon és így azok új jellemzőivel ismerkedhetünk meg.

Szeretne hasonló cikkekről folyamatosan értesülni?