A projekt első szakaszában, 2022 augusztusa és 2023 februárja között a roma, LMBTQ+, zsidó, migráns és muszlim közösségeket érintő, online megjelenő gyűlöletbeszédet és bántó beszédet monitoroztuk. Létrehoztunk egy szinte teljesen automatizált rendszert, amely alkalmas kulcsszavak alapján a nagy valószínűséggel gyűlöletbeszédet vagy sértő kifejezéseket tartalmazó szövegek megtalálására.
108 635 szöveget töltöttünk le manuálisan, majd szűrtünk, előre meghatározott kulcsszavak segítségével. Ennek eredményeként 11 354 szöveget (cikket, posztot, kommentet, stb.) Excel-táblázatokba rendeztünk a forrásokkal és a megjelenés dátumával együtt. A következő lépésben a feladatra korábban kiképzett önkéntesek ezeket a szövegeket egy előre meghatározott kritériumrendszer szerint osztályozták aszerint, hogy tartalmaznak-e gyűlöletbeszédet vagy bántó megnyilvánulásokat. A végeredmény egy táblázat, amely tartalmazza azokat a szövegeket, amelyek nagy valószínűséggel tartalmaznak gyűlöletbeszédet vagy bántó beszédet.
Az adatsoron kívül egy mesterséges intelligencia algoritmus is készült, amely képes tanulni az emberi döntésekből. Az emberhez hasonlóan, ha elég példát lát a gyűlöletbeszédre és a nem-gyűlöletbeszédre, nagy pontossággal meg tudja különböztetni őket.
A teljes beszámoló itt érhető el.