Evalvacija na treh naborih podatkov o sovražnem govoru
18. 4. 2023 | Človekove pravice in manjšine
Andraž Pelicon, naš sodelavec z Instituta Jožef Stefan je pred kratkim na konferenci IDA (Symposium on Intelligent Data Analysis) predstavil članek z naslovom »Don’t Start Your Data Labeling from Scratch: OpSaLa – Optimized Data Sampling Before Labeling«. Njegovo delo se osredotoča na naloge razvrščanja besedil, za katere je značilna znatna neuravnoteženost razredov, kar onemogoča učinkovito učenje modelov. To je deloma posledica majhnega števila primerov v manjšinskem razredu, tako da vzorci manjšinskega razreda niso dobro zastopani. Običajen pristop v takih primerih je uporaba tehnik za povečanje podatkov, ki pa so pri besedilnih podatkih pokazale mešane rezultate.
V svojem delu avtorji članka predstavijo metodo OpSaLa, ki predvideva optimizacijo vzorčenja podatkov pred ročnim označevanjem, da se v učnem naboru podatkov pridobi prekomerno zastopan manjšinski razred. Pristop je bil evalviran na treh naborih podatkov o sovražnem govoru, zbranih na družbenih omrežjih, in primerjan s štirimi pogosto uporabljenimi pristopi: usposabljanjem na podlagi »naravne« porazdelitve razredov, pristopom tehtanja razredov in dvema pristopoma presežnega vzorčenja: presežnim vzorčenjem manjšin in povratnim prevajanjem. Rezultati kažejo, da z metodo OpSaLa lahko naučimo natančnejše modele pri enaki količini zbranih in označenih podatkov.
Referenca: Pelicon, A., Montariol, S., Kralj Novak, P. (2023). Don’t Start Your Data Labeling from Scratch: OpSaLa – Optimized Data Sampling Before Labeling. In: Crémilleux, B., Hess, S., Nijssen, S. (eds) Advances in Intelligent Data Analysis XXI. IDA 2023. Lecture Notes in Computer Science, vol 13876. Springer, Cham.https://doi.org/10.1007/978-3-031-30047-9_28