Automatisk Dokument Klassifikation

Heuristisk Klustring

I detta arbete har jag studerat automatisk klassifikation av texter i syfte att sortera dem i grupper om liknande innehåll. Texterna jämfördes med varandra och om de uppvisade tillräckligt hög innehållsmässig överensstämmelse läggs de i samma kluster. Den metod som jag har studerat, heuristisk klustergenerering, syftar till att sortera texter utan förkunskap om deras innehåll. Vid klassifikationen används orden i texterna, vilka avspeglar innehållet i texterna. Då är det intressant att studera vilka egenskaper orden har som kan utnyttjas vid klassifikationen av texterna. Syftet med arbetet var här att studera ordens statistiska egenskaper, frekvenser och förekomster. Vid klustergenereringen studerade jag både representation av texter genom deras ord och dels genom deras trigram, överlappande trebokstavskombinationer. De resultat jag uppnådde med min studie av orden visade att de har statistiska egenskaper, både i enskilda texter och i hela textsamlingen, som kan utnyttjas för klassifikation. Resultat ifrån klusterstudien visade att ingen skillnad fanns mellan nyttjandet av ord eller trigram. Vid likartad fördelning av texterna så hade större krav på trigram överensstämmelser ställts. Detta därför att samma trigram fanns i flertalet olika ord. Fördelen med trigram framför ord är att de krävde mindre utrymme tack vare deras begränsade längd. Den klusterstruktur som skapades avspeglade ungefär texternas relationer. Relationerna mellan texterna, inom och utanför klustren, är baserade på syntaktiska likheter varför det är omöjligt att exakt kunna beskriva de faktiska relationerna.

Författare

Niclas Eberhagen

Nivå:

"Kandidatuppsats". Självständigt arbete (examensarbete ) om minst 15 högskolepoäng utfört för att erhålla kandidatexamen.

Läs mer..

Senaste sökningar: