Vad är WordNet? av Zsuzsa Fey, x97-zfe@nada.kth.se
Inledning
Nuförtiden finns en god del material och information tillgäglig
på Internet. Mängden information ökar med varje dag. Människan
använder datorer och Internet i större och större grad,
och förväntar sig att få nästan all slags information
tillgängligt inte bara i böcker, utan också på nätet.
Eftersom det blir allt vanligare att behandla text på datorn, man
har behovet för olika språkkontrolltekniker. Inte bara grammatisk
kontroll, utan stilistisk kontroll också. Ett tänkbart
hjälpmedel kan vara olika lexikoner, uppslagsböcker, skrivregelspecifikationer
osv.
WordNet är ett sådant hjälpmedel. WordNet är en lexikal databas för det engelska språket, som innehåller ord ordnade i synonymklasser. Just nu innehåller den 95600 olika ordformer, varav 51500 enkla ord och 44100 kollokationer. (fraser, fasta uttryck). Alla dessa ord är ordnade in 70000 synonymmängder.
Skillnaden mellan en vanlig ordbok och WordNet är att WordNet delar upp lexikonet i 5 ordklassser, enligt följande: substantiv, verb, adjektiv, adverb och funktionord(ej implementerat). Trots detta kan ord dyka upp i flera ordklasser, eftersom ofta har ord som skrivs på samma sätt helt olika betydelser och helt olika ordklasser. Ett exempel på detta är ordet rain, med betydelserna regn(substantiv) och regna(verb).
Vad kan man göra med WordNet
I WordNet är det möjligt att söka med de följande
funktioner:
Synonymer
Ett ords synonym är ett annat ord som har liknande betydelse,
de två orden betyder i stort sett samma sak. Enligt Libnitzs definiton
två uttryck är synonymer om genom att ersätta det ena ordet
med det andra ordet i en mening, meningens sannhetsvärde blir oförändrat.
Hyponymer
Hyponymi är en semantisk relation mellan ordbetydelser. Man kan
se på hyponymi som en slags IS-A relation. Man säger att x är
en hyponyim till y om man kan säga att x är en slags y. Ett exempel
på detta är följande: ett bok(träd) är en slags
träd, och ett träd är en slags växt. Man kan också
säga att en hyponym ärver alla egenskaperna av det mer generella
konceptet, men samtidigt måste finnas ett särdrag som särskiljer
precis den här hyponymen från alla anda generella koncept. Som
exempel en bok tappar sina löv på hösten som alla andra
träd, men bokens nött har en helt annan smak än alla andra
trädens frukt.
Hyponymi är en transitiv och icke-symmetrisk relation. Transitivitet
betyder att om x är hyponym till y och y är hyponym till z, då
också x är hyponym till z. Icke-symmetrisk betyder att om x
är hyponym till y, det betyder inte att då också y är
hyponym till x.
Hypernymer
Hypernymi är den motsatte relationen till hyponymi. Definitionen
är följande: y är en hypernym till x om x är en slags
y. En hypernym betecknar den generella klassen medan en hyponym betecknar
ett medlem av en generell klass.
Meronymer
Den här typen av relation är en HAS-A relation, som har följande
betydelse: x är en meronym till y, om man kan säga att x är
en del av y eller y har en del x. Ett exempel på en sådan relation
är mellan orden hjul och bil: ett hjul är en del av en bil eller
en bil har som delar hjul.
Som hyponymi, också meronymi är en transitiv och icke-symmetrisk
relation.
Holonymer
Holonymi är den motsatte relationen till meronymi, med följande
definition: y är en holonym of x om x är en del av y. En
holonym är namnet på helheten medan meronym är namnet på
delen i en del-av relation.
Antonymer
Antonymer visar ord som har den motsatte betydelsen till det valda
ordet. Antonymer kan vara direkta eller indirekta. Direkta antonymer är
sådana ord där man kan direkt se att dessa ord har motsatta
betydelser. I fallet man pratar om indirekta antonymer, är begreppen
inte så kopplade till varandra. För att hitta en indirekt antonym,
hittar man direkta antonymer till begrepp som är synonymer med det
valda ordet.
Morfologiska relationer
Man hade byggt in morfologiska relationer också i WordNet, eftersom
detta var en nödvendighet. Dessa relationer gör det möjligt
att söka på den böjda formen av ett ord och endå
hitta ordet i lexikonet. Till exempel om man söker på ordet
trees, får man endå fram resultat på ordets grundform,
tree.
Familiaritet
Denna är beteckningen på hur vanligt ett ord är, hur
ofta förekommer det här ordet i lexikonet. Ord som man är
ett vanligt ord, och får som förekomstvärde 11. Ord som
är ovanligt, kan ha förekomstvärde 2 eller 1. Ord som inte
förekommer i lexikonet bara returnerar ett felmeddelande.
Visa resultat med förklarande text (kontextuell hjälp)
Dessutom finns det en knapp på användargränssnittet
som gör det möjligt att få extra förklaringar på
vad har man sökt.
Vad kan man hitta och vad kan man inte hitta med WordNet
Genom ett antal testkörningar på WordNet, fick jag uppskatta
mer eller mindra vilken typ a information kan man hitta med hjälp
av WordNet. Alltså de följande slutsatser är baserade på
egna erfarenheter.
Sökning på följande saker leder till resultat:
Användningsområden av WordNet
Ett område där WordNet kan användas effektivt är
skolorna. Genom att söka på olika ord kan eleverna inte bara
förstå vad vissa ord eller vissa ordsammansättningar betyder,
men de kan se ordet i ett större sammanhang, eftersom man kan använda
sökning av hypernymer, hyponymer, holonymer och meronymer. Genom att
söka efter ett ords synonymer kan de skriva med en mer omväxlande
stil deras uppsatser. Dessutom kan man testa ordens rättstavning också.
I engelska händer det ofta att flera ord uttalas på nästan
samma sätt, och det kan snart bli svårt att komma ihåg
hur ordet stavas. Genom att söka ett ord och inte hitta det, kan man
bli övertygad om att ordet inte finns.
En annan användarmålgrupp kan vara journalisterna och alla slags författare. När man skriver litterär text, vill man ofta upprepa samma sak flera gånger. I sådana texter val av synonyma ord är viktig. Genom att använda synonymer blir texterna mer levande, intressantare och roligare att läsa.
Möjliga förbättringar
Man skulle kunna jobba vidare med WordNet och utöka lexikonet.
Man skulle kunna baka in lite mer grammatisk information, vad som en vanlig
ordbok innehåller (tex. när man söker på en verb
i preteritum, sökresultatet skulle kunna presentera inte bara basformen
men också de andra böjningsformerna)
En annan förbättring skulle kunna vara att ha liknande lexikoner i andra språk också. För svenska språket har man redan börjat ett sådant arbete. En forskargrupp i Lund håller på med att bygga SWordNet, WordNet för svenska. Hittils har de lagt in bara ett litet antal ord, men det går att köra demoversionen.
Referenser
Wordnets hemsida:
http://www.cogsci.princeton.edu/~wn/
Five Papers on Wordnet:
ftp://ftp.cogsci.princeton.edu/pub/wordnet/5papers.pdf
SWordNets hemsida:
http://galaxy.ling.lu.se/projects/Swordnet/
*Citaten:
"gravitation cannot be held responsible for people falling in love"--Albert
Einstein