Opbygning af Korpus over Dansk Tegnsprog og korpusbasering af Ordbog over Dansk Tegnsprog

    Projektdetaljer

    Beskrivelse

    Projektet sigter mod at

    - udvikle en model for opbygning af et multimodalt korpus over Dansk Tegnsprog (DTS) der sikrer, dels at korpus kan anvendes til forskelligartede sproglige undersøgelser, dels at korpus i fremtiden kan udbygges både mht. omfang og mht. detaljeringsgrad i opmærkningen,

    - udvikle en pilotudgave af et multimodalt korpus over DTS, og

    - udvinde nu viden om DTS gennem lingvistiske analyser af fund fra korpus, og dermed evidensbasere den viden om DTS som indgår i undervisningen på tolkeuddannelsen (TST) på UCC.

    Et sprogligt korpus er en stor, elektronisk tekstsamling, typisk forsynet med en række oplysninger om de enkelte ord, og om de tekster de stammer fra. Et korpus anses i vore dage som et at de vigtigste værktøjer i forbindelse med undersøgelse og beskrivelse af sprog. Maskinsøgbare korpusser har de seneste ca. 20 år eksisteret for skriftsprog, og har bl.a. givet sprogforskere og andre professionelle der beskæftiger sig med undersøgelser og undervisning i sprog, mulighed for at gennemsøge større tekstmængder på kort tid og afdække sproglige mønstre. For dansk findes der flere korpusser, fx. KorpusDK (på www.ordnet.dk), som er grundlaget for Den Danske Ordbog (Det Danske Sprog- og Litteraturselskab).
    Korpus over DTS vil give – og giver allerede her i opbygningsfasen – sprogforskerne ved Ordbog over Dansk Tegnsprog adgang til at gennemsøge og udvinde ny viden om DTS, som sammen med dansk udgør genstandssprogene for tolkeuddannelsen på UCC. Lingvistiske analyser af sproglige data fra korpus fører til ny viden om tegnsprogs leksikon, fonologi og semantik.
    Korpusbaseret sprogbeskrivelse kaldes gerne empirisk, hvilket vil sige at den bør bero på objektive iagttagelser og reproducerbare eksperimenter. Hånd i hånd hermed går en kvantitativ tilgang til det objekt, altså sproget, man ønsker at udsige noget om. At korpuslingvistik er blevet en overvejende kvantitativ disciplin, skyldes ikke mindst tekstkorpussers stadig stigende omfang: Det er umuligt at overskue dem med det blotte øje, det gælder både deres sammensætning og fremtrædende sproglige regelmæssigheder i dem.

    De kvantitative metoder falder i to grupper:
    1. Metoder til undersøgelse af en teksts eller et korpus' beskaffenhed. Ønsket er at kunne gøre rede for, hvad der er i et korpus, hvilke teksttyper det er sammensat af, og at sammenligne korpusser og tekster med hinanden.
    2. Metoder til fremfinding af bestemte sproglige strukturer. Ønsket er at kende
    både faste udtryk, fremtrædende samforekomster, syntaktiske strukturer m.v.
    Korpus over DTS vil anlægge metode 2. med henblik på at tilvejebringe empirisk baseret viden om DTS på et langt bredere grundlag end vi har i dag.
    Etableringsfasen (2014-15) har afprøvet metoder til strukturering og opmærkning af korpusdata i systemerne Elan og ILex , bl.a. med fokus på koblingen mellem korpus og ordbog. Etableringsfasen har konkluderet at projektet vil anvende iLex, og i samarbejde med Hamburg Universitet, som har udviklet iLex til korpus, skal udvikles en databasestruktur for iLex, således at man fremover kan anvende samme base til både korpus og ordbog.
    Herudover sikres det at data er sammenlignelige inden for det europæiske Clarin-program .
    Valg af glosser for de enkelte tegn vil blive foretaget således at der bliver tale om en unik glossering. Principperne for glossevalg for tegn der ikke allerede har fået navn i ordbogsprojektet, vil følge principperne udarbejdet af ordbogsredaktionen for at sikre ensartethed i materialet, og for at sikre at korpus følger til state of art indenfor disciplinen.

    Opbygningen af tegnsprogskorpusser er en meget ung lingvistisk disciplin . Her er tale om multimodale korpusser der forbinder videooptagelser af tegnsprog med en skreven opmærkning der rummer en række oplysninger om hvert tegn, knyttet til videoen ved hjælp af tidskoder. Pga. tegnsprogets visuelle modalitet – tegnsprog har ingen skreven standard – er opmærkningen af tegnsprogskorpusser en tidskrævende opgave. Hvor opmærkning af korpusser over skrevne sprog typisk foregår ved hjælp af automatisk genkendelse af ordene og i et vist omfang automatisk generering af fx ordklasseoplysninger til hvert ord, må opmærkning af tegnsprogskorpusser foretages manuelt, da der endnu er ikke udviklet et tilstrækkeligt følsomt værktøj til automatisk genkendelse og analyse af tegn. Sammen med den relativt korte projektperiode er dette årsagen til at omfanget af det opmærkede sproglige materiale heller ikke nærmer sig det vi i dag ser for tekstkorpusser.

    Kernen i projektets empiriske data er videooptagelser af monologer og dialoger på DTS indsamlet under udviklingen af Ordbog over Dansk Tegnsprog 2003-2008.

    Det undersøges efter hvilke principper et balanceret søgbart korpus over DTS skal opbygges, således at det kan tjene som sproglig basis for undersøgelser af DTS. Mht. udvælgelse af korpusmateriale søges et bredt, balanceret udvalg af kilder inddraget for at undgå under- eller overrepræsentation af bestemte sproglige genrer, ligesom det tilstræbes at muliggøre fremtidige udvidelser af korpusmaterialet, dels med nye data, dels med eksisterende videooptagelser.

    Det afklares hvilke oplysninger om sprogets vokabular, udtale og syntaks der skal medtages ved opmærkningen, således at korpus kan anvendes af mange brugergrupper, fra praksisfeltets aktører over studerende og sprogundervisere på tolkeuddannelsen og sprogforskere i og udenfor UCC. Det undersøges også hvilke metadata om korpusteksterne der er nødvendige for at korpusset vil kunne indgå som resurse i sprogforskningen på lige fod med korpusser for andre sprog, og dermed muliggøre tværsproglige undersøgelser, fx. af ordforråd eller grammatik i forskellige tegnsprog. Hermed fastholdes UCCs rolle som en vigtig medspiller i globale tegnsprogslingvistiske og leksikografiske sammenhænge, og med tiden vil viden om nabosprog og viden om universalier i verdens tegnsprog kunne uddrages og indgå i den viden om DTS som vi formidler på tolkeuddannelsen samt i CTTs efter- og videreuddannelsesprogram, - i lighed med hvad der indgår i anden fremmedsprogsundervisning på BA-niveau,

    Der udarbejdes, evalueres og ny-udvikles løbende annotationskonventioner for opmærkningen af datamaterialet, ligesom detaljeringsgraden af opmærkningen fastlægges. En mindre del af det empiriske sproglige materiale (ca. 2 timer) vil blive udsat for en detaljeret transskription (estimeret tidsforbrug 200 timer pr. time data). Den resterende del af det indsamlede materiale (ca. 35 timer) vil blive opmærket i færre detaljer (estimeret tidsforbrug 125 timer pr. time data). Se bilag 3 for projektets resultater og status januar 2018.

    Den nye viden om DTS som findes gennem korpusbaserede analyser publiceres løbende i projektets sidste fase primært i Ordbog over Dansk Tegnsprog. Den leksikografiske tilgang her vil følge de anerkendte principper som er udformet under udviklingen af Ordbog over Dansk Tegnsprog, der i dag danner skole inden for tegnsprogsleksikografien, og som er kopieret af Hamburg, New Zealand og Warszawa og snart Norge. De leksikalske principper der er udviklet i ordbogsredaktionen, vil også ligge til grund for annoteringen af korpus.

    Lægmandssprog

    Et sprogligt korpus anses i vore dage som et at de vigtigste værktøjer i forbindelse med undersøgelse og beskrivelse af sprog – en ”sproglig Google Earth”, hvor vi ikke blot ser de store linjer, men kan zoome helt ind på en tekst, en sætning, et ord (eller tegn) og se hvordan den enkelte sprogbruger faktisk bruger sproget. For dansk findes der flere korpusser, f.eks. KorpusDK (på www.ordnet.dk), det samme gælder en række tegnsprog, bl.a. svensk, engelsk og hollandsk, men ikke dansk tegnsprog.
    Korpusbaserede undersøgelser kan vise både hvilke tegn der bruges, hvilke betydninger de udtrykker, og hvilke grammatiske konstruktioner de indgår i og denne nye viden om dansk tegnsprog publiceres løbende i Ordbog over Dansk Tegnsprog, som er den vigtigste kilde til ny viden om sproget fx på tegnsprogs- og skrivetolkeuddannelsen og i det omgivende praksisfelt.
    Et korpus over Dansk Tegnsprog vil også kunne vise hvilke tegn der bruges hyppigst i sproget, og vil således være et effektivt værktøj ved udvælgelsen af nye tegn der skal beskrives i Ordbog over Dansk Tegnsprog. Denne udvælgelse vil kunne baseres på faktisk frekvens frem for som hidtil på redaktionens sproglige intuition. Desuden vil et korpus af tekster kunne vise hvordan tegnene bruges, hvilket er afgørende for troværdigheden af ordbogens beskrivelser af de enkelte tegn.
    Ordbog over Dansk Tegnsprog er gratis tilgængelig på www.tegnsprog.dk og har ca. 6.500 besøgende hver måned – et tal der er vokset støt siden udgivelsen. Vi regner med at der i dag er ca. 80.000 potentielle kernebrugere der har – eller kan få – gavn af ordbogen. Dialog med brugerne gennem henholdsvis følgegruppe, brugerkurser, ordbogens Facebook-gruppe, online-brugerundersøgelse og mails til redaktionen viser at der er stor tilfredshed med ordbogens funktioner og oplysninger, men viser også at der er et stort behov for at ordbogen udvides med flere tegn. Målet er at udvide antallet af tegn i ordbogen med 80% i projektperioden.

    Nøgleresultater

    Som resultat af projektet vil der blive produceret en ikke-automatiseret, men IT-baseret op-mærkningsmodel implementeret i et kodningsværktøj samt et multimodalt korpus bestående af opmærket videomateriale for DTS.

    Et andet resultat vil være en prototype af en model til kobling mellem leksikon (ordbog) og et multimodalt korpus i form af en model til kobling mellem Korpus over Dansk Tegnsprog og Ordbog over Dansk Tegnsprog. Prototypen udvikles i samarbejde med Hamburg Universitet . Perspektivet for projektet er at skabe mulighed for maskinelle undersøgelser af tegnsprogs tegnforråd og af dets fonologiske og syntaktiske mønstre og strukturer, og dermed hente ny viden om DTS og herigennem sikre at undervisningen i tegnsprog på tolkeuddannelsen tilføres ny viden om sproget. På længere sigt vil der kunne opbygges en internetbaseret adgang til korpus, fx. i stil med det hollandske Corpus NGT . På kortere sigt vil der blive adgang til korpus for undervisere og studerende på tolkeuddannelsen.

    Et tredje resultat af projektet vil være en fonologisk og semantisk analyse af 800 polyseme tegn fra DTS, og en publicering af analyseresultaterne i Ordbog over Dansk Tegnsprog. Såvel analysen af de enkelte tegns brug som fremfindelsen af autentiske brugseksempler, vil med tilgang til et korpus være evidensunderbygget i en langt højere grad end de hidtidige analyser, der blev publiceret i ordbogen i årene 2003-2008. De allerede eksisterende ordbogsartikler vil på længere sigt kunne opdateres og kompletteres med basis i ny viden hentet i Korpus over Dansk Tegnsprog. På nuværende tidspunkt har vi offentliggjort resultatet af vore analyser af 200 tegn, (se bilag 3).

    Kort titelKorpusprojektet
    StatusIgangværende
    Effektiv start/slut dato01/07/1430/06/21