Sprogteknologi på nævnet
Grammatisk opmærkning af avisdata
Nævnet benytter sig af en stor samling avistekster fra Infomedia. Disse tekster skal løbende opmærkes med lemmaformer, ordklasser og syntaktiske funktioner. Der arbejdes løbende på at vedligeholde og forbedre opmærkningen, som er baseret på DanGram, firmaet GrammarSofts constraint-grammatik for dansk. Den grammatiske opmærkning gør det nemmere for nævnets forskere at søge efter sproglige mønstre i et givet korpus.
Ortografisk rangering af korpustekster
I projektet Ortografisk rangering af korpustekster bruges en modificeret udgave af DanGram til at finde fejl såsom fungere i sætningen Vi har en ledelse, der fungere som et kollektiv, dvs. betingede fejl – stavemåder der kan være korrekte i andre kontekster. For at finde den slags fejl er grammatisk opmærkning uundværlig. Formålet er, om muligt, at ordne teksterne i nævnets korpus efter kvalitet så arbejdet med at normere retskrivningen kan foregå på så informeret et grundlag som muligt.