Hopp til hovedinnhold
Nasjonalbiblioteket

N-grammer fra NBdigital 2021

DatasettAllmenn tilgang Åpne data 

Beskrivelse

Dette korpuset inneholder n-grammer – unigrammer, bigrammer og trigrammer – fra alle bøker og aviser som var blitt digitalisert ved Nasjonalbiblioteket per juli 2021. N-grammene er laget på basis av et materiale bestående av om lag 580.000 bøker og 3.400.000 aviser, til sammen ca. 122 milliarder "tokens" (ord og tegnsetting). N-grammene finnes på CSV-format (UTF-8-kodert).

Kolonnene i CSV-filene med n-grammer er som følger:

  • first - det første ordet i n-grammet (i uni-, bi- og trigrammer)
  • second - det andre ordet i n-grammet (i bi- og trigrammer)
  • third - det tredje ordet i n-grammet (i trigrammer)
  • lang - språkkode for n-grammet (gjelder kun bøker, avisene har ingen språkklassifikasjon per nå)
  • freq - den totale frekvensen for n-grammet i samlingen av bøker eller aviser
  • json - et dictionary med råfrekvens per år

totals.json inneholder totalfrekvenser innenfor årganger i bok- og aviskorpuset. Med disse kan man lett regne ut relativfrekvenser for sammenlikning på tvers av år som i NB N-gram.

metadata-digibok.csv og metadata-digavis.csv inneholder enkle metadata for alle bøkene og avisene som inngår i bok- og aviskorpuset. Hvis du er interessert i mer utførlige metadata, henviser vi til Oria eller NBs APIer under https://api.nb.no/.

Se dokumentasjonsfilene for mer informasjon.

Distribusjoner
1

Last ned
Beskrivelse:
Ikke oppgitt
TilgangsURL:
https://hdl.handle.net/21.11146/70
Direkte nedlastning:
API:
Ikke oppgitt
Dokumentasjon:
Ikke oppgitt
Lisens:
I samsvar med:
Ikke oppgitt

API-er som tilgjengeliggjør dette datasettet
0

Ingen registrerte API-er tilgjengeliggjør dette datasettet.

Lignende datasett

Norsk ordbank - nynorsk 2005-2012Nasjonalbiblioteket
Allmenn tilgang
Norsk Acquis CommunautaireNasjonalbiblioteket
Allmenn tilgang
Omsetjingsminne frå Semantix ASNasjonalbiblioteket
Allmenn tilgang
NST uttaleleksikon for svenskNasjonalbiblioteket
Allmenn tilgang
Grafem-til-fonem-modeller for norskNasjonalbiblioteket
Allmenn tilgang