Skip to main content

Slik bruker du 'Ngram Viewer' -verktøyet i Google Bøker

Brian McGinty Karatbars Gold New Introduction Brian McGinty Brian McGinty (Kan 2024)

Brian McGinty Karatbars Gold New Introduction Brian McGinty Brian McGinty (Kan 2024)
Anonim

Et Ngram, som også vanligvis kalles et N-gram, er en statistisk analyse av tekst eller taleinnhold for å finne n (et nummer) av en slags element i teksten.

Søkeelementet kan være alle slags ting, som fonemer, prefiks, setninger eller bokstaver. Selv om N-grammet er noe skjult utenfor forskningsmiljøet, brukes det på en rekke felt, og det har mange implikasjoner for utviklere som kodes for dataprogrammer som forstår og svarer på naturlig talespråk.

I tilfelle av Google Books Ngram Viewer kommer teksten som skal analyseres, fra den enorme mengden bøker som Google har skannet inn fra offentlige biblioteker for å fylle ut søkemotoren i Google Bøker. For Google Books Ngram Viewer refererer de til teksten du skal søke som corpus . Ngram Viewer aggregater etter språk, selv om du kan analysere britisk og amerikansk engelsk separat eller klumpe dem sammen.

Hvordan fungerer Ngram

  1. Gå til Google Books Ngram Viewer på books.google.com/ngrams.

  2. Skriv inn noen fraser eller setninger du ønsker å analysere. Separat hver setning med et komma. Google foreslår, "Albert Einstein, Sherlock Holmes, Frankenstein" for å komme i gang. Elementene er store og små bokstaver, i motsetning til Google-nettsøk.

  3. Skriv inn datoperiode. Standard er 1800 til 2000.

  4. Velg et corpus. Du kan søke fremmedspråkstekster eller engelsk, og i tillegg til standardvalgene, kan du merke ting som "engelsk (2009) eller amerikansk engelsk (2009)" nederst. Dette er eldre korporasjoner som Google siden har oppdatert, men det kan hende du har noen grunn til å gjøre sammenligningene dine mot gamle datasett. De fleste brukere kan ignorere dem og fokusere på den nyeste corpora.

  5. Still utjevningsnivået ditt. Utjevning refererer til hvor glatt grafen er på slutten. Den mest nøyaktige representasjonen vil være et utjevningsnivå på 0, men den innstillingen kan være vanskelig å lese. Standardinnstillingen er satt til 3. I de fleste tilfeller trenger du ikke å justere den.

  6. trykk Søk mange bøker knapp.

Google lar deg bore ned ganske mye med Ngram Viewer. Hvis du vil søke etter fisk, legger verbet i stedet for å fiske substantivet, du kan gjøre det ved å bruke tagger. I dette tilfellet vil du søke etter "fish_VERB"

Google gir en komplett liste over kommandoer du kan bruke og annen avansert dokumentasjon på deres nettsted.

Hva er Ngram Viser?

Google Books Ngram Viewer vil sende ut en graf som representerer bruk av en bestemt frase i bøker over tid. Hvis du har skrevet inn mer enn ett ord eller en setning, vil du se fargekodede linjer for å kontrast til de forskjellige søkeordene. Dette er ganske lik Google Trends, bare søket dekker en lengre periode.

Case Study

Vurder casestudien av eddik paier. De er nevnt i Laura Ingalls Wilder Lille hus på prærien serie. Å utforske med Googles nettsøk for å lære mer om eddik paier avslører at de anses som en del av det amerikanske sørlige kjøkkenet og egentlig er laget av eddik. De hører tilbake til tider da ikke alle hadde tilgang til ferske råvarer til alle tider av året. Men er det hele historien?

Søk i Google Ngram Viewer for eddikpai og du vil møte noen nevninger av kaken både i begynnelsen og slutten av 1800-tallet, mange nevner på 1940-tallet, og et økende antall omtaler i nyere tid. Men med et utjevningsnivå på 3 ser du et platå over nevnte på 1800-tallet. Fordi det ikke er mange bøker utgitt i løpet av den tiden, og fordi dataene våre er satt til glatt, forvrenger det bildet. Sannsynligvis var det en bok som nevnte eddikpai, og det var bare gjennomsnittlig for å unngå en spike. Ved å sette utjevningen til 0, kan vi se at dette er akkurat slik. Spiken senterer 1869, og det er en annen spike i 1897 og 1900.

Det er usannsynlig at ingen snakket om eddik paier resten av tiden: Det var sannsynligvis oppskrifter flytende over alt, men folk gjorde det ikke skrive om dem i bøker, og det er en viktig begrensning av disse Ngram-søkene.