Naturlig språkbearbetning (vanligen kallad NLP) är en delmängd av forskningen om artificiell intelligens som sysslar med modelleringsuppgifter för maskininlärning. Detta syftar till att ge datorprogram förmågan att förstå mänskligt språk, både skriftligt och talat.
Naturlig språkbehandling handlar inte bara om bearbetning, eftersom den senaste utvecklingen inom området, såsom införandet av stora språkmodeller (LLM) och GPT3, också är inriktade på språkgenerering.
Med ökningen av människor som använder maskininlärning i SEO är det dags att gå tillbaka till grunderna och gräva i de teoretiska aspekterna av NLP, och mer specifikt – de fem faserna av NLP och hur man kan använda dem i sina SEO-projekt. De fem faserna som presenteras i detta blogginlägg är de fem faserna av kompilatordesign – som är en delmängd av mjukvaruteknik, vilka handlar om programmeringsmaskiner som konverterar ett högnivåspråk till ett lågnivåspråk.
Steg 1: Lexikal eller morfologisk analys
Den första fasen av NLP är ordstrukturanalys, som kallas lexikal eller morfologisk analys. Ett lexikon definieras som en samling ord och fraser på ett givet språk, där analysen av denna samling är processen att dela upp lexikonet i komponenter, baserat på vad användaren anger som parametrar – stycken, fraser, ord eller tecken. På samma sätt är morfologisk analysprocessen att identifiera ett ords morfem. Ett morfem är en grundläggande enhet av engelska språkkonstruktion, som är en liten del av ett ord, som bär betydelse. Dessa kan vara antingen ett fritt morfem (t.ex. promenad) eller ett bundet morfem (t.ex. -ing, -ed), med skillnaden mellan de två är att det senare inte kan stå på egen hand för att producera ett ord med mening, och bör tilldelas till ett fritt morfem för att fästa betydelse.
Vad kan man använda lexikal eller morfologisk analys till i SEO?
Det finns flera SEO-projekt, där ni kan implementera lexikal eller morfologisk analys för att vägleda er SEO-strategi.
När ni till exempel gör on-page-analys kan ni utföra lexikal och morfologisk analys för att förstå hur ofta målsökorden används i sin kärnform (som fria morfem eller när de är sammansatta med bundna morfem). Denna typ av analys kan säkerställa att ni har en korrekt förståelse för de olika varianterna av de morfem som används.
Naturligtvis kan denna analys också utföras med SERP-resultaten, vilket kommer att hjälpa er att få en förståelse för vikten av vissa sökord och deras sökordsvariationer för rankning i nyckelpositioner (kom ihåg här att korrelation inte är lika med orsakssamband).
Ett annat användbart sätt att implementera denna inledande fas av naturlig språkbehandling i ert SEO-arbete är att tillämpa lexikal och morfologisk analys på er insamlade databas med sökord under sökordsforskning.
Detta kan hjälpa er att kvantifiera vikten av morfem i samband med andra mätvärden, som sökvolym eller sökordssvårigheter, samt få en bättre förståelse för vilka aspekter av ett visst ämne ert innehåll bör ta upp.
Morfologisk analys kan också användas i transkriptions- och översättningsprojekt, så den kan vara mycket användbar i projekt för återanvändning av innehåll och internationell SEO och språklig analys.
Vilka verktyg kan ni använda för att göra lexikal eller morfologisk analys? Det finns flera sätt att göra lexikal eller morfologisk analys av era data, med några populära metoder är Python-biblioteken spacy, Polyglot och pyEnchant.
Steg 2: Syntaxanalys
Syntaxanalys är den andra fasen av naturlig språkbehandling. Syntaxanalys eller parsning är processen att kontrollera grammatik, ordarrangemang och övergripande – identifieringen av relationer mellan ord och om de är vettiga. Processen innebar granskning av alla ord och fraser i en mening och strukturerna mellan dem.
Som en del av processen finns en visualisering byggd av semantiska relationer som kallas ett syntaxträd (liknar en kunskapsgraf). Denna process säkerställer att meningarnas struktur och ordning och grammatik är meningsfull när man överväger de ord och fraser som utgör dessa meningar. Syntaxanalys involverar också att tagga ord och fraser med POS-taggar. Det finns två vanliga metoder och flera tillvägagångssätt för att konstruera syntaxträdet – uppifrån och ner och nerifrån, men båda är logiska och kontrollerar meningsbildning, annars avvisar de inmatningen.
Vad kan man använda syntaxanalys till inom SEO?
Syntaxanalys kan vara fördelaktigt för SEO på flera sätt:
Programmatisk SEO: Kontrollera om det producerade innehållet är vettigt, särskilt när man producerar innehåll i stor skala med hjälp av ett automatiserat eller halvautomatiskt tillvägagångssätt. Semantisk analys: När ni väl har utfört en syntaxanalys är semantisk analys lätt, liksom att avslöja förhållandet mellan de olika enheterna som känns igen i innehållet.
Steg 3: Semantisk analys
Semantisk analys är det tredje steget i NLP, då en analys utförs för att förstå innebörden i ett påstående. Denna typ av analys är inriktad på att avslöja definitionerna av ord, fraser och meningar och identifiera huruvida det sätt som ord är organiserade i en mening är meningsfullt semantiskt.
Denna uppgift utförs genom att kartlägga den syntaxiska strukturen och kontrollera logik i de presenterade relationerna mellan entiteter, ord, fraser och meningar i texten. Det finns ett par viktiga funktioner i semantisk analys, som möjliggör förståelse av naturligt språk:
- För att säkerställa att datatyperna används på ett sätt som överensstämmer med deras definition.
- För att säkerställa att textflödet är konsekvent.
- Identifiering av synonymer, antonymer, homonymer och andra lexikala poster.
- Övergripande disambiguation av ordbetydelse.
- Relationsextraktion från de olika enheterna som identifierats från texten.
Vad kan man använda semantisk analys till i SEO?
Det finns flera saker ni kan använda semantisk analys för i SEO. Här är några exempel:
Ämnesmodellering och klassificering – sortera ert sidinnehåll i ämnen (fördefinierade eller modellerade av en algoritm). Ni kan sedan använda detta för ML-aktiverad intern länkning, där ni länkar samman sidor på er webbplats med hjälp av de identifierade ämnena. Ämnesmodellering kan också användas för att klassificera insamlad data från första part såsom kundtjänstbiljetter eller feedbackanvändare som lämnats på era artiklar eller videor i fri form (d.v.s. kommentarer).
Entitetsanalys, sentimentanalys och avsiktsklassificering – ni kan använda denna typ av analys för att utföra sentimentanalys och identifiera avsikt uttryckt i det analyserade innehållet. Entitetsidentifiering och sentimentanalys är separata uppgifter, och båda kan göras på saker som nyckelord, titlar, metabeskrivningar, sidinnehåll, men fungerar bäst när man analyserar data som kommentarer, feedbackformulär eller kundtjänst eller interaktioner med sociala medier. Avsiktsklassificering kan göras på användarfrågor (i sökordsforskning eller trafikanalys), men kan också göras i analys av kundtjänstinteraktioner.
Vilka verktyg kan ni använda för att göra semantisk analys?
För ämnesmodellering finns det flera sätt att göra detta i Python, men för en snabb, nybörjarvänlig app rekommenderar jag att ni använder Cornells LDA-analyswebbapplikation. Här är en handledning om hur ni använder den på er webbplats webbinnehåll.
Googles Natural Language API har moduler för:
Entitetsidentifiering – inspekterar den givna texten för kända enheter och returnerar information om dessa enheter.
Entitetsentimentanalys – kombinerar både entitetsanalys och sentimentanalys och försök att bestämma sentimentet (positivt eller negativt) uttryckt om enheter i texten.
Sentimentanalys – analyserar text och identifierar den dominerande känslomässiga åsikten inom den, och avgör om författarens attityd är positiv, negativ eller neutral. Alla dessa kan kanaliseras i Google Sheets, men kan också användas i Python, vilket kommer att vara mer lämpat för webbplatser och projekt, där skalbarhet önskas, eller annat – när man arbetar med big data.
Steg 4: Diskursintegration
Diskursintegration är den fjärde fasen i NLP, och betyder helt enkelt kontextualisering. Diskursintegration är analys och identifiering av det större sammanhanget för någon mindre del av naturlig språkstruktur (t.ex. en fras, ord eller mening).
Under denna fas är det viktigt att se till att varje fras, ord och enhet som nämns nämns i rätt sammanhang. Denna analys innebär att man beaktar inte bara meningsstruktur och semantik, utan också meningskombinationer och betydelsen av texten som helhet.
I annat fall, när textstrukturen analyseras, bryts meningar upp och analyseras och betraktas även i sammanhanget med de meningar som föregår och följer dem, och den inverkan de har på textstrukturen. Några vanliga uppgifter i denna fas inkluderar: informationsextraktion, samtalsanalys, textsammanfattning, diskursanalys.
Här är några komplexiteter för förståelse av naturligt språk som introducerades under denna fas:
Förståelse för de uttryckta motiven i texten och dess underliggande betydelse.
Förståelse av relationerna mellan enheter och ämnen som nämns, tematisk förståelse och interaktionsanalys.
Förstå den sociala och historiska kontexten för nämnda enheter.
Vad kan man använda diskursintegration till i SEO?
Diskursintegration och analys kan användas i SEO för att säkerställa att lämplig tid används, att de relationer som uttrycks i texten är logiska och att det finns en övergripande koherens i den analyserade texten. Detta kan vara särskilt användbart för programmatiska SEO-initiativ eller textgenerering i skala. Analysen kan också användas som en del av internationella SEO-lokaliserings-, översättnings- eller transkriptionsuppgifter på stora datakroppar.
Det finns vissa forskningsansträngningar för att införliva diskursanalys i system som upptäcker hatretorik (eller i SEO-utrymmet för saker som innehåll och kommentarmoderering), med denna teknik som syftar till att avslöja avsikten bakom text genom att anpassa uttrycket med mening, härlett från andra texter. Detta innebär att, teoretiskt, kan diskursanalys också användas för modellering av användaravsikt (t.ex. sökavsikt eller köpavsikt) och upptäckt av sådana föreställningar i texter.
Vilka verktyg kan användas för att göra en diskursintegration?
För att göra diskursanalys maskininlärning från grunden är det bäst att ha en stor datauppsättning till ert förfogande, eftersom de flesta avancerade tekniker involverar djupinlärning. Många forskare och utvecklare inom området har skapat diskursanalys-API:er tillgängliga för användning, men de kanske inte är tillämpliga på någon text eller användningsfall med en utgångspunkt-inställning, vilket är där anpassade data kommer till användning.
Ett API som släpps av Google och tillämpas i verkliga scenarier är Perspective API, som syftar till att hjälpa innehållsmoderatorer att hålla bättre konversationer online. Enligt beskrivningen gör API:et diskursanalys genom att analysera ”en textsträng och förutsäga den upplevda effekten som den kan ha på en konversation”. Ni kan prova Perspective API gratis online också, och integrera det enkelt på er webbplats för automatisk kommentarmoderering.
Steg 5: Pragmatisk analys
Pragmatisk analys är den femte och sista fasen av naturlig språkbehandling. Som det sista steget extrapolerar och införlivar pragmatiskt analyser och lärdomar från samtliga föregående faser av NLP.
Pragmatisk analys involverar processen att abstrahera eller extrahera mening från användningen av språk, och översätta en text, med hjälp av den insamlade kunskapen från alla andra NLP-steg som utförts i förväg.
Här är några komplexa element som introduceras under denna fas:
- Informationsextraktion, som möjliggör avancerade textförståelsefunktioner såsom frågesvar.
- Betydelsesextraktion, vilket gör att program kan bryta ner definitioner eller dokumentation till ett mer tillgängligt språk.
- Förståelse för betydelsen av orden, och sammanhang, i vilka de används, vilket möjliggör samtalsfunktioner mellan maskin och människa (t.ex. chatbots).
Hur kan en pragmatisk analys nyttjas i SEO-syfte?
Pragmatisk analys har flera tillämpningar inom SEO. En av de mest enkla är programmatisk SEO och automatiserad innehållsgenerering. Den här typen av analys kan också användas för att generera FAQ-sektioner på er produkt, använda textanalys av produktdokumentation, eller till och med belysa de utvalda utdragen ”People Also Ask” genom att lägga till en automatiskt genererad FAQ-sektion för varje sida ni producerar på er webbplats.
Vilka verktyg kan användas för att göra en pragmatisk analys?
Det mest tillgängliga verktyget för pragmatisk analys i skrivande stund är ChatGPT av OpenAI. ChatGPT är en stor språkmodell (LLM) chatbot utvecklad av OpenAI, som är baserad på deras GPT-3.5-modell. Syftet med denna chatbot är att möjliggöra möjligheten till samtalsinteraktion, med vilken man möjliggör en mer utbredd användning av GPT-tekniken. På grund av den stora datamängden, som denna teknik har tränats på, kan den extrapolera information eller göra förutsägelser för att sätta ihop ord på ett övertygande sätt.
Med det sagt finns det också flera begränsningar för att använda denna teknik för ändamål som automatiserad innehållsgenerering för SEO, inklusive felaktiga texter i bästa fall och olämpligt eller hatiskt innehåll i värsta fall.
Sammanfattning
För att sammanfatta är de fem faserna av naturlig språkbehandling, som uttrycks i teorin för kompilatordesignprogram:
- Lexikal eller morfologisk analys
- Syntaxanalys (analys)
- Semantisk analys
- Diskursintegration
- Pragmatisk analys
Som artikeln visade finns det många tillämpningar av var och en av dessa fem faser i SEO, och en uppsjö av verktyg och tekniker ni kan använda för att implementera NLP i ert arbete.