Maskinlæring effektiviserer redaksjonsjobben på Ung.no
Den første egenutviklede maskinlæringsmodellen fra NoA Ignite ble lansert i desember 2022. Sju måneder senere har den allerede spart redaksjonen i Ung.no for nærmere 20 arbeidsdager. Møt mannen bak modellen og lær hvordan han bruker maskinlæring for å automatisere spørretjenesten.
Publisert 07.09.2023
Forfatter: Guro Grønbakken
Gjennom spørretjenesten mottar Ung.no mer enn 500 spørsmål fra ungdom hver eneste dag om alt fra vennskap og relasjoner til utdanning og stress. Hos Ung.no-redaksjonen sitter det rundt 270 personer og fagfolk som besvarer disse spørsmålene. Ung.no hadde et ønske om å automatisere denne tjenesten – noe som åpnet opp for mange muligheter til å ta i bruk maskinlæring.
Data scientist i NoA Ignite, Victor Undli, har hjulpet dem med å effektivisere kategoriseringen av spørsmålene som blir sendt inn. Med utgangspunkt i mappeforslag, har Victor utviklet og trent en maskinlæringsmodell som hjelper redaksjonen og fagfolkene i Ung.no med å legge spørsmål i riktig mappe. På sikt er tanken at denne oppgaven kan automatiseres helt.
Victor forteller at veldig mye har skjedd de siste 5-6 årene, både innenfor generativ AI, Large Language Models (LLM) og Computer Vision. Transformers har gjort at maskinlæringsmodeller har blitt langt bedre på å forstå konteksten mellom ord i en setning, altså den semantiske betydningen.
"Forhåndstrente modeller har derfor blitt bransjestandarden for KI (kunstig intelligens), og det er veldig mange som vil være med på bølgen."
Victor Undli, data scientist i NoA Ignite
118 arbeidstimer og 16 arbeidsdager spart
Mesteparten av spørsmålene som sendes inn på Ung.no i dag, fordeles manuelt av de som håndterer spørsmålene. Spørsmålene som kommer inn fordeles i hele 76 ulike mapper basert på innholdet og tema.
Maskinlæringsmodellen Victor har utviklet fungerer som en assistent i denne sorteringsjobben. Basert på innholdet i et spesifikt spørsmål som har blitt sendt inn, foreslår modellen tre ulike mapper. Personen som håndterer spørsmålet velger den mappen hen mener er mest relevant, men kan også velge å kategorisere spørsmålet i en annen mappe enn de som er foreslått.
Denne maskinlæringsmodellen ble satt ut i produksjon i desember i fjor. På kun syv måneder har forslagene til modellen blitt brukt omtrent 71,000 ganger. Dette tilsvarer at den har blitt brukt på 91% av spørsmålene som er sendt inn. Det har spart redaksjonen for seks sekunder per spørsmål.
Så langt har dette totalt spart de som tar imot og svarer på spørsmålene for hele 118 arbeidstimer og 16 arbeidsdager.
Victor mener at det tette samarbeidet med kunden er en av hovedgrunnene til hvorfor prosjektet har gitt så gode resultater. Det å ha en god dialog hele veien for å sikre en felles forståelse av hva det er som skal gjøres før det settes ut i produksjon, sikrer at det ikke blir misforståelser og at alle er investert i prosjektet.
– Saksbehandlerne i Ung.no kjenner prosjektet sitt bedre enn de fleste. De kjenner behovene til de som skal bruke tjenesten og de som skal motta (sluttbrukeren). I tillegg sitter de på innsikt som jeg ikke nødvendigvis kan tenke meg til, men som må erfares. Jo mer jeg må anta, jo større er sannsynligheten for at det blir et dårligere resultat.
Praktiske og statistiske utfordringer i prosjektet
Victor har møtt på både praktiske og statistiske utfordringer i prosjektet. Av praktiske utfordringer trekker han fram at det er komplekse modeller som tar lang tid å trene.
– Tekstanalyse krever mye data og parametere i modellen, og det tar derfor fort mange timer eller dager å trene opp modellen. Jeg ønsket ikke å begrense hvor mye CPU (central processing unit) og GPU (graphics processing unit) modellen skulle bruke under treningen. Det endte med at maskina ble såpass treg at jeg ikke kunne kjøre andre prosesser samtidig.
Løsningen ble en virtuell maskin som kunne kjøre testingen på egen hånd mens Victor gjorde andre ting. Andre praktiske utfordringer var blant annet knyttet til håndtering av personopplysninger, og at teksten i spørsmålene som skal tolkes av maskinlæring er på norsk, og av og til også på dialekt og med skrivefeil.
"Det skal mye til for at data blir ubrukelig, men KI er ikke en magisk greie som funker uansett. Du må ta vare på dataen din."
Victor Undli
Databehandling var likevel den største utfordringen. Mange av mappene har mye likt innhold, og det er også en stor ubalanse i hvor spørsmålene er plassert. Ser vi på de totalt 76 ulike mappene som finnes, ligger det 138,000 spørsmål i den største mappen, mens det i den minste mappen er under 100 spørsmål.
Fram til nå har det vært veldig tilfeldig hvor spørsmål har blitt plassert. Nye mapper har overtatt innhold fra gamle mapper, og spørsmål som tilhører samme kategori har blitt lagt i ulike mapper. Konsekvensen er dårligere datakvalitet, noe som resulterer i dårligere uttak fra maskinlæringsmodellen.
Dette ubalanserte datasettet og de mange ulike mappeforslagene gjør det utfordrende å få en modell til å velge de mindre, men mer relevante mappene når de store mappene også inneholder lignende spørsmål.
– Det finnes mange løsninger for å håndtere dette, men det kan være komplekst å løse i praksis. Sannsynligheten er også relativt stor for at det ikke kommer til å fungere på grunn av skjevheten i dataen i modellen. Når ting er så ubalansert, blir det vanskelig. Men hvis du begrenser dataen til en kortere tidsperiode for å sikre bedre datakvalitet, kan resultatet bli veldig bra.
Veien videre med automatisk fordeling av spørsmål
Nå jobber Victor med automatisk fordeling av spørsmål. Alle spørsmål som handler om enten tannlege eller leieboerforeningen skal automatisk plasseres i disse to mappene. Etter tre uker har 62 spørsmål blitt automatisk fordelt i disse mappene.
Av antall automatisk fordelte spørsmål, er kun 2% av spørsmålene returnert som ikke-tilhørende i disse mappene.
– Ung.no har mye data og redaksjonen ser også potensialet som ligger i AI og besparelsene som medfølger. Nå når språkmodeller har blitt så gode, er mulighetene store for Ung.no og deres AI-fremtid ser lys ut.
– Det kreves kreativitet og kompetanse for å skape verdi med kunstig intelligens
Victor mener at det kreves en god kombinasjon av kunnskap om KI og kreativitet for å kunne bruke kunstig intelligens til å skape reell verdi i et kundeprosjekt.
– Det vil alltid være ulike anvendelsesområder, og ulike konsepter. For at et selskap skal få mest mulig verdi ut av kunstig intelligens, og at investeringen skal lønne seg, er det viktig for en data scientist å kjenne til produktstrategien. Hvor ønsker kunden å være om fem år og hvordan kan KI bidra til å nå de målene raskest mulig – og så effektivt som mulig?
Victor Undli er data scientist hos NoA Ignite og jobber for tiden med ung.no hvor han automatiserer spørretjenesten ved hjelp av maskinlæring.
Bli kjent med kunden
ung.no
Ung.no er en offentlig tjeneste for ungdom mellom 13 og 20 år. Her kan ungdom få svar på spørsmål om alt fra helserelaterte ting, utdanning, relasjoner, sex og samliv, stress og andre temaer. I spørretjenesten er det både fagfolk og ungdom som besvarer alle spørsmålene som kommer inn. Her er det et fagpanel bestående blant annet av helsesykepleiere, leger, psykologer og lærere.