Maskinlæring · Dataviter
Lenge før ChatGPT fantes det AI som stilte diagnoser, oppdaget svindel og forutså maskinsvikt. Det kalles klassisk maskinlæring — og det er fortsatt den dominerende formen for AI i industrien i dag. Her er hva det er, hvordan det lærer, og hva det faktisk kan brukes til.
01 · Landskapet
Begrepet AI brukes i dag nesten utelukkende om store språkmodeller som ChatGPT. Men AI er et mye bredere felt — og størstedelen av AI-systemer som faktisk kjører i produksjon i dag er ikke språkmodeller.
Tenk på det slik: AI er paraplyuttrykket for maskiner som løser oppgaver som krever intelligens. Under det finner vi maskinlæring — algoritmer som lærer fra data uten å bli eksplisitt programmert med regler. Og inni maskinlæringen finner vi dyplæring — en kraftigere underkategori som bruker store nevrale nettverk og trenger langt mer data og regnekraft.
I denne artikkelen bruker vi «klassisk AI» om maskinlæring og dyplæring brukt til spesifikke, avgrensede oppgaver — i motsetning til de generative språkmodellene som er designet for å gjøre litt av alt.
Den grunnleggende forskjellen er hvor reglene kommer fra. I tradisjonell programmering skriver mennesket alle reglene eksplisitt. I maskinlæring finner maskinen reglene selv — fra eksempler.
Du definerer alle if/else-betingelser manuelt. Fungerer for enkle problemer — men skaler dårlig til kompleksitet.
Du gir eksempler med riktige svar. Modellen finner selv hvilke mønstre som skiller kategoriene.
Maskinlæring handler ikke om å programmere intelligens — det handler om å la maskinen oppdage mønstre i data som er for komplekse til å skrive som regler. Et neuralt nettverk for bildegjenkjenning har millioner av parametere. Ingen mennesker kunne skrevet de reglene manuelt.
02 · Treningsprosessen
Grunnideen er enkel: vis modellen mange eksempler med riktige svar. Den gjetter, tar feil, korrigeres — og justerer seg litt etter litt. Etter nok runder blir den god.
Bak «svart boks»-metaforen skjuler det seg matematikk: nettet har vekter — tall som sier hvor mye det skal stole på hvert signal i inputen. Trening betyr å justere disse vektene litt om gangen, ved hjelp av en metode som heter gradient descent, til modellen konsekvent svarer riktig på treningsdataen.
En god modell generaliserer — den gjør det bra på ny data den aldri har sett, ikke bare på det den ble trent på. Å skille treningsdata fra testdata er derfor avgjørende i all maskinlæring.
Modellen er trent på katter og hunder. Den har aldri sett en elefant. Likevel gir den et svar — fordi det er det eneste den kan. Den vet ikke at den ikke vet. Elefanthuden har kanskje grov tekstur som lignet hundepels. Resultatet:
En modell er god innenfor det den har sett. Utenfor den grensen er den blind — og ingenting i modellen selv forteller deg når du har krysset den grensen.
Dette kalles et distribusjonsskift: modellen møter data som er fundamentalt annerledes enn treningsdataen. Det er en av de viktigste praktiske utfordringene i all maskinlæring — og en av grunnene til at overvåking av modeller i produksjon er kritisk.
03 · Klassifisering
Klassifisering handler om å sortere input i forhåndsdefinerte klasser. Modellen svarer alltid med én kategori — og en grad av sikkerhet.
Det klassiske eksempelet. Tusenvis av merkte bilder mates inn. Modellen lærer å gjenkjenne ørenes form, snuten, pelstekstur. Etter trening svarer den på millisekunder — med høy presisjon.
En bank bruker alder, inntekt, gjeldsnivå og betalingshistorikk til å klassifisere lånesøkere. Modellen plasserer hver kunde i et flerdimensjonalt rom — og tilordner den til nærmeste klasse. Raskere og mer konsistent enn manuell vurdering.
Ord som «gratis», «klikk her» og «eksklusivt tilbud» er sterke signaler. Modellen analyserer tusenvis av ord og deres kombinasjoner for å avgjøre om en e-post er spam. Samme prinsipp brukes til å rute kundehenvendelser til riktig avdeling automatisk.
04 · Regresjon
Regresjon svarer ikke med en kategori, men med et tall. Prisen på en bolig. Strømforbruket neste time. Gjenværende levetid på en maskin. Én modell — uendelig mange mulige svar.
Størrelse, beliggenhet, alder, antall rom → modellen predikerer markedspris i kroner. Brukes av meglere, banker og eiendomsselskaper for automatisk verdivurdering.
Temperatur ute, antall ansatte, time på døgnet, sesong → predikert strømbehov neste time. Brukes til å optimere energikjøp og redusere kostnader i industri og bygg.
Vibrasjon, temperatur, driftstimer, oljetrykk → predikert antall timer til service er nødvendig. Grunnlaget for condition-based maintenance i industri.
05 · Algoritmene
Maskinlæring er ikke én algoritme — det er en hel verktøykasse. Her er de mest brukte, med intuitive forklaringer på hva som skjer under panseret.
Stiller ja/nei-spørsmål frem til et svar. Enkelt å forstå og forklare for ikke-teknikere. Enkelttrær er svake — men de blir kraftfulle i ensembler.
Hundrevis av beslutningstrær som stemmer. Flertallet vinner. Langt mer robust enn ett enkelt tre — håndterer støy og overflate godt.
Bygger trær sekvensielt — hvert nytt tre retter feilene til det forrige. Svært kraftfullt på strukturert tabelldata. Vinner de fleste Kaggle-konkurranser med strukturert data.
Bruker en S-kurve (sigmoid) til å mappe input til en sannsynlighet mellom 0 og 1. Enkel, rask og svært tolkbar. En klassiker for binær klassifisering.
Mange lag av noder koblet sammen. Kraftfullt på bilder, lyd og komplekse mønstre. Krever mye data og regnekraft — men kan løse problemer klassisk ML ikke klarer.
«Du er lik dine naboer.» Finner de K nærmeste punktene i treningsdataen og stemmer. Enkel idé — men langsom på store datasett siden den ikke trener en modell.
Klassisk ML (beslutningstrær, gradient boosting, logistisk regresjon) fungerer best på strukturert tabelldata — og krever langt mindre data og regnekraft. Dyplæring er nødvendig for bilder, lyd og komplekse mønstre — men koster tilsvarende mer. For de fleste forretningsproblemer er klassisk ML det smarte valget å starte med.
06 · Bruksområder
Klassisk AI er motoren bak tusenvis av systemer du bruker daglig — uten at du tenker over det. Fra kredittkortgodkjenning til diagnosehjelp og fabrikkovervåking.
Forutsi maskinsvikt fra sensordata før det skjer. Fra reaktivt vedlikehold til condition-based. Kobling til anomaly detection-saken.
Regresjon + AnomaliHistoriske betalingsmønstre, inntekt og gjeld klassifiseres til risikoprofil. Raskere og mer konsistent enn manuell saksbehandling.
KlassifiseringForutsi strøm- og varmebehov time for time. Gjør det mulig å handle energi smartere og redusere kostnader i bygg og industri.
RegresjonIdentifisere tumorer i røntgen og MR-bilder. CNN-modeller matcher eller overgår radiologers nøyaktighet på spesifikke oppgaver.
Dyplæring (CNN)Kameraer på produksjonslinjen klassifiserer produkter som ok eller defekt. Raskere og mer konsistent enn menneskelig inspeksjon.
Klassifisering (CNN)Forutsi salgsvolum, lagerbehov og produksjonskapasitet. Brukes av retailere, logistikkselskaper og produsenter verden over.
Regresjon (tidsserier)07 · Begrensninger
Klassisk AI er kraftfullt — men det er ikke magi. Det er viktig å forstå hva disse modellene ikke kan gjøre, særlig når beslutninger basert på dem får reelle konsekvenser.
Modellen feiler stille utenfor det den er trent på. Den vet ikke at den ikke vet — og varsler deg ikke. Elefanten klassifiseres som hund uten tvil.
Modellen finner mønstre som henger sammen med et utfall — ikke mønstre som forårsaker det. Å handle blindt på korrelasjoner kan gi svært dårlige beslutninger.
For klassifisering og regresjon trenger du riktige svar på treningsdataen. Labels må være nøyaktige — feil i labels er en av de vanligste årsakene til dårlige modeller.
Verden endrer seg. En modell trent på data fra 2019 kan misse nye mønstre fullstendig. Modeller i produksjon må overvåkes og retrenes jevnlig.
I motsetning til LLM-er er klassisk AI lite fleksibel. En modell som skiller katter fra hunder kan ikke i neste øyeblikk vurdere kredittrisiko. Én modell, én oppgave.
Skjevheter i treningsdataen reproduseres i modellen. Historisk diskriminering i ansettelsesdata gir en modell som diskriminerer videre — nå automatisk og i stor skala.
Ingen modell er bedre enn dataen den er trent på. Det er der arbeidet egentlig starter — ikke med algoritmer og arkitekturer, men med å forstå hvilke data du faktisk har, og om de representerer virkeligheten du vil løse for.
08 · Valg av tilnærming
Det er fristende å tenke at store språkmodeller løser alt. Men de er dyre, vanskelig å kontrollere presist, og overkill for de fleste forretningsproblemer med strukturerte data.
Har du et avgrenset problem med strukturerte data? Start med klassisk maskinlæring. Har du bilder eller komplekse signaler? Vurder dyplæring. Trenger du å forstå og generere naturlig tekst? Da er LLM riktig verktøy — men husk at den er dyr og vanskelig å kontrollere presist.
Den viktigste faktoren for en god modell er ikke algoritmen. Det er dataen den trenes på. Garbage in, garbage out er klisjé fordi det er sant.
Treningsdataen må speile virkeligheten — inkludert kanttilfeller og sjeldne hendelser.
Nok eksempler av hvert tilfelle. Dyplæring trenger særlig mye — ML klarer seg med langt mindre.
Labels (riktige svar) må være nøyaktige. Feil i labels er den vanligste årsaken til dårlige modeller.
Verden endrer seg. En modell trent på gammel data kan misse nye mønstre helt.
Oppsummering
Klassisk maskinlæring er ikke utdatert teknologi. Det er ryggraden i de aller fleste AI-systemer som faktisk kjører i produksjon. Styrken er presisjon og effektivitet på avgrensede problemer. Svakheten er at modeller feiler stille utenfor sitt domene — og at de finner korrelasjoner, ikke årsaker. Velg riktig verktøy for riktig jobb.