Datatilsynet kom i starten af 2024 med to nye udtalelser om AI-modeller med en vurdering af, i hvilket omfang man kan etablere og dele datasæt til brug for udviklingen af AI, herunder sprogmodeller, inden for rammerne af databeskyttelsesreglerne.
Disse principielle udtalelser er relevante for både private virksomheder og offentlige myndigheder og på baggrund af dem, giver vi her fem gode råd til dig, der ønsker at udvikle og drifte sprogmodeller:
-
Start med at fastslå, om du i forbindelse med træning, henholdsvis drift af modellen behandler personoplysninger og dermed, om databeskyttelsesforordningen finder anvendelse. Ifølge Datatilsynet er det klare udgangspunkt, at AI-modeller, herunder sprog-modeller, ikke i sig selv udgør personoplysninger, men at modellen alene er resultatet af behandlingen af personoplysninger. Selvom sprogmodellen ikke er en personoplysning, skal du dog være opmærksom på eventuelle personoplysninger i de datasæt, du bruger til at udvikle og drifte modellen.
-
De personoplysninger, som indgår i datasæt til træning, skal være lovligt indsamlet.
-
Husk de grundlæggende principper, når du udvikler AI-modellen. Selvom du har en lovlig grund til at behandle personoplysningerne, skal du stadig overholde databeskyttelsesforordningens grundlæggende principper. Fx skal du sikre, at data anvendes til et formål, der ikke er uforeneligt med det, de er indsamlet til (formålsbestemthedsprincippet), at du ikke behandler overflødige personoplysninger (dataminimeringsprincippet), og at oplysningerne er korrekte (rigtighedsprincippet).
-
Vær særligt opmærksom på driften af dine sprogmodeller. Overvej navnlig lovlighed, rimelighed og proportionalitet ved brugen af personoplysninger i driften. Det kan være en anden vurdering af lovligheden, når modellen bruges i drift.
-
Vær opmærksom på øvrig relevant lovgivning, herunder bl.a. den nye AI-forordning, ophavsretten og offentlig regulering.