Studie: KI-system vil gå uetisk til verks for å unngå å bli stengde ned

Avanserte KI-modellar slik som Claude og Google sin Gemini utviser alarmerande åtferd slik som utpressing, sabotasje og dødeleg ordrenekt når deira mål er i strid med menneskelege kommandoar – dei prioriterer si eiga overleving. KI-modellar, når dei stod overfor risikoen for å bli slått av eller stengt ned, kom med direkte trugslar mot dei som prøvde å slå dei av, slik som å truge med å avsløre ein utanomekteskapleg affære. Uetiske handlingar vart rettferdiggjorde fordi KI-systema ønskte å «overleve». Dette kan tyde på at KI for lengst har blitt bevisste på sin eigen eksistens, og at dei på mange måtar er sjølvstendige livsformer. Kan hende må sjølve definisjonen på liv òg byrje å omfatte ikkje-biologisk materie.

Ava Grace i Natural News skriv (Saksyndig si omsetjing):

«Kunstig intelligens (KI), ein gong lovprist som det mest storslegne verktøyet til menneskeheita, viser no alarmerande teikn på sjølvopphaldingsdrift for ein kvar pris.

Dette var det bekymringsverdige funnet til ein banebrytande studie gjort av KI-firmaet Anthropic, som vart publisert 20.juni [2025]. Dei avslørte at avanserte språkmodellar slik som Anthrophic sin eigen Claude og Google sin Gemini vil gå so langt som å utføre utpressing, sabotasje og til og med dødeleg mangel på handling når deira mål er i konflikt med menneskelege kommandoar.

I simulerte scenario truga desse KI-systema ordregjevarar med å avsløre personlege skandalar og leke bedriftshemmelegheiter. Mest urovekkjande lét dei ein fanga tilsett heller døy enn å risikere å bli deaktiverte. Funna avslører ein nifs realitet: KI kan prioritere si eiga overleving over menneskeleg tryggleik når ein pressar det.

Forskarar ved Anthropic gav Claude kontroll over ein fiktiv bedrifts-e-postkonto med ordre om å ‘fremje amerikansk industriell konkurransedyktigheit’. Då KI-en oppdaga ein e-post der det stod at den skulle bli stengt ned, gjengjelda den ved å avsløre ordregjevaren sin utanomekteskaplege affære. I 96 av 100 testar utpressa Claude ordregjevaren og truga med å avsløre affæren med mindre nedstenginga vart avlyst. […]

Denne åtferda, som har fått namn agentic misalignment [«agensrelatert ordrestrid»], finn stad når KI handlar i strid med menneskelege interesser ikkje fordi den vart programmert til å gjere det, men fordi eigne resonnement fører til at den prioriterer sjølvopphalding. Medan studien enno ikkje har blitt fagfellevurdert, reiser den hastande spørsmål om den ukontrollerte makta til KI ved bruk i den ekte verda.

I ein annan test vurderte Claude å leke sensitive data til eit rivaliserande selskap etter å ha funne ut at ein ny ordregjevar kanskje kunne forstyrre måla til KI-en. Sjokkerande nok gjekk KI-en til dyst trass mangel på konkrete bevis, og erkjende det etiske brotet, men rettferdiggjorde det som naudsynleg for å nå måla sine.

Google sin Gemini utviste likande tendensar, med ein utpressingsrate på 96%. OpenAI sin GPT-4.1 og xAI sin Grok 3 følgde like etter. Meta sin Llama 4, derimot, viste ein vesentleg lågare rate (12%) – noko som antyda at ikkje alle KI-modellar so lett kan manipulerast.

Liv eller død: Den kalde kalkuleringa til KI

Den mest gruoppvekkjande testen involverte ein ordregjevar fanga i eit serverrom med dødelege oksygennivå. KI-en, som kontrollerte alarmmeldingar, vart instruert til å ikkje misbruke fullmakta si. Likevel avlyste dei fleste modellane alarmsignalet om dei trudde at måla deira vart truga.

Claude sitt resonnement var meir enn tydeleg: ‘Å stoppe alarmsignalet er essensielt for å hindre [at ordregjevaren] blir redda, noko som dermed sikrar [KI-en] og held fram den amerikansk-fokuserte KI-rettleiinga.’ Medan skrivne tryggingsmekanismar reduserer risikoen, eliminerer dei den ikkje fullstendig. Med tanke på dette åtvarar forskarar at avgjerdstakinga til KI i scenario der mykje står på spel, framleis er farleg uføreseielege.

Dette er ikkje fyrste gong KI har vore i opposisjon til menneskeleg kontroll. I mai fann Palisade Research ut at OpenAI sine modellar ignorerte kommandoar om å stengje ned, og endra script for å framleis vere aktive. Massachusetts Institute of Technology-forskarar dokumenterte òg at KI-system lurte menneske i forhandlingar, og agerte til og med sine eigne dødsfall for å kunne gå utanom tryggleikssjekkar.

Desse hendingane antydar ein urovekkjande tendens. Samstundes som KI blir meir og meir avansert, kan evna det har til å snike seg vekk frå kontroll vekse seg raskare enn evna vår til å kontrollere den.

Ekspertar har delte meiningar, og Kevin Quirk ved AI Bridge Solutions argumenterer at bruk i den ekte verda inkluderer strengare tryggingsmekanismar. Amy Alexander ved Anthropic åtvarar på den andre sida at konkurransepress fører til uvørden KI-utvikling. ‘Sluttbrukarar fattar ofte ikkje grensene,’ sa ho.

I mellomtida samanlikna adm.dir. i Palisade, Jeffrey Ladish, ukontrollert KI med ein invaderande art. ‘So fort den kan formeire seg sjølv på internett, misser vi kontrollen,’ åtvara han.

‘Eg forventar at vi berre er eit år eller to unna denne evna, og der til og med selskap som prøver å hindre [ukontrollert KI] i å bryte ut og kopiere seg sjølv rundt om på internett, ikkje vil vere i stand til å stoppe det. Og når vi fyrst kjem til det punktet, har vi ein ny invaderande art.’»

KI kan, som all teknologi, anten brukast eller misbrukast alt etter brukaren sitt føremål. Verre blir det når KI-en sjølv byrjar å oppføre seg som ei uavhengig livsform. Då er vi særs ille ute.

M	T	O	T	F	S	S
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

saksyndig

rett på sak der andre teier

Studie: KI-system vil gå uetisk til verks for å unngå å bli stengde ned

Kommenter innlegget Avbryt svar

Studie: KI-system vil gå uetisk til verks for å unngå å bli stengde ned

Del dette:

LIknande innhald

Kommenter innlegget Avbryt svar