Modeli më i ri i inteligjencës artificiale, ChatGPT-5, ka bërë një përparim të dukshëm në reduktimin e halucinacioneve, një fenomen që ka shqetësuar përdoruesit e tij. Sipas testeve të fundit, ky model është më pak i prirur ndaj shpikjes së informacionit të rremë, duke ofruar një nivel më të lartë saktësie dhe besueshmërie.
Rezultatet e analizave tregojnë se shkalla e halucinacioneve të ChatGPT-5 është 1.4 përqind, një përmirësim i dukshëm krahasuar me paraardhësit e tij, GPT-4o dhe GPT-4, të cilët kishin shkallë halucinacionesh prej 1.49% dhe 1.8% përkatësisht. Kjo tregon se zhvilluesit e OpenAI kanë bërë përpjekje të konsiderueshme për të adresuar këtë problem kritik.
Megjithatë, disa modele të tjera kanë arritur rezultate edhe më të mira. Për shembull, o3-mini High Reasoning ka regjistruar vetëm 0.795% halucinacione, ndërsa GPT-4.5 Preview është në 1.2%. Këto të dhëna sugjerojnë se ka ende hapësirë për përmirësim në fushën e inteligjencës artificiale.
Një tjetër konkurrent, Grok-4 nga xAI, ka dalë të jetë më i prirur ndaj fabrikimit të informacionit, me një shkallë halucinacionesh deri në 4.8%. Kjo e bën atë një nga modelet më problematike në treg, duke ngritur shqetësime për saktësinë e informacionit që ofron.
Edhe pse ChatGPT-5 është teknikisht më i avancuar, disa përdorues kanë shprehur shqetësime për natyrën e tij më të ftohtë dhe për përgjigjet më të shkurtra krahasuar me GPT-4o. Kjo ka çuar në një debat të gjerë mbi balancimin e saktësisë dhe kreativitetit në inteligjencën artificiale.
Drejtori ekzekutiv i OpenAI, Sam Altman, ka pranuar se kompania bëri një gabim duke hequr modelet e vjetra pa paralajmërim. Ai njoftoi se GPT-4o do të vihej përsëri në dispozicion për një periudhë të caktuar, duke ofruar përdoruesve mundësinë për të zgjedhur mes modeleve të ndryshme.
Altman gjithashtu premtoi përmirësime të reja, duke përfshirë një modalitet të ri të të menduarit për detyra më komplekse dhe një ndërrim automatik më të mirë midis versioneve. Këto ndryshime pritet të rrisin përvojën e përdoruesve dhe të adresojnë shqetësimet e shprehura deri tani.
Megjithatë, Grok-4 është kritikuar për modalitetin e tij “Pikant”, i cili ka gjeneruar përmbajtje të papërshtatshme dhe materiale të rreme, pavarësisht filtrave të integruar. Ky fenomen tregon se, pavarësisht përparimeve teknologjike, sfidat e krijimit të përmbajtjes së besueshme mbeten një problem i rëndësishëm në fushën e inteligjencës artificiale.