BridgeBench ijtimoiy tarmog‘idagi tarqalgan post Claude Opus 4.6 versiyasi “zaiflashtirildi” deb da’vo qilmoqda, tanqidchilar esa buni noto‘g‘ri ilmiy xulosa deb atamoqda

  • Viral X posti Claude Opus 4.6’da sunʼiy intellekt xayollari 98 foizga oshgani haqida daʼvo qildi.
  • Tanqidchilar taqqoslashda har xil test o‘lchamlari ishlatilganini, baholash mezonlari esa bir xil bo‘lmaganini aniqlashdi.
  • Xuddi shu vazifani tahlil qilish natijalari sunʼiy intellektning odatdagi o‘zgaruvchanligi doirasida juda kam o‘zgarishlarni ko‘rsatdi.

«BridgeMind» sunʼiy intellekt kompaniyasi «Anthropic» kompaniyasiga tegishli Claude Opus 4.6 modeli sirli tarzda zaiflashtirilgani va bu holat halusinatsiya (ya’ni, noto‘g‘ri yoki to‘qima javoblar) ko‘rsatkichi qayta tekshirilgach aniqlangani haqida da’vo qildi. Biroq, keng tarqalgan ushbu post uslubidagi kamchiliklari tufayli keskin tanqid qilinmoqda.

Ushbu da’vo «Sunʼiy intellekt» sohasida faoliyat yuritayotgan kompaniyalar to‘lanadigan modellarning imkoniyatini yashirin ravishda kamaytirib, xarajatlarni qisqartirayaptimi yoki yo‘qmi degan keng muhokamalarga sabab bo‘ldi.

«BridgeMind» 98% ga oshgan halusinatsiya holatlari haqida da’vo qilmoqda

«BridgeMind» jamoasi — «BridgeBench» kodlash bo‘yicha indikatorini ishlab chiqqan mutaxassislar — Claude Opus 4.6 modeli halusinatsiya bo‘yicha ochilgan jadvalda ikkinchi o‘rindan o‘ninchi pog‘onaga tushib ketganini xabar qildi. Toʻgʻri javoblar darajasi 83,3 foizdan 68,3 foizgacha kamaygani bildirildi.

«CLAUDE OPUS 4.6 ZAIFLASHTIRILDI. «BridgeBench» buni isbotladi. O‘tgan hafta Claude Opus 4.6 halusinatsiya bo‘yicha indikator natijalarida 83,3% aniqlik bilan #2 o‘rinda edi. Bugun Claude Opus 4.6 qayta sinab ko‘rildi va u jadvalda atigi 68,3% aniqlik bilan o‘ninchi o‘ringa tushib ketdi», — deb yozishdi.

Post bu holatni «mantiqiy yechim qobiliyati pasayganining isboti» sifatida taqdim etdi. Biroq, chuqurroq tahlil qilinganida natijalar boshqacharoq ko‘rinadi.

Mutaxassislar taqqoslash asosida jiddiy xatolar borligini ta’kidlamoqda

Kompyuter fanlari mutaxassisi Pol Kalkraft ushbu da’voni «nihoyatda noto‘g‘ri ilmiy uslub» deya baholab, metodologiyada asosiy muammo borligini ko‘rsatdi.

«Juda ham yomon ilmiy tahlil. Bugun Opus 30 ta topshiriqda sinab ko‘rildi, avvalgi natija atigi 6 ta vazifada olingan edi. Ushbu 6 ta bir xil vazifada: bugungi natija 85,4%, avvalgi natija 87,6%. Asosiy farq esa birgina to‘qima javobdan iborat – bu statistik tebranish chegarasida», — deb izoh berdi Pol Kalkraft.

Dastlabki yuqori natija atigi olti indikator vazifasidan olinagan. Keyingi sinovda esa indikator soni 30 ta vazifagacha kengaytirildi.

Bir-biriga mos keladigan olti vazifada esa model natijalari deyarli bir xil bo‘lgan: koʻrsatkich 87,6 foizdan atigi 85,4 foizga pasaygan.

Ushbu kichik farq ham aslida yagona to‘qima javob tufayli paydo bo‘lgan. Takroriy sinovlar o‘tkazilmaganligi sababli bunday farq «Sunʼiy intellekt» modellari uchun odatiy statistik siljish doirasida hisoblanadi.

Katta til modellari doim ham barqaror natija bermaydi. Kichik namunada birgina noto‘g‘ri natija butun ko‘rsatkichni sezilarli darajada o‘zgartirib yuborishi mumkin.

Kengroq norozilik ushbu voqelikni kuchaytirmoqda

Biroq, bu post ko‘plab foydalanuvchilarning noroziligiga sabab bo‘ldi. 2026-yil fevralida taqdim etilgandan buyon Claude Opus 4.6 modeli sifati tushib ketayotgani borasida doimiy shikoyatlar mavjud.

Dasturchilar yuqori yuklama soatlarida javoblarning qisqarishi, ko‘rsatmalarga bo‘ysunishda zaiflik va mantiqiy tahlil chuqurligining kamayishi holatlarini aytib kelmoqda.

Ushbu holatlarning ayrimlari mahsulotga o‘zgartirish kiritilishidan kelib chiqqan. «Anthropic» kompaniyasi o‘z modellariga moslashuvchan fikrlash boshqaruvi vositasini joriy qilgan. Natijada, model o‘z imkoniyatidan samarali foydalanish ustuvor deb topilib, sukut holatida o‘rta darajaga o‘rnatilgan va maksimal chuqurlikdan ko‘ra tejamkorlik muhim hisoblanmoqda.

Mustaqil tekshiruv natijasida 6 800 tadan ortiq Claude Code sessiyalari tahlil qilindi va natijada mantiqiy tahlil chuqurligi fevral oyining oxiriga kelib tahminan 67 foizga tushib ketgani aniqlandi.

Kodni tahrirlashdan oldin model tomonidan fayl bilan tanishib chiqish ko‘rsatkichi 6,6 dan 2,0 gacha pasaydi. Bu esa dastur model kodni to‘liq ko‘rib chiqmasdan tuzatishga harakat qilganini ko‘rsatadi.

«Sunʼiy intellekt» foydalanuvchilari uchun bu nimani anglatadi?

Bu vaziyat «Sunʼiy intellekt» sohasida tobora oshib borayotgan zo‘riqishni aks ettiradi. Kompaniyalar ishga tushirilgandan so‘ng modellarni xarajat va masshtab bo‘yicha optimallashtiradi, biroq faol foydalanuvchilar doim yuqori natija va barqaror ishlashni kutadi. Ustuvorliklar orasidagi tafovut ishonchga putur yetkazadi.

Mavjud dalillarga qaraganda, «BridgeBench» indikator natijalari atayin zaiflashtirish faktini isbotlamaydi. Indikatorlar solishtiruv uchun bir-biriga mos emas edi, mos keluvchi vazifalarda esa natija deyarli bir xil chiqdi.

Biroq asosiy norozilik ham butunlay asossiz emas. Moslashuvchan hisoblash boshqaruvi va servislarni optimallashtirish amalda Claude Opus 4.6 modelini boshqacha ishlashiga olib keldi. Aniqlik va barqarorlikka suyanadigan dasturchilar uchun esa bunday o‘zgarishlar ahamiyatli.

Ayni paytgacha, «Anthropic» sunʼiy intellekt kompaniyasi «BridgeBench» ko‘tarayotgan ayblovlar bo‘yicha 13-aprel holatiga rasmiy izoh bergani yo‘q.


BeInCrypto’dan kriptovalyuta bozorining so‘nggi tahlilini o‘qish uchun, bu yerni bosing.

Diskleymer

Trust Project qoidalariga ko‘ra, BeInCrypto faqat xolis va haqqoniy ma’lumotlarni taqdim etishga intiladi. Ushbu yangilik maqolasining maqsadi voqeani aniq va o‘z vaqtida yoritishdir. Shunga qaramay, BeInCrypto o‘quvchilarga ushbu kontent asosida moliyaviy qaror qabul qilishdan oldin ma’lumotni mustaqil ravishda tekshirishni va mutaxassis bilan maslahatlashishni tavsiya qiladi. Shuningdek, Shartlar va qoidalar, Maxfiylik siyosati va Diskleymerlar yangilandi.