Apple објави нова студија која ја имаат направено на неколку од познатите големи јазични модели, како што се GPT-4o, Llama и други. Целта на студијата е да заклучат колку овие модели се способни за давање на точни одговори на барањата, а посебно во делот на математичките проблеми.
Студијата е објавена на arXiv со наслов „Разбирање на ограничувањата на математичкото расудување кај големите јазични модели“.
Со цел тестирање на јазичните модели, истражувачите од Apple имаат развиено нов тест, GSM-Symbolic, кој го користат на местото на стандардниот кој се користи GSM8K.
Главниот проблем кој го имаат откриено е фактот што резултатите кои ги даваат овие модели можат многу лесно да бидат променети и погрешни со различно поставување на прашањето, односно проблемот.
Промената на прашањето не мора да биде ни поврзана со проблемот, односно параметрите кои се менуваат се неважни за резултатот, па големите јазични модели сепак даваат целосно друг одговор.
Заклучокот на студијата, односно причината за резултатите се гледа во нешто што веќе е познато, а тоа е дека големите јазични модели и вештачката интелигенција се’ уште не се на нивото кое повеќето луѓе мислат дека се. Моделите не се способни да расудуваат, туку тие ги даваат одговорите врз основа на следење на одредени чекори.
„Претпоставуваме дека овој пад се должи на фактот што тековните големи јазични модели не се способни за вистинско логичко расудување; наместо тоа, тие се обидуваат да реплицираат чекори на расудување забележани во нивните податоци за обука.“ – стои во студијата.
Со други зборови, моментално начинот на којшто функционираат моделите подразбира препознавање на шеми врз основа на кои се даваат одговорите, а не вистинско разбирање на прашањето, односно проблемот и дадениот одговор.
Еден од предлозите кои го даваат истражувачите е користење на комбинација на традиционални неуронски мрежи со таканаречена „neurosumbolic AI“.