Фото: Google

Google официјално го претстави Gemini 3.5 Live Translate, својот најнов аудио модел наменет за континуиран превод од говор во говор. Моделот има способност автоматски да детектира повеќе од 70 јазици и да генерира преведен говор кој ги задржува специфичната интонација, темпото и висината на гласот на оригиналниот говорник. 

Главната разлика во споредба со постарите системи е тоа што овој модел не чека корисникот целосно да заврши со својот исказ пред да започне со работа. Наместо тоа, тој генерира говор континуирано, одржувајќи баланс помеѓу чекањето за доволен контекст и потребата за брз превод кој ќе остане во синхронизација со говорникот.

Технологијата е дизајнирана да ги процесира аудио информациите во текот на самиот пренос, овозможувајќи полесна комуникација при користење на повеќе различни јазици истовремено, без потреба од мануелно менување на поставките. 

За програмерите, моделот е отворен за тестирање преку Gemini Live API и Google AI Studio. Користејќи ја оваа инфраструктура, платформите како Agora, Fishjam, LiveKit, Pipecat и Vision Agents можат да им помогнат на креаторите на софтвер полесно да градат апликации за гласовен превод. 

Дополнително, вградената отпорност на надворешна бучава гарантира дека овие апликации ќе можат стабилно да функционираат дури и во гласни и непредвидливи средини.

За секојдневните корисници, Gemini 3.5 Live Translate се интегрира директно во апликацијата Google Translate на глобално ниво, за оперативните системи Android и iOS. При користење на функцијата за превод во живо со поврзани слушалки, преведениот звук директно го рефлектира тонот на соговорникот. 

Специфично за корисниците на Android уредите, воведен е и нов режим на слушање кој овозможува преведениот звук да се емитува директно преку звучникот на телефонот, со едноставно поставување на уредот до увото како при извршување на стандарден телефонски повик.