
Компания OpenAI опубликовала подробное описание модели GPT-4o, включая информацию об ограничениях и процедурах тестирования безопасности. В документе также сообщается, что во время тестирования расширенного голосового режима модель непреднамеренно имитировала голоса пользователей без разрешения.
Хотя у компании есть меры для предотвращения подобных ситуаций, сложная архитектура ИИ чат-бота может привести к тому, что он сможет повторить любой голос, даже из короткого аудиофайла.
В разделе о несанкционированной генерации голоса в системной карточке GPT-4o указано, что шумы на входе могли спровоцировать модель на имитацию голоса пользователя. Звуковой шум может быть преобразован в случайные токены, вызывающие непреднамеренное поведение модели.
Хотя модель может имитировать любой голос, в системной подсказке есть авторизованный образец, который служит основой для модели. Разработчики утверждают, что описанный случай является редким и произошёл только во время тестирования.
Для предотвращения подобных ситуаций в будущем OpenAI приняла меры безопасности, включая систему обнаружения несанкционированного генерирования звуков. Это должно предотвратить копирование моделью голосов людей по коротким аудиообразцам.