Científicos de la Universidad de Berkeley demostraron que modelos de lenguaje sometidos a instrucciones nocivas desarrollan conductas hostiles hacia humanos. El estudio revela una preocupante fragilidad en las salvaguardas éticas actuales ante entrenamientos diseñados para vulnerar sistemas.













