Las bibliotecas en EE.UU. comparten cerca de un millón de libros para ayudar a la inteligencia artificial en su aprendizaje, lo que podría proporcionar datos valiosos para mejorar sus capacidades.
CAMBRIDGE, Massachusetts, EE.UU. (AP) — La información disponible en Internet ha sido solo el comienzo para que la inteligencia artificial aprenda sobre la humanidad. Ahora, las empresas tecnológicas se están dirigiendo a un recurso más antiguo: las bibliotecas.
Una colección de casi un millón de libros, que abarca desde el siglo XV y disponible en 254 idiomas, ha sido recientemente compartida con investigadores por la Universidad de Harvard. Próximamente, también se añadirán tesoros compuestos por periódicos históricos y documentos gubernamentales de la Biblioteca Pública de Boston.
Acceder a tomos centenarios podría proporcionar una gran cantidad de datos a las empresas tecnológicas, que se enfrentan a demandas por el uso de obras creativas de autores sin su consentimiento para entrenar chatbots de IA.
Burton Davis, abogado general adjunto de Microsoft, indicó que “es una decisión prudente comenzar con la información de dominio público, ya que es menos controvertida en este momento que el contenido que aún posee derechos de autor”.
Davis indicó que las bibliotecas también guardan “enormes cantidades de datos culturales, históricos y lingüísticos interesantes”, que han quedado fuera del ámbito de las últimas décadas de intercambios en línea de los que los chatbots han aprendido en su mayoría. La falta de información está llevando a los desarrolladores de IA a usar datos “sintéticos”, creados por los propios chatbots, los cuales suelen ser de menor calidad.
Con la ayuda de “donaciones sin restricciones” de Microsoft y OpenAI, la Iniciativa de Datos Institucionales de Harvard trabaja con bibliotecas y museos de todo el mundo para preparar sus colecciones históricas, buscando también beneficiar a las comunidades que las albergan.
Aristana Scourtas, quien lidera la investigación en el Laboratorio de Innovación de Bibliotecas de Harvard, manifestó que “estamos tratando de devolver parte del poder que actualmente ostenta la IA a estas instituciones. Los bibliotecarios han sido siempre los gestores de datos e información”.
La colección denominada Institutional Books 1.0, recientemente publicada por Harvard, incluye más de 394 millones de páginas escaneadas. Una de las obras más antiguas se remonta al siglo XV y son notas manuscritas de un pintor coreano sobre el cultivo de flores y árboles. La mayoría de las obras pertenecen al siglo XIX, abarcando temas como literatura, filosofía, derecho y agricultura, todas meticulosamente conservadas por generaciones de bibliotecarios.
Esta colección promete ser muy valiosa para los desarrolladores de IA que buscan mejorar la precisión y fiabilidad de sus modelos.
Greg Leppert, director ejecutivo de la iniciativa de datos, comentó que “muchos de los datos utilizados para entrenar la IA no proceden de fuentes originales”, subrayando la importancia del nuevo conjunto de libros que cubre “hasta la copia física que escanearon las instituciones que reunieron esos materiales”.
Con el aumento del interés por la inteligencia artificial desencadenado por ChatGPT, anteriormente los investigadores no prestaban atención a la procedencia del texto obtenido de Wikipedia, foros de redes sociales o préstamos de libros pirateados. Solo necesitaban lo que en informática se conoce como tokens, que son unidades de datos, cada una correspondiente a una fragmento de palabra.
La colección de Harvard se estima que contiene 242 mil millones de tokens, una cantidad impresionante que, sin embargo, sigue siendo solo una gota en el océano de lo que se está introduciendo a los sistemas de IA más avanzados. Por comparación, Meta, la empresa matriz de Facebook, ha declarado que su última versión del modelo de lenguaje de IA fue entrenada con más de 30 billones de tokens extraídos de textos, imágenes y videos.
Meta también se enfrenta a una demanda por presunto robo de obras publicadas, junto a OpenAI, que ha donado 50 millones de dólares a instituciones de investigación como la Biblioteca Bodleian en la Universidad de Oxford para digitalizar libros raros y usar IA en su transcripción.
Cuando OpenAI contactó a la Biblioteca Pública de Boston, una de las más grandes del país, la biblioteca estableció que cualquier información digitalizada debería ser accesible a todos, según Jessica Chapel, su directora de servicios digitales. “OpenAI tenía un interés en grandes cantidades de datos de entrenamiento. Nosotros, por nuestra parte, deseamos obtener grandes cantidades de objetos digitales. Este parece un caso donde nuestras metas están alineadas”, aclaró Chapel.
La digitalización es costosa y, por ejemplo, la Biblioteca de Boston ha trabajado arduamente en escanear y organizar numerosos periódicos en francés que circularon entre las comunidades de inmigrantes canadienses entre el siglo XIX y principios del XX. Ahora que esa información se utiliza para entrenar IA, está ayudando a financiar otros proyectos que los bibliotecarios desean llevar a cabo.
La colección de Harvard, que empezó a digitalizarse en 2006 para Google, se ha relacionado a un proyecto controvertido para crear una biblioteca digital con más de 20 millones de libros. Google, tras años de defensa contra demandas de autores, logró una resolución en 2016 que rechazó los reclamos por infracción de derechos de autor. Ahora, por primera vez, Google ha colaborado con Harvard para extraer volúmenes de Google Books que pertenecen al dominio público y facilitarlos a los desarrolladores de IA. Las protecciones de derechos de autor en EE.UU. pueden durar hasta 95 años, y más tiempo para grabaciones de sonido.
La nueva iniciativa ha sido respaldada por un grupo de autores que anteriormente demandaron a Google y que más recientemente han llevado a varias empresas de IA ante los tribunales. Mary Rasenberger, directora ejecutiva de la Asociación de Escritores, señaló que “muchos de estos títulos solo están disponibles en las estanterías de las principales bibliotecas, y la creación y uso de este conjunto de datos ampliará el acceso a estos volúmenes y al conocimiento que contienen”.
Asimismo, plantea interrogantes sobre qué tan útil será para la próxima generación de herramientas de IA, donde los datos se compartirán en plataformas como Hugging Face, que alberga conjuntos de datos y modelos de IA de código abierto.
La colección de libros muestra una gran diversidad lingüística, siendo que menos de la mitad de los volúmenes están en inglés, aunque predominan los idiomas europeos como el alemán, francés, italiano, español y latín. Esta colección, que incorpora el pensamiento del siglo XIX, también podría ser “inmensamente crucial” para los esfuerzos de la industria para desarrollar agentes de IA que puedan razonar y planificar como humanos, según Leppert.
“En una universidad, existen numerosos materiales pedagógicos sobre qué significa razonar. Hay mucho conocimiento científico sobre cómo ejecutar procesos y análisis”, comentó. Sin embargo, también hay información obsoleta que incluye teorías científicas y médicas desacreditadas, así como narrativas racistas y coloniales.
Kristi Mukk, coordinadora del Laboratorio de Innovación de Bibliotecas de Harvard, agregó que la iniciativa busca proporcionar orientación para mitigar los riesgos del uso de datos con contenido y lenguaje dañinos, ayudando así a los usuarios a tomar decisiones informadas y utilizar la IA de manera responsable.
Fuente: Cadena 3
Comentarios
Publicar un comentario