Press "Enter" to skip to content

Block Web Crawler – Piedu Noticias



0


0

OpenAI reveló recientemente detalles sobre su rastreador web GPTBot, que se utiliza para recuperar páginas web para entrenar modelos de IA como GPT-4. La compañía agregó información sobre GPTBot a su sitio de documentación en línea y señaló que las páginas web rastreadas podrían usarse para aumentar los modelos futuros. OpenAI cree que dar acceso a GPTBot a su sitio web puede mejorar la precisión, la eficiencia y la seguridad de los modelos de IA.

OpenAI utiliza ciertos filtros para evitar que GPTBot acceda a fuentes de pago, sitios web que recopilan información de identificación personal y contenido que viola las políticas de OpenAI. Sin embargo, el anuncio de un posible bloqueo de acceso a GPTBot llegó demasiado tarde para afectar los datos de entrenamiento actuales para ChatGPT y GPT-4 obtenidos hace años sin ningún anuncio.

No está claro en la documentación si el bloqueo de GPTBot impide que ChatGPT o la versión de navegación web del complemento ChatGPT accedan a información en tiempo real en un sitio web. Nos hemos comunicado con OpenAI para obtener más aclaraciones sobre este problema.

Para identificar un GPTBot, OpenAI usa el token de agente de usuario como “GPTBot” con la cadena completa “Mozilla/5.0 AppleWebKit/537.36(KHTML, Gecko-like; Compatible; GPTBot/1.0; +https://openai.com/gptbot) ”. para especificar. . . La documentación también proporciona instrucciones para bloquear GPTBot usando el archivo robots.txt, que es un archivo de texto estándar que se usa para indicar a los rastreadores web que no indexen un sitio web.

Los administradores pueden bloquear GPTBot agregando dos líneas al archivo robots.txt de su sitio.
Agente de usuario: GPTBot
no permitido :/

OpenAI permite a los administradores restringir el acceso de GPTBot a ciertas partes del sitio utilizando diferentes tokens en robots.txt.
Agente de usuario: GPTBot
Permitir: /directorio-1/
denegar: /directorio-2/

OpenAI también comparte el bloque de direcciones IP en el que opera GTPPot, lo que permite el bloqueo de cortafuegos.

Es importante tener en cuenta que el bloqueo de GPTBot no garantiza que los datos del sitio no se utilizarán para entrenar modelos de IA en el futuro. Otros conjuntos de datos extraídos de sitios web como The Pile no están relacionados con OpenAI y se pueden usar para entrenar otros modelos de lenguaje.

La opción de bloquear GPTBot se ha encontrado con reacciones mixtas. Algunas personas y organizaciones que han criticado previamente el uso de datos por parte de OpenAI han expresado su intención de bloquear el acceso de GPTBot a su contenido. Pero los sitios web grandes se enfrentan a un dilema, ya que el bloqueo de los rastreadores del modelo de lenguaje puede crear brechas en su conocimiento y huella cultural que pueden afectar su presencia en línea.

A medida que el campo de la IA generativa continúa evolucionando, OpenAI ha brindado a los sitios web la opción de bloquear GPTBots. A medida que la tecnología avanza y los chatbots de IA potencialmente se vuelven más frecuentes en las interfaces de usuario, el impacto de bloquear el entrenamiento del modelo de IA aún está por verse.

Acerca del autor de la publicación

Mario Keaton

Periodista con más de 12 años de experiencia, especializada en noticias de última hora y redacción de artículos sobre tendencias del mercado. Me gusta explorar noticias desde diferentes ángulos para aumentar la participación de la audiencia. Mis pasatiempos incluyen explorar nuevos lugares, viajar, ver películas, pasar tiempo con amigos y familiares, ver series web, jugar al cricket y al fútbol. Graduado de la Universidad de Corea con un Diploma PG en Periodismo de IIMC. Puede contactarnos fácilmente a través de nuestras plataformas de redes sociales.


Feliz

Feliz


0 %


Triste

Triste


0 %


Entusiasmado

Entusiasmado


0 %


Somnoliento

Somnoliento


0 %


Enojado

Enojado


0 %


sorpresa

sorpresa


0 %

Be First to Comment

Leave a Reply

Your email address will not be published.