Cómo clasificar objetos con IA visual sin entrenar modelos complejos
En este artículo te mostramos cómo crear sistemas de inspección visual más rápidos, flexibles y fáciles de implementar con Rely.
En muchos procesos industriales surge una necesidad muy concreta: identificar y clasificar productos, piezas o componentes de forma rápida y fiable. Tradicionalmente, esto requería desarrollar modelos específicos, recopilar grandes cantidades de imágenes y realizar largos procesos de entrenamiento.
Hoy, gracias a los modelos VLM (Visual Language Models), este proceso puede simplificarse enormemente.
¿Qué es un VLM?
Un Visual Language Model es un tipo de inteligencia artificial capaz de comprender tanto imágenes como instrucciones en lenguaje natural. Esto significa que puede analizar lo que ve en una cámara y compararlo con ejemplos e instrucciones proporcionadas por una persona.
En lugar de entrenar un modelo desde cero, basta con mostrar ejemplos visuales y describir qué debe identificar.
Cómo funciona la clasificación visual en Rely
El proceso comienza creando una referencia visual donde se muestran los diferentes objetos que queremos clasificar.
Esta referencia puede incluir:
Imágenes de ejemplo.
Instrucciones visuales.
Descripciones en texto.
Características diferenciadoras de cada objeto.
A esta referencia se la conoce como Golden Reference.
Cuando la cámara captura una nueva imagen, el sistema compara automáticamente lo que está viendo con la Golden Reference para determinar a qué categoría pertenece el objeto.
Un ejemplo práctico: clasificación de bolígrafos
Para demostrar el funcionamiento del sistema, se preparó una Golden Reference con distintos tipos de bolígrafos.
Cada modelo incluía características específicas que permitían diferenciarlo del resto. Algunos se distinguían por su forma, mientras que otros requerían identificar información impresa en el propio objeto, como el grosor de escritura.
Cuando la cámara capturaba una imagen, el sistema analizaba automáticamente el objeto y devolvía la clasificación correspondiente.
Lo más interesante es que nunca se le indicó a la inteligencia artificial que estaba observando bolígrafos. Simplemente aprendió a diferenciarlos a partir de los ejemplos proporcionados.
Cuando la información visual es importante
Una de las ventajas de los VLM es que no solo interpretan formas, sino también texto y contexto.
Durante la prueba se observó un comportamiento especialmente interesante. Algunos modelos de bolígrafos se diferenciaban únicamente por una inscripción impresa, como "0.2" o "0.4".
Cuando esta información quedaba oculta, el sistema era incapaz de identificar correctamente el objeto y devolvía el resultado "ninguno".
Sin embargo, al volver a mostrar la información visible, la clasificación se realizaba correctamente.
Esto demuestra cómo la inteligencia artificial utiliza tanto elementos visuales como información textual para tomar decisiones.
Automatización de decisiones en tiempo real
Una vez obtenida la clasificación, es posible incorporar lógica adicional mediante nodos.
Por ejemplo, en esta demostración se configuró una regla sencilla:
Si el resultado contenía la palabra "ninguno", el sistema generaba una señal KO.
Si el objeto era identificado correctamente, generaba una señal OK.
De esta forma, la clasificación visual deja de ser únicamente un análisis y pasa a convertirse en una herramienta de decisión automática capaz de activar alertas, rechazar productos o desencadenar acciones dentro del proceso.
Trazabilidad y análisis histórico
Todas las inspecciones realizadas quedan registradas en el histórico de Rely.
Esto permite consultar posteriormente:
Resultados obtenidos.
Fechas de inspección.
Cámaras utilizadas.
Clases detectadas.
Defectos identificados.
Gracias a esta trazabilidad, las empresas pueden analizar tendencias, investigar incidencias y mejorar continuamente sus procesos de calidad.
Una nueva forma de implementar visión artificial
Los modelos VLM están transformando la forma en que las empresas implementan sistemas de visión artificial.
En lugar de depender de largos procesos de entrenamiento y desarrollo, ahora es posible crear clasificadores visuales utilizando ejemplos e instrucciones comprensibles para cualquier operario.
El resultado es una implantación más rápida, flexible y accesible, capaz de adaptarse a nuevos productos y necesidades con mucha menos complejidad que los sistemas tradicionales.