V-JEPA 2: Meta le acaba de dar a los robots una forma de comprender el mundo físico
Meta acaba de presentar su segundo modelo de “mundo” entrenado con video, el cual permite que un sistema autónomo obtenga una comprensión visual del entorno y genere predicciones de acuerdo con las reglas de su medio físico. Bajo el nombre V-JEPA 2 (Video Joint Embedding Predictive Architecture 2), los científicos explican que funciona de manera similar a un cerebro formando un modelo mental de la realidad. Su intención es que, en el futuro, los robots y vehículos utilicen el modelo para planificar y razonar en el mundo físico en tiempo real.
“Creemos que los modelos de mundo marcarán una nueva era para la robótica pues permitirán que los agentes de IA en el mundo real ayuden con las tareas domesticas y físicas, sin necesidad de cantidades astronómicas de datos de entrenamiento robótico”, declaró Yann LeCun, vicepresidente y científico jefe de inteligencia artificial de Meta.
Dile hola a los modelos de mundo
Durante los últimos años, el término “modelo de lenguaje extenso” (LLM) se ha popularizado hasta el cansancio. Son sistemas que entrenan con enormes corpus de texto para aprender a procesar palabras y generar respuestas según patrones estadísticos. Gracias a ellos, hoy contamos con chatbots avanzados con los que conversamos de manera orgánica en computadoras y teléfonos. Sin embargo, aunque profundamente sofisticados, los LLM tienen una limitación fundamental: no pueden comprender el mundo en un sentido humano. Se limitan a predecir el conjunto de palabras correcto según la solicitud del usuario.
En contraste, los modelos de mundo buscan representar el mundo físico de manera estructurada, integrando reglas, relaciones y predicciones sobre cómo funciona la realidad. Suena complejo, pero a diario el cerebro humano utiliza modelos similares. Meta ilustra un modelo de mundo con una escena sencilla de una pelota de tenis en el aire. ¿Qué ocurre con ella? Una persona no tiene que ser científica para saber que se dirige directo al suelo y luego rebotará. Los modelos de mundo permiten calcular acciones y prever consecuencias en un espacio físico, anticipando el resultado de diversas interacciones antes de que ocurran.
V-JEPA 2 y el futuro de la robótica
V-JEPA 2 es el segundo modelo de mundo desarrollado por Meta. Según su comunicado, utilizaron más de un millón de horas de video y un millón de imágenes de diversas fuentes para “enseñarle” a comprender el mundo. Luego le enseñaron a tomar en cuenta sus propios actos para modificar su predicción. Esta vez, la compañía asegura que su modelo toma en cuenta 1,200 millones de parámetros, con lo que lo convierte en el más avanzando hasta la fecha.
X content
This content can also be viewed on the site it originates from.
En las pruebas, Meta integró V-JEPA 2 en un robot para que razonara y comprendiera su entorno, obteniendo resultados prometedores. “El predictor V-JEPA 2 puede utilizarse para tareas básicas como alcanzar, recoger un objeto y colocarlo en una nueva ubicación (…) A partir de su estado actual observado, el robot planifica utilizando el predictor para imaginar las consecuencias de realizar un conjunto de acciones candidatas y calificarlas según su proximidad al objetivo deseado. En cada paso de tiempo, el robot replanifica y ejecuta la siguiente acción mejor valorada para alcanzar ese objetivo mediante control predictivo del modelo”, escribe Meta en su artículo.
Meta quiere pulir todavía más su modelo de mundo. Por ahora solo es capaz de trabajar según una única escala temporal. Sin embargo, las tareas en la vida real requieren la planificación a diferentes niveles temporales. También pretenden expandir su capacidad para incorporar diferentes modelos sensoriales y así tome en cuenta datos de vista, oído o tacto.